基于scrapy,从cctv, sina等网站上抓取食品安全相关的新闻 docs_news文件夹中包含2800余个新闻文本 更新 新增从食品安全新闻网上爬取的新闻,包括之前爬取的,总共3万4千余条,在文件PART1-PART4中 相关项目 基于Spring Boot、Scrapy 的爬虫配置与管理 该项目是我用Spring Boot 框架编写的基于Web的爬虫配置工具,可以比较方便的配置并启动一个新闻爬虫,并且能够看到一些监测数据。 爬虫是基于Scrapy,通过Java后台在线程中运行系统脚本,并在该脚本中启动爬虫并将输出重定向到一个文件中。 后台数据库使用的是MongoDB