项目结构

├── Readme.md
├── jingdong-crawler   	**使用httpclient进行原生爬虫**
│   ├── db
│   ├── jingdong-crawler.iml
│   ├── pom.xml
│   ├── src
│   └── target
└── webmagic-crawler  	**使用webmagic框架进行爬虫**
    ├── db
    ├── pom.xml
    ├── src
    ├── target
    └── webmagic-crawler.iml

目标

csdn文章爬虫
51Job招聘信息爬虫
Github用户和仓库信息爬虫
京东手机数据爬虫
hita元数据服务爬虫
剧迷TV视频网站爬虫

IDEA启动

设置idea激活的profile，指定数据库使用pg还是mysql

配置redis和选择的数据库连接

redis用于分布式爬虫时记录已爬的队列和爬过的队列

在jedis中配置即可。

public  void start() {
        Spider.create(new GithubRepoProcessor())
                // 设置download解决官方webMagic无法访问部分ssl网站问题
                .setDownloader(new HttpClientDownloader())
                .addUrl("https://github.com/huzekang/")
                .setScheduler(new RedisScheduler(new JedisPool("127.0.0.1",6379)))
                .setPipelines(Lists.newArrayList(githubRepoJPAPipeline,githubUserJPAPipeline))
                .thread(8)
                .runAsync();

    }

数据库用于持久化爬取到的数据库

启动类Application选择要跑的任务，放开注释即可

public void run(String... args) throws Exception {
//		githubRepoProcessor.start();
//		jobProcessor.start();
//		csdnBlogPageProcessor.start();
//		hitaProcessor.start();
	}

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Readme.md

Readme.md

项目结构

目标

IDEA启动

Files

Readme.md

Latest commit

History

Readme.md

File metadata and controls

项目结构

目标

IDEA启动