使用到的框架及软件包介绍
- Github Gerapy 提供主机管理,爬虫项目管理,爬虫任务管理的web管理后台。
- Github Scrapy-redis 提供中心化的任务队列,任务指纹队列,供分布式爬虫共享爬取任务队列。
- Github Scrapyd 提供通过api方式单机部署爬虫的功能,爬虫状态查询等。
- Github Scrapy 一个python实现的高级web爬取和抓取框架,用于爬虫开发。
背景介绍
根据sprapy distributed crawls官方文档说明,scrapy自己并不支持分布式的部署方式。文档给出的兼容方案是将不同的spider使用多台运行scipyd的设备进行部署,或者对于单一比较重的爬虫,手动分割爬取的地址列表,然后分配到多台设备。
但是这种部署方式需要分割地址列表,并且需要手动打包项目,调用接口部署, 这在大规模部署,或者日常管理会带来很多的不便。
安装部署
本文不包含爬虫开发的内容,关于爬虫开发请自行参考scrapy文档。<