分布式爬虫总结

最新推荐文章于 2020-12-28 22:17:32 发布

冬、不眠的夜

最新推荐文章于 2020-12-28 22:17:32 发布

阅读量452

点赞数

本文链接：https://blog.csdn.net/zsx2541577860/article/details/94912768

版权

原理

多台主机共享1个爬取队列

实现

重写scrapy调度器(scrapy_redis模块)

为什么使用redis

1、Redis基于内存,速度快
2、Redis非关系型数据库,Redis中集合,存储每个request的指纹
3、scrapy_redis安装
	sudo pip3 install scrapy_redis

Redis使用

windows安装

1、服务端启动 ：cmd命令行 -> redis-server.exe
   客户端连接 ：cmd命令行 -> redis-cli.exe

Ubuntu安装redis

# 安装
sudo apt-get install redis-server
# 启动
redis-server
# 连接
redis-cli -h IP地址

腾讯招聘笔记分布式案例

正常项目数据抓取（非分布式）

首先将项目以非分布式方式完成

改写为分布式（redis）

settings.py

# 使用scrapy_redis的调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 使用scrapy_redis的去重机制
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 在ITEM_PIPELINES中添加redis管道
'scrapy_redis.pipelines.RedisPipeline': 200
# 定义redis主机地址和端口号
REDIS_HOST = '172.40.91.129'
REDIS_PORT = 6379

改写为分布式（mongodb）

修改管道

ITEM_PIPELINES = {
   'Tencent.pipelines.TencentPipeline': 300,
   # 'scrapy_redis.pipelines.RedisPipeline': 200
   'Tencent.pipelines.TencentMongoPipeline':200,
}