爬虫分布式--调度器

最新推荐文章于 2024-04-29 14:33:09 发布

BunnyDuudu

最新推荐文章于 2024-04-29 14:33:09 发布

阅读量774

点赞数

分类专栏： python Scrapy 文章标签： python

本文链接：https://blog.csdn.net/weixin_44826986/article/details/124085978

版权

python 同时被 2 个专栏收录

16 篇文章 1 订阅

订阅专栏

Scrapy

8 篇文章 0 订阅

订阅专栏

1.分布式安装：

方法一：
下载scrapy_redis库：
Github链接： https://github.com/rmax/scrapy-redis.git

在终端内切换至scrapy-redis-master文件夹内：
```
cd E:\Code\teacher-code\CODES\scrapy-redis-master
```
在该文件夹内使用语句python setup.py install即可
方法二：
使用命令：pip install scrapy-redis

2.分布式部署：

在Scrapy框架中部署爬虫完成之后使用：在Scrapy-setting.py文件夹中

修改Scheduler：
默认情况下，Request 的队列是在内存中的，为了实现分布式，我们需要将队列迁移到 Redis 中

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

修改 Redis 连接信息

REDIS_URL = 'redis://[username:password]@hostname:9001'

本地运行：

REDIS_URL = 'redis://localhost:6379'

redis修改去重类
既然 Request 队列迁移到了 Redis，那么相应的去重操作我们也需要迁移到 Redis 里

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

配置持久化
防止手动关闭爬虫或者爬虫遭遇意外终止

SCHEDULER_PERSIST = True

到此为止我们就完成分布式爬虫的配置了。

在这里插入图片描述
使用REDIS_URL，可以使得其他电脑可以使用REDIS数据库中的数据

总结：
向Scrapy项目添加分布式：

SCHEDULER = "scrapy_redis.scheduler.Scheduler"  # 开启Scrapy-redis调度器,分布式配置
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"  # 启动Redis去重

REDIS_URL = 'redis://192.168.1.102:6379'   # 连接本机Redis
SCHEDULER_PERSIST = True   # 当爬虫停住，保留之前存在的指纹