scrapy实现分布式

最新推荐文章于 2024-06-21 15:11:58 发布

小脏辫儿

最新推荐文章于 2024-06-21 15:11:58 发布

阅读量708

点赞数

分类专栏：爬虫文章标签：分布式

本文链接：https://blog.csdn.net/zangbianer/article/details/101148340

版权

爬虫专栏收录该内容

9 篇文章 1 订阅

订阅专栏

scrapy实现分布式其实主要是需要redis的队列来实现，想做这个，建议先了解下redis的基础形式
我的上篇博客说过，spider的基础流程
在这里插入图片描述
而，分布式其实就是将spider获取的url包装成requests，发送给调度器scheduler的时候，使用redis的队列进行分发，分发给多个单机爬虫调度器，同时将存储的结构化数据保存到redis

继承自父类为RedisSpider
2.增加了一个redis_key的键，没有start_urls，因为分布式中，如果每台电脑都请求一次start_url就会重复
3.多了__init__方法，该方法不是必须的，可以手动指定allow_domains

在这里插入图片描述
然后构建爬虫：
这一步没啥特殊的
最后就是更改setting
在settings中进行配置
将redis的配置好

# 1. 替换原来的请求调度器的实现类，使用 scrapy-redis 中请求调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"

# 2. 设置去重类，实现去重的代码规则，会生成 去重指纹 存在 redis 中
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

# 3. 开启增量式
SCHEDULER_PERSIST = True

# 4. 配置redis
REDIS_HOST = "127.0.0.1"
REDIS_PORT = 6379

运行就可以了

小脏辫儿

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
scrapy实现分布式

scrapy实现分布式其实主要是需要redis的队列来实现，想做这个，建议先了解下redis的基础形式我的上篇博客说过，spider的基础流程而，分布式其实就是将spider获取的url包装成requests，发送给调度器scheduler的时候，使用redis的队列进行分发，分发给多个单机爬虫调度器，同时将存储的结构化数据保存到redis继承自父类为RedisSpider2.增加了一...
复制链接

扫一扫

专栏目录