scrapy-redis主从式简介

最新推荐文章于 2020-12-23 21:42:49 发布

可待月光

最新推荐文章于 2020-12-23 21:42:49 发布

阅读量468

点赞数

分类专栏：爬虫文章标签：分布式爬虫主从式主从式爬虫 scrapy_redis

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44220464/article/details/99626441

版权

几种爬虫分布式架构

scrapy——redis，成熟的分布式框架，redis作为通讯载体读写迅速。
RabbitMQ消息中间件
- 得益于确认机制，可以在高可靠性和高数据要求情景中，避免数据抓取的遗漏和丢失。
- 实现可以利用scrapy_redis调度执行
celery分布式任务队列
- 用于异步操作，如tornado ，django异步任务中，通过接口，打造爬虫框架，供他人使用

原生scrapy无法实现分布式原因:

原生的scrapy中的调度器不可以被共享
原生的scrapy的管道不可以被共享

scrapy_redis分类

主从分布式爬虫:
由一台master服务器, 来提供url的分发, 维护待抓取url的list。由多台slave服务器执行网页抓取功能， slave所抽取的新url，一律由master来处理解析，而slave之间不需要做任何通信。
对等分布式爬虫:
由多台相同的服务器集成，每台服务器可单独运作，完成爬虫工作，每台服务器之间的分工有一定的运算逻辑(ex: hash)，由运算(配置)的结果，来决定由哪台服务器做抓取网页的工作。

常用的主从式实现分布式思路:

组成部分：
- Master端（核心服务器）
  - 搭建redis，存储start_url，r

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
scrapy-redis主从式简介

几种爬虫分布式架构scrapy——redis，成熟的分布式框架，redis作为通讯载体读写迅速。RabbitMQ消息中间件得益于确认机制，可以在高可靠性和高数据要求情景中，避免数据抓取的遗漏和丢失。实现可以利用scrapy_redis调度执行celery分布式任务队列用于异步操作，如tornado ，django异步任务中，通过接口，打造爬虫框架，供他人使用原生sc...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。