Scrapy框架结合scrapy-reids组件实现分布式机群爬虫

最新推荐文章于 2024-06-21 15:11:58 发布

少年好建

最新推荐文章于 2024-06-21 15:11:58 发布

阅读量275

点赞数

文章标签：分布式队列 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45013111/article/details/106281558

版权

本文介绍了如何利用Scrapy结合scrapy-redis组件实现分布式爬虫。通过scrapy-redis，可以实现共享调度器和管道，解决原生Scrapy的分布式问题。步骤包括安装组件、创建工程、修改爬虫文件、配置settings.py以及启动Redis服务，并向调度器队列添加起始URL。

摘要由CSDN通过智能技术生成

分布式概念：
使用多台机器搭建一个分布式机群，在分布式机群中共同运行同一组程序，让其对同一个网站资源进行联合数据爬取。

原生的Scrapy框架是无法实现分布式的，原因有两点：
1.调度器无法被分布式机群共享
2.管道无法被共享

如何实现分布式？
使用Scrapy结合这scrapy-redis组件实现分布式

scrapy-redis组件的作用：

1.给scrapy提供可以被共享的管道和调度器
2.安装：pip install scrapy_redis

实现流程：

1.创建工程
2.cd 工程
3.创建爬虫文件（基于CrawlSpider的爬虫文件）
4.修改爬虫文件：
① 导包：from scrapy_redis.spiders import RedisCrawlSpider
② 修改当前爬虫类的父类：RedisSpider
③ 删除start_urls，添加一个新属性：redis_key = ‘xxx’，可以被共享的调度器队列的名称
④ 基于常规的操作获取url发送请求解析数据
⑤ 修改settings.py配置文件：

—-指定调度器
#增加了一个去

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。