scrapy分布式

最新推荐文章于 2024-06-21 15:11:58 发布

嗯！！

最新推荐文章于 2024-06-21 15:11:58 发布

阅读量941

点赞数

分类专栏：爬虫文章标签： scrapy分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45410351/article/details/103036411

版权

本文介绍了分布式的基本概念，以及Scrapy分布式爬虫的工作原理。重点讲述了Scrapy与Scrapy-Redis的区别，并详细解析了分布式部署的四个关键步骤，包括设置任务、配置Spider和Settings，以及主机和从机的相应配置，旨在提升爬取效率。

摘要由CSDN通过智能技术生成

（1）什么是分布式？

将一个任务分割成多份，每一份由一个计算机完成，最后所有的计算机能够成为一个整体，得到这个任务的结果。

分布式数据库：
产生的原因：
原来一个数据库都是放在一台电脑上的，但是由于用户量的增多，造成数据库压力很大，所以产生一个思想，就是用多台电脑可以提供同样的数据库服务。

（2）scrapy分布式：

原来的项目是部署在一台电脑上的，这样爬取速度虽然很快，但是我们还能提升，联想到分布式的思想，我们是否可以通过多台电脑进行配合爬取，这样我们的爬取速度就能大幅度提升。
分布式爬虫就是：【多台电脑爬取同一个项目】。

（3）scrapy和scrapy-redis的区别：

（1）scrapy是一个爬虫框架，但是他不支持分布式。
（2）scrapy-redis，通过scrapy上增加一个redis组件，这个redis里面设置了带爬取url的列表和每个url的指纹集合，通过这两，做到了分布式，使得多台电脑可以联合爬取一个任务。

（4）分布式部署的步骤：

1）导入

from scrapy_redis.spider import RedisSpider

更改类的继承，让s

最低0.47元/天解锁文章

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。