基于Scrapy-分布式爬虫

最新推荐文章于 2020-09-28 15:13:20 发布

weixin_43929580

最新推荐文章于 2020-09-28 15:13:20 发布

阅读量156

点赞数

分类专栏：学习笔记文章标签： python 分布式

本文链接：https://blog.csdn.net/weixin_43929580/article/details/106509921

版权

4 篇文章 0 订阅

订阅专栏

在爬虫的settings.py中添加下面两句话
#Enables scheduling storing requests queue in redis.
SCHEDULER = “scrapy_redis.scheduler.Scheduler”
#Ensure all spiders share same duplicates filter through redis.
DUPEFILTER_CLASS = “scrapy_redis.dupefilter.RFPDupeFilter”
在item_pipeline中添加下面一句话
‘scrapy_redis.pipelines.RedisPipeline’: 300
在settings.py中添加下面一句话，用于配置redis
REDIS_URL = ‘redis://root:@192.168.9.211:6379’(自己的IP地址,Redis默认端口是6379)
修改爬虫的类文件
from scrapy_redis.spiders import RedisSpider
类需要继承自RedisSpider
把start_urls给注释掉
redis_key = ‘jobbole:start_urls’
分布式用到的代码应该是同一套代码
1）先把项目配置为分布式
2）把项目拷贝到多台服务器中
3）把所有爬虫项目都跑起来
4）在redis中lpush你的网址即可
5）效果：所有爬虫都开始运行，并且数据还都不一样
创建数据库用户(用户权限为 % 让从服务器能访问该数据库,注意:sql语句 % 两端需要加引号):
grant all privileges on . to myroot@’%’ identified by ‘123456’;
设置redis主从
让从服务器连接:
命令:lpush redis_key的值网址

关注