使用scrapy-redis构建分布式爬虫

最新推荐文章于 2024-05-22 16:20:08 发布

张小涛_

最新推荐文章于 2024-05-22 16:20:08 发布

阅读量160

点赞数 1

分类专栏：学习文章标签： redis mysql 分布式数据库

本文链接：https://blog.csdn.net/zt19970427/article/details/108146726

版权

学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

使用scrapy-redis构建的分布式爬虫
1.使用scrapy-redis类下的RedisSpider
2.将爬虫脚本继承RedisSpider
3.取消start_url,改为 redis_key = "myspider:start_urls" 在这里插入图片描述

4.修改scrapy中的setting文件:

#使用scrapy_redis的去重类 不使用scrapy默认的去重类
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

#使用scrapy_redis的调度器 不使用scrapy默认的调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"

#默认的scrapy-redis请求队列形式（按优先级）
SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"

#控制爬虫是否允许暂停
SCHEDULER_PERSIST = True

ITEM_PIPELINES = {
    'ProjectName.pipelines.ProductPipeline': 300,
    'scrapy_redis.pipelines.RedisPipeline': 400,
}

#域名为字符串  如果不写  默认为本机  数据库的ip
#注意：若为master这里的域名应该写本机的域名，我这里写127.0.0.1来代替
#若为slave这里写master的域名

REDIS_HOST = '服务器ip'
#端口为数字
REDIS_PORT = 6379

5.启动本地Redis,到本地redis目录下输入命令 redis-server.exe
在这里插入图片描述
6.启动爬虫脚本,到scrapy下包含spider的目录中输入命令 scrapy runspider spidername.py

7.启动redis-cli,到本地redis目录下输入命令 redis-cli -h 服务器ip

然后输入 lpush myspider:start_urls start_url

8.这时会发现爬虫脚本已经启动
在这里插入图片描述

会遇到的问题:

1.服务器Redis在本地连接不上出现Can’t connect to redis-server,可能是因为 redis.conf 配置文件没有改,需要修改以下几个部分:
1.1 在这里插入图片描述
1.2
1.3
2.没有打开Pipeline通道,导致数据存在redis中,没有存到mysql中

张小涛_

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
使用scrapy-redis构建分布式爬虫

使用scrapy-redis构建的分布式爬虫1.使用scrapy-redis类下的RedisSpider2.将爬虫脚本继承RedisSpider3.取消start_url,改为 redis_key = "myspider:start_urls"4.修改scrapy中的setting文件:#使用scrapy_redis的去重类不使用scrapy默认的去重类DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"#使用scrap
复制链接

扫一扫