scrapy项目改成分布式爬虫scrapy-redis项目

最新推荐文章于 2024-05-22 16:20:08 发布

李嘉豪554

最新推荐文章于 2024-05-22 16:20:08 发布

阅读量798

点赞数 1

本文链接：https://blog.csdn.net/weixin_44251004/article/details/93773304

版权

上图是scrapy项目的爬虫文件，下图是scrapy-redis项目的爬虫文件，两者继承的类不一样，而且scrapy-redis项目不需要allowed_domains，另外把在这里我把start_urls替换成了redis数据库里的内容，start_urls改成了redis_key='taoche:start_urls'

还有就是，在设置里面配置了一下文件

# 配置scrapy-redis调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 配置url去重
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'
ITEM_PIPELINES = {
    'Taoche.pipelines.TaochePipeline': 300,
    'scrapy_redis.pipelines.RedisPipeline': 301
}
# 主机名
REDIS_HOST = 'localhost'
# 端口号
REDIS_PORT = 6379

如果是做分布式的话，需要把REDIS_HOST改成服务器的ip地址，如果要存到到mongoDB的话，MONGO_URI也需要改成服务器的ip地址

其它的基本上没有什么变化

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

李嘉豪554

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
scrapy项目改成分布式爬虫scrapy-redis项目

上图是scrapy项目的爬虫文件，下图是scrapy-redis项目的爬虫文件，两者继承的类不一样，而且scrapy-redis项目不需要allowed_domains，另外把在这里我把start_urls替换成了redis数据库里的内容，start_urls改成了redis_key='taoche:start_urls'还有就是，在设置里面配置了一下文件...
复制链接

扫一扫