scrapy-redis

最新推荐文章于 2024-06-23 16:01:36 发布

夜逍尘

最新推荐文章于 2024-06-23 16:01:36 发布

阅读量78

点赞数

分类专栏： python爬虫文章标签： python

本文链接：https://blog.csdn.net/weixin_50589453/article/details/114673803

版权

37 篇文章 1 订阅

订阅专栏

正常使用scrapy爬取数据

1.加载模块

from scrapy_redis.spiders import RedisSpider

2.继承模块的类

class DangdangSpider(RedisSpider):

3.start_urls替换redis_key（redis_key里面输入py名）

#  start_urls = ['http://book.dangdang.com']
redis_key = 'dangdang'

1.放入参数

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
SCHEDULER_PERSIST = True

2.修改管道
在这里插入图片描述

ITEM_PIPELINES = {
    'dd.pipelines.DdPipeline': 300,
    'scrapy_redis.pipelines.RedisPipeline': 400,
}

1.开启数据库
在这里插入图片描述

2.打开客户端（保持数据库开通）
在这里插入图片描述
3.在客户端输入LPUSH 文件名起始网址

ps：可以查看一下收来数据

关注

专栏目录