步骤一
正常使用scrapy爬取数据
步骤二
修改爬虫文件
1.加载模块
from scrapy_redis.spiders import RedisSpider
2.继承模块的类
class DangdangSpider(RedisSpider):
3.start_urls替换redis_key(redis_key里面输入py名)
# start_urls = ['http://book.dangdang.com']
redis_key = 'dangdang'
修改settings
1.放入参数
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
SCHEDULER_PERSIST = True
2.修改管道
ITEM_PIPELINES = {
'dd.pipelines.DdPipeline': 300,
'scrapy_redis.pipelines.RedisPipeline': 400,
}
步骤三
1.开启数据库
2.打开客户端(保持数据库开通)
3.在客户端输入LPUSH 文件名 起始网址
ps:可以查看一下收来数据