上图是scrapy项目的爬虫文件,下图是scrapy-redis项目的爬虫文件,两者继承的类不一样,而且scrapy-redis项目不需要allowed_domains,另外把在这里我把start_urls替换成了redis数据库里的内容,start_urls改成了redis_key='taoche:start_urls'
还有就是,在设置里面配置了一下文件
# 配置scrapy-redis调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 配置url去重
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'
ITEM_PIPELINES = {
'Taoche.pipelines.TaochePipeline': 300,
'scrapy_redis.pipelines.RedisPipeline': 301
}
# 主机名
REDIS_HOST = 'localhost'
# 端口号
REDIS_PORT = 6379
如果是做分布式的话,需要把REDIS_HOST改成服务器的ip地址,如果要存到到mongoDB的话,MONGO_URI也需要改成服务器的ip地址
其它的基本上没有什么变化