使用scrapy-redis构建的分布式爬虫
1.使用scrapy-redis类下的RedisSpider
2.将爬虫脚本继承RedisSpider
3.取消start_url,改为 redis_key = "myspider:start_urls"
4.修改scrapy中的setting文件:
#使用scrapy_redis的去重类 不使用scrapy默认的去重类
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
#使用scrapy_redis的调度器 不使用scrapy默认的调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
#默认的scrapy-redis请求队列形式(按优先级)
SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"
#控制爬虫是否允许暂停
SCHEDULER_PERSIST = True
ITEM_PIPELINES = {
'ProjectName.pipelines.ProductPipeline': 300,
'scrapy_redis.pipelines.RedisPipeline': 400,
}
#域名为字符串 如果不写 默认为本机 数据库的ip
#注意:若为master这里的域名应该写本机的域名,我这里写127.0.0.1来代替
#若为slave这里写master的域名
REDIS_HOST = '服务器ip'
#端口为数字
REDIS_PORT = 6379
5.启动本地Redis,到本地redis目录下输入命令 redis-server.exe
6.启动爬虫脚本,到scrapy下包含spider的目录中输入命令 scrapy runspider spidername.py
7.启动redis-cli,到本地redis目录下输入命令 redis-cli -h 服务器ip
然后输入 lpush myspider:start_urls start_url
8.这时会发现爬虫脚本已经启动
会遇到的问题:
1.服务器Redis在本地连接不上出现Can’t connect to redis-server,可能是因为 redis.conf 配置文件没有改,需要修改以下几个部分:
1.1
1.2
1.3
2.没有打开Pipeline通道,导致数据存在redis中,没有存到mysql中