基于Scrapy-分布式爬虫

分布式爬虫

  1. 在爬虫的settings.py中添加下面两句话
    #Enables scheduling storing requests queue in redis.
    SCHEDULER = “scrapy_redis.scheduler.Scheduler”
    #Ensure all spiders share same duplicates filter through redis.
    DUPEFILTER_CLASS = “scrapy_redis.dupefilter.RFPDupeFilter”

  2. 在item_pipeline中添加下面一句话
    ‘scrapy_redis.pipelines.RedisPipeline’: 300

  3. 在settings.py中添加下面一句话,用于配置redis
    REDIS_URL = ‘redis://root:@192.168.9.211:6379’(自己的IP地址,Redis默认端口是6379)

  4. 修改爬虫的类文件
    from scrapy_redis.spiders import RedisSpider
    类需要继承自RedisSpider
    把start_urls给注释掉
    redis_key = ‘jobbole:start_urls’
    分布式用到的代码应该是同一套代码
    1) 先把项目配置为分布式
    2) 把项目拷贝到多台服务器中
    3) 把所有爬虫项目都跑起来
    4) 在redis中lpush你的网址即可
    5) 效果:所有爬虫都开始运行,并且数据还都不一样

  5. 创建数据库用户(用户权限为 % 让从服务器能访问该数据库,注意:sql语句 % 两端需要加 引号):
    grant all privileges on . to myroot@’%’ identified by ‘123456’;

  6. 设置redis主从
    让从服务器连接:
    命令:lpush redis_key的值 网址

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值