分布式爬虫的实现

最新推荐文章于 2024-06-21 15:11:58 发布

荒城以北

最新推荐文章于 2024-06-21 15:11:58 发布

阅读量179

点赞数

分类专栏： scrapy框架

本文链接：https://blog.csdn.net/weixin_44090435/article/details/86635893

版权

scrapy框架专栏收录该内容

13 篇文章 0 订阅

订阅专栏

分布式爬虫的实现

创建爬虫类

scrapy genspider itcast itcast.cn
修改继承类为scrapy_reids中的RedisSpider
删除原有的start_urls

添加存在start_urls在redis数据库中的键

from scrapy_redis.spiders import RedisSpider

class ItcastSpider(RedisSpider):
    name = 'itcast'
    allowed_domains = ['itcast.cn']
    # 删除原有的start_urls
    # start_urls = ['http://itcast.cn/']
    
    # 添加存在start_urls在redis数据库中的键
    redis_key = "itcast:start_urls"

    def parse(self, response):
        pass

前提：必须实现增量式爬虫的配置

USER_AGENT = 'scrapy-redis (+https://github.com/rolando/scrapy-redis)'

# 指定了去重的类
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

# 制定了调度器的类
SCHEDULER = "scrapy_redis.scheduler.Scheduler"

# 调度器的内容是否持久化
SCHEDULER_PERSIST = True

# 多台机器共享的redis的url
REDIS_URL = "redis://192.168.31.69:6379"