scrapy_redis 实现分布式爬虫

本文介绍了如何利用scrapy_redis实现分布式爬虫。关键步骤包括:导入并继承分布式爬虫类,注销start_urls并设置redis-key,通过__init__方法指定允许的域名,以及在settings.py中配置断点续爬选项,确保在各节点正确执行。
摘要由CSDN通过智能技术生成

scrapy_redis 要实现分布式爬虫,需要分析项目中的spiders文件夹中的爬虫文件

#----1 导入分布式爬虫类

from scrapy_redis.spiders import RedisSpider

#----2 继承分布式爬虫类

class BookSpider(RedisSpider):

#----3 注销start_urls,增加了一个redis-key,没有start_urls,因为分布式中,如果每台电脑都请求一次start_url就会重复

redis_key = 'start_url在redis中对应的键'

#----4 多了__init__方法,该方法不是必须的,可以手动指定allow_domains

#----4.1 注销allowed_domains

   		# # 修改允许的域xxx
	    # allowed_domains = ['xxx.com']
	    # # 修改起始的url
	    # start_urls = ['https://xxx.com']

#----4.2 配置__init__方法

def __init__(self, *args, **kwargs):
        # Dynamically define the allowed domains list.
        domain = kwargs.pop('domain', '')
        self.allowed_domains = list(filter(None, domain.split(',')
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值