分布式爬虫

最新推荐文章于 2024-06-23 16:01:36 发布

寒风未停

最新推荐文章于 2024-06-23 16:01:36 发布

阅读量1.7k

点赞数 2

分类专栏：爬虫文章标签：分布式爬虫

本文链接：https://blog.csdn.net/weixin_43778491/article/details/88917371

版权

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

基于python的 scrapy 框架，有个scrapy-redis的分布式框中框架。
其实权力就是在redis中存放了两个数据。
一个是请求队列，一个是url的指纹集合。
那什么是url指纹呢？
一个url有请求方式（get，post）请求参数,请求体.
通过sha1加密
指纹字符串=sha1(请求方式) + sha1(参数排序后的请求url) + sha1(请求体)
每次爬取url时，加密后会对比，如果爬取过，则不把url放入请求队列中，未爬取时则放入请求队列中.
请求队列中存放的都是未爬取的url。由于redis数据库可以被多个机器访问。多个机器访问redis数据库，每次读取请求队列中的一条url地址，读取后就移除该url地址。则实现分布式爬取. emmm,个人电脑强大的话，同个项目开启多个进程，也是可以的。

这里就说明下一些配置问题.
1.在setting.py 中需要指定请求调度器，设置去重算法，之旧话爬取，redis服务器配置.

SCHEDULER = "scrapy_redis.scheduler.Scheduler"
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER_PERSIST = True
# REDIS_URL = "redis://192.168.1.1:6379"

2.爬虫代码文件中，继承的父类不是Spider，改成RedisCrawlSpider,
设置读取的请求队列的键(开启时，需要先去redis数据库中设置该键，以及其对应的初始url地址),rules表示链接提取器

from scrapy.spiders import  Rule
from scrapy_redis.spiders import RedisCrawlSpide

class StudySpider(RedisCrawlSpider):
	redis_key = 'Study'
	rules = (
    Rule(LinkExtractor(restrict_xpaths=("//ul[@class='aaa']/li",)), follow=True,callback='parse_detail'),
	Rule（.....）
	)

Rule中参数说明：
LinkExtractor，提取的url，可以用xpaths，re方式提取,
follow代表，对于提取到的url是否还要再此url地址页面中再进行一次链接提取器，
callback：指定对于提取的url，对该url地址中的信息进行解析的函数。
后面的按正常的scrapy框架进行就可以了