增量式爬虫和去重

最新推荐文章于 2023-02-12 20:15:12 发布

.Wen_Kai

最新推荐文章于 2023-02-12 20:15:12 发布

阅读量2.3k

点赞数

本文链接：https://blog.csdn.net/weixin_44321182/article/details/86510870

版权

本文介绍了增量式爬虫的概念，它在上一次爬取的基础上继续，避免重复抓取。Scrapy-Redis插件用于实现增量式和分布式爬虫，通过特定的设置和哈希算法进行去重。增量式与分布式爬虫的主要区别在于继承的父类、起始URL的指定方式以及启动过程。分布式爬虫利用多台服务器并行爬取，提高效率。

摘要由CSDN通过智能技术生成

增量式爬虫：在上一次的基础上继续爬取，爬过的不再爬取。

分布式爬虫：多台服务器可以共享两个队列，所以可以并发来爬取数据。
Scrapy-Redis插件：

安装 pip install scrapy-redis

与原来的爬虫相比，只有设置文件中的4行代码有区别：

增量式和分布式爬虫核心代码

REDIS_URL = "redis://127.0.0.1:6379"
#指定了去重的类
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
#制定了调度器的类
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
#调度器的内容是否持久化, 爬虫执行结束后，是否要清空redis中的数据
SCHEDULER_PERSIST = True

Scrapy-Redis中的去重：

# scrapy_redis.dupefilter.RFPDupeFilter

def request_seen(self, request):
    # 请求是否见过，True就是见过，False就是没有见过
	# 计算当前请求的特征值
    fp = self.request_fingerprint(request)
    
    # 跟以前的请求的特征值进行比对，如果比对上，就返回True，否则返回False
    # 向Redis数据库中的Set类型（不能重复ÿ