爬取知乎 -----------------------------使用scrapy-deltafetch实现爬虫增量去重
https://blog.csdn.net/zsl10/article/details/52885597/
scrapy-deltafetch简介
scrapy-deltafetch通过Berkeley DB来记录爬虫每次爬取收集的request和item,当重复执行爬虫时只爬取新的item,实现增量去重,提高爬虫爬取性能。
Berkeley DB简介
Berkeley DB是一个嵌入式数据库...
转载
2019-01-17 11:05:01 ·
432 阅读 ·
0 评论