增量式爬虫

增量式爬虫

目的

增量式爬虫:在上一次爬取的基础上继续爬取数据,
通过增量式爬虫,我们可以继续爬取因故未完全爬完的数据,或网站更新的数据.

去重

那么如何判断我们是否爬过某条数据是关键,显然,每次爬取判断该数据是否存在是不可取的 , 所以这里我们利用了Redis数据库集合自动去重的功能.向Redis 库中的集合里放:

  • 返回0,就是已经存过
  • 返回1,说明是新数据

ps: Redis数据库性能极高 – 能读的速度是110000次/s,写的速度是81000次/s 。

既然要在我们的代码中用Redis,先连接:

from redis import Redis
class BookSpider(CrawlSpider):
	conn = Redis('localhost', 6379)
	
	...
	
	def parse_item(self, response):
		pass

然后是尝试将我们爬取到的数据插入Redis的集合

  • url去重:

     from redis import Redis
     class BookSpider(CrawlSpider):
     	conn = Redis('localhost', 6379)
     
     	...
     
     	def parse(self, response):
     		...
     		ret = self.conn.sadd('book_link02', detail_url)
     		if ret:
     			pass
     			#发出请求的逻辑
     		else:
     			pass
    
  • 数据指纹去重:

我们不可能将一条较长的数据存入Redis,但是可以用为数据生成数据指纹,验证数据是否以存入,这里以MD5消息摘 要算法为例:

import hashlib
code = hashlib.md5(data_name.encode('utf-8')).hexdigest()

这样数据data_name 就有了唯一的数据指纹code

def parse(self, response):
	...
	code = hashlib.md5(data_name.encode('utf-8')).hexdigest()
	ret = self.conn.sadd('book_link02', code)
	if ret:
		pass
		#发出请求的逻辑
	else:
		pass
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值