反爬虫介绍

反爬虫介绍

1. 反爬虫的原因

  1. 不遵守规范的爬虫会影响网站的正常使用
  2. 网站上的数据是公司的重要资产
  3. 爬虫对网站的爬取会造成网站统计数据的污染

2. 概念

爬虫:使用任何技术手段,批量获取网站信息的一种方式,关键在于批量

反爬虫:使用任何技术手段,阻止别人批量获取自己网站信息的一种方式,关键也在于批量

误伤:在反爬虫过程中,错误的将普通用户识别为爬虫,误伤率高的反爬虫策略,效果再好也不能用

拦截:成功阻止爬虫访问,这里会有拦截率的概念,通常来说,拦截率高的反爬虫策略,误伤的可能性就越高,因此需要权衡利与弊

举个例子,这个世界存在3家公司,售卖相同的电商产品。三家公司的名字分别是A,B,C。

这个时候,客户去A公司查询了下某商品的价格,看了下发现价格不好。于是他不打算买了。他对整个行业的订单贡献为0。

然而A公司的后台会检测到,我们有个客户流失了,原因是他来查询了一个商品,这个商品我们的价格不好。没关系,我去爬爬别人试试。

于是他分别爬取了B公司和C公司。

B公司的后台检测到有人来查询价格,但是呢,最终没有下单。他会认为,嗯,我们流失了一个客户。怎么办呢?

我可以爬爬看,别人什么价格。于是他爬取了A和C。

C公司的后台检测到有人来查询价格。。。。。

过了一段时间,三家公司的服务器分别报警,访问量过高。三家公司的CTO也很纳闷,没有生成任何订单啊,怎么访问量这么高? 一定是其他两家禽兽写的爬虫没有限制好频率。妈的,老子要报仇。于是分别做反爬虫,不让对方抓自己的数据。然后进一步强化自己的爬虫团队抓别人的数据。一定要做到:宁叫我抓天下人,休叫天下人抓我。

然后,做反爬虫的就要加班天天研究如何拦截爬虫。做爬虫的被拦截了,就要天天研究如何破解反爬虫策略。大家就这么把资源全都浪费在没用的地方了。直到大家合并了,才会心平气和的坐下来谈谈,都少抓点。

最近国内的公司有大量的合并,我猜这种“心平气和”应该不少吧?

3. 反爬分类

在看完上面的故事之后,相信大家对爬虫和反爬有了一定的理解,针对反爬策略的不同,反爬策略大致可以分为以下几个方向:

基于身份识别的反爬

基于爬虫行为的反爬

基于数据加密的反爬

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值