反爬虫介绍

最新推荐文章于 2024-07-25 17:11:44 发布

星_奕

最新推荐文章于 2024-07-25 17:11:44 发布

阅读量674

点赞数

文章标签：爬虫开发语言

本文链接：https://blog.csdn.net/xuan_kong/article/details/130068370

版权

反爬虫介绍

1. 反爬虫的原因

不遵守规范的爬虫会影响网站的正常使用
网站上的数据是公司的重要资产
爬虫对网站的爬取会造成网站统计数据的污染

2. 概念

爬虫：使用任何技术手段，批量获取网站信息的一种方式，关键在于批量

反爬虫：使用任何技术手段，阻止别人批量获取自己网站信息的一种方式，关键也在于批量

误伤：在反爬虫过程中，错误的将普通用户识别为爬虫，误伤率高的反爬虫策略，效果再好也不能用

拦截：成功阻止爬虫访问，这里会有拦截率的概念，通常来说，拦截率高的反爬虫策略，误伤的可能性就越高，因此需要权衡利与弊

举个例子，这个世界存在3家公司，售卖相同的电商产品。三家公司的名字分别是A，B，C。

这个时候，客户去A公司查询了下某商品的价格，看了下发现价格不好。于是他不打算买了。他对整个行业的订单贡献为0。

然而A公司的后台会检测到，我们有个客户流失了，原因是他来查询了一个商品，这个商品我们的价格不好。没关系，我去爬爬别人试试。

于是他分别爬取了B公司和C公司。

B公司的后台检测到有人来查询价格，但是呢，最终没有下单。他会认为，嗯，我们流失了一个客户。怎么办呢？

我可以爬爬看，别人什么价格。于是他爬取了A和C。

C公司的后台检测到有人来查询价格。。。。。

过了一段时间，三家公司的服务器分别报警，访问量过高。三家公司的CTO也很纳闷，没有生成任何订单啊，怎么访问量这么高？ 一定是其他两家禽兽写的爬虫没有限制好频率。妈的，老子要报仇。于是分别做反爬虫，不让对方抓自己的数据。然后进一步强化自己的爬虫团队抓别人的数据。一定要做到：宁叫我抓天下人，休叫天下人抓我。

然后，做反爬虫的就要加班天天研究如何拦截爬虫。做爬虫的被拦截了，就要天天研究如何破解反爬虫策略。大家就这么把资源全都浪费在没用的地方了。直到大家合并了，才会心平气和的坐下来谈谈，都少抓点。

最近国内的公司有大量的合并，我猜这种“心平气和”应该不少吧？

3. 反爬分类

在看完上面的故事之后，相信大家对爬虫和反爬有了一定的理解，针对反爬策略的不同，反爬策略大致可以分为以下几个方向：

基于身份识别的反爬

基于爬虫行为的反爬

基于数据加密的反爬

星_奕

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
反爬虫介绍

拦截：成功阻止爬虫访问，这里会有拦截率的概念，通常来说，拦截率高的反爬虫策略，误伤的可能性就越高，因此需要权衡利与弊。误伤：在反爬虫过程中，错误的将普通用户识别为爬虫，误伤率高的反爬虫策略，效果再好也不能用。反爬虫：使用任何技术手段，阻止别人批量获取自己网站信息的一种方式，关键也在于批量。爬虫：使用任何技术手段，批量获取网站信息的一种方式，关键在于批量。
复制链接

扫一扫