常见反爬手段和解决思路（一）

最新推荐文章于 2023-07-17 09:53:45 发布

无聊的白色大米饭

最新推荐文章于 2023-07-17 09:53:45 发布

阅读量220

点赞数 1

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/zy_1203best/article/details/119834351

版权

python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一、服务器反爬的原因


 1. 爬虫占总PV(PV是指页面访问的次数，每打开或刷新一次页面，就算作一个PV )比例较高，
浪费资源（尤其是三月份爬虫）实际上就是流量压力，爬虫会对服务器造成许多虚假的流量

 2. 资源被批量抓走，丧失竞争力

 3. 法律灰色地带，通过技术手段降低爬取的难易度

2、服务器常反什么样的爬虫


 1. 十分低级的应届毕业生 做毕设写论文
 
 2. 十分低级的创业小公司
 
 3. 失控小爬虫
 
 4. 成型的商业对手
 
 6. 抽风的搜索引擎：请求量和网络攻击没什么区别

3、反爬虫领域常见的一些概念


 1. 爬虫：使用任何技术手段，批量获取网站信息的一种方式，关键在于批量
 
 2. 反爬虫：使用任何技术手段，阻止别人批量获取自己网站信息的一种方式，关键也在于批量
 
 3. 误伤：在反爬中的过程中，错误的将普通用户识别为爬虫。误伤率高的反爬虫策略，效果再好也不能用。
 
 4. 拦截：成功的阻止爬虫的访问，这里会有拦截率的概念，通常来说，拦截率越高的反爬虫策略，误伤的可能性就越高，因此需要做权衡。
 
 6. 资源：机器成本与人力成本的总和。

无聊的白色大米饭

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
常见反爬手段和解决思路（一）

一、服务器反爬的原因 1. 爬虫占总PV(PV是指页面访问的次数，每打开或刷新一次页面，就算作一个PV )比例较高，浪费资源（尤其是三月份爬虫）实际上就是流量压力，爬虫会对服务器造成许多虚假的流量 2. 资源被批量抓走，丧失竞争力 3. 法律灰色地带，通过技术手段降低爬取的难易度2、服务器常反什么样的爬虫 1. 十分低级的应届毕业生做毕设写论文 2. 十分低级的创业小公司 3. 失控小爬虫 4. 成型的商业对手 6. 抽风的搜索引擎：请求量和网络攻击没什么区
复制链接

扫一扫