一、服务器反爬的原因
1. 爬虫占总PV(PV是指页面访问的次数,每打开或刷新一次页面,就算作一个PV )比例较高,
浪费资源(尤其是三月份爬虫)实际上就是流量压力,爬虫会对服务器造成许多虚假的流量
2. 资源被批量抓走,丧失竞争力
3. 法律灰色地带,通过技术手段降低爬取的难易度
2、服务器常反什么样的爬虫
1. 十分低级的应届毕业生 做毕设写论文
2. 十分低级的创业小公司
3. 失控小爬虫
4. 成型的商业对手
6. 抽风的搜索引擎:请求量和网络攻击没什么区别
3、反爬虫领域常见的一些概念
1. 爬虫:使用任何技术手段,批量获取网站信息的一种方式,关键在于批量
2. 反爬虫:使用任何技术手段,阻止别人批量获取自己网站信息的一种方式,关键也在于批量
3. 误伤:在反爬中的过程中,错误的将普通用户识别为爬虫。误伤率高的反爬虫策略,效果再好也不能用。
4. 拦截:成功的阻止爬虫的访问,这里会有拦截率的概念,通常来说,拦截率越高的反爬虫策略,误伤的可能性就越高,因此需要做权衡。
6. 资源:机器成本与人力成本的总和。