常见反爬手段和解决思路(一)

一、服务器反爬的原因


 1. 爬虫占总PV(PV是指页面访问的次数,每打开或刷新一次页面,就算作一个PV )比例较高,
浪费资源(尤其是三月份爬虫)实际上就是流量压力,爬虫会对服务器造成许多虚假的流量

 2. 资源被批量抓走,丧失竞争力

 3. 法律灰色地带,通过技术手段降低爬取的难易度

2、服务器常反什么样的爬虫


 1. 十分低级的应届毕业生 做毕设写论文
 
 2. 十分低级的创业小公司
 
 3. 失控小爬虫
 
 4. 成型的商业对手
 
 6. 抽风的搜索引擎:请求量和网络攻击没什么区别


3、反爬虫领域常见的一些概念


 1. 爬虫:使用任何技术手段,批量获取网站信息的一种方式,关键在于批量
 
 2. 反爬虫:使用任何技术手段,阻止别人批量获取自己网站信息的一种方式,关键也在于批量
 
 3. 误伤:在反爬中的过程中,错误的将普通用户识别为爬虫。误伤率高的反爬虫策略,效果再好也不能用。
 
 4. 拦截:成功的阻止爬虫的访问,这里会有拦截率的概念,通常来说,拦截率越高的反爬虫策略,误伤的可能性就越高,因此需要做权衡。
 
 6. 资源:机器成本与人力成本的总和。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值