常见的反爬手段和解决思路

学习目标

  • 了解服务器反爬原因
  • 了解服务器反什么样的爬虫
  • 了解反爬虫领域常见的一些概念
  • 了解反爬的三个方向
  • 了解常见基于用户身份识别进行反爬
  • 了解常见基于爬虫行为进行反爬
  • 了解常见基于数据加密进行反爬
1. 服务器反爬原因
  • 爬虫占总PV较高,浪费资源
  • 资源被批量抓走,丧失竞争力
  • 法律的灰色地带
2. 服务器反什么样的爬虫
  • 十分低级的应届毕业生
  • 十分低级的创业小公司
  • 不小心写错了没人去停止的失控小爬虫
  • 成型的商业对手
  • 抽风的搜索引擎
3. 反爬虫领域常见的一些概念
  • 爬虫:使用任何技术手段,批量获取网站信息的一种方式,关键在于批量
  • 反爬虫:使用任何技术手段,阻止别惹批量获取自己网站信息的一种方式。关键也在于批量
  • 误伤:在反爬过程中,错误的将普通用户识别为爬虫,误伤率搞得反爬策略,效果再好也不能用
  • 拦截:成功地阻止爬虫访问,这里会有拦截率的概念。通常来说,拦截率越高的反爬策略,误伤的可能性也就越高,因此需要做个权衡
  • 资源:机器成本与人力成本的总和
    人力资源也是成本而且比机器更重要
4. 反爬的三个方向
  • 基于身份识别进行反爬
  • 基于爬虫行为进行反爬
  • 基于数据加密进行反爬
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值