学习目标
- 了解服务器反爬原因
- 了解服务器反什么样的爬虫
- 了解反爬虫领域常见的一些概念
- 了解反爬的三个方向
- 了解常见基于用户身份识别进行反爬
- 了解常见基于爬虫行为进行反爬
- 了解常见基于数据加密进行反爬
1. 服务器反爬原因
- 爬虫占总PV较高,浪费资源
- 资源被批量抓走,丧失竞争力
- 法律的灰色地带
2. 服务器反什么样的爬虫
- 十分低级的应届毕业生
- 十分低级的创业小公司
- 不小心写错了没人去停止的失控小爬虫
- 成型的商业对手
- 抽风的搜索引擎
3. 反爬虫领域常见的一些概念
- 爬虫:使用任何技术手段,批量获取网站信息的一种方式,关键在于批量
- 反爬虫:使用任何技术手段,阻止别惹批量获取自己网站信息的一种方式。关键也在于批量
- 误伤:在反爬过程中,错误的将普通用户识别为爬虫,误伤率搞得反爬策略,效果再好也不能用
- 拦截:成功地阻止爬虫访问,这里会有拦截率的概念。通常来说,拦截率越高的反爬策略,误伤的可能性也就越高,因此需要做个权衡
- 资源:机器成本与人力成本的总和
人力资源也是成本而且比机器更重要
4. 反爬的三个方向
- 基于身份识别进行反爬
- 基于爬虫行为进行反爬
- 基于数据加密进行反爬