服务器的职责:
- 向目标客户提供有效服务
- 目标客户:用浏览器访问的人
- 有效服务:速度缓慢,信息量有限
反爬的概念:反爬技术通常指识别并阻断非目标用户群体以获取信息为前提的访问的技术
常用阻断策略:
- 零容忍:技术实现难,代价高(淘宝/美团)
- 适度:容易实现,代价低(一般资讯类网站)
- 不检测:后台实现代价小,小型咨询信息类网站
常用反爬技术
- 请求头检测:
- 检测请求方工具(User-Agent)
- 检测请求方身份(Cookies)
- 利用requests请求并修改头部信息
- 行为检测:
- 爬虫因为是程序,可以高频次访问对方服务器大量内容
- 内次隔开一个随机时间单位访问,变更身份
- 使用代理,每次访问变更IP等信息
- 验证码:
- 通过短信、图片识别、声音识别等手段确定访问者是具有识别能力的人
- 按验证码出现时机分类
- 登录的时候,或者其他只验证一次即可的类型
- 访问过程中随机出现,或者不定期多次出现
- 按破解难易程度分类
- 可识别验证码:机器学习自动学习识别,或者利用打码平台付费识别
- 图片(涉及语义):163.com、12306.com
- 短信验证码