[Python爬虫]常用反爬技术

服务器的职责:

  • 向目标客户提供有效服务
  • 目标客户:用浏览器访问的人
  • 有效服务:速度缓慢,信息量有限

反爬的概念:反爬技术通常指识别并阻断非目标用户群体以获取信息为前提的访问的技术

常用阻断策略:

  • 零容忍:技术实现难,代价高(淘宝/美团)
  • 适度:容易实现,代价低(一般资讯类网站)
  • 不检测:后台实现代价小,小型咨询信息类网站

常用反爬技术

  • 请求头检测
    • 检测请求方工具(User-Agent)
    • 检测请求方身份(Cookies)
    • 利用requests请求并修改头部信息
  • 行为检测:
    • 爬虫因为是程序,可以高频次访问对方服务器大量内容
    • 内次隔开一个随机时间单位访问,变更身份
    • 使用代理,每次访问变更IP等信息
  • 验证码:
    • 通过短信、图片识别、声音识别等手段确定访问者是具有识别能力的人
    • 按验证码出现时机分类
      • 登录的时候,或者其他只验证一次即可的类型
      • 访问过程中随机出现,或者不定期多次出现
    • 按破解难易程度分类
      • 可识别验证码:机器学习自动学习识别,或者利用打码平台付费识别
      • 图片(涉及语义):163.com、12306.com
      • 短信验证码
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值