常用的反爬虫

常见反爬虫介绍:

① 通过Headers反爬虫

  • 从用户请求的Headers反爬虫是最常见的反爬虫策略

  • 很多网站都会对Headers的User-Agent进行检测,还有一部分网站会对Referer进行检测(一些资源网站的防盗链就是检测Referer)

  • 对于检测Headers的反爬虫,在爬虫中修改或者添加Headers就能很好的绕过

② 基于用户行为反爬虫

  • 部分网站是通过检测用户行为,例如 同一IP短时间内多次向服务器发送请求,或者同一账户(cookie)短时间内多次向服务器发送请求。

  • 解决方法是使用 IP 代理池或 cookie池

③ 通过JS 数据加密

  • 一般网站界面都是静态页面(即在浏览器中查看源代码可见),还有部分网站中的数据是后期通过Ajax请求(或其他方式如推送技术)得到

  • 解决办法:首先用 Chrome Devtools 或者抓包工具对网络请求进行分析。找到Ajax的请求url,通过Python模拟请求得到需要的数据

  • 但是现在很多网站都把Ajax请求的部分参数加密了,这就要看你的JS功底了


④ 通过验证码反爬虫

  • 对方服务器通过弹出验证码强制验证用户浏览行为

  • 分为图形验证码、滑块验证码、点触验证码、短信验证码等。。。

  • 解决办法:通过手动解决、机器学习、对接打码平台、自动化测试工具等


⑤ 通过字体反爬

  • 网站把一些关键字替换成自己设计的字体,这些关键字在源码中是无法识别的

  • 解决办法:找出对应的字体,建立映射表进行替换

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值