反爬虫的方法大全以及破解方式

  1. 设置了表单请求,通过display:none+hidden进行加密
  2. 将主页信息链接数据保存在js中,js文件经过混淆压缩加密。
  3. 设置了csrf—token禁止跨域访问,设置了Refereer检测,设置了登录频率。
  4. 设置了登录身份验证,设置了装饰器,通过META.get获取请求头,限制请求头和访问间隔。
  5. 设置了cookie和登录成功后的session,并通过url编码方式隐藏cookie。
  6. 设置了自动刷新login页面。
  7. 使用pil设置了登录验证码,并点击刷新验证码,只有鼠标移入才显示。
  8. 设置多层iframe,并利用前端字体文件(.ttf)混淆文本来阻止爬虫爬取网站数据。
  9. 防止无界面浏览器:添加大量Unicode字符,Navigator对象包含有关浏览器的信息。
  10. Webdriver检测(if(navigator))
  11. 检查User—agent
  12. Font-Face拼凑式(猫眼电影)
  13. background拼凑式(大众点评)
  14. 字符串穿插式(微信公众号文章)
  15. 伪元素隐藏式(汽车之家)
  16. 元素定位覆盖式(去哪网 js-position)
  17. iframe异步加载(网易云音乐,aliexpress)
  18. 字符分割式(全网代理ip)
  19. 字符集替换式(去哪儿移动端)

一般网站是不会同时设置n多反爬虫措施的,这样会降低客户的访问量,访问量是网站的生命;
所以不用太过担心遇到哪些极度变态的网站,以上的反爬虫方式,皆有破解之法;

大部分的反反爬措施是必须要耐心和细心,找到对方网站的反爬方法,知道是什么方法自然就能找到破解的方法;

加强自身的知识储备才是唯一的必胜之路,在反爬虫和爬虫的战争中,最终获胜的一定是爬虫能胜利;

但是毕竟大家都是同行,不要太过分,都是混口饭吃,尽量下手的时候轻点。

以上,加油吧

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

成都—大数据开发工程师—杨洋

你的打赏是我创作的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值