反爬虫的方法大全以及破解方式

最新推荐文章于 2025-04-06 10:13:56 发布

成都—大数据开发工程师—杨洋

最新推荐文章于 2025-04-06 10:13:56 发布

阅读量4.8k

点赞数 4

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43870646/article/details/88586252

版权

设置了表单请求，通过display：none+hidden进行加密
将主页信息链接数据保存在js中，js文件经过混淆压缩加密。
设置了csrf—token禁止跨域访问，设置了Refereer检测，设置了登录频率。
设置了登录身份验证，设置了装饰器，通过META.get获取请求头，限制请求头和访问间隔。
设置了cookie和登录成功后的session，并通过url编码方式隐藏cookie。
设置了自动刷新login页面。
使用pil设置了登录验证码，并点击刷新验证码，只有鼠标移入才显示。
设置多层iframe，并利用前端字体文件（.ttf）混淆文本来阻止爬虫爬取网站数据。
防止无界面浏览器：添加大量Unicode字符，Navigator对象包含有关浏览器的信息。
Webdriver检测（if（navigator））
检查User—agent
Font-Face拼凑式（猫眼电影）
background拼凑式（大众点评）
字符串穿插式（微信公众号文章）
伪元素隐藏式（汽车之家）
元素定位覆盖式（去哪网 js-position）
iframe异步加载（网易云音乐，aliexpress）
字符分割式（全网代理ip）
字符集替换式（去哪儿移动端）

一般网站是不会同时设置n多反爬虫措施的，这样会降低客户的访问量，访问量是网站的生命；
所以不用太过担心遇到哪些极度变态的网站，以上的反爬虫方式，皆有破解之法；

大部分的反反爬措施是必须要耐心和细心，找到对方网站的反爬方法，知道是什么方法自然就能找到破解的方法；

加强自身的知识储备才是唯一的必胜之路，在反爬虫和爬虫的战争中，最终获胜的一定是爬虫能胜利；

但是毕竟大家都是同行，不要太过分，都是混口饭吃，尽量下手的时候轻点。

以上，加油吧

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

成都—大数据开发工程师—杨洋 你的打赏是我创作的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。