反爬技术研究 — 网站常用的反爬技术有哪些？

最新推荐文章于 2024-06-28 23:43:40 发布

Kosmoo

最新推荐文章于 2024-06-28 23:43:40 发布

阅读量7.5k

点赞数 2

分类专栏： python爬虫文章标签：反爬技术

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zwq912318834/article/details/80451465

版权

反爬技术研究 — 网站常用的反爬技术有哪些？

user-agent

数据请求头，最初级的反爬，只要在请求中模拟请求头即可轻松飘过。

验证码

验证码是最常用的反爬虫措施，但简单验证码通过机器学习自动识别，通常正确率能达到50%以上甚至更高。
复杂验证码通过提交到专门的打码平台进行人工打码，依据验证码的复杂度，打码工人平均每码收1-2分钱，成本比较低。也同样容易被绕过，使得数据容易被爬取。

封IP

这是最有效也最容易误杀的方案。该策略建立在 IP 稀有的前提下，目前通过代理池购买，ADSL，或者拨号 VPS 等方式，可以低成本获取数十万的 IP 池，导致单纯的封IP策略效果越来越差。

滑块验证

滑块验证结合了机器学习技术，只需要滑动滑块，而不用看那些复杂到有时人眼也无法分辨的字母。但由于部分厂商实现时校验算法较为简单，导致经常只需要相对简单的模拟滑动操作就能绕过，从而使得数据被恶意爬取。
类似案例：淘宝，阿里云，淘宝联盟

关联请求上下文

反爬虫可以通过 Token 或网络请求上下文是否进行了完整流程的方式来判断是否真人访问。但对具有协议分析能力的技术人员来说进行全量模拟并没有太大困难。
类似案例：知乎，百度登录过程。

JavaScript

最低0.47元/天解锁文章

关注

2
点赞
踩
15

收藏

觉得还不错? 一键收藏
1
评论
反爬技术研究 — 网站常用的反爬技术有哪些？

反爬技术研究 —— 网站常用的反爬技术有哪些？user-agent.htaccessjs基于流量的拒绝基于IP连接的拒绝iptables的控制
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。