基于身份识别的反爬

最新推荐文章于 2024-11-07 22:20:25 发布

星_奕

最新推荐文章于 2024-11-07 22:20:25 发布

阅读量736

点赞数

文章标签：开发语言爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xuan_kong/article/details/130080134

版权

文章介绍了多种网站反爬虫技术，包括通过headers的user-agent和referer字段，cookie验证，以及复杂的请求参数获取。解决方法涉及模拟登录、使用user-agent池、分析请求包、js逆向工程和验证码识别，建议使用打码平台或机器学习来应对验证码挑战。

摘要由CSDN通过智能技术生成

1. 通过headers字段来反爬

通过headers中的user-agent字段来反爬

反爬原理：爬虫默认情况下没有user-agent，而是使用模块默认设置

解决方法：请求之前添加user-agent即可，更好的方式是使用user-agent池来解决（收集一堆的user-agent的方式，或者是随机生成user-agent）

通过referer字段或者是其他字段来反爬

反爬原理：爬虫默认情况下不会带上referer字段，服务器通过判断请求发起的源头，以此判断请求是否合法

解决方法：添加referer字段

通过cookie来反爬

反爬原理：通过检查cookies来查看发起请求用户是否具备相应权限，以此来进行反爬

解决方案：进行模拟登录，成功获取cookies之后在进行数据爬取

2. 通过请求参数来反爬

通过从html静态文件中获取请求数据（github登录数据）

反爬原理：通过增加获取请求参数的难度进行反爬

解决方法：仔细分析抓包得到的每一个包，搞清楚之间的联系

通过发送请求获取请求数据

反爬原理：通过增加获取请求参数的难度进行反爬

解决方法：仔细分析抓包得到的每一个包，搞清楚之间的联系，搞清楚请求参数的来源

通过js生成请求参数（后面的js逆向破解加密）

反爬原理：js生成了请求参数

解决方法：分析js，观察加密实现的过程，通过js2py获取js的执行结果，或者使用selenium来实现

通过验证码来反爬

反爬原理：对方服务器通过弹出验证码强制检验用户浏览行为

解决方法：打码平台或者是机器学习的方法识别验证码，其中打码平台廉价易用，更值得推荐

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。