[Python爬虫]常用反爬技术

最新推荐文章于 2024-05-13 18:34:41 发布

鸿哥正在学鸿蒙开发

最新推荐文章于 2024-05-13 18:34:41 发布

阅读量827

点赞数

分类专栏： Python爬虫文章标签： python 爬虫开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_57404083/article/details/129336462

版权

Python爬虫专栏收录该内容

7 篇文章 0 订阅

订阅专栏

服务器的职责：

向目标客户提供有效服务
目标客户：用浏览器访问的人
有效服务：速度缓慢，信息量有限

反爬的概念：反爬技术通常指识别并阻断非目标用户群体以获取信息为前提的访问的技术

常用阻断策略：

零容忍：技术实现难，代价高（淘宝/美团）
适度：容易实现，代价低（一般资讯类网站）
不检测：后台实现代价小，小型咨询信息类网站

常用反爬技术

请求头检测：
- 检测请求方工具（User-Agent）
- 检测请求方身份（Cookies）
- 利用requests请求并修改头部信息
行为检测：
- 爬虫因为是程序，可以高频次访问对方服务器大量内容
- 内次隔开一个随机时间单位访问，变更身份
- 使用代理，每次访问变更IP等信息
验证码：
- 通过短信、图片识别、声音识别等手段确定访问者是具有识别能力的人
- 按验证码出现时机分类
  - 登录的时候，或者其他只验证一次即可的类型
  - 访问过程中随机出现，或者不定期多次出现
- 按破解难易程度分类
  - 可识别验证码：机器学习自动学习识别，或者利用打码平台付费识别
  - 图片（涉及语义）：163.com、12306.com
  - 短信验证码

鸿哥正在学鸿蒙开发

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[Python爬虫]常用反爬技术

[Python爬虫]常用反爬技术
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。