基于爬虫行为的反爬

最新推荐文章于 2024-07-25 17:17:18 发布

星_奕

最新推荐文章于 2024-07-25 17:17:18 发布

阅读量755

点赞数

文章标签：爬虫服务器

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xuan_kong/article/details/130100995

版权

1. 基于请求频率或总请求数量

通过请求ip/账号单位时间内总请求数量进行反爬

反爬原理：正常浏览器请求网站，速度不会太快，同一个IP/账号大量请求了对方服务器，有更大可能性会被识别为爬虫

解决方法：对应的通过购买高质量的IP的方式能够解决问题/IP代理池

通过同一IP/账号请求之间的间隔进行反爬

反爬原理：正常人操作浏览器浏览网站，请求之间的时间间隔是随机的，而爬虫前后两个请求之间时间间隔通常比较固定同时时间间隔比较短，因此可以用来做反爬

解决方法：请求之间进行随机等待，模拟真实用户操作，在添加时间间隔之后，为空能够高速获取数据，尽量使用IP代理池，如果是账号，则将账号请求之间设置随机休眠

通过对请求IP/账号每天请求次数设置值进行反爬

反爬原理：正常的浏览器行为，其一天的请求次数是有限的，通常超过够一个值，服务器就会拒绝响应

解决方法：对应的通过购买高质量的IP的方法/多账号，同时设置请求间随机休眠

2. 根据爬取行为进行反爬，通常在爬取步骤上做分析

通过js实现跳转来反爬

反爬原理：js实现页面跳转，无法在源码中获取下一页url

解决方法：多次抓包获取条状url，分析规律

通过蜜罐（陷阱）获取爬虫IP（或者代理IP），进行反爬

反爬原理：在爬虫获取链接请求的过程中，爬虫会根据正则，xpath，css等方式进行后续链接的提取，此时服务器端可以设置一个陷阱url，会被提取规则获取，但是正常用户无法获取，这样就能有效的区分爬虫和正常用户

解决方法：完成爬虫的编写之后，使用代理批量爬取测试/仔细分析响应内容结构，找出页面中存在的陷阱

通过假数据反爬

反爬原理：向返回的响应中添加假数据污染数据库，通常假数据不会被正常用户看见

解决方法：长期运行，核对数据库中数据同实际页面中数据对应情况，如果存在问题/分析响应内容

阻塞任务队列

反爬原理：通过生成大量垃圾url，从而阻塞任务队列，降低爬虫的实际工作效率

解决方法：观察运行过程中请求响应状态/仔细分析源码获取垃圾url生成规则，对url进行过滤

阻塞网络IO

反爬原理：发送请求获取响应的过程实际上就是下载的过程，在任务队列中混入一个大文件的url，当爬虫在进行该请求时将会占用网络io，如果是有多线程，则会占用线程

解决方法：观察爬虫运行状态/多线程请求线程计时/发送请求

运维平台综合审计

反爬原理：通过运维平台综合管理，通常采用复合型反爬虫策略，多种手段同时使用

解决方法：仔细观察分析，长期运行测试目标网站，检查数据采集速度，多方面处理

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
基于爬虫行为的反爬

反爬原理：在爬虫获取链接请求的过程中，爬虫会根据正则，xpath，css等方式进行后续链接的提取，此时服务器端可以设置一个陷阱url，会被提取规则获取，但是正常用户无法获取，这样就能有效的区分爬虫和正常用户。解决方法：请求之间进行随机等待，模拟真实用户操作，在添加时间间隔之后，为空能够高速获取数据，尽量使用IP代理池，如果是账号，则将账号请求之间设置随机休眠。反爬原理：正常人操作浏览器浏览网站，请求之间的时间间隔是随机的，而爬虫前后两个请求之间时间间隔通常比较固定同时时间间隔比较短，因此可以用来做反爬。
复制链接

扫一扫

博客等级

码龄3年

67
原创

20
点赞

46
收藏

11
粉丝

关注

私信

热门文章

最新评论

selenium和webdriver
qq_18870959: 现在不用换名字了，原装的msedgedriver.exe能用了
初识python
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/613875484。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。