Python反爬 | 爬虫当中常见的反爬机制以及对应的反反爬策略

在这里插入图片描述

UA 限制 | ★★★★

产生原因:UA即为用户代理(User-Agent),服务器通过UA识别访问者的身份。当网站针对指定UA的访问,返回异常页面(如403,500)或跳转到其他页面的情况,即为UA禁封。

解决方案:UA伪装,使用浏览器的 UA 替换爬虫代码中默认的UA

示例 >>> 反爬机制伪装User-Agent (附User-Agent大全)

懒加载 | ★★★★★

产生原因:在用户滚动页面的时候自动获取更多的数据,而新得到的数据不会影响原有数据的显示,同时最大程度上减少服务器端的资源耗用。

解决方案:浏览器右键检查找到对应的Network包,请求包内链接获取需要的。

示例 >>> 反爬机制懒加载:动态加载数据的爬取

Cookie 限制 | ★★★★★

产生原因:一些网站在第一次访问页面时会返回一个或多个 Cookie, 在用户获取某些重要数据时请求必须携带这些 Cookie 才能获取到真实数据,一般情况 Cookie 有时间限制,一段时间后会更新 Cookie。

解决方案

示例 >>> 反爬机制:Cookie

IP 限制 | ★★★★★

产生原因:一些网站会根据你的IP 地址访问的频率,次数进行反爬。也就是说如果你用单一的IP 地址访问频率过高,那么服务器会在短时间内禁止这个IP 访问。

解决方案:通过第三方代理购买临时 IP ,构建 IP 池,从 IP 池中随机取 IP 爬取网站。

示例 >>> 反爬机制 :IP限制高匿代理 IP 突破

人机验证登录限制 | ★★★★★

产生原因:网站的全部或部分数据需要登录之后才能获取,登录除了需要输入账号密码以外还需要做一次人机验证。

解决方案:调用图鉴(可识别种类更多)超级鹰等打码平台,获取验证码的信息。

示例 >>> 反爬机制:人机验证登录限制(图片验证码的识别)

其他过于复杂的网站 | ★★★★★

产生原因:cookie 乱七八糟,不知道 cookie 从哪来,怎么试都不好用。

解决方案:终极必杀技,使用自动测试软件,调用谷歌浏览器。

示例 >>> Python爬虫 | selenium 模拟登陆网站

未完待续。。。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序猿过家家

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值