UA 限制 | ★★★★★
产生原因:UA即为用户代理(User-Agent),服务器通过UA识别访问者的身份。当网站针对指定UA的访问,返回异常页面(如403,500)或跳转到其他页面的情况,即为UA禁封。
解决方案:UA伪装,使用浏览器的 UA 替换爬虫代码中默认的UA
示例 >>> 反爬机制伪装User-Agent (附User-Agent大全)
懒加载 | ★★★★★
产生原因:在用户滚动页面的时候自动获取更多的数据,而新得到的数据不会影响原有数据的显示,同时最大程度上减少服务器端的资源耗用。
解决方案:浏览器右键检查找到对应的Network包,请求包内链接获取需要的。
Cookie 限制 | ★★★★★
产生原因:一些网站在第一次访问页面时会返回一个或多个 Cookie, 在用户获取某些重要数据时请求必须携带这些 Cookie 才能获取到真实数据,一般情况 Cookie 有时间限制,一段时间后会更新 Cookie。
解决方案:
IP 限制 | ★★★★★
产生原因:一些网站会根据你的IP 地址访问的频率,次数进行反爬。也就是说如果你用单一的IP 地址访问频率过高,那么服务器会在短时间内禁止这个IP 访问。
解决方案:通过第三方代理购买临时 IP ,构建 IP 池,从 IP 池中随机取 IP 爬取网站。
人机验证登录限制 | ★★★★★
产生原因:网站的全部或部分数据需要登录之后才能获取,登录除了需要输入账号密码以外还需要做一次人机验证。
解决方案:调用图鉴(可识别种类更多)或超级鹰等打码平台,获取验证码的信息。
示例 >>> 反爬机制:人机验证登录限制(图片验证码的识别)
其他过于复杂的网站 | ★★★★★
产生原因:cookie 乱七八糟,不知道 cookie 从哪来,怎么试都不好用。
解决方案:终极必杀技,使用自动测试软件,调用谷歌浏览器。
示例 >>> Python爬虫 | selenium 模拟登陆网站
未完待续。。。