编写一个爬虫的思路，当遇到反爬时如何处理

最新推荐文章于 2024-08-25 09:19:51 发布

「已注销」

最新推荐文章于 2024-08-25 09:19:51 发布

阅读量1k

点赞数

文章标签：爬虫 python 开发语言

本文链接：https://blog.csdn.net/xinyan023542/article/details/122728549

版权

本文介绍了编写爬虫时遇到反爬机制的处理方法，包括加代理、降速、破解接口和多注册账户。强调了爬虫任务的特点是IP密集型，建议使用简单工具和避免高并发。还分享了拿到抓取任务时的思路，如针对数据量小的抓取、动态加载页面、IP封禁和账户或验证码的处理。最后指出，加IP池是最直接有效的解决方案。

摘要由CSDN通过智能技术生成

写了这么多年爬虫了，经常还是会撞上反爬机制。虽然大多数时候都能解决，但是毕竟反爬机制多种多样，有时候遇到一个许久不见的反爬机制，也会感到手生，一时想不上来应对方法，而浪费不少时间。最近写了不少爬虫，接下来一段时间又不写了，趁着手还比较熟，记录一下备忘，方便大家也方便自己。

之前写过一篇常用的反爬虫封禁手段概览, 但是主要是从反爬的角度来的，这篇主要从写爬虫的角度来说说。

开章明义，当遇到反爬机制时，想要做到把数据爬下来，无非四个方法：

加代理
降速度
破解接口
多注册几个账户

好多文章为了显示自己高大上，吹些什么高并发呀，分布式，机器学习破解验证码的幺蛾子，都是扯淡。与其扯这些东西，不如老老实实把数据爬下来才是王道，如果非要扯上一些 fancy 的东西，那把监控做好比啥都重要。

补充说明一下，本文探讨的是数据收集型的小型爬虫，也就是你要对少数站点在较短时间内收集大量信息。而非搜索引擎型全网爬虫，即对大量站点在较长时间内收集综合信息。（全网当然要上高并发了）

为什么说爬虫不要扯高并发？

我们知道计算机程序按瓶颈不同大概分为两类，CPU 密集型和 IO 密集型。CPU 密集型就是偏重计算的任务，比如说编解码啥的；IO 密集型就是偏重于网络的任务，比如说下载或者 web 服务器。那么爬虫是哪种呢？你估计要回答 IO 密集型，恭喜你答对了。但是这不是我想说的重点，重点是爬虫不光是 IO 密集型的任务，实际上我想把它称作 IP 密集型任务。

什么是 IP 密集型任务呢？按照上面的定义我们知道，也就是说，对爬虫来说，**最瓶颈的地方其实是你持有的 IP 的数量！**作为一个合格的爬虫编写者，你肯定已经擅长伪造各种 HTTP headers, 破解 JS 的加密参数，但是唯独一个 -- 来源 IP -- 你是无法伪造的。好多看起来很难搞的事情，如果对方站点的小霸王服务器撑得住，只要加上足够的 IP 就很简单啦，不用绞尽脑汁去想各种策略了。