python爬虫这件小事，入行前，想法总是美好的

本文链接：https://blog.csdn.net/xiongzaiabc/article/details/89738134

前言

很多刚入行或者准备入行的朋友，想必是“道听途说”了用Python爬虫这件小事之后，撸起袖子，当晚就准备大干一场。

嗯，有上进心是最优秀不过了，就像我一样。

然而，但凡有价值的工作，都不可能是轻松又简单的。基于这一点，我们都有必要重新审视这项爬虫工作。

作为爬虫领域的小司机，希望我的一些不成熟的认知，能让你更全面认识这一领域的基本轮廓。

1 从hello world说起

或许你真的是0基础的闯入者，哪怕是其他语言跨界过来的小伙伴，编程第一课当然是从hello world开始的。让你把自己写的代码运行起来，输出一句完美的hello world（好吧，第一次见面难免温柔且开心）。之后就是需要对Python语言基础的学习了，包括基础的数据结构、算法、函数、模块等等人手必备的技能。

学完这些，你姑且可以自诩完成了对Python语言的入门，接下来就要用这把工具去做我们自己想干的事情啦。

2先来点美图再说吧

既然知道了有哪些工具，为了让你真正爱上这门爬虫技术，下面就带着你爬取网络上的各种神仙图片好了，于是就打开了今日头条的街拍美图，实话跟你讲，想存哪张就存哪张，想存几百万张就存几百万张。

是的，就是这么简单粗暴，程序一运行，喂点电费就把美图保存到你电脑了。

正常情况下，写完这个脚本，你的某个文件夹下密密麻麻的都是大长腿。

这就是入门版的爬虫了，程序运行起来，美图躺在自己电脑的那一刻，还是很有成就感的。

3来一点点难度

以上只是带领你走通了爬虫的整个环节，而大多的网站还是有很多障碍，让你无法直接获取数据。也就是网站通过反爬虫让你的代码无法轻易得到数据，常见的有请求头、用户代理、cookie、封ip、封账号、关键参数加密等等，总之，并不会像你第一次爬取美图练习时那么轻松。

这时候能学到的所有破解反爬的姿势，也是最最基本的。同时，由于通过自己的破解，你的成就感会更加强烈，甚至会为完成破解而窃喜。

4带你走通更完整的爬虫全环节

如果有幸攻破反爬，下面的工作才能继续进行。

根据爬虫实际，我们还需要学会对自己所爬取数据的掌控。比如你需要进行分布式爬取，也就是多台主机协同爬取，这样可以极大地提升爬取速度。所以你还需要学会其他的爬虫框架，框架的好处是它把爬虫的各个环节做了封装，你只要在每个环节依据项目需要做好逻辑匹配即可。

此外，为了应对无法爬取的某些网站，我们还需要学会用代码去全模拟人工的操作，模拟打开浏览器、登录、获取信息、保存数据等等。

做为初学者，掌握了以上技能，一方面，会让你信心倍增，另一方面，也让你基本掌握了爬虫这项工作的整个环节流程。

这时候，差不多会让你上岗实习了。

从此，噩梦也许才刚刚开始。

当你上岗之后就会发现，以上学习的技能，实在是最最基础的技能了，正常情况下，你公司爬虫岗位上的职责，都要比以上的流程要多得多、复杂得多。

1简单的爬虫不需要你的存在

如果你只是学会了以上的那些技能，那么，即使工作中的项目也只需要这些能力对号入座，由于工作内容过于简单（没错，这些工作在团队中就是简单且基础的），往往一个星期能搞定数十个网站逻辑，所以如果只是完成这些工作，公司大可不必招你进来。

如果你刚刚掌握这些能力，就认为自己能胜任爬虫这个工作了，那么，即使上岗后，由于知识技能储备的匮乏，对自己来说，工作也是一种极大的挑战。

2爬虫困难第一步：破解反爬虫

如今的市面上，各个平台对自己数据的保护意识已经非常强烈，但凡你能看到的几个大厂，重要的开放数据，也是背地里添加了各种各样的反爬虫障碍，一方面自己团队研发反爬虫逻辑，另一方面，和专业的数据安全团队合作，共同抵御各种暴力爬取。

所以，在你爬取过程中，大概率会遇到各种奇葩的反爬措施，低段位的如滑块、文字识别，高级点的有各种复杂的js加密、动态加密、用户行为识别、机器指纹识别等等，哪怕你全模拟浏览器操作都会被识别出来并且屏蔽。

反爬环节无法突破的话，你的爬虫工作基本就无法开展，有时你就对着这么一个网站破解十来天，不好意思，依然无法完全攻破，只能宣布投降或者求助外援。

这才是一名爬虫工程师内心崩溃的开始。

3想法很完美，只是臣妾办不到

哪怕你突破了反爬的环节，那么，恭喜你，又离年薪百万更近了一步。

容你开心几分钟后，老板一条微信告诉你，这数据库，五分钟更新一次。

嗯，一次更新几千万条。

千万条。

干他娘的，i5处理器，2G内存的破电脑，五分钟哪能运行那么多的数据。唯一几台服务器都有项目部署其中，根本没有多余的资源给你做分布式。这时候你就能搜索到多进程balabala，异步请求balabala，然后在本地docker容器多干几份，当然，此时你的电脑CPU爆满、磁盘爆满，电脑上也干不了其他活了。