网络爬虫到底是什么？（二）

最新推荐文章于 2023-03-15 09:04:16 发布

跟江江学Python，零基础开始

最新推荐文章于 2023-03-15 09:04:16 发布

阅读量429

点赞数

原文链接：https://www.zhihu.com/question/24098641/answer/453634446

版权

作者：退乎
链接：https://www.zhihu.com/question/24098641/answer/463415848
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

我想从另一个角度来解释爬虫。什么角度呢？传说中的暗网：deep web。

爬虫的全名叫网络爬虫，简称爬虫。他还有其他的名字，比如网络机器人，网络蜘蛛等等。这个现象在计算机工程里很常见。同一个事有很多名字。

爬虫是什么呢？爬虫有简单的爬虫和复杂的爬虫。实际上简单的爬虫是一种脚本。脚本就是粗糙的，但往往非常实用的小程序（一般来说不会超过几千行，有时候也就几百几十行罢了）。比如，你现在要从一个，全UIUC学生租房的网站上读取关于出租的学生公寓的信息。你一条一条去抄写肯定是不现实的。所以就要用爬虫。可以把一个信息类网站上几千条信息一次全部扒下来。

假如你去开网站，也切记防着这条。否则辛辛苦苦劳动，最后就是给他人做嫁衣裳。你在培训班学的爬虫不过就是这种小魔法罢了。其实这种东西，一般来说都是前后端或者大数据的人顺便去做的。也就是，他是前后端或者大数据的一个很好的辅助技能，而不是拉出来独当一面的。你想靠这个找工作是不太现实的。有时候都是培训班在忽悠你嘞。

当然这个也涉及到什么？有爬虫，自然就有反爬虫了。这就好比，有小偷也会有警察。这就是另一个有趣的故事了。

还有就是高级的爬虫了。高级的爬虫技术是非常难的。其实，类似谷歌Bing百度这种搜索引擎，本质上你也可以认为是一种爬虫。只不过这个技术是很复杂的。背后的技术你比如分布式系统。其实我想很多人也想过谷歌只是一个站点，要黑，岂不是很容易？而且一个站点如何去支撑那么大的访问量？其实解决方案很简单。你给他“并联”几个站点，服务器就够了。很多站点同时指向google的那个地址。这就是分布式的技术了。在这里比如谷歌最早开发的很著名的GFS系统（Google file system），还有著名的Hadoop-Mapreduce架构，当然这一套东西已经算是过时了。类似的技术也被用于高级爬虫。这就是很著名的“分布式爬虫了。”

搜索引擎是如何工作的？其实就是通过网络爬虫技术，将互联网中数以百亿计的网页信息保存到本地，形成一个镜像文件，为整个搜索引擎提供数据支撑。

我前面说到“暗网。”而什么是暗网呢？定义很多。但是其中有一个特征，就是你无法通过（正常的）搜索引擎搜索到的网站。其实这个也就很好理解了。搜索引擎技术的基础：通过网络爬虫把很多文件的信息保存在本地形成镜像。假如你是一个贩毒的网站，那么不让你的网站被爬虫检索到，不就可以了么？

你所见的的网络只是冰山一角。