网络爬虫到底是什么?(二)

作者:退乎
链接:https://www.zhihu.com/question/24098641/answer/463415848
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
 

我想从另一个角度来解释爬虫。什么角度呢?传说中的暗网:deep web。

 

爬虫的全名叫网络爬虫,简称爬虫。他还有其他的名字,比如网络机器人,网络蜘蛛等等。这个现象在计算机工程里很常见。同一个事有很多名字。

 

爬虫是什么呢?爬虫有简单的爬虫和复杂的爬虫。实际上简单的爬虫是一种脚本。脚本就是粗糙的,但往往非常实用的小程序(一般来说不会超过几千行,有时候也就几百几十行罢了)。比如,你现在要从一个,全UIUC学生租房的网站上读取关于出租的学生公寓的信息。你一条一条去抄写肯定是不现实的。所以就要用爬虫。可以把一个信息类网站上几千条信息一次全部扒下来。

 

假如你去开网站,也切记防着这条。否则辛辛苦苦劳动,最后就是给他人做嫁衣裳。你在培训班学的爬虫不过就是这种小魔法罢了。其实这种东西,一般来说都是前后端或者大数据的人顺便去做的。也就是,他是前后端或者大数据的一个很好的辅助技能,而不是拉出来独当一面的。你想靠这个找工作是不太现实的。有时候都是培训班在忽悠你嘞。

 

当然这个也涉及到什么?有爬虫,自然就有反爬虫了。这就好比,有小偷也会有警察。这就是另一个有趣的故事了。

 

还有就是高级的爬虫了。高级的爬虫技术是非常难的。其实,类似谷歌Bing百度这种搜索引擎,本质上你也可以认为是一种爬虫。只不过这个技术是很复杂的。背后的技术你比如分布式系统。其实我想很多人也想过谷歌只是一个站点,要黑,岂不是很容易?而且一个站点如何去支撑那么大的访问量?其实解决方案很简单。你给他“并联”几个站点,服务器就够了。很多站点同时指向google的那个地址。这就是分布式的技术了。在这里比如谷歌最早开发的很著名的GFS系统(Google file system),还有著名的Hadoop-Mapreduce架构,当然这一套东西已经算是过时了。类似的技术也被用于高级爬虫。这就是很著名的“分布式爬虫了。”

 

搜索引擎是如何工作的?其实就是通过网络爬虫技术,将互联网中数以百亿计的网页信息保存到本地,形成一个镜像文件,为整个搜索引擎提供数据支撑。

 

我前面说到“暗网。”而什么是暗网呢?定义很多。但是其中有一个特征,就是你无法通过(正常的)搜索引擎搜索到的网站。其实这个也就很好理解了。搜索引擎技术的基础:通过网络爬虫把很多文件的信息保存在本地形成镜像。假如你是一个贩毒的网站,那么不让你的网站被爬虫检索到,不就可以了么?

 

你所见的的网络只是冰山一角。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值