爬虫的起源
先科普一下,这里说的“爬虫”是指网络爬虫,起源于互联网早期的搜索引擎。为了自动完成网页信息收集的工作被创造出来。
爬虫诞生后,虽然看起来非主流,却实质上是互联网应用最重要技术之一。除了我们熟知的谷歌,百度爬虫这些老牌,新起之秀今日头条,点评美团,去哪儿,58等等互联网巨头都是以爬虫为基础搭建的信息聚合平台,同时也拥有经验丰富的爬虫团队。
除了狭义以网页内容为线索爬虫外,其他以自动化形式获得信息的程序或脚本都可以称为“爬虫”。
爬虫的规模
爬虫在互联网上有多少流量呢,保守估计平均过半的流量都来自爬虫,有些行业甚至可以达到90%。
因为与人类相比,人类数量增长是缓慢的,反应时间也是有限的,人产生的流量有限。
而爬虫的规模则是随着IT基础设施,算力,带宽,吞吐的增加而正比增加的,其本质就是随着互联网中的信息增加而增加,这个是指数级的。
而且还在不断得高速增长,爬虫不会被消灭,只能被管理。
爬虫的黑白
“爬虫”是“人”为了简化工作而创造出的工具。它是中性的,创造和使用它的人们可以用来简化工作也可以用来做恶。
有时甚至无法定义黑白,不同的人商业目的,在互联网的战场上相互厮杀,爬虫技术自然成了这场战争中的武器。
爬虫的攻防就是规模大小,自