导读:2003年至2008年间,谷歌利用自己的搜索数据,推出“谷歌流感趋势”(GFT)系统。2009年,美国H1N1流感病毒疫情爆发,神奇的GFT成功预测了疫情在全美范围内的传播,与美国CDC的官方数据相比,准确率高达97%。
但从2011年起,GFT开始“翻车”,它会高估流感流行趋势,原因众说纷纭。有分析认为,搜索引擎的自动联想功能可能是造成趋势被高估的原因,如下同所示,在谷歌输入“喉咙”,会自动联想“喉咙痛”等相关搜索。
尽管如此,提起大数据技术的应用,GFT仍然是人们津津乐道的神奇案例。那么大数据这些年都经历了哪些发展?还有哪些神应用?
作者:王宏志 何震瀛 王鹏 李春静
来源:大数据DT(ID:hzdashuju)
01 大数据的基本概念
一般来说,大数据泛指巨量的数据集。当今社会,互联网和物联网,尤其是移动互联网的发展,显著加快了信息化向社会、经济等各方面以及大众生活的渗透,推动了大数据时代的到来。
近年来,人们能明显地感受到大数据来势迅猛。据有关资料显示,1998年,全球网民平均每月使用流量是1MB,2003年是100MB,而2014年是10GB;全网流量累计达到1EB(即10亿GB)的时间在2001年是一年,在2004年是一个月,而在2013年仅需要一天,即一天产生的信息量可刻满1.88亿张DVD光盘。
事实上,我国网民数居世界首位,产生的数据量也位于世界前列,这其中包括淘宝网每天超数千万次的交易所产生的超50TB的数据,百度搜索每天生成的几十PB数据,城市里大大小小的摄像头每月产生的几十PB数据,甚至包括医院里CT影像抑或门诊所记录的信息。
总之,大到学校、医院、银行、企业的系统行业信息,小到个人的一次百度搜索、一次地铁刷卡,大数据存在于各行各业,连接着大众生活的各个角落。
大数据因自身可挖掘的高价值而受到重视。在国家宽带化战略实施、云计算服务起步、物联网广泛应用和移动互联网崛起的同时,数据处理能力也在迅速发展,数据积累到一定程度,会显示出开发的价值。
同时,社会节奏的加快,要求快速反应和精细管理,急需借助数据分析和科学决策,这样,我们便需要对上面所说的形形色色的海量数据进行开发。也就是说,大数据的时代来了。
有学者称,大数据将引发生活、工作和思维的革命;《华尔街日报》也将大数据称为引领未来繁荣的三大技术变革之一;麦肯锡公司的报告指出,数据是一种生产资料,大数据将是下一个创新、竞争、生产力提高的前沿;世界经济论坛的报告认为大数据是新财富,价值堪比石油;等等。
因此,大数据的开发和利用将成为各国家抢占的新的制高点。
02 大数据的4V
大数据是相对于一般数据而言的,目前对大数据尚缺乏权威的严格定义,但较普通的解释是“难以用常规的软件工具在容许的时间内对其内容进行抓取、管理和处理的数据集合”。通常用4V来概括大数据的特征:
1. Volume(规模性)
大数据之“大”,体现在数据的存储和计算均需要耗费海量规模的资源上。规模大是大数据最重要的标志之一,事实上,数据只要有足够的规模就可以称为大数据。数据的规模越大,通常对数据挖掘所得到的事物演变规律越可信,数据的分析结果也越具有代表性。
例如,美国宇航局收集和处理的气候观察、模拟数据达到32PB;而FICO的信用卡欺诈检测系统要监测全世界超过18亿个活跃信用卡账户。