编辑整理/智库2861
大数据这个概念出来那么多年了,那么大数据到底是什么呢?感觉自己至今都无法准确定义它。那么我们就来请教权威吧。
百度百科是这样定义的:
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
我不知道大家是不是读懂了,反正我做大数据这么多年,这段定义我是读不懂。
这个定义最大的特点,和很多红皮书白皮书黑皮书之类的差不多,就是装逼。说白了,不说人话。反正我是没听明白大数据和小数据有什么本质的区别。无非是数据和处理数据的工具以及从数据里面提取有用信息变成钱的过程。曾经我们在做这些事情,现在我们在做这些事情,将来我们也会继续做这些事情。
所以呢,我在我的文章里面共享过行为学家Dan Ariely关于大数据的名言,今天的讲座我们继续共享一下这段名言:
Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it.
简单翻译一下:
大数据就像青少年性行为:大家都谈论,没有人真正知道怎么做,每个人都认为其他人都在做,所以每个人都声称自己在做。
以前几年国内大数据概念炒上天的情况来看,其实真的谁也不知道大数据是什么,谁也不清楚大数据怎么玩,但是各行各业忽如一夜春风来,冒出无数个大数据公司大数据专家。
说的俗一点,大数据是造出来的概念。我们人类其实非常擅长造概念,炒概念,然后炒完一个以后再起一个新的。所以大数据作为一个人造的概念飞起来也不奇怪。就像现在的人工智能一样也是炒概念。早年还有纳米洗衣机呢。
现在我们可以看到各行各业都在谈论大数据。从政府到企业,从互联网行业到传统行业,随便写个App背后没有大数据都不能叫好App。现在大数据都上升到国家高度了。比如说政府办公要上大数据,一个三线城市,放两三台机器搞定的,这数据真的非常的大。
如果我们撇开大数据这个概念不谈,自从有了数据以来,人类一直做的事情是什么?这个其实也是今天大数据的背景下大家都在做的事情,概括起来讲:分析数据,产生有价值的信息。
这个事情20年前在做10年前也在做,今天还是在做,其实没什么变化。那么什么东西发生了变化呢?最大的一个是工具的能力发生了变化。现在我们可以几千几万台机器一起协同做计算了。其次是性价比的变化。以前买Oracle的数据库IBM大型机Teradata的解决方案,贼贵。现在开源软件一搭,弄些PC机就好。糙一点无所谓,所谓便宜才能普及。
然而本质来讲,大家做的事情并无改变。所以我们不需要去纠结于大数据到底是什么,而是要看清楚具体业务问题是什么,有什么合适的工具去解决。这些工具可能是新的也可能是旧的。我想大数据的所谓发展无非就是工具的进步使得大家能够更有能力去在限定的时间内处理更多的数据,获得更有效的信息。
End.
节选自36大数据(36dsj.com)