在无法确定因果关系时,数据为我们提供了解决问题的新方法,数据中所包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到我们想知道的答案,这便是大数据思维的核心。
在过去被认为非常难以解决的问题,会因为大数据和机器智能的使用而迎刃而解。同时,大数据和机器智能还会彻底改变未来时代的商业模式,很多传统的行业都将采用智能技术实现升级换代,同时改变原有的商业模式。另一方面,智能化也会对整个社会带来巨大的冲击,尤其是在智能革命的初期。
有了信息论这样一个工具和方法论,我们便很容易认清大数据的本质了。首先我们必须承认世界的不确定性,这样我们就不会采用确定性的思维方式去面对一个不确定性的世界。当我们了解到信息或者说数据能够消除不确定性之后,便能理解为什么大数据的出现能够解决那些智能的问题,因为很多智能问题从根本上来讲无非是消除不确定性的问题。对于前面提到的大数据的三个特征,即数据量大、多维度和完备性,我们可以从信息论出发,对它们的重要性和必要性一一做出解释。在这个基础之上,我们就能够讲清楚大数据的本质。
数据量的问题
在过去,由于数据量不够,即使使用了数据,依然不足以消除不确定性,因此数据的作用其实很有限,很多人忽视它的重要性是必然的。在那种情况下,哪个领域先积攒下足够多的数据,它的研究进展就显得快一些。具体到机器智能方面,语音识别是最早获得比较多数据的领域,因此数据驱动的方法从这个领域产生也就不足为奇了。
大数据多维度的重要性
可以从两个角度来看待它。第一个视角是前面提及的“互信息”,为了获得相关性通常需要多个维度的信息。比如我们要统计“央行调整利息”和“股市波动”的相关性,只有历史上央行调整利息一个维度的信息显然是不够