大数据不仅是当下火热的IT新兴行业,也是一项由多学科、多领域结合而成的综合性技术,更被认为是一种思维方式,是一门科学。学习大数据技术有必要了解一下大数据的理论基础,对于有理想有追求的同学们来说,如果以后想要往更深的方向发展会很有帮助
虽然大数据的理论体系尚未形成,但大数据与哲学、数学、物理学等学科的内在联系已有所显现,哲学、数学、物理学也将为大数据提供数理和哲学基础。此处仅简述大数据的哲学基础和数学基础。
哲学是关于世界观的学说,大数据存在着哲学基础,因为大数据首先被认为是一种认识论,关于这一点,一些具有代表性的观点为:
1)大数据代表了一种新的思维方式,也是一种新的方法论。人类对世界的认识,是精神世界和物质世界两个同构系统之间的相互作用,而大数据作为一种新的认识论,通过物质世界的表现——数据的呈现,使物质和精神两个世界达到了统一。认识者获得的不是对象本身的绝对映像,而是从对象中抽象出来的、关于对象运动轨迹的数据。从这一角度看,同构关系是大数据的数理哲学基础;
【大数据开发学习资料领取方式】:加入大数据技术学习交流群458345782,点击加入群聊,私信管理员即可免费领取
2)世界的规律表现为恒常规律、混沌规律和浮动规律。恒常规律的认识基于少量的数据即可实现,但对于混沌规律和浮动规律的认识,则需要以足够多的数据也即大数据为依据。所以,大数据更适合研究混沌规律和浮动规律。理论上,混沌规律是没有规律可寻的,应基于全部的数据,而浮动数据是有迹可寻的,只要有足够的数据即可。例如,当数据表现出一定的统计特性时,足够的数据可以通过统计特性展现其规律;
3)浮动规律和混沌规律往往难以找到精确的因果关系,所以,大数据也更适合于从数据中挖掘关联关系。一种情况是,大数据挖掘出的关联关系,并没有超越人类的先验知识,而是对先验知识给予了定量的表征。另一种情况是,大数据挖掘出的知识,超越了人类的先验知识,为人类揭示了至今没有认识到的规律。
数学是科学的基础,不能建立数学模型并用数学方法分析,不能称之为科学,但大数据统一的数学基础和系统的建模方法目前还没有形成。“从数据中学习”是统计学的重要目标,正因如此,统计学也成为大数据最基本的数学基础。进行预测或分类时,在线性回归、支持向量机、人工神经网络的有指导或无指导学习过程中都体现了统计学方法。
在基于统计学的机器学习之外,大数据也存在许多基于全数据分析的数据分析方法。这些方法包括决策树方法、Apriori算法、划分方法以及层次方法等。同样基于大数据具有统计特征的假设,有学者尝试用随机矩阵作为某类大数据的统一数据模型。假设构成大数据的系统来自呈空间分布的N个数据源,每一个数据源可以表示为时变向量,由此可将整个系统的数据整合为一个单独的大型矩阵,也即随机矩阵。
“熵”也被用来表征大数据所表现出来的特征。当大数据满足一定的统计特性时,大数据所表征的事物的特性可以用“熵”来表征。针对大数据的数据类型复杂性,学术界目前鼓励发展一种一般性的结构化数据和半结构化、非结构化数据之间的转化原则,如,在对网络上多种来源的数据进行性质分析和规律探索中,有学者尝试运用图论和统计分析等方法对数据进行定量分析,并已有学者发现了复杂的网络大数据之中存在一些统计规律性。综上所述,就大数据的数学基础而言,可总结如下:
1)形成大数据的系统建模方法和统一数学结构,是形成大数据统一完备理论的前提和关键,也是大数据研究者的努力目标。由于大数据数据类型的复杂性,这一目标的实现看起来相当不易,即使是可行的,也必定要经历很长的路程;
2)目前提出的一些数学方法主要是在统计学基础上发展的,“熵”的计算,随机矩阵理论等均是基于大数据具有统计特性假设基础上建立的;还有一些数学理论,是针对半结构化和非结构化数据的建模和分析而建立的。
大数据的未来发展是不会局限于仅仅是一种技术,当大数据成为一种广泛的思维方式,人们的生活可能会变得更加便利。现在开始学习大数据,快人一步体验科技的魅力,成为时代的“弄潮儿”。