数据计算
当对数据进行处理时,处理简单、结构化的数据集较为简单,算法复杂度也易于预测和评估,但是对于处理半结构化,非结构化数据时呈现多样化的问题,分析数据困难更大,算法复杂度超越了经典摩尔定量,整个算法性能也不易控制。在数据中心数据价值链中,为了挖掘数据的价值。需要根据不同的数据类型分类,采取不同的算法分析。
数据分类
1
时序数据
基本描述:随着时间推移反复测量而得到的数值和事件序列。
数据举例:股票数据,交通数据。
主要数据结构:半结构化,非结构化数据。
算法举例:条件随机场,隐马尔可夫模型。
2
序列数据
基本描述:由带有或不带有时间概念的已经排序的要素或事件序列构成。
数据举例:零售数据,基于数据
主要数据结构:半结构化,结构化数据。
算法举例:序列对比算法,隐马尔可夫模型。
3
图数据
基本描述:以图结构构成的数据集合,通常使用G=(V,E)表示一个图,其中V表示图中节点集合,E表示图中的边集合。
数据举例:社交网络数据,WWW数据,生物网络数据
主要数据结构:半结构化,非结构化数据。
算法举例:图挖掘算法,协同过滤算法&#