数智时代，大数据分析的几个核心概念

本文链接：https://blog.csdn.net/zhinengxuexi/article/details/89244550

本文探讨了大数据分析中的关键概念，包括K-平均算法，用于数据聚类；奇异值分解，用于矩阵分解；主成分分析（PCA），用于降低数据维度；以及决策树学习，用于预测模型构建。这些工具在现代数据分析中起着重要作用。

摘要由CSDN通过智能技术生成

3.大数据分析的几个核心概念

3.1K―平均算法

K―平均算法是一种得到广泛应用的基于划分的聚类算法。其把M个对象分为N个簇，使得每个簇内具有较高的相似度。

在应用该算法进行数据分析时，首先应输入包含M个对象的数据集A以及簇的数目N。从A中任意选择N个对象作为初始簇中心并且不断重复，随后计算出簇中对象的均值，将每个对象分配到最相似的簇并且不断更新簇均值，最后计算准则函数直到其不再发生变化为止。因为该算法的复杂度大约是0（nkt），所以该算法在处理大数据集时是相对可伸缩的和高效率的。

3.2奇异值分解

假设A是一个m×n阶矩阵，其中的元素全部属于实数域或复数域。如此则存在一个分解使得A=U∑V*。其中U是m×m阶酉矩阵，Σ是半正定m×n阶对角矩阵，而V*是n×n阶酉矩阵的共轭转置矩阵。这样的分解就称为A的奇异值分解。

在MATLAB仿真软件中计算奇异值分解的函数式为：[b.c.d]=svd（x）

3.3主成分分析（PCA算法）

从宏观上来说，主成分分析是指在研究一项变量较多的课题时，将这些变量通过线性变换而简化为几个重要变量的一种多元统计分析方法。而在数据分析领域，主成分分析的主要作用是对大规模的数据集进行分析与简化。其主要体现在降低数据集的维数，同时尽可能保持数据集中的对所研究的问题最有价值的特征。简而言之，就是保留低阶主成分，忽略高阶主成分。其具体方法是通过对协方差矩阵进行特征分解，从而得出数据的特征向量与特征值。主成分分析在数学上可以理解为一个正交化的线性变换，把数据整体变换到一个新的坐标系中，使得这一数据的任何投影的第一大方差在第一主成分上，第二大方差在第二主成分上，依次类推。

3.4决策树学习

从广义上讲&#