主成分分析:步骤、应用及代码实现。
主成分分析(Principal Component Analysis)算法步骤:
设有 m 条 n 维数据:
- 将原始数据按列组成 n 行 m 列矩阵 X
- 将 X 的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值
- 求出协方差矩阵 C = 1 m X X T C=\frac{1}{m}XX^{T} C=m1XXT
- 求出协方差矩阵的特征值及对应的特征向量
- 将特征向量按对应特征值大小从上到下按行排列成矩阵,取前 k 行组成矩阵 P
- Y=PX 即为降维到 k 维后的数据
具体原理及步骤可以参考《机器学习实战》之十三——利用PCA来简化数据
这篇介绍十分详尽,是唯一一份我每一步推导都能看懂的对于 PCA 原理的讲解)
实际上,