1.数据降维与主成分分析PCA
主成分分析(principal component analysis,PCA)是一种常用的无监督学习方法,利用正交变换把线性相关变量表示的观测数据转换为少数几个由线性无关变量表示的数据,线性无关的变量称为主成分。
1.1 基本思想
后续持续补充,码公式不易!
1.2 PCA算法
- 总结PCA算法步骤:
设有m条n维数据- 将原始数据按列组成n行m列矩阵 X X X
- 将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值
- 求出协方差矩阵 C = 1 m X X T C={1\over m} XX^T C=m1XXT
- 求出协方差矩阵的特征值及对应的特征向量
- 将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P
- Y = P X Y=PX Y=PX即为降维到k维后的数据