主成分分析(Principal component analysis, PCA),常用的无监督学习方法。
下文截图来自:《统计学习方法 第2版 》李航
PCA利用正交变换把由线性相关的变量表示的观测数据转换为少数几个由线性无关变量表示的数据,线性无关的变量称为主成分。主成分个数常小于原始变量个数,so 是一种降维方法。
作用:
1.主要用于发现数据中的基本结构,即数据中变量之间的关系。
2.也会用在其他机器学习方法的前处理中。
下面主要讲解样本主成分分析的2种算法,对于样本主成分分析的定义与性质这里不作过多讲解。
1.相关矩阵的特征值分解算法
传统的PCA通过数据的协方差矩阵或相关矩阵的特征值分解进行。
在做PCA前,为消除各变量量纲的影响。通常要对数据进行规范化处理,使各变量的均值为0,方差为1.
Why 规范化后的协方差矩阵S就是样本相关矩阵R?
直接附上书的截图,(书上有的东西就不敲了):
2.数据矩阵的奇异值分解算法
现在常用的方法是通过数据矩阵的奇异值分解进行。
看完上面也许你会有个疑问:Why矩阵V的前k列就构成了k个样本主成分了,what txx fxxx?
莫慌,下面作出解释:
xdjm们,结束了,bye~