1.基本思想
PCA方法是从一组特征中通过求解最优的正交变换,得到一组相互间方差最大的新特征,它们是原始特征的线性组合,且相互之间是不相关的,再对新特征进行重要性排序,选取前几个主成分。
2.具体过程
首先,定义样本和特征,假定有m个样本,每个样本有n个特征,可表示如下:
降维过程其实就是寻找一个或多个向量u1,u2,…,un,使得这些向量构成一个新的向量空间,然后把需要降维的样本映射到这个新的样本空间上。PCA特征提取就是将这些向量根据特征值大小进行从大到小的排序,提取前k个特征,组合成一个向量空间,从而降低特征维数。具体计算如下:
先计算样本的协方差矩阵
再对协方差矩阵进行特征值分解,得到特征值