PCA原理

最新推荐文章于 2021-11-08 22:01:34 发布

YWQ1995

最新推荐文章于 2021-11-08 22:01:34 发布

阅读量417

点赞数 1

分类专栏： pca

pca 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

原文：http://blog.csdn.net/guyuealian/article/details/68487833

  0维-PCA：将所有样本信息都投影到一个点，因此无法反应样本之间的差异；要想用一个点来尽可能的表示所有样本数据，则这个点必定是样本的均值。
  1维-PCA：相当于将所有样本信息向样本均值的直线投影；
  2维-PCA：将样本的平面分布看作椭圆形分布，求出椭圆形的长短轴方向，然后将样本信息投影到这两条长短轴方向上，就是二维PCA。（投影方向就是平面上椭圆的长短轴方向）；
  3维-PCA：样本的平面分布看作椭圆形分布，投影方法分别是椭圆球的赤道半径a和b，以及是极半径c（沿着z轴）；

PCA简而言之就是根据输入数据的分布给输入数据重新找到更能描述这组数据的正交的坐标轴，比如下面一幅图，对于那个椭圆状的分布，最方便表示这个分布的坐标轴肯定是椭圆的长轴短轴而不是原来的x ，y轴。
在这里插入图片描述

那么如何求出这个长轴和短轴呢？于是线性代数就来了：我们需要先求出这堆样本数据的协方差矩阵，然后再求出这个协方差矩阵的特征值和特征向量，对应最大特征值的那个特征向量的方向就是长轴(也就是主元)的方向，次大特征值的就是第二主元的方向，以此类推。

自己编程实现PCA:

PCA的算法过程，用一句话来说，就是“将所有样本X减去样本均值m，再乘以样本的协方差矩阵C的特征向量V，即为PCA主成分分析”，其计算过程如下：
[1].将原始数据按行组成ｍ行ｎ列样本矩阵X（每行一个样本，每列为一维特征）
[2].求出样本X的协方差矩阵C和样本均值m；（Matlab可使用cov()函数求样本的协方差矩阵C，均值用mean函数）
[3].求出协方差矩阵的特征值D及对应的特征向量V；（Matlab可使用eigs()函数求矩阵的特征值D和特征向量V）
[4].将特征向量按对应特征值大小从上到下按行排列成矩阵，取前k行组成矩阵P；（eigs()返回特征值构成的向量本身就是从大到小排序的）
[5].Y=(X-m)×P即为降维到k维后的数据；
PS：关于协方差矩阵，很多人有点郁闷，有些教程用协方差矩阵，而有些资料是用散步矩阵计算，其实协方差矩阵和散步矩阵就是一个倍数关系：协方差矩阵C×（n-1）=散步矩阵S。我们可以使用Matlab工具箱的cov函数求协方差矩阵C。

 ***%% MATLAB
[Row Col]=size(X);
covX=cov(X);                                    %求样本的协方差矩阵（散步矩阵除以(n-1)即为协方差矩阵）
[V D]=eigs(covX);                               %求协方差矩阵的特征值D和特征向量V
meanX=mean(X);                                  %样本均值m
%所有样本X减去样本均值m，再乘以协方差矩阵（散步矩阵）的特征向量V，即为样本的主成份SCORE
tempX= repmat(meanX,Row,1);
SCORE2=(X-tempX)*V                              %主成份：SCORE
pcaData2=SCORE2(:,1:k)
---------------------***