pca的最大方差理论解释


写这个主要为了自己理解,内容都是参考博文:
http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.html

一、数据预处理:

去均值化,使得样本数据的均值为0
方差归一化,保证每个特征的维度尺度近似(可以看出这里求方差没有减去均值,因为经过去均值化后,均值已经为0了)
其中 是样例,共m个,每个样例有n维特征,也就是说 是n维列向量。 是第i个样例的第j个特征。 是样例均值。 是第j个特征的标准差。



二、最大方差理论:
在信号处理中认为信号具有较大的方差,噪声有较小的方差,信噪比就是信号与噪声的方差比,越大越好。
关于向量在某个方向投影的计算:

红点是样本,蓝点是在u方向上(这里u的模为1,是单位向量)的投影,则投影后的点离原点的距离(投影后向量的模)就是样本点和u的内积。
为什么投影后向量的模是它们的内积?考虑cos距离的计算:

现在,我们希望找到一个方向,使得数据在这个方向上的投影的方差最大。
由于样本点的均值为0(显然,其每一维特征的均值也为0),所以投影后的样本点均值还是0(相当于乘以相同的系数),因此方差为:

中间那部分就是样本特征的协方差矩阵(注意样本均值为0,所以不用减均值了,样本是n维列向量,得到的其实是nxn维的矩阵,一般方差计算是除以m-1,这里用的是m), 关于协方差矩阵计算可以看这
表示要求的方差, 表示中间的协方差矩阵,那么上式就变成了 (写错了,应该是u)
由于u是单位向量,两边都左乘u,得到:
(写错了,应该是u)
可以看出,要求的方差 就是协方差矩阵 的特征值,而最优的方向u就是最大特征值(最大方差)对应的特征向量了
所以,只需要对协方差矩阵进行特征值分解,前k大的特征值对应的特征向量就是最佳的投影方向,而且是相互正交的。得到k个方向后,就可以通过以下变换得到投影后 k维的新的样本:

写这个主要为了自己理解,内容都是参考博文:
http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.html











  • 4
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值