pca的最大方差理论解释

最新推荐文章于 2024-07-10 09:13:03 发布

五四三两幺-发射!

最新推荐文章于 2024-07-10 09:13:03 发布

阅读量9.8k

点赞数 4

分类专栏：机器学习文章标签： PCA 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ying86615791/article/details/72927902

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

写这个主要为了自己理解，内容都是参考博文：

http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.html

一、数据预处理：

去均值化，使得样本数据的均值为0

方差归一化，保证每个特征的维度尺度近似（可以看出这里求方差没有减去均值，因为经过去均值化后，均值已经为0了）

其中

是样例，共m个，每个样例有n维特征，也就是说

是n维列向量。

是第i个样例的第j个特征。

是样例均值。

是第j个特征的标准差。

二、最大方差理论：

在信号处理中认为信号具有较大的方差，噪声有较小的方差，信噪比就是信号与噪声的方差比，越大越好。

关于向量在某个方向投影的计算：

红点是样本，蓝点是在u方向上（这里u的模为1，是单位向量）的投影，则投影后的点离原点的距离（投影后向量的模）就是样本点和u的内积。

为什么投影后向量的模是它们的内积？考虑cos距离的计算：

现在，我们希望找到一个方向，使得数据在这个方向上的投影的方差最大。

由于样本点的均值为0（显然，其每一维特征的均值也为0），所以投影后的样本点均值还是0（相当于乘以相同的系数），因此方差为：

中间那部分就是样本特征的协方差矩阵（注意样本均值为0，所以不用减均值了，样本是n维列向量，得到的其实是nxn维的矩阵，一般方差计算是除以m-1，这里用的是m），关于协方差矩阵计算可以看这

用

表示要求的方差，

表示中间的协方差矩阵，那么上式就变成了

（写错了，应该是u）

由于u是单位向量，两边都左乘u，得到：

（写错了，应该是u）

可以看出，要求的方差

就是协方差矩阵

的特征值，而最优的方向u就是最大特征值（最大方差）对应的特征向量了

所以，只需要对协方差矩阵进行特征值分解，前k大的特征值对应的特征向量就是最佳的投影方向，而且是相互正交的。得到k个方向后，就可以通过以下变换得到投影后 k维的新的样本：

写这个主要为了自己理解，内容都是参考博文：

http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.html

五四三两幺-发射!

关注

4
点赞
踩
20

收藏

觉得还不错? 一键收藏
6
评论
pca的最大方差理论解释

写这个主要为了自己理解，内容都是参考博文：http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.html一、数据预处理：去均值化，使得样本数据的均值为0方差归一化，保证每个特征的维度尺度近似（可以看出这里求方差没有减去均值，因为经过去均值化后，均值已经为0了）其中是样例，共m个，每个样例有n维
复制链接

扫一扫

专栏目录

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。