主成分分析PCA学习(部分公式不理解,矩阵求导知识)

主成分分析(PCA)是一种常用的数据降维方法,通过找到数据方差最大的方向作为新的坐标轴,实现数据的压缩。PCA首先计算数据的中心坐标,然后寻找投影方差最大的方向,这可以通过特征值分解解决。特征值反映了每个主成分包含的信息量,选择最大的几个特征值对应的主成分即可保留大部分信息。
摘要由CSDN通过智能技术生成

主成分分析(PCA)的原理和简单推导_哔哩哔哩_bilibili参考学习视频:

主要思路

        找到一个新的坐标系,使数据降维后的损失最小;通过找数据分布最分散的方向(方差最大)作为主成分(坐标轴)

步骤与实例

数据来源:

Data_{1}\left ( x \right )10118321
Data_{2}\left ( y \right )64532.81

 可以将数据表示在一个二维的坐标系中,计算这些点的中心坐标作为新的坐标原点

D_{1mean} = 5.83       D_{2mean} = 3.63 

相应的所有点的坐标都发生了变化。这时候需要找到一个方向,使得所有坐标点在这个方向上的投影分散的最开,即方差最大的方向,如图所示:

 如何求这个分散的最开的方向呢?利用方差来计算,方差表示数据的分散程度

s^{2}\left ( X \right ) = \frac{\sum_{i=1}^{n}\left (X_{i}- \overline{X}\right)^{2}}{n - 1}  计算可得

s^{2}\left ( D_{1} \right ) = 18.97     s^{2}\left ( D_{2} \right ) = 3.13   很容易的发现二者存在相关关系,引入协方差

 其中A表示将中心移至原点后的原始数据矩阵  

 

  

 

 V代表单位向量,S表示向量a在单位向量上的投影。这时候分散最开的方向可以理解为:所有点在某一方向上投影至中心距离方差最大的方向!

使用拉格朗日乘数法求最值

随后对整个方程进行求导(矩阵求导?矩阵论?),对于得到的结果C一定是对称矩阵(方阵),故对C做特征值分解EVD,得到相互独立的特征向量V1,V2,将V1作为PC1,V2作为PC2构建坐标系

 此时分析特征值,由于V是单位向量。可以发现:某一主成分方向上投影的方差,就是相应的特征值λ,这就是特征值得几何意义。

这里关于s^{2}公式不太理解

 最后计算主成分1,2所保存的信息量百分比,保留较大的一个即可。

总结

主成分分析的本质:向量换基。

主成分分析同归对投影距离方差的运用将降维问题转化成了求最值问题。

 

 

        

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值