PCA主成分分析-从五个点说起-最大方差法

PCA(Principal Components Analysis,主成分分析)是降维规约技术中的常用方法。目的:找出一个更好捕获数据变异性的,新的维(属性)集合。或者说,所选取的第一维要尽可能的多获取数据的变异性。第二维与第一个正交,并且尽可能地多捕获剩余的变异性,如此下去。

PCA主成分分析-从五个点说起(代码为R)

现有如下五个点:
在这里插入图片描述
为了便于计算方差和写方差,将原点移动至中心点,此时的绝对距离是不变的。X1,X2的均值均为6,移动后坐标如下:
在这里插入图片描述
计算得到的x1,x2坐标轴下的方差协方差如下:
在这里插入图片描述
此时x1和x2的方差相差不大。x1的方差+x2的方差=18.8,也就是总投影长度。

计算方差写方差矩阵的特征根和特征向量。
在这里插入图片描述
value的为特征根,即方差,第一个主成分的方差为16.027217,第二个为2.772783。加起来和变换前的方差一致。第一个主成分占了85.25%的贡献率。vectors为特征向量。

计算新坐标:原坐标*特征向量。

从最大方差法解释:

问:为什么一开始可以用方差协方差矩阵计算?
PCA算法的优化目标就是: ① 降维后同一纬度的方差最大② 不同维度之间的相关性为0。根据线性代数,我们可以知道同一元素的协方差就表示该元素的方差,不同元素之间的协方差就表示它们的相关性。因此这两个优化目标可以用协方差矩阵来表示。

投影的概念:
在这里插入图片描述
红色点表示样例x(i),蓝色点表示x(i)在u上的投影,u是直线的斜率也是直线的方向向量,而且是单位向量。蓝色点是x(i)在u上的投影点,离原点的距离是<x(i),u>。由于这些样本点(样例)的每一维特征均值都为0,因此投影到u上的样本点(只有一个到原点的距离值)的均值仍然是0。我们要求的是最佳的u,使得投影后的样本点方差最大。
由于投影后均值为0,因此方差为:在这里插入图片描述
中间部分就是样本特征的协方差矩阵(x(i)的均值为0,一般协方差矩阵都除以m-1,这里用m)。
令:
在这里插入图片描述
在这里插入图片描述
上式可以写成:
在这里插入图片描述
u是单位向量,其内积为1,上式两边左乘u得:
在这里插入图片描述
即u是特征向量,最佳投影直接是特征值最大时对应的特征向量,其次是第二对应的特征向量,以此类推。因此只要对协方差矩阵进行特征值分解,可以通过选取前k个特征值对应的特征向量就是最佳的k维新特征,且k维新特征是正交的。

最大方差法解释的参考链接: https://blog.csdn.net/huang1024rui/article/details/46662195

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值