主成分分析几何理解与推导

多变量可能存在信息的重叠,人们希望通过克服相关性、重叠性,用较少的变量来代替原来较多的变量,而这种代替可以反映原来多个变量的大部分信息,即“降维”的思想。
一、几何理解
我们从几何上出发进行推导。
PCA从几何上看,就是将高维空间的数据正交投影到低维子空间,同时保留尽可能多的信息。
首先来看二维的情况,我们有以下已经中心化的数据(中心化不改变数据的相对位置,且便于后续处理计算)。
在这里插入图片描述
我们尝试为其拟合一条线,首先绘制一条穿过原点的随机线:
在这里插入图片描述
然后旋转线,使它尽可能的拟合数据,最终得到拟合最好的线:
在这里插入图片描述
PCA如何判别这种拟合度的高低?
PCA将数据投影到该线上,然后测量数据到线的距离,尝试找到距离最小的拟合线。
同时也可以发现,数据到线的距离最小,也就是投影点到原点的距离最大。我们可以使用勾股定理来理解这两种方法的等价:
在这里插入图片描述在这里插入图片描述
如图所示,数据到原点的距离不变,即a不变,由a2=b2+c2有b与c此消彼长。因此,数据点到拟合线的投影长度越小,投影点到原点的距离最大。
由以上可以推广得到,PCA要使得降维后的数据与原数据拟合最好,即保留最多的信息,需要具有这样的性质:
(1)最近重构性:样本点到这个超平面的距离足够近
(2)最大可分性:样本点在这个超平面的投影尽可能分开
相应的PCA的推导有两个方向:(1)最小化降维造成的损失(2)最大方差。这两者是等价的,从上面的二维情况我们可以理解到,从后面的推导也可以看出。
二、最大化方差
最大化方差即使投影后的方差最大
在这里插入图片描述
假定数据为
在这里插入图片描述
且均值为0(即将数据已进行中心化处理)
在这里插入图片描述
1.内积的定义
在这里插入图片描述
2.正投影向量
在这里插入图片描述
即正投影长度乘单位向量为投影向量。
若v为单位向量,即长度为1,则有
在这里插入图片描述
若将v向量所在方向当作新的坐标轴,xj投影后的坐标就是内积:
在这里插入图片描述
在这里插入图片描述
3.推导
由上面的推导有,数据在经过投影后坐标为:
在这里插入图片描述
投影后的方差即为:
在这里插入图片描述
可以看到,S为样本协方差。因此得到第一主成分就是要找:
在这里插入图片描述
使用拉格朗日乘子法有:
在这里插入图片描述
因此优化目标即为:
在这里插入图片描述
由上述推导可看出lambda即为S的特征值,v为对应的单位化特征向量。此时,
在这里插入图片描述
因此,投影方向的方差,也就是特征值的大小,要使投影后的方差最大,投影方向应为最大特征值对应的特征向量的方向,这就是第一主成分的方向。因为S是实对称矩阵,不同特征值所对应的特征向量之间两两正交,因此,第二主成分方向即为S的第二大特征值所对应的特征向量的方向,以此类推。
三、最小化降维损失
将高维(d维)数据投影到低维(d prime)子空间,
假定投影变换后的标准正交基为:
在这里插入图片描述
则投影到低维空间上的数据一定可以由这一组基表示:
在这里插入图片描述在这里插入图片描述
其中,
在这里插入图片描述
为在低维坐标系中的坐标。使xi在低维坐标系下第j维的坐标。
在这里插入图片描述
是xi在低维坐标系下第j维的坐标。
又因为wi为标准正交基向量,所以有

在这里插入图片描述
因此要使降维后的损失最小:

在这里插入图片描述

其中,
在这里插入图片描述
在这里插入图片描述
因此优化目标即为:

在这里插入图片描述
或者:
在这里插入图片描述
求解方法与结果最大方差法相同。

  • 5
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值