pca数学细节(特征值最大)的形象理解

针对pca中数学计算中的细节来说,为什么我们选择特征值最大的呢?我有如下理解:
想象一下,你在一家建筑公司工作,而你的任务是检查建筑结构的稳定性。一种方法是用力推动建筑的各个部分,看它们是如何移动的。大多数时候,当你推动它们时,建筑物会以复杂的方式移动,可能是旋转,也可能是向各个方向弯曲。但可能有某些特殊的方向,你推的时候,建筑物仅仅是沿着你推的那个方向直线移动,而不是旋转或弯曲。这个方向就是建筑物的一个“特征方向”,而你需要用来推动建筑物以使其沿这个方向移动的力的大小就是这个方向的“特征值”。

你施加的力越大,说明越靠近使得物体不稳定的力的临界水平,(假设施加无限大的力一定会使得建筑不稳定),也就是说 这个力最能完全的反应物体的稳定程度;
类比pca中,特征值越大,越能反应数据集的根本性质

在PCA中,我们的目标是识别数据中的主要变化方向,这些方向捕获了数据的最大变异性。在你的建筑比喻中,最大的“推力”或特征值对应于数据变化最显著的方向。这就是为什么我们在PCA中选择最大特征值的原因:

  1. 方差最大化:在PCA中,特征值代表了数据在对应特征向量方向上的方差。特征值越大,意味着在该方向上数据的分布越广,因此能够捕捉更多的信息。
  2. 数据压缩:当你想要减少数据的维数,而又希望保留尽可能多的信息时,选择特征值最大的特征向量可以确保你丢弃的信息最少。
  3. 噪声过滤:在实际数据分析中,较小的特征值经常与噪声相关联。通过选取较大的特征值,PCA可以帮助我们过滤掉噪声,保留更纯净的信号。

在建筑比喻中,如果建筑在某个方向上需要很大的力才能移动,那么这个方向就是结构上最稳定的方向,也就是最能反映建筑整体性质的方向。类似地,在PCA中,我们通过找到数据在哪个方向上变化最大(也就是最大特征值对应的方向),来识别数据集的主要特性。这样,即使我们只看这些主要成分,也能得到关于整个数据集的一个很好的概括。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值