机器学习系列手记(四):降维之PCA最大方差理论

PCA(主成分分析)是机器学习中的线性降维方法,旨在最大化投影方差以提取数据的主要特征。通过中心化、求协方差矩阵、特征值分解,找到最大方差对应的特征向量作为主成分,实现数据降维。PCA适用于高维数据处理,减少冗余特征,简化模型复杂度。此外,PCA还可扩展为非线性的核主成分分析(KPCA)。
摘要由CSDN通过智能技术生成

降维

      在机器学习中,数据通常需要被表示成向量形式以输入模型进行训练,有时这些向量所处在高维空间,包含很多冗余和噪声,对这样的向量进行处理和分析会极大地消耗系统资源,甚至产生维度灾难。因此,进行降维,即用一个低维度的向量表示原始高维度的特征就显得极其重要。我们希望通过降维的方式来寻找数据内部的特性,从而提升特征表达能力,降低训练复杂度。常见的降维方法有主成分分析、线性判别分析、等距映射、局部线性嵌入、拉普拉斯特征映射、局部保留投影等。

一 PCA最大方差理论

      PCA(Principal Components Analysis),即主成分分析,是一种线性、非监督、全局的降维算法,旨在找到数据中的主成分,并利用这些主成分表征原始数据,从而达到降维的目的。

1、如何定义主成分

      举个简单的例子,在三维空间中有一系列数据点,这些点分布在一个过原点的平面上。如果用自然坐标系 x , y , z x,y,z x,y,z三个轴来表示数据,就需要使用三个维度。而实际上,这些点只出现在一个二维平面上,如果通过坐标系旋转变换使得数据所在平面与 x , y x,y x,y平面重合,那么就可以通过 x ′ , y ′ x',y' x,y两个维度表达原始数据,且没有任何损失,这样就完成了降维,而 x ′ , y ′ x',y' x,y两个轴所包含的信息就是我们要的主成分。

2、如何设计目标函数使得降维达到提取主成分的目的

      下图(a)所示为二维空间中经过中心化的一组数据,可以很容易看出主成分所在的轴(以下简称主轴)是图(b)中的黄线所处的轴。因为黄线所处的轴上数据分布更为分散,也就意味着数据在这个方向上方差更大。
在这里插入图片描述
在这里插入图片描述
      在信号处理领域,我们认为信号具有较大方差,噪声具有较小方差,信号与噪声之比称为信噪比。信噪比越大意味着数据质量越好,反之亦然。由此我们可以引出PCA的目标,即最大化投影方差,也就是数据在主轴上投影的方差最大。

3、PCA的求解方法

      (1)对样本数据进行中心化处理(即去均值)。
      (2)求样本协方差矩阵。
      (3)对协方差矩阵进行特征值分解,将特征值从大到小排列。
      (4)取特征值前 d d d大对应的特征向量 w 1 , w 2 , . . . , w d w_1,w_2,...,w_d w1,w2,...,wd,通过以下映射将 n n n维样本映射到 d d d
在这里插入图片描述
      新的 x i ′ x_i^{'} xi的第 d d d维就是 x i x_i

  • 2
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值