应用机器学习(九):主成分分析

主成分分析(PCA)是一种通过正交变换将相关变量转化为线性无关的主成分的统计方法,常用于数据降维。PCA可通过特征值分解或奇异值分解求解,选择主成分个数要考虑累积贡献率和平均特征值。文章通过美国法官评分的实例展示了PCA的应用。
摘要由CSDN通过智能技术生成

主成分分析

主成分分析( Principal component analysis, PCA ), 是将一个可能存在相关性的变量集,通过适当的正交变换( Orthogonal transformation ), 变成线性无关的新变量,称这些新变量为主成分( Principal components ). 主成分的个数不超过原始变量个数。正交变换要满足:使第一主成分具有最大的方差,即,它代表最大的原始数据变异度。之后的主成分与前面的主成分正交,且具有最大方差。
主成分经常使用在探索性数据分析。通常,在对数据矩阵作中心化后,使用数据矩阵的协方差阵的特征值分解( Eigenvalue decomposition )或数据矩阵的奇异值分解( Singular value decomposition )来求主成分。

主成分的求法

特征值分解

总体的主成分
  • 主成分的定义

X=(X1,X2,,Xp) p 维随机向量,均值 E(X)=μ , 协方差阵 Σ . 称 Zi=αiX X 的第 i 主成分( i=1,2,,p ), 如果满足:

(1) αiαi=1 ;

(2) 当 i>1 时, αiΣαj=0(j=1,2,,i1) ;

(3) Var(Zi)=maxαα=1,αΣαj=0Var(αX) .

从代数学观点看,主成分就是 p 个原始变量的某些线性变换。从几何上看,这些线性变换正是把由 X1,X2,,Xp 构成的坐标系经旋转产生新的坐标系,新坐标轴具有最大的样本方差。

  • 主成分的求法

设协方差阵 Σ 是非负定的,那么它的全部特征值依次为 λ1λ2λp0 ,
α1,α2,,αp 为相应的单位正交特征向量,则 X 的第 i 主成分为

Zi=α
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值