主成分分析
主成分分析( Principal component analysis, PCA ), 是将一个可能存在相关性的变量集,通过适当的正交变换( Orthogonal transformation ), 变成线性无关的新变量,称这些新变量为主成分( Principal components ). 主成分的个数不超过原始变量个数。正交变换要满足:使第一主成分具有最大的方差,即,它代表最大的原始数据变异度。之后的主成分与前面的主成分正交,且具有最大方差。
主成分经常使用在探索性数据分析。通常,在对数据矩阵作中心化后,使用数据矩阵的协方差阵的特征值分解( Eigenvalue decomposition )或数据矩阵的奇异值分解( Singular value decomposition )来求主成分。
主成分的求法
特征值分解
总体的主成分
- 主成分的定义
设 X=(X1,X2,…,Xp)′ 是 p 维随机向量,均值
(1) α′iαi=1 ;
(2) 当 i>1 时, α′iΣαj=0(j=1,2,…,i−1) ;
(3) Var(Zi)=maxα′α=1,α′Σαj=0Var(α′X) .
从代数学观点看,主成分就是 p 个原始变量的某些线性变换。从几何上看,这些线性变换正是把由
- 主成分的求法
设协方差阵 Σ 是非负定的,那么它的全部特征值依次为 λ1≥λ2≥⋯≥λp≥0 ,
α1,α2,…,αp 为相应的单位正交特征向量,则 X 的第 i 主成分为