一 相关知识
均值、协方差矩阵:
- 样本均值 M=1N(X1+X2+⋯+XN)
- 中心化:
Xk∧=Xk−M
B=[X∧1X∧2⋯X∧N] - 样本协方差: S=1N−1BBT
二 主成分分析(PCA)
2.1 概述
原理分析
主成分分析是一种通过降维技术把多个变量化为重新组合成少数几个互不相关的主成分(即综合变量)的统计分析方法。这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量线性组合。
⎡⎣⎢⎢⎢⎢F1F2⋮Fm⎤⎦⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢⎢a11a21⋮am1a12a22am2⋯⋱⋯a1pa2pamp⎤⎦⎥⎥⎥⎥⎥⎡⎣⎢⎢⎢⎢X1X2⋮Xm⎤⎦⎥⎥⎥⎥ (1)
而且主成份的信息量要尽量大,即其方差要尽可能大
通过上述分析,主成份分析有以下几个特点:
- 主成分个数远远少于原有变量的个数: m≤p
- 主成分之间应该互不相关: cov(FiFj)=0
- 主成分能够反映原有变量的绝大部分信息
即 var(Fi) 要尽可能大 - 主成分具有命名解释性
因为 Fi=[ai1ai2⋯aip]⎡⎣⎢⎢⎢⎢X1X2⋮Xp⎤⎦⎥⎥⎥⎥=ai∙X→ ,所以
var(Fi)=var(ai∙X→)=ai∙∑aTi∙
其中 ∑ 为 X→ 的协方差矩 1
根据二次型的条件优化的相关定理2,原变量协方差矩阵的特征根是主成分的方差,所以前m个较大特征根就代表前m个较大的主成分方差值
所以有
var(Fi)=λi
,其中
λi
为协方差矩[的第
i
个特征值
主成分分析的一般目的
- 1.变量的降维
- 2.主成分的解释
计算步骤:
1、计算协方差矩阵
2.求上述矩阵的特征值和特征向量,可以得到以下等式
⎡⎣⎢⎢⎢⎢F1F2⋮Fp⎤⎦⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢⎢eT1eT2⋮eTp⎤⎦⎥⎥⎥⎥⎥⎡⎣⎢⎢⎢⎢x1x2⋮xp⎤⎦⎥⎥⎥⎥
其中
ei⋅
为特征向量
ei⋅=⎡⎣⎢⎢⎢⎢ei,1ei,2⋅⋅⋅ei,p⎤⎦⎥⎥⎥⎥
根据累计贡献率 G(m)=∑1mλi/∑1pλk ,取累计贡献率大于85%对应的m值;
计算主成份负荷 ρ(Fi,Xj)=λi−−√eij/Si−−√ ,其中 Si 为随机变不了 Xj 的样本方差
证明:
因为
⎡⎣⎢⎢⎢⎢F1F2⋮Fp⎤⎦⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢⎢eT1eT2⋮eTp⎤⎦⎥⎥⎥⎥⎥⎡⎣⎢⎢⎢⎢x1x2⋮xp⎤⎦⎥⎥⎥⎥
为 F=UTX ,因为 U 为标准正交矩阵,所以
因为 Fi 之间相互独立,则 cov(Fi,Fj)=0,i≠j
所以 cov(Fi,Xj)=cov(Fi,e1jF1+e2jF2+⋅⋅⋅+epjFp)=cov(Fi,eijFi)=eij⋅cov(Fi,Fi)=λi⋅eji
所以主成份负荷
ρ(Fi,Xj)=cov(Fi,Xj)/{var(Fi)var(Xj)−−−−−−−−−−−√}=λi−−√eij/Si−−√