一、介绍
PCA(PrincipalComponents Analysis)即主成分分析,常用于对多变量(变量之间具有相关性时)降维的方法,由于各变量之间存在一定的相关关系,因此可以考虑将关系紧密的变量变成尽可能少的新变量,使这些新变量是两两不相关的,将各个变量综合为少数若干个有代表性的变量。怎样衡量有代表性的变量(特征)?(学术——工业:变量——特征)
- 能代表原始特征的绝大部分信息
- 组合后的特征互不相关
例如:图像识别中,设想如果一幅图像有300个特征点,每个特征点又有一个相应的描述该特征点的128维的向量,那么该幅图像就有300*vector(128维)个,那么整个图像识别模型的训练的复杂度相当高。如果我们对每个向量进行PCA处理,将其降维为64维,整个处理的复杂度便会大大降低。但是,很多人不知道具体的原理,现在结合具体的案例从推导到应用来理解PCA。
二、原理
2.1 统计学的一些性质
期望的性质
- E(kx) = kE(x)
- E(x+y) = E(x) + E(y)
若x和y相互独立:E(xy) = E(x)E(y);若E(xy) = E(x)E(y),不能推出x,y相互独立,只能说x,y不相关。
协方差
- Cov(x,y) = E(xy) - E(x)E(y)
当 cov(X, Y)>0时,表明 X与Y 正相关;
当 cov(X, Y)<0时,表明X与Y负相关;
当 cov(X, Y)=0时,表明X与Y不相关。
向量夹角与协方差
n维向量x和y的夹角记作,根据余弦定理,其余弦值为:
这两个向量的相关系数为: