深入理解主成分分析(PCA)

最新推荐文章于 2022-09-07 08:12:55 发布

cyzhou1221

最新推荐文章于 2022-09-07 08:12:55 发布

阅读量2.2k

点赞数 6

分类专栏：数学园地文章标签：主成分分析数据分析机器学习

本文链接：https://blog.csdn.net/zhouchangyu1221/article/details/104098589

版权

主成分分析:

在这里插入图片描述

PCA 的定义方式有很多，其中最常见的有三个：
其一，PCA 可以理解为降维法，在保留尽可能多的离散程度信息的基础上减少变量的个数，消除变量之间的线性相关性；
其二，PCA 可以理解为向其他方向上的正交投影，使得投影点的方差最大(Hotelling,1933)；
其三，它也可以理解为正交投影，使得复原损失最小，这一损失通过数据点与估计点间平方距离的平均值来刻画(Pearson,1901).

下面我们分别考虑这三种定义方式.

1. 降维法

这里的"维"指的便是变量的个数，在记录数据时，例如采集一个人的信息，需要收集其身高、体重、胸围等数据，这里的身高、体重和胸围即是"变量"；每个人的数据，例如(173(cm), 65(kg), 887(mm))，称为一个样本，或数据点.
PCA 可以这么理解：一方面，在保留尽可能多的离散程度信息的情况下减少变量的个数；另一方面，消除变量之间的线性相关性(在上述例子中，身高、体重、胸围之间显然具有某种正相关性). 至于为什么要这样做，这就涉及到 PCA 的来历，可参见：A Tutorial on Principal Component Analysis(译).

离散程度信息可以通过变量的方差来刻画，方差越大，含有的信息越多；
变量的线性相关性可以通过协方差的绝对值来刻画，绝对值越大，相关性越强，协方差为零时线性无关；

PCA 的思路是，对原有变量进行线性组合得到新变量，使得新变量的方差尽可能大，不同变量间的协方差为零.

下面来看详细推导过程：
设 $\small X$ 为 $m$ 维随机变量， $X=\begin{pmatrix}x_1\\x_2\\\vdots\\x_m\end{pmatrix}$ 对其作变换如下： $P X = Y$ 其中 $\small P$ 为方阵， $P=(p_{ij})_{m\times m}=\begin{bmatrix}p_1^T\\p_2^T\\ \vdots \\p_m^T\end{bmatrix}$ 则 $\begin{bmatrix}y_1\\ y_2\\ \vdots \\ y_m\end{bmatrix}=Y=PX=\begin{bmatrix}p_{11}x_1+p_{12}x_2+\cdots+p_{1m}x_m \\ p_{21}x_1+p_{22}x_2+\cdots+p_{2m}x_m \\ \vdots \\ p_{m1}x_1+p_{m2}x_2+\cdots+p_{mm}x_m \end{bmatrix}=\begin{bmatrix}p_1^TX\\p_2^TX\\ \vdots \\p_m^TX\end{bmatrix}$ 可以看到，新变量 $y_i$ 是原变量的线性组合.
$\begin{aligned}Var(y_i)&=E[y_i-E(y_i)]^2\\&=E[(p_i^TX-E(p_i^TX))(p_i^TX-E(p_i^TX))^T]\\&=p_i^TE[(X-E(X))(X-E(X))^T]p_i\\&=p_i^TC_Xp_i\\Cov(y_i,y_j)&=p_i^TC_Xp_j,\,\,i,j=1,2,\cdots,m\end{aligned}$ 要使 $\small Var(y_i)$ 尽可能地大，这一点很容易做到，只需按比例缩放 $p_i$ 即可. 不过这样做没有什么意义，也不是我们想要的，因此需要对 $p_i$ 做些限制：设 $p_i$ 为单位向量，即 $\small \Vert p_i \Vert^2=p_i^Tp_i=1$ . 我们的目标是合理选择 $p_i$ ，使得 $\small Var(y_i)$ 尽量地大，同时满足 $\small Cov(y_i,y_j)=0,i\neq j$ .
先做些准备工作，因为 $\small C_X$ 是实对称矩阵且正定，所以其特征值均为正数，且存在某正交矩阵 $\small U$ ，使得 $\small U^TC_XU=D,\,\,D=diag(\lambda_1,\lambda_2,\cdots,\lambda_m)$ ，其中 $\lambda_1\geq\lambda_2\geq\cdots\geq\lambda_m>0,\,\, U=(u_1\,u_2\,\cdots\,u_m),\,\, u_i$ 为 $\lambda_i$ 的特征向量. 所以 $\small C_X$ 可以表示为 $C_X=UDU^T$ 首先，要使 $\small Var(y_1)$ 尽可能地大，
$Var(y_1)=p_1^TC_Xp_1=p_1^TUDU^Tp_1$ 记 $z_1=U^Tp_1=(z_{11},z_{12},\cdots,z_{1m})^T$