PCA和核PCA

最新推荐文章于 2025-02-19 09:33:41 发布

原创最新推荐文章于 2025-02-19 09:33:41 发布 · 3.7k 阅读

10 ·

CC 4.0 BY-SA版权

machine-learning 专栏收录该内容

6 篇文章

订阅专栏

本文详细介绍了PCA（主成分分析）及其非线性扩展KPCA（核主成分分析）的基本原理与数学推导过程。PCA是一种常用的降维方法，特别适用于非监督学习中的小样本问题。而KPCA通过引入核技巧处理非线性问题，进一步扩大了PCA的应用范围。

PCA

当处理高维数据时，需要面临降维，进行特征抽取，PCA是特征抽取的主要方法之一，特征抽取即利用映射的方法，将高维度的样本映射至低维度。PCA适用于非监督的不带标签的样本降维，特别是小样本问题。广义认为，这类样本属性之间的相关性很大，通过映射，将高维样本向量映射成属性不相关的样本向量。实际上，大的特征值表征这个映射向量——或者映射方向，能够使样本在映射后，具有最大的方差。样本在这个方向最发散。通常情况下，有用信息具有较大的方差，噪声有较小的方差。

PCA推导

设有数据集 $X=[x_1,x_2,...,x_N]\in R^{d\times N}$
样本均值 $\mu=\frac{1}{N}\sum_{i=1}^N{x_i}$ ， $x_i\leftarrow x_i-\mu$ ，设中心化后的样本集为 $X=[x_1,x_2,...,x_N]\in R^{d\times N}$
PCA的目的是为了寻找一个投影方向，使数据集投影到新方向上时尽量散开，即有最大方差。
设投影方向为 $v$ （是 $d\times1$ 向量），则 $x_i$ 在 $v$ 方向上的表示为
$||x_i||\cos{\theta}\frac{v}{||v||}$ = $||x_i||\frac{<x_i,v>}{||x_i||||v||}\frac{v}{||v||}$ = $\frac{<x_i,v>}{||v||^2}v$ = $v^Tx_iv$
(设 $||v||=1$ ， $v^Tx_i$ 是一个数值，表示向量 $x_i$ 在 $v$ 方向上的投影长度)
则样本在方向 $v$ 上的坐标分别为 $v^Tx_1,v^Tx_2,...,v^Tx_N$ ，现要使它们尽量散开，即方差最大。
新坐标的方差： $\sigma^2$ = $\frac{1}{N}\sum_{i=1}^N{(v^Tx_i-0)}^2$ = $\frac{1}{N}\sum_{i=1}^N{(v^Tx_i)}{(v^Tx_i)}$ = $\frac{1}{N}\sum_{i=1}^N{(v^Tx_i)}{(v^Tx_i)}^T$ = $\frac{1}{N}\sum_{i=1}^Nv^Tx_ix_i^Tv$ = $\frac{1}{N}v^T\sum_{i=1}^Nx_ix_i^Tv$ （一个数）
令 $C$ = $\sum_{i=1}^Nx_ix_i^T$ = $[x_1,x_2,...,x_N]\begin{bmatrix}x_1^T\\ x_2^T\\ \vdots \\x_N^T\end{bmatrix}$ = $XX^T$ （ $d\times d$ 矩阵)
则 $\sigma^2$ = $\frac{1}{N}v^TCv$
原问题变为 $max$ $\sigma^2$ = $v^TCv$ $\$ $s.t$ $||v||^2=v^Tv=1$
用拉格朗日乘数法： $L(v,\lambda)$ = $v^TCv$ - $\lambda (v^Tv-1)$
$\frac{\partial L}{\partial v}$ = $2Cv-2\lambda v$ =0 $\Rightarrow$ $Cv=\lambda v$
$\frac{\partial L}{\partial v}$ = $1-v^T v$ =0 $\Rightarrow$ $v^Tv=1$
则 $\sigma^2$ = $v^TCv$ = $v^T\lambda v$ = $\lambda v^Tv$ = $\lambda$
$\therefore$ 所求方向 $v$ 即为样本协方差矩阵 $C$ 的最大特征值对应的单位特征向量
若要将样本降到 $k$ 维，则选出样本协方差矩阵 $C$ 的前 $k$ 个最大特征值对应的单位特征向量组成投影矩阵，将样本投影到 $k$ 维空间。

PCA步骤

1.特征中心化，即每个样本点减去均值
2.计算样本协方差矩阵
3.计算协方差矩阵的特征值和特征向量
4.选取若干个最大的特征值对应的特征向量作为投影矩阵，将原高维样本映射到低维空间

KPCA

PCA针对线性的情况效果比较好，但对于非线性的情况效果并不理想，为了更好的处理非线性数据，引入非线性映射函数 $\phi$ ，将原空间中的数据映射到高维空间，在这个高维空间中线性不可分的样本变得线性可分了，接着可再运用PCA思想了。

KPCA推导

设有数据集 $X=[x_1,x_2,...,x_N]\in R^{d\times N}$ ，设非线性映射函数 $\phi$ ， $\phi$ ： $R^d$ $\rightarrow$ $\mathcal{F}^D$ , $D\gg d$
将样本空间映射到高维特征空间得 $\Phi(X)$ = $[\phi(x_1),\phi(x_2),...,\phi(x_N)]$ $\in R^{D\times N}$
假设 $\Phi(X)$ 的均值为0，即 $\frac{1}{N}\sum_{i=1}^N\phi(x_i)=0$
设投影方向为 $V$ (是一个 $D\times 1$ 向量）,则由以上PCA的分析可知：样本 $\Phi(X)$ 在方向 $V$ 上的坐标为 $V^T\phi(x_1),V^T\phi(x_2),...,V^T\phi(x_N)$ ，
则问题转化为 $max$ $V^T\Phi(X)\Phi(X)^TV$ $\$ $s.t$ $||V||^2=V^TV=1$
我们现在的问题是要求 $\Phi(X)\Phi(X)^T$ （ $D\times D$ )的最大特征值对应的单位特征向量，但 $\Phi(X)$ 是未知的，要怎样解决现在的问题呢？
注意到核矩阵 $K=\begin{bmatrix}\phi(x_1)^T\phi(x_1)&\cdots&\phi(x_1)^T\phi(x_N)\\ \vdots&\ddots&\vdots\\\phi(x_N)^T\phi(x_1)&\cdots&\phi(x_N)^T\phi(x_N)\end{bmatrix}$
= $\begin{bmatrix}\phi(x_1)^T\\ \phi(x_2)^T\\ \vdots \\\phi(x_N)^T\end{bmatrix}$ $\begin{bmatrix}\phi(x_1)&\phi(x_2)\cdots \phi(x_N)\end{bmatrix}$ = $\Phi(X)^T\Phi(X)$ （ $N\times N$ )
设 $K\xi$ = $\lambda\xi$ ，即 $\Phi(X)^T\Phi(X)\xi$ = $\lambda\xi$ （设 $\xi$ 为单位特征向量）
两边同时左乘 $\Phi(X)$ 得 $\Phi(X)\Phi(X)^T\Phi(X)\xi$ = $\lambda\Phi(X)\xi$
即 $（\Phi(X)\Phi(X)^T）\Phi(X)\xi$ = $\lambda\Phi(X)\xi$
则所要求的投影方向为 $V$ = $\frac{\Phi(X)\xi}{||\Phi(X)\xi||}$ = $\frac{\Phi(X)\xi}{\sqrt{\xi^T\Phi(X)^T\Phi(X)\xi}}$ = $\frac{\Phi(X)\xi}{\sqrt{\xi^T\lambda\xi}}$ = $\frac{\Phi(X)\xi}{\sqrt{\lambda\xi^T\xi}}$ = $\frac{\Phi(X)\xi}{\sqrt{\lambda}}$
由于 $\Phi(X)$ 是未知的，故投影方向是求不出的。
$\Phi(X)$ 的投影坐标为 $V^T\Phi(X)$ = $\frac{\xi^T\Phi(X)^T\Phi(X)}{\sqrt{\lambda}}$ = $\frac{\xi^TK}{\sqrt{\lambda}}$ = $\frac{\xi^TK^T}{\sqrt{\lambda}}$ = $\frac{(K\xi)^T}{\sqrt{\lambda}}$ = $\frac{\lambda\xi^T}{\sqrt{\lambda}}$ = $\sqrt{\lambda}\xi^T$ . (即 $\Phi(X)$ 中每个向量的投影坐标的第一个分量即第一主成分）
若要将样本降到 $k$ 维，则选出样本协方差矩阵 $K$ 的前 $k$ 个最大特征值对应的单位特征向量 $\xi_1,\xi_2,...,\xi_k$ 组成投影矩阵 $\Xi$ ，可直接求出原样本在低维空间的坐标 $\begin{bmatrix}\sqrt{\lambda_1}\xi_1^T\\\sqrt{\lambda_2}\xi_2^T\\\vdots\\\sqrt{\lambda_k}\xi_k^T\end{bmatrix}$ 。

思考

上面假设 $\Phi(X)$ 的均值为0，若 $\Phi(X)$ 的均值不为0，则首先需要对 $\Phi(X)$ 进行中心化处理，令中心化处理后的样本为 $\Psi(X)$ = $[\psi(x_1),\psi(x_2),...,\psi(x_N)]$ ,其中 $\psi(x_i)$ = $\phi(x_i)$ - $\frac{1}{N}\sum_{k=1}^N\phi(x_k)$
问题转化为 $max$ $\tilde{V}^T\Psi(X)\Psi(X)^T\tilde{V}$ $\$ $s.t$ $||\tilde{V}||^2=\tilde{V}^T\tilde{V}=1$
和上面一样，这个问题的解是通过求 $\tilde{K}=\Psi(X)^T\Psi(X)$ 的特征值特征向量得到的。
下面来求 $\tilde{K}_{ij}$ :
$\tilde{K}_{ij}$ = $\psi(x_i)^T\psi(x_j)$
= $(\phi(x_i)-\frac{1}{N}\sum_{k=1}^N\phi(x_k))^T$ ( $\phi(x_j)$ - $\frac{1}{N}\sum_{l=1}^N\phi(x_l)$ )
= $\phi(x_i)^T\phi(x_j)$ - $\frac{1}{N}\sum_{k=1}^N\phi(x_k)^T\phi(x_j)$ - $\frac{1}{N}\sum_{l=1}^N\phi(x_i)^T\phi(x_l)$ + $\frac{1}{N^2}\sum_{k=1}^N\sum_{l=1}^N\phi(x_k)^T\phi(x_l)$
= $K_{ij}$ - $\frac{1}{N}\sum_{i=1}^NK_{ij}$ - $\frac{1}{N}\sum_{j=1}^NK_{ij}$ + $\frac{1}{N^2}\sum_{i=1}^N\sum_{j=1}^NK_{ij}$
设 $I$ 是每个元素都为1的 $N\times N$ 的矩阵，则 $KI$ 的第 $i$ 行每个元素为 $K$ 的第 $i$ 行元素之和，
即 $(KI)_{ij}$ = $\sum_{k=1}^NK_{ik}$ ， $j=1,2,...,N$
$IK$ 的第 $j$ 列每个元素为 $K$ 的第 $j$ 列元素之和，
即 $(IK)_{ij}$ = $\sum_{k=1}^NK_{kj}$ ， $i=1,2,...,N$
$IKI$ 的每个元素为 $K$ 的所有元素之和，即 $(IKI)_{ij}=\sum_{i=1}^N\sum_{j=1}^NK_{ij}$
$\therefore$ $\tilde K=K-\frac{1}{N}IK-\frac{1}{N}KI+\frac{1}{N^2}IKI$ = $(E-\frac{1}{N}I)K(E-\frac{1}{N}I)$
其中 $E$ 为 $N\times N$ 单位矩阵