PCA 算法 Principal Component Analysis的原理

bill bill

已于 2023-03-03 03:48:03 修改

阅读量158

点赞数

文章标签：算法机器学习人工智能

于 2023-03-03 03:46:23 首次发布

本文链接：https://blog.csdn.net/weixin_45895230/article/details/129301339

版权

PCA算法是什么

一种降维压缩算法，通过对表示数据的矩阵的eigenvector的重要性的排序，将不要的维度剔除的算法。

问题构建

我们有一组数据集 $\{x^{(1)},x^{(2)}....x^{(N)}\} \subset \mathbb{R}^D$
设置 $\mu$ 为这组数据的均值，i.e $\mu = \frac{1}{N}\sum_{i=1}^{N} x^{(i)}$
目标：找到一个K维的subspace(子空间) $\mathcal{S} \subset \mathbb{R}^{D}$ ，使得 $x^{n}-\mu$ ，即 $x^n$ 与 $\mu$ 的差，可以被很好的被其到S这个子空间的projection表示出来。

数学公式

使 $\{u_k\}^K_{k=1}$ 做为子空间S的orthonormal basis。注意这里每一个u只需要互相垂直就行了，不一定是(1,0,0,0,0),(0,0,0,0,1)这种。有几维，就有几列，行数为D的维度N。
我们尝试对新的 $\hat{x}$ 进行估计:
$\hat{x} = \mu + Proj_S(x-\mu)$
$=\mu+\sum_k^K z_{k}u_{k}$
这里, zk是x和其均值 $\mu$ 的差值投射到subspace S中的样子
$z_k = u^{T}_{k}(x-\mu)$

同时，也就是说，我们又通过U*Z对其进行了又一次运算，使这个差值回到D维
$\hat{x} = \mu + U*Z$
注意原本
$\mu + (x-\mu)$
我们需要找到一个U,使得 $\mu)$ 的值最小，即argmin操作，那么我们就可以将x-u在K维中表示出来，并在需要时通过U的运算，使之回到D维。
在这里插入图片描述
图片来自 csc411 university of toronto

如果这个U∗Z−(x−μ)的值很小，那么我们就可以在D维上对其进行模拟了，使得模型运算的空间和时间复杂度降低。
PCA是一种Representation learning的方法，可以用于整个数据集降到一个更容易操作和可视化的维度。

如何学习子空间

目标：找到一个D*K的矩阵，每一列的vector之间都互相垂直
选择标准：

使得 reconstruction error最小
使得code vector z的方差最大，求法是在每一维上求variance

这两个标准是都可以得到我们想要的结果，本质是相同的，以下是证明：
我们想要证明：
$\frac{1}{N}\sum_{i=1}^N\ ||x^i - \hat{x}^{i}|| = const - \frac{1}{N} \sum_i^N ||z^i||^2$
因为U是一个basis，每一列互相垂直且 ||U|| = 1, 因此
$||\hat{x}-\mu|| = ||Uz^i|| = ||z^i||$
根据勾股定理，我们得到下图。因此，两个标准是等同的。