凸优化—SVD—PCA原理详情

最新推荐文章于 2024-08-13 19:12:47 发布

SongpingWang

最新推荐文章于 2024-08-13 19:12:47 发布

阅读量2.5k

点赞数 4

分类专栏：机器学习—算法及代码文章标签： SVD奇异值分解

本文链接：https://blog.csdn.net/wsp_1138886114/article/details/80967843

版权

机器学习—算法及代码专栏收录该内容

88 篇文章 51 订阅

订阅专栏

文章目录

一、凸优化

两个正数的算术平均数大于等于几何平均数：
$\frac{a+b}{2} \geqslant \sqrt{ab}$
给定可逆对称阵Q，对于任意的向量x，y，有：
$x^TQx+y^TQ^{-1}y \geqslant 2x^Ty$
这里写图片描述

1.1 仿射集:（直线）

通过集合C中任意两个不同点的直线仍然在集合C内，则称集合C为仿射集。
$\forall \theta \in R ,~~ \forall x_1 ,x_2 \in C ~~则 x = \theta x_1+(1-\theta)x_2 \in C$

1.2 凸集:（线段）

如果通过集合C中任意两个不同点之间的线段(上的任何点)仍在集合C中，那么称集合C是凸的。
$θx_1+(1-θ)x_2 ∈ C;其中 x1,x2∈ C，0\leqslant θ\leqslant 1$

1.3 锥定义（射线）

给定 $C∈R_n，满足x∈C⇒tx∈C 对于任意t≥0$ 称之为锥。

凸锥（convex cone）：
$x_1,x_2∈C ⇒ t_1x_1+t_2x_2∈C,对于任意t_1,t_2≥0$ 都成立，那么称集合C 为凸锥。显然凸锥是锥的一种。

这里写图片描述

1.4 凸优化

若函数f的定义域domf 为凸集，且满足： $\forall x,y \in domf , \theta \in [0,1]$
$f(\theta x + (1-\theta)y) \leqslant \theta f(x) + (1-\theta)f(y)$
这里写图片描述
拉格朗日乘子法就是求函数 $f (x 1, x 2, . . .)$ 在约束条件 $h (x 1, x 2, . . .) = 0$ 下的极值的方法：
$F(x,\lambda) = f(x)+\sum_{k=1}^{l}λ_kh_k(x)$

1.5 示例

求椭球的内接最大体积 :
$\frac{x^2}{a^2}+ \frac{x^2}{b^2} + \frac{x^2}{c^2} = 1~~~求 f(x,y,z) = 8xyz 最大值$
由拉格朗日函数F(x):(λk是各个约束的待定系数)
$F(x,\lambda) = f(x)+\sum_{k=1}^{l}λ_kh_k(x)$
这里写图片描述

二、SVD分解

奇异值分解能够简约数据，去除噪声和冗余数据。其实也是一种降维方法，将数据映射到低维空间。
奇异值分解（singular value decomposition，SVD）是线性代数中一种重要的矩阵分解，在信号处理、统计学等领域有重要应用。

假设 $M$ 是一个 $\times n$ 阶矩阵，其中的元素全部属于域 $K$ ，也就是实数域或复数域。如此则存在一个分解使得 $M=UΣV^ ∗$

在这里插入图片描述
其中 $U$ 是 $\times m$ 阶矩阵； $\Sigma$ 是 $\times n$ 阶非负实数对角矩阵；而 $V^∗$ 为矩阵 $V$ 的共轭转置矩阵，是 $\times n$ 阶矩阵。这样的分解就称为矩阵 $M$ 奇异值分解。

2.1 奇异值分解

$\begin{bmatrix} 2 & 4\\ 1 & 3\\ 0 & 0\\ 0 & 0 \end{bmatrix}$

分别理解计算 $MM^T$ 和 $M^TM$ 的特征向量及其特征值
$MM^T$ 的特征向量组成 $U$
$M^TM$ 的特征向量组成 $V$
对 $MM^T$ 和 $M^TM$ 的非零特征值求平方根，对应上述的特征向量的位置，填入 $\sum$ 的非零对角元素（即 M 的奇异值）。
$MM^T = \begin{bmatrix} 2 & 4\\ 1 & 3\\ 0 & 0\\ 0 & 0 \end{bmatrix}\begin{bmatrix} 2 &1 &0 &0 \\ 4 &3 &0 &0 \end{bmatrix} = \begin{bmatrix} 20 &14 &0 &0 \\ 14 &10 &0 &0 \\ 0 &0 &0 &0 \\ 0 &0 &0 &0 \end{bmatrix}$
求 $W$ 特征值与特征向量。由定义 $W\overrightarrow{x} = \lambda \overrightarrow{x}$ ；因此 $\overrightarrow{x} = \overrightarrow{0}$ 。
$(\begin{bmatrix} 20 &14 &0 &0 \\ 14 &10 &0 &0 \\ 0 &0 &0 &0 \\ 0 &0 &0 &0 \end{bmatrix}-λ\begin{bmatrix} 1 &0 &0 &0 \\ 0 &1 &0 &0 \\ 0 &0 &1 &0 \\ 0 &0 &0 &1 \end{bmatrix}) \overrightarrow{x} =\overrightarrow{0}$
即：
$\begin{bmatrix} 20-λ &14 &0 &0 \\ 14 &10-λ &0 &0 \\ 0 &0 &-λ &0 \\ 0 &0 &0 &-λ \end{bmatrix} =\begin{vmatrix} 20-λ & 14\\ 14 & 10-λ \end{vmatrix}\begin{vmatrix} -λ & 0\\ 0 & -λ \end{vmatrix} = 0$
求行列式det得： $20-λ)(10-λ)-196)λ^2 = 0 。$

特征值λ： $λ_1 = λ_2 = 0,λ_3 =15+\sqrt{221}\approx 29.866，λ_4 = 15-\sqrt{221}\approx 0.134$ 。
将特征值带入原方程 M ，可解的特征向量。

当 $λ_1 = λ_2 = 0$

$\begin{bmatrix} 20 & 14 &0 &0 \\ 14& 10& 0 &0 \\ 0 & 0 & 0 &0 \\ 0 &0 & 0 & 0 \end{bmatrix}\Rightarrow\begin{pmatrix} 20x_1+14y_1=0\\ 14x_1+10y_1=0 \end{pmatrix}$

当 $λ_3$ = 29.866
$\begin{vmatrix} -9.866& 14& 0&0 \\ 14 &-19.866 &0 &0 \\ 0 & 0 & -29.866&0 \\ 0 &0 &0 &-29.866 \end{vmatrix} \Rightarrow \begin{pmatrix} -9.866x_2+14y_2=0\\ 14x_2-19.866y_2=0\\ -29.866z_2 = 0\\ -29.866i_2 = 0 \end{pmatrix}$

当 $λ_4$ = 0.134
$\begin{vmatrix} 19.866& 14& 0&0 \\ 14 &9.866 &0 &0 \\ 0 & 0 & -0.134&0 \\ 0 &0 &0 &-0.134 \end{vmatrix} \Rightarrow \begin{pmatrix} 19.866x+14y=0\\ 14x+9.866y=0\\ -0.134z = 0\\ -0.134i = 0 \end{pmatrix}$
这里写图片描述

2.2 SVD概念及理解

在实数内，我们实质上是将一个复杂的变换 $\mathbb{R}^m \rightarrow \mathbb{R}^n$ 分解成了三个变换：
旋转/镜像 $U：\mathbb{R}^m\rightarrow \mathbb{R}^m$ ；
缩放 $\sum:\mathbb{R}^m\rightarrow \mathbb{R}^n$ ；
旋转/镜像 $V:\mathbb{R}^n\rightarrow \mathbb{R}^n$ 。

我们假设 $m = n$ 以及 $U$ 和 $V$ 都是旋转矩阵，则这个过程可以表示为：

$V$ 首先将（可能是退化的）单位球旋转（旋转标准正交基），
而后经由 $Σ$ 将单位圆缩放拉伸成椭圆（超空间中的超椭球），
再经由 $U$ 将超椭球在空间中旋转。
这个超椭球的各个半轴的长度，就是矩阵 $M$ 的奇异值，也就是矩阵 $Σ$ 对角线上的元素。

SVD 分解至少有两方面作用：

分析了解 原矩阵的主要特征和携带的信息（取若干最大的奇异值），这引出了主成分分析（PCA）；
丢弃忽略原矩阵的次要特征和携带的次要信息（丢弃若干较小的奇异值），这引出了信息有损压缩、矩阵低秩近似等话题。

三、PCA—主成分分析

关于PCA粗略认识请查看：特征工程——数据降维
降维就是一种对高维度特征数据预处理方法。降维是将高维度的数据保留下最重要的一些特征，去除噪声和不重要的特征，从而实现提升数据处理速度的目的。
在实际的生产和应用中，降维在一定的信息损失范围内，可以为我们节省大量的时间和成本。降维也成为应用非常广泛的数据预处理方法。

降维具有如下一些优点：

使得数据集更易使用。
降低算法的计算开销。
去除噪声。
使得结果容易理解。

降维的算法有很多，比如奇异值分解(SVD)、主成分分析(PCA)、因子分析(FA)、独立成分分析(ICA)。

3.1 PCA的概念

PCA(Principal Component Analysis)，即主成分分析方法，是一种使用最广泛的数据降维算法。
PCA的主要思想是将n维特征映射到k维上，这k维是全新的正交特征也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征。PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴，新的坐标轴的选择与数据本身是密切相关的。其中，第一个新坐标轴选择是原始数据中方差最大的方向，第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的，第三个轴是与第1,2个轴正交的平面中方差最大的。依次类推，可以得到n个这样的坐标轴。通过这种方式获得的新的坐标轴，我们发现，大部分方差都包含在前面k个坐标轴中，后面的坐标轴所含的方差几乎为0。于是，我们可以忽略余下的坐标轴，只保留前面k个含有绝大部分方差的坐标轴。事实上，这相当于只保留包含绝大部分方差的维度特征，而忽略包含方差几乎为0的特征维度，实现对数据特征的降维处理。

简而言之：通过计算数据矩阵的协方差矩阵，然后得到协方差矩阵的特征值特征向量，选择特征值最大(即方差最大)的k个特征所对应的特征向量组成的矩阵。这样就可以将数据矩阵转换到新的空间当中，实现数据特征的降维。

获取协方差矩阵的特征值特征向量有两种方法：

基于 特征值分解协方差矩阵实现PCA算法
基于 SVD分解协方差矩阵实现PCA算法。

3.2 协方差和散度矩阵

样本均值： $\bm{\bar{x}= \frac{1}{n}\sum_{i=1}^{N}x_i}$
样本方差： $\bm{S^2 = \frac{1}{n-1}\sum_{i=1}^{N}(x_i- \bar{x})^2}$
样本 $X$ 和样本 $Y$ 的协方差：
$\begin{aligned} Cov(X,Y)&=E\left [ (X-E(X))(Y-E(Y)) \right ] \\ &= \frac{1}{n-1}\sum_{i=1}^{N}(x_i- \bar{x})(y_i- \bar{y}) \end{aligned}$

协方差要求样本必须至少满足二维特征；方差只是协方差的特殊情况。
方差和协方差的除数是n-1,这是为了得到方差和协方差的无偏估计。
协方差为正时，说明X和Y是正相关关系；
协方差为负时，说明X和Y是负相关关系；
协方差为0时，说明X和Y无相关关系。Cov(X,X)就是X的方差。当样本是n维数据时，它们的协方差实际上是协方差矩阵(对称方阵)。

同理，对于3维数据(x,y,z)，计算它的协方差就是：
$\begin{bmatrix} Cov(x,x) & Cov(x,y) &Cov(x,z) \\ Cov(y,x) & Cov(y,y) &Cov(y,x) \\ Cov(z,x) & Cov(z,y) & Cov(z,z) \end{bmatrix}$

散度矩阵定义为：
$\sum_{i=1}^n(\bm{(x_k-m)(x_k-m)^T}) 这里m向量：\bm{m = \frac{1}{n}\sum_{k=1}^nx_l}$
对于数据X的散度矩阵为 $XX^T$ 。其实协方差矩阵和散度矩阵关系密切，散度矩阵就是协方差矩阵乘以（总数据量-1）。因此它们的特征值和特征向量是一样的。这里值得注意的是，散度矩阵是SVD奇异值分解的一步，因此PCA和SVD是有很大联系。

3.3 基于特征值分解协方差矩阵实现PCA算法

数据集 $X=\{x_1,x_2,…x_n\}$ ，需要降到 k 维。

去中心化，即每一位特征减去各自的平均值。、
计算协方差矩阵 $\frac{1}{n}XX^T$ , 注：这里除或不除样本数量n或n-1,其实对求出的特征向量没有影响。
用特征值分解方法求协方差矩阵 $\frac{1}{n}XX^T$ 的特征值与特征向量。
对特征值从大到小排序，选择其中最大的 $k$ 个。然后将其对应的 $k$ 个特征向量分别作为行向量组成特征向量矩阵 $P$ 。
将数据转换到 $k$ 个特征向量构建的新空间中，即 $Y = P X$ 。

关于PCA数学原理：http://blog.codinglabs.org/articles/pca-tutorial.html
为什么用特征值分解矩阵，是因为 $\frac{1}{n}XX^T$ 是方阵，能很轻松的求出特征值与特征向量。当然，用奇异值分解也可以，是求特征值与特征向量的另一种方法。

举例：
我们用PCA方法将这两行数据降到一行： $\begin{bmatrix} -1 &-1 &0&2 &0 \\ -2 & 0 &0 &1&1 \end{bmatrix}$

显然：X矩阵的每行已经是零均值，所以不需要去平均值。
求协方差矩阵： $\frac{1}{5}\begin{bmatrix} -1 &-1 &0&2 &0 \\ -2 & 0 &0 &1&1 \end{bmatrix}\begin{bmatrix} -1 &-2 \\ -1 & 0 \\ 0 & 0 \\ 2 &1 \\ 0 &1 \end{bmatrix} = \begin{bmatrix} \frac{6}{5} & \frac{4}{5} \\ \\ \frac{4}{5} & \frac{6}{5} \end{bmatrix}$
求协方差矩阵的特征值与特征向量。

特征值为： $\lambda_1 =2，\lambda_2 = \frac{2}{5}$ 　特征向量为： $c_1=\begin{bmatrix} 1 \\ 1 \end{bmatrix}，c_1=\begin{bmatrix} -1 \\ 1 \end{bmatrix}$

其中对应的特征向量分别是一个通解， $c_1$ 和 $c_2$ 可以取任意实数。
那么标准化后的特征向量为： $\begin{bmatrix} \frac{1}{\sqrt{2}} \\ \\ \frac{1}{\sqrt{2}} \end{bmatrix}，\begin{bmatrix} -\frac{1}{\sqrt{2}} \\ \\ \frac{1}{\sqrt{2}} \end{bmatrix}$
矩阵 $P$ 为： $\begin{bmatrix} \frac{1}{\sqrt{2}} &\frac{1}{\sqrt{2}} \\ \\ -\frac{1}{\sqrt{2}}& \frac{1}{\sqrt{2}} \end{bmatrix}$
最后我们用P的第一行乘以数据矩阵X，就得到了降维后的表示：
$\begin{bmatrix} \frac{1}{\sqrt{2}} &\frac{1}{\sqrt{2}} \end{bmatrix}\begin{bmatrix} -1 &-1 &0&2 &0 \\ -2 & 0 &0 &1&1 \end{bmatrix} = \begin{bmatrix} -\frac{3}{\sqrt{2}} &-\frac{1}{\sqrt{2}} &0&\frac{3}{\sqrt{2}} &-\frac{1}{\sqrt{2}} \end{bmatrix}$
结果如图所示：

注意：如果我们通过特征值分解协方差矩阵，那么我们只能得到一个方向的PCA降维。这个方向就是对数据矩阵X从行(或列)方向上压缩降维。

3.4 基于SVD分解协方差矩阵实现PCA算法

在PCA降维中，我们需要找到样本协方差矩阵 $XX^T$ 的最大k个特征向量，然后用这最大的k个特征向量组成的矩阵来做低维投影降维。可以看出，在这个过程中需要先求出协方差矩阵 $XX^T$ ,当样本数多、样本特征数也多的时候，这个计算还是很大的。当我们用到SVD分解协方差矩阵的时候，SVD有两个好处：

有一些SVD的实现算法可以先不求出协方差矩阵 $XX^T$ 也能求出我们的右奇异矩阵V。也就是说，我们的PCA算法可以不用做特征分解而是通过SVD来完成，这个方法在样本量很大的时候很有效。实际上，scikit-learn的PCA算法的背后真正的实现就是用的SVD，而不是特征值分解。
注意到PCA仅仅使用了我们SVD的左奇异矩阵，没有使用到右奇异值矩阵，那么右奇异值矩阵有什么用呢？

假设我们的样本是m*n的矩阵X，如果我们通过SVD找到了矩阵 $X^TX$ 最大的k个特征向量组成的k*n的矩阵 $V^T$ ,则我们可以做如下处理：
$X'_{m*k} =X_{m*k} V_{n*k}^T$