【记录读论文时遇到的一些算法5】—— SVD分解_对w进行svd分解后,怎么获取w向量-CSDN博客

本文链接：https://blog.csdn.net/yuanmiyu6522/article/details/124830274

SVD（The Singular Value Decomposition）: 奇异值分解

1.特征值、特征向量
2. 特征分解
3. 奇异值分解（SVD）
4. SVD分解意义
5. SVD举例
5. SVD分解的应用
6.为什么Ax=0的解为最小奇异值对应的向量？
参考文献

1.特征值、特征向量

如果一个向量 $x$ 是 $\times n$ 矩阵 $\mathbf{A}$ 的特征向量，那么可表示成以下形式：

$\mathbf{A}x=\lambda x$

其中， $\mathbf{A}$ 是一个 $\times n$ 的实对称矩阵， $x$ 是一个 $n$ 维特征向量， $\lambda$ 是矩阵 $\mathbf{A}$ 的特征值， $x$ 是矩阵 $\mathbf{A}$ 的特征值 $\lambda$ 所对应的特征向量。

思考：为什么一个矩阵乘以一个向量的效果与一个实数乘以相同向量的效果是一样的呢？

事实上，矩阵是线性空间里变换的描述。矩阵 $\mathbf{A}$ 与向量相乘，本质上对向量 $x$ 进行一次线性变换（旋转或者拉伸变换），而该转换的效果等价于常数 $\lambda$ 乘以向量 $x$ （拉伸）的效果。所以，当求解矩阵的特征值与对应的特征向量时，就是为了求矩阵 $\mathbf{A}$ 能使得哪些向量只发生拉伸变换，而拉伸的程度用特征值 $\lambda$ 来度量。

线性变换

矩阵是线性空间里变换的描述。一个矩阵乘以一个向量，实质上是对向量做线性变换。对于一个对称矩阵 $\mathbf{M}$ ：

$\mathbf{M}=\left[\begin{array}{ll} 3 & 0 \\ 0 & 1 \end{array}\right]$
对应的线性变换是下面的形式:

因为这个矩阵 $\mathbf{M}$ 乘以一个向量 ${x}, {y})$ 的结果是:
$\left[\begin{array}{ll} 3 & 0 \\ 0 & 1 \end{array}\right]\left[\begin{array}{l} x \\ y \end{array}\right]=\left[\begin{array}{c} 3 x \\ y \end{array}\right]$
上面的矩阵是对称的，所以这个变换是一个对 $x ， y$ 轴的方向一个拉伸变换（每一个对角线上的元素将会对一个维度进行拉伸变换，当值大于1时，是拉长变换，当值小于1时是缩短变换），当矩阵不是对称的时候，假如说矩阵是下面的样子:
$\left[\begin{array}{ll} 3 & 2 \\ 0 & 1 \end{array}\right]$

它所描述的变换是下面的样子：

这其实是在平面上对一个轴进行的拉伸变换（如蓝色的箭头所示），在图中，蓝色的箭头是一个最主要的变化方向（变化方向可能有不止一个），如果我们想要描述好一个变换，那我们就描述好这个变换主要的变化方向就好了。

2. 特征分解

对于一个矩阵 $\mathbf{A}$ ，将其特征分解，得到矩阵 $\mathbf{A}$ 的 $n$ 个特征值 $\lambda_{1} \leq \lambda_{2} \leq \ldots \leq \lambda_{n}$ 以及对应的特征向量 $\left\{w_{1}, w_{2}, \ldots, w_{n}\right\}$ ，那么特征分解可表示为:
$\Sigma W^{-1}$
其中， $W$ 是矩阵 $\mathbf{A}$ 的特征向量所构成的 $\times n$ 维矩阵， $\Sigma$ 是 $n$ 个特征值为主对角线的 $\times n$ 维对角矩阵。
通常情况下，将得到的一组特征向量进行Schmidt正交化单位化，即 $\left\|w_{i}\right\|_{2}=1$ ，那么这组特征向量为标准正交基，满足 $W^{T} W=I$ ，即 $W^{T}=W^{-1}$ ，也就是说W为酉矩阵，表达式为:
$\Sigma W^{T}$
特征分解的式子，分解得到的 $\Sigma$ 矩阵是一个对角阵，里面的特征值是由大到小排列的，这些特征值所对应的特征向量就是描述这个矩阵变化方向 (从主要的变化到次要的变化排列)。
当矩阵是高维的情况下，那么这个矩阵就是高维空间下的一个线性变换，这个变换有很多的变换方向，我们通过特征值分解得到的前 $\mathrm{N}$ 个特征向量，那么就对应了这个矩阵最主要的 $\mathrm{N}$ 个变化方向。我们利用这前 $\mathrm{N}$ 个变化方向，就可以近似这个矩阵（变换）。也就是之前说的：提取这个矩阵最重要的特征。

总结一下，矩阵特征分解可以得到特征值与特征向量，特征值表示的是这个特征到底有多重要，而特征向量表示这个特征是什么。

特征分解的局限性

特征分解有一些局限性，比如变换矩阵必须是方阵，即 $n * n$ 的矩阵。而在实际应用场景中，大部分不是这种矩阵。举个最简单的例子，关系型数据库中的某一张表的数据存储结构就类似于一个二维矩阵，假设这个表有 $m$ 行，有 $n$ 个字段，那么这个表数据矩阵的规模就是 $m * n$ 。很明显，在绝大部分情况下， $\mathrm{m}$ 与 $\mathrm{n}$ 并不相等。如果对这个矩阵要进行特征提取，特征值分解的方法显然就行不通了。那么这个时候就轮到SVD登场。

3. 奇异值分解（SVD）

SVD是一种适用于任意矩阵(表述不确切，有特殊情况)的分解方法，不限于方阵。对于一个 $\times n$ 矩阵 $\mathbf{A}$ ，那么矩阵 $\mathbf{A}$ 的奇异值分解为:
$\mathbf{A}=U \Sigma V^{T}$
其中， ${U}$ 是一个 $\times m$ 矩阵，矩阵 ${U}$ 中的正交向量为左奇异向量; $\mathrm{V}$ 是一个 $\times n$ 矩阵，矩阵 ${V}$ 中的正交向量为右奇异向量， ${U}$ 和 ${V}$ 都是酉矩阵，满足 $U^{T} U=I, V^{T} V=I ; \Sigma$ 是一个 $\times n$ 矩阵，除了对角线元素以外都为 0 ，对角线上的元素为奇异值。下图表示SVD的分解过程:

思考：任意矩阵可通过SVD进行分解，那么如何求解 $U 、 V$ 和 $\Sigma$ 呢?

如果用矩阵 $\mathbf{A}$ 乘以 $\mathbf{A}$ 的转置得到一个 $\times m$ 的方阵 $\mathbf{A}\mathbf{A}^{T}$ ，方阵进行特征分解，得到特征值以对应的特征向量:

$\left(\mathbf{A}\mathbf{A}^{T}\right) u_{i}=\lambda_{i} u_{i}$

方阵 $\mathbf{A}\mathbf{A}^{T}$ 分解得到 ${m}$ 个特征值和对应的特征向量 $u$ ，将所有特征向量张成一个矩阵 ${U}$ ，就是SVD分解公式的 $U$ 矩阵。

同理，如果用矩阵 $\mathbf{A}$ 的转置乘以 $\mathbf{A}$ 得到一个 $\times n$ 的方阵 $A^{T} A$ ，方阵进行特征分解，得到特征值以对应的特征向量:
$\left( \mathbf{A}^{T}\mathbf{A}\right) v_{i}=\lambda_{i} v_{i}$
方阵 $A A^{T}$ 分解得到 ${n}$ 个特征值和对应的特征向量 $v$ ，将所有特征向量张成一个矩阵 ${V}$ ，就是SVD分解公式的 ${V}$ 矩阵。

思考: $\mathbf{A}^{T}\mathbf{A}$ 的特征向量组成的矩阵是SVD中的 ${V}$ 矩阵，而 $\mathbf{A}\mathbf{A}^{T}$ 的特征向量组成的矩阵是SVD中的 ${U}$ 矩阵，这个是怎么证明的?

证明:
$\begin{gathered} \mathbf{A}=U \Sigma V^{T} \\ \mathbf{A}^{T}=V \Sigma^{T} U^{T} \\ \Rightarrow \mathbf{A}^{T} \mathbf{A}=V \Sigma^{T} U^{T} U \Sigma V^{T}=V \Sigma^{2} V^{T} \end{gathered}$
上式使用了 $U^{T} U=I, \Sigma^{T} \Sigma=\Sigma^{2}$ 。不难看出 $\mathbf{A}^{T} \mathbf{A}$ 的特征向量组成的矩阵就是SVD中的 ${V}$ 矩阵。同理， $\mathbf{A}\mathbf{A}^{T}$ 的特征向量组成的矩阵就是SVD中的 $U$ 矩阵。

接下来求解的是奇异值，其解法有两种:

通过上式证明可发现， $\mathbf{A}^{T} \mathbf{A}$ 的特征值矩阵是奇异值矩阵的平方，也就是说特征值和奇异值满足如下关系：
$\sigma_{i}=\sqrt{\lambda_{i}}$
$\mathbf{A}=U \Sigma V^{T} \Rightarrow \mathbf{A} V=U \Sigma V^{T} V \Rightarrow \mathbf{A} V=U \Sigma \Rightarrow \mathbf{A}v_{i}=\sigma u_{i} \Rightarrow \sigma_{i}=\frac{\mathbf{A} v_{i}}{u_{i}}$

思考: 任意矩阵可进行SVD分解，那么问题又来了，一个 $m * n$ 的矩阵 $\mathbf{A}$ ，你把它分解成 $m * m$ 的矩阵 $U$ 、 $m * n$ 的矩阵 $\Sigma$ 和 $n * n$ 的矩阵。这三个矩阵中任何一个的维度似乎一点也不比 $\mathbf{A}$ 的维度小，而且还要做两次矩阵的乘法，这不是没事找事干嘛！把简单的事情搞复杂了么！并且我们知道矩阵乘法的时间复杂度，那奇异值分解到底要怎么做呢?

回答: 在奇异值分解矩阵中 $\Sigma$ 里面的奇异值按从大到小的顺序排列，奇异值从大到小的顺序减小的特别快。在很多情况下，前10%甚至1%的奇异值的和就占了全部的奇异值之和的 $\%$ 以上。也就是说，剩下的 $\%$ 甚至 $\%$ 的奇异值几乎没有什么作用。因此，我们可以用前面个大的奇异值来近似描述矩阵，于是奇异值分解公式可以写成如下:
$\mathbf{A}_{m * n} \approx U_{m * r} \Sigma_{r * r} V_{r * n}^{T}$

其中， $r < < m, r < < n$ 。将一个矩阵 $\mathbf{A}$ 分解为三个小矩阵。如果 $r$ 越大，与原来的矩阵相似度越大，但存储和计算成本也会越大。因此，使用SVD时，需要根据不同的业务场景、资源情况来合理选择 $r$ 的大小。本质上是在计算精度与空间时间成本之前做折中。

4. SVD分解意义

SVD 分解可以看成先旋转，然后进行分别缩放，然后再旋转的过程。

5. SVD举例

$A=\left(\begin{array}{ll} 0 & 1 \\ 1 & 1 \\ 1 & 0 \end{array}\right)$
先计算 $A^{T} A$ 和 $A A^{T}$
$\begin{gathered} A^{T} A=\left(\begin{array}{lll} 0 & 1 & 1 \\ 1 & 1 & 0 \end{array}\right)\left(\begin{array}{ll} 0 & 1 \\ 1 & 1 \\ 1 & 0 \end{array}\right)=\left(\begin{array}{ll} 2 & 1 \\ 1 & 2 \end{array}\right) \\ A A^{T}=\left(\begin{array}{ll} 0 & 1 \\ 1 & 1 \\ 1 & 0 \end{array}\right)\left(\begin{array}{lll} 0 & 1 & 1 \\ 1 & 1 & 0 \end{array}\right)=\left(\begin{array}{lll} 1 & 1 & 0 \\ 1 & 2 & 1 \\ 0 & 1 & 1 \end{array}\right) \end{gathered}$
然后求解 $A^{T} A$ 的特征值及对应的特征向量:
$\lambda_{1}=3 ; v_{1}=\left(\begin{array}{l} 1 / \sqrt{2} \\ 1 / \sqrt{2} \end{array}\right) ; \lambda_{2}=1 ; v_{2}=\left(\begin{array}{c} -1 / \sqrt{2} \\ 1 / \sqrt{2} \end{array}\right)$
同理求解 $A A^{T}$ 的特征值及对应的特征向量:
$\lambda_{1}=3 ; u_{1}=\left(\begin{array}{c} 1 / \sqrt{6} \\ 2 / \sqrt{6} \\ 1 / \sqrt{6} \end{array}\right) ; \lambda_{2}=1 ; u_{2}=\left(\begin{array}{c} 1 / \sqrt{2} \\ 0 \\ -1 / \sqrt{2} \end{array}\right) ; \lambda_{3}=0 ; u_{3}=\left(\begin{array}{c} 1 / \sqrt{3} \\ -1 / \sqrt{3} \\ 1 / \sqrt{3} \end{array}\right)$
通过 $\sigma_{i}=\sqrt{\lambda_{i}}$ 求解奇异值为 $\sqrt{3}$ 和1
最终矩阵A的奇异值分解为:
$\Sigma V^{T}=\left(\begin{array}{ccc} 1 / \sqrt{6} & 1 / \sqrt{2} & 1 / \sqrt{3} \\ 2 / \sqrt{6} & 0 & -1 / \sqrt{3} \\ 1 / \sqrt{6} & -1 / \sqrt{2} & 1 / \sqrt{3} \end{array}\right)\left(\begin{array}{cc} \sqrt{3} & 0 \\ 0 & 1 \\ 0 & 0 \end{array}\right)\left(\begin{array}{cc} 1 / \sqrt{2} & 1 / \sqrt{2} \\ -1 / \sqrt{2} & 1 / \sqrt{2} \end{array}\right)$

5. SVD分解的应用

降维
矩阵A的特征有n维，经过SVD分解之后，完全可以用前 $r$ 个非零奇异值对应的奇异向量表示矩阵 A的主要特征。这样，就起到了j降维的作用。
压缩
经过SVD分解之后，表示原来的矩阵A，只需要存 $\Sigma, V$ 三个较小的矩阵即可。而这三个小矩阵的规模加起来也远远小于原始矩阵A。这样，就达到压缩的作用。
$\mathrm{PCA}$
PCA降维需要找到样本协方差矩阵 $X^{T} X$ 的最大 $\mathrm{d}$ 个特征向量，然后用这些特征向量张成的矩阵来做低维投影降维。这个过程中，需要先求出协方差矩阵 $X^{T} X$ ，但是，当样本数和特征数很多的时候，计算量是相当大的。
SVD可以应用于PCA降维。注意到SVD可得到协方差矩阵 $X^{T} X$ 最大的d个特征向量张成的矩阵，但SVD有一个好处是先不求协方差矩阵 $X^{T} X$ ，也能求解出右奇异矩阵 $\mathrm{V}$ 。也就是说， $\mathrm{PCA}$ 算法可以不用做特征分解，而是做SVD来完成。这个方法在样本量很大的时候很有效。实际上，scikit-learn的PCA算法的背后真正实现就是SVD，而不是暴力特征求解。
另一方面，PCA仅仅使用SVD的其中一个奇异矩阵，如右奇异矩阵，没有使用左奇异矩阵。假设样本是 $\times n$ 矩阵X，如果使用SVD得到矩阵 $X X^{T}$ 最大的 $\mathrm{d}$ 个特征向量张成的 $\times d$ 维矩阵 $U$ ，则进行如下处理:
$X_{d \times n}^{\prime}=U_{d \times m}^{T} X_{m \times n}$
得到一个 $\times n$ 的矩阵 $X^{\prime}$ ，与原来的 $\times n$ 维矩阵X相比，行数由m降到d，可见对行数进行了压缩。换句话说，左奇异矩阵用于行数的压缩；相对的，右奇异矩阵用于列数 (特征维度) 的压缩，也就是PCA降维。

6.为什么Ax=0的解为最小奇异值对应的向量？

工程中很多问题会归结为求超定方程 $\mathbf{A x}=\mathbf{0} ， \mathbf{A}$ 是 $\times n$ 的矩阵，且 $m > n$ 。如 SLAM中三角化地图点，PnP等一些问题都是求解这个方程。
很显然，这个方程有一个解，但这不是我们想要的，我们实际想求非零解。

为了求非零解，我们对 $\mathbf{x}$ 加上一个约束 $\|\mathbf{x}\|^{2}=1$ 。也就是限制 $\mathbf{x}$ 的长度为 1 。并构建成一个带约束的最小二乘问题:
$\hat{\mathbf{x}}=\arg \min \|\mathbf{A} \mathbf{x}\|^{2} \text {, subject to }\|\mathbf{x}\|^{2}=1 \tag{1}$
这是一个带约束的最小二乘问题，我们把拉格朗日搬出来:
$\begin{aligned} L(\mathbf{x}, \lambda) &=\|\mathbf{A} \mathbf{x}\|^{2}+\lambda\left(1-\|\mathbf{x}\|^{2}\right) \\ &=\mathbf{x}^{T} \mathbf{A}^{T} \mathbf{A} \mathbf{x}+\lambda\left(1-\mathbf{x}^{T} \mathbf{x}\right) \end{aligned} \tag{2}$
为了求极值，我们分别对 $\mathbf{x}$ 和 $\lambda$ 求偏导数，令为 0 :
$\begin{aligned} &\frac{\partial L(\mathbf{x}, \lambda)}{\partial \mathbf{x}}=2 \mathbf{A}^{T} \mathbf{A} \mathbf{x}-2 \lambda \mathbf{x}=0 \\ &\frac{\partial L(\mathbf{x}, \lambda)}{\partial \lambda}=1-\mathbf{x}^{T} \mathbf{x}=0 \end{aligned} \tag{3}$
把(3)式整理一下:
$\begin{array}{r} \left(\mathbf{A}^{T} \mathbf{A}-\lambda \mathbf{I}\right) \mathbf{x}=0 \\ \mathbf{A}^{T} \mathbf{A x}=\lambda \mathbf{x} \end{array} \tag{4}$
可以看出 $\lambda$ 和 $\mathbf{x}$ 分别是 $\mathbf{A}^{T} \mathbf{A}$ 的特征值和特征向量。也就是说(1)式的解，就是这些特征向量中的一个。
问题来了，那么多的特征向量，应该选择哪个作为解呢? 我们展开 $\|\mathbf{A x}\|^{2}$ 看一下:
$\|\mathbf{A} \mathbf{x}\|^{2}=\mathbf{x}^{T} \mathbf{A}^{T} \mathbf{A} \mathbf{x}=\mathbf{x}^{T} \lambda \mathbf{x}=\lambda \mathbf{x}^{T} \mathbf{x}=\lambda \tag{5}$