一文读懂奇异值分解(SVD)数学原理_了解奇异值分解(svd)的数学原理和性质,以及如何利用svd来约束基础矩阵的秩。-CSDN博客

本文链接：https://blog.csdn.net/weixin_44563671/article/details/106041093

奇异值分解(SVD)原理详解及推导

在这里插入图片描述

特征值分解(EVD)

现在假设存在 $m\times m$ 的满秩矩阵 $A$ ，它有 $m$ 个不同的特征值:
$\begin{aligned} A x_{1} &=\lambda_{1} x_{1} \\ A x_{2} &=\lambda_{2} x_{2} \\ & \ldots \\ A x_{m} &=\lambda_{m} x_{m} \end{aligned}$
记为
$\Lambda$
其中
$U=\left[\begin{array}{ccc} x_{1} & x_{2} & \cdots & x_{m} \end{array}\right] \\ \Lambda=\left[\begin{array}{ccc} \lambda_{1} & \cdots & 0 \\ \vdots & \ddots & \vdots \\ 0 & \cdots & \lambda_{m} \end{array}\right] \\$

所以可定义 $A$ 的特征值分解
$\Lambda U^{-1}=U \Lambda U^{T}$

由于对称阵特征向量两两正交，所以U为正交阵。一般我们会把这 $n$ 个特征向量标准化，即满足 || $x_{i}||_{2}=1,$ 或者说 $x_{i}^{T} x_{i}=1,$ 此时 $A$ 的 $n$ 个特征向量为标准正交基, $,$ 满足 $U^{T} U=I$ 即 $U^{T}=U^{-1},$ 也就是说 $U$ 为酉矩阵。

总结一下， $A$ 可以将一组正交基映射到另一组正交基，那么现在来分析：对任意 $m\times n$ 的矩阵，能否找到一组正交基使得经过它变换后还是正交基？答案是肯定的，它就是SVD分解的精髓所在。

奇异值分解(SVD)

特征值分解是一个提取矩阵特征很不错的方法，但是它只是对方阵而言的。奇异值分解是一个能适用于任意的矩阵的一种分解的方法。假设我们的矩阵A是一个 $m\times n$ 的矩阵，那么我们定义矩阵A的SVD为：
$A_{m\times n}=U_{m\times m} \Sigma_{m\times n} V_{n\times n}^{T}$

其中 $U$ 是一个 $\times m$ 的矩阵, $\Sigma$ 是一个 $\times n$ 的矩阵, 除了主对角线上的元素以外全为0, 主对角线上的每个元素都称为奇异值, V是一个 $\times n$ 的矩阵。U和V都是酉矩阵, 即满足 $U^{T} U=I, V^{T} V=I_{0}$

那么找们如何求出SVD分解后的 $\Sigma, V$ 这三个矩阵呢?
如果我们将A的转置和 $A$ 做矩阵乘法, 那么会得到 $\times n$ 的一个方阵 $A^{T} A$ 。显然 $A^{T} A$ 是方阵, 那么我们就可以进行特征分解，得到的特征值和特征向量满足下式：

$\left(A^{T} A\right) v_{i}=\lambda_{i} v_{i}$

这样我们就可以得到矩阵 $A^{T} A$ 的n个特征值和对应的 $n$ 个特征向量 $v$ 了。将 $A^{T} A$ 的所有特征向量张成一个 $\times n$ ，的矩阵 $V$ 。同理矩阵 $A A^{T}$ 的 $n$ 个归一化的特征值和对应的n个特征向量满足：
$\left(A A^{T}\right) u_{i}=\lambda_{i} u_{i}$
将 $AA ^{T}$ 的所有归一化的特征向量张成一个 $\times m$ 的矩阵 $U$ 。

$U$ 和 $V$ 我们都求出来了，现在就剩下奇异值矩阵 $\Sigma$ 没有求出了。由于 $\Sigma$ 除了对角线上是奇异值其他位置都是0，那我们只需要求出每个奇异值 $\sigma$ 就可以了。
$\Sigma V^{T} \Rightarrow A V=U \Sigma V^{T} V$
$\Rightarrow A V=U \Sigma$
即：
$\operatorname{A}\left[v_{1}, v_{2}, \cdots ,v_{k} | v_{k+1}, \cdots ,v_{n}\right]=\left[u_{1}, u_{2}, \cdots u_{k}, | u_{k+1}, \cdots u_{m}\right]\left[ \begin{array}{ccc|c} \sigma_{1} & & & \\ & \ddots & & 0 \\ & & \sigma_{k} & \\ \hline & 0 & & 0 \end{array} \right]$
其中 $k = R a n k (A)$ 。

根据 $v_{i}=\sigma_{i} u_{i}$ 我们可以求出我们的每个奇异值，进而求出奇异值矩阵 $\Sigma$ 。
下面证明 $U, V$ 求法的正确性，已 $V$ 为例：
$\Sigma V^{T} \Rightarrow A^{T}=V \Sigma^{T} U^{T} \Rightarrow A^{T} A=V \Sigma^{T} U^{T} U \Sigma V^{T}=V \Sigma^{2} V^{T}$
可以看出 $A^{T} A$ 的特征向量组成的的确就是我们SVD中的 $V$ 矩阵。

进一步我们还可以看出我们的特征值矩阵 $V$ 等于奇异值矩阵 $\Sigma$ 的平方，所以特征值和奇异值满足:
$\sigma_{i}=\sqrt{\lambda_{i}}$
所以也可以通过求出 $A^{T}$ A的特征值取平方根来求奇异值。

设
$X=\left[\begin{array}{lll} u_{1} & \cdots & u_{k} \end{array}\right]\left[\begin{array}{ccc} \sigma_{1} & & \\ & \ddots & \\ & & \sigma_{k} \end{array}\right]=\left[\begin{array}{lll} \sigma_{1} u_{1} & \cdots & \sigma_{k} u_{k} \end{array}\right], Y=\left[\begin{array}{c} v_{1}^{T} \\ \vdots \\ v_{k}^{T} \end{array}\right]$
则 $A = X Y$ 即是 $A$ 的满秩分解。
在这里插入图片描述
在矩阵 $\Sigma$ 中也是从大到小排列，而且 $\sigma$ 的减少特别的快，在很多情况下，前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。也就是说，我们也可以用前r大的奇异值来近似描述矩阵，这里定义一下部分奇异值分解：
$A_{m \times n} \approx U_{m \times r} \Sigma_{r \times r} V_{r \times n}^{T}$