SVD--奇异值分解详细推导与证明

xinxiangwangzhi_

于 2024-07-25 08:15:00 发布

阅读量421

点赞数 9

分类专栏：数学知识文章标签：算法矩阵

本文链接：https://blog.csdn.net/xinxiangwangzhi_/article/details/140675705

版权

数学知识专栏收录该内容

26 篇文章 0 订阅

订阅专栏

文章目录

1什么是奇异值
2讨论 $\left\{A \boldsymbol{v}_1, \cdots, A \boldsymbol{v}_r\right\}$
3继续讨论
4svd定义及证明
5讨论 $\boldsymbol{u}_i$ 的性质
6svd分解是唯一的吗？
7svd的一般求解步骤

1什么是奇异值

令 $A$ 是 $\times n$ 矩阵, 那么 $A^{\mathrm{T}} A$ 是对称矩阵且可以正交对角化. 令 $\left\{\boldsymbol{v}_1, \cdots, \boldsymbol{v}_n\right\}$ 是 $\mathbb{R}^n$ 的单位正交基且构成 $A^{\mathrm{T}} A$ 的特征向量， $\lambda_1, \cdots, \lambda_n$ 是 $A^{\mathrm{T}} A$ 对应的特征值，那么对 $\leqslant i \leqslant n$ ,
$\begin{array}{rlrl} \left\|A \boldsymbol{v}_i\right\|^2 & =\left(A \boldsymbol{v}_i\right)^{\mathrm{T}} A v_i=\boldsymbol{v}_i^{\mathrm{\top}} A^{\top} A \boldsymbol{v}_i \\ & =\boldsymbol{v}_i^{\top}\left(\lambda_i \boldsymbol{v}_i\right) & & \text { 由于 } \boldsymbol{v}_i \text { 是 } A^{\top} A \text { 的特征向量 } \\ & =\lambda_i & & \text { 由于 } \boldsymbol{v}_i \text { 是单位向量 } \end{array}$

所以, $A^{\mathrm{T}} A$ 的所有特征值都非负. 如果必要, 通过重新编号, 可以假设特征值的重新排列满足
$\lambda_1 \geqslant \lambda_2 \geqslant \cdots \geqslant \lambda_n \geqslant 0$
$A$ 的奇异值是 $A^{\mathrm{T}} A$ 的特征值的平方根, 记为 $\sigma_1, \cdots, \sigma_n$ , 且它们用递减顺序排列, 也就是对 $\leqslant i \leqslant n, \quad \sigma_i=\sqrt{\lambda_i}$ . 由（2）可知, $A$ 的奇异值是向量 $\boldsymbol{v}_1, \cdots, A \boldsymbol{v}_n$ 的长度.

2讨论 $\left\{A \boldsymbol{v}_1, \cdots, A \boldsymbol{v}_r\right\}$

若 $\left\{v_1, \cdots, v_n\right\}$ 是包含 $A^{\mathrm{T}} A$ 的特征向量的 $\mathbb{R}^n$ 上的单位正交基, 重新整理使得对应的 $A^{\top} A$ 的特征值满足 $\lambda_1 \geqslant \cdots \geqslant \lambda_n$ . 假若 $A$ 有 $r$ 个非零奇异值, 那么 $\left\{A \boldsymbol{v}_1, \cdots, A \boldsymbol{v}_r\right\}$ 是 $\operatorname{Col} A$ 的一个正交基, 且 rank $A = r$ .
证明：由于当 $\neq j$ 时, $v_i$ 和 $\lambda_j v_j$ 正交, 所以
$\left(A \boldsymbol{v}_i\right)^{\mathrm{T}}\left(A \boldsymbol{v}_j\right)=\boldsymbol{v}_i^{\mathrm{T}} A^{\mathrm{T}} A \boldsymbol{v}_j=\boldsymbol{v}_i^{\mathrm{T}}\left(\lambda_j \boldsymbol{v}_j\right)=0$

从而 $\left\{A \boldsymbol{v}_1, \cdots, A \boldsymbol{v}_n\right\}$ 是一个正交基. 更进一步，由于向量 $\boldsymbol{v}_1, \cdots, A \boldsymbol{v}_n$ 的长度是 $A$ 的奇异值，且因为有 $r$ 个非零奇异值, 因此 $\boldsymbol{v}_i \neq \mathbf{0}$ 的充分必要条件是 $\leqslant i \leqslant r$ . 所以 $\boldsymbol{v}_1, \cdots, A \boldsymbol{v}_r$ 是线性无关向量, 且属于 $\operatorname{Col} A$ . 最后, 对任意属于 $\operatorname{Col} A$ 的 $\boldsymbol{y}$ , 比如 $\boldsymbol{y}=A \boldsymbol{x}$ , 我们可以写出 $\boldsymbol{x}=c_1 \boldsymbol{v}_1+\cdots+c_n \boldsymbol{v}_n$ , 且
$\begin{aligned} \boldsymbol{y} & =A \boldsymbol{x}=c_1 A \boldsymbol{v}_1+\cdots+c_r A \boldsymbol{v}_r+c_{r+1} A \boldsymbol{v}_{r+1}+\cdots+c_n A \boldsymbol{v}_n \\ & =c_1 A \boldsymbol{v}_1+\cdots+c_r A \boldsymbol{v}_r+0+\cdots+0 \end{aligned}$

这样, $\boldsymbol{y}$ 在 $\operatorname{Span}\left\{A \boldsymbol{v}_1, \cdots, A \boldsymbol{v}_r\right\}$ 中, 这说明 $\left\{A \boldsymbol{v}_1, \cdots, A \boldsymbol{v}_r\right\}$ 是 $\operatorname{Col} A$ 的一个（正交）基. 因此 $\operatorname{rank} A=$ $\operatorname{dim} \operatorname{Col} A=r$ .

3继续讨论

对每一个 $\times n$ 矩阵 $\boldsymbol{A}$ , 存在标准正交集 $\left\{\boldsymbol{u}_1, \cdots\right.$ , $\left.\boldsymbol{u}_m\right\},\left\{\boldsymbol{v}_1, \cdots, \boldsymbol{v}_n\right\}$ , 以及非负数 $\quad \sigma_1 \geqslant \cdots \geqslant \sigma_n \geqslant 0$ , 令
$\begin{gathered} \boldsymbol{A} \boldsymbol{v}_1=\quad \sigma_1 \boldsymbol{u}_1 \\ \boldsymbol{A} \boldsymbol{v}_2=\quad \sigma_2 \boldsymbol{u}_2 \\ \vdots \\ \boldsymbol{A} \boldsymbol{v}_n=\quad \sigma_n \boldsymbol{u}_n \end{gathered}$
根据2中的讨论： $\left\{A \boldsymbol{v}_1, \cdots, A \boldsymbol{v}_n\right\}$ 是一个正交基. 更进一步，由于向量 $\boldsymbol{v}_1, \cdots, A \boldsymbol{v}_n$ 的长度是 $A$ 的奇异值，根据上述等式有： $\boldsymbol{u}_i$ 为一组单位正交基。
$\boldsymbol{v}_i$ 称为是矩阵 $\boldsymbol{A}$ 的右奇异向量, 将 $\boldsymbol{u}_i$ 是 $\boldsymbol{A}$ 的左奇异向量, $s_i$ 是 $\boldsymbol{A}$ 的奇异值(singular value).

4svd定义及证明

设 $A$ 是秩为 $r$ 的 $\times n$ 矩阵, 那么存在一个 $\times n$ 矩阵 $\Sigma$ , 其中 $D$ 的对角线元素是 $A$ 的前 $r$ 个奇异值, $\sigma_1 \geqslant \sigma_2 \geqslant \cdots \geqslant \sigma_r>0$ , 并且存在一个 $\times m$ 正交矩阵 $U$ 和一个 $\times n$ 正交矩阵 $V$ 使得 $\Sigma V^{\mathrm{T}}$ .

任何分解 $\Sigma V^{\mathrm{T}}$ 称为 $A$ 的一个奇异值分解 (或 SVD), 其中 $U$ 和 $V$ 是正交矩阵, $\Sigma$ , $D$ 具有正的对角线元素. 矩阵 $U$ 和 $V$ 不是由 $A$ 惟一确定的, 但 $\Sigma$ 的对角线元素必须是 $A$ 的奇异值. 这样的一个分解中 $U$ 的列称为 $A$ 的左奇异向量, 而 $V$ 的列称为 $A$ 的右奇异向量.
根据上面的讨论，很容易进行证明。
证明：
假设 $\lambda_i$ 和 $\boldsymbol{v}_i$ 如上述讨论 , 使得 $\left\{A \boldsymbol{v}_1, \cdots, A \boldsymbol{v}_r\right\}$ 是 $\operatorname{Col} A$ 的正交基. 将每一个 $\boldsymbol{v}_i$ 单位化得到一个单位正交基 $\left\{\boldsymbol{u}_1, \cdots, \boldsymbol{u}_r\right\}$ , 其中
$u_i=\frac{1}{\left\|A v_i\right\|} A \boldsymbol{v}_i=\frac{1}{\sigma_i} A \boldsymbol{v}_i$

而且
$\boldsymbol{v}_i=\sigma_i \boldsymbol{u}_i \quad(1 \leqslant i \leqslant r)$

现在将 $\left\{\boldsymbol{u}_1, \cdots, \boldsymbol{u}_r\right\}$ 扩充为 $\mathbb{R}^m$ 的单位正交基 $\left\{\boldsymbol{u}_1, \cdots, \boldsymbol{u}_m\right\}$ , 并且取
$U=\left[\begin{array}{llll} \boldsymbol{u}_1 & \boldsymbol{u}_2 & \cdots & \boldsymbol{u}_m \end{array}\right] \text { 和 } V=\left[\begin{array}{llll} \boldsymbol{v}_1 & \boldsymbol{v}_2 & \cdots & \boldsymbol{v}_n \end{array}\right]$

由构造可知, $U$ 和 $V$ 是正交矩阵
$V=\left[\begin{array}{llllll} A \boldsymbol{v}_1 & \cdots & A \boldsymbol{v}_r & \mathbf{0} & \cdots & 0 \end{array}\right]=\left[\begin{array}{llllll} \sigma_1 \boldsymbol{u}_1 & \cdots & \sigma_r \boldsymbol{u}_r & \mathbf{0} & \cdots & 0 \end{array}\right]$

设 $D$ 是对角线元素为 $\sigma_1, \cdots, \sigma_r$ 的对角矩阵, 那么
$\begin{aligned} U \Sigma & =\left[\begin{array}{llll} \boldsymbol{u}_1 & \boldsymbol{u}_2 \cdots & \boldsymbol{u}_m \end{array}\right]\left[\begin{array}{llll|l} \sigma_1 & & & 0 & \\ & \sigma_2 & & & 0 \\ & & \ddots & & \\ 0 & & & \sigma_r & \\ \hline & 0 & & & 0 \end{array}\right] \\ & =\left[\sigma_1 \boldsymbol{u}_1 \cdots \sigma_r \boldsymbol{u}_r \mathbf{0} \cdots \mathbf{0}\right] \end{aligned}$

由于 $V$ 是一个正交矩阵, 因此 $\Sigma V^{\mathrm{T}}=A V V^{\mathrm{T}}=A$ .

5讨论 $\boldsymbol{u}_i$ 的性质

由于 $\boldsymbol{A} \boldsymbol{v}_i=\quad \sigma_i \boldsymbol{u}_i$
$\left\{\boldsymbol{v}_1, \cdots, \boldsymbol{v}_n\right\}$ 是 $\mathbb{R}^n$ 的单位正交基且构成 $A^{\mathrm{T}} A$ 的特征向量, $\lambda_1, \cdots, \lambda_n$ 是 $A^{\mathrm{T}} A$ 对应的特征值
所以
$\begin{aligned} AA^{\mathrm{T}}u_i=\frac{1}{\sigma_i}A(A^{\mathrm{T}}{A} {v}_i)=\frac{1}{\sigma_i}A\lambda_i{v}_i=\lambda_i\frac{1}{\sigma_i}\sigma_i {u}_i=\lambda_i{u}_i \end{aligned}$

所以 ${u_i}$ 为 $AA^{\mathrm{T}}$ 的特征向量， $\lambda_i$ 为其特征值

6svd分解是唯一的吗？

对于给定矩阵 $\boldsymbol{A}, \mathrm{SVD}$ 不唯一. 例如在定义方程 $\boldsymbol{A} \boldsymbol{v}_1=s_1 \boldsymbol{u}_1$ 中, 用 $-\boldsymbol{v}_1$ 代替 $\boldsymbol{v}_1$ , 用 $-\boldsymbol{u}_1$ 代替 $\boldsymbol{u}_1$ 不改变相等性, 但是改变矩阵 $\boldsymbol{U}$ 和 $\boldsymbol{V}$ .
同样对于 $A^{\mathrm{T}}A$ 的特征向量 $V$ , $AA^{\mathrm{T}}$ 的特征向量 $U$ 都存在正负号问题，如果同时求 $V, U$ ，此时不能确定SVD中 $V, U$ 的正负号，此种做法是错误的。

7svd的一般求解步骤

(1)求得矩阵 $A^{\mathrm{T}}A$ 的特征值与特征向量
(2)将矩阵 $A^{\mathrm{T}}A$ 的特征值按照降序排列，获取奇异值 $\sigma_i$ ,得到对应的特征向量即 $v_i$
(3)根据奇异值分解定义：
$\boldsymbol{v}_i=\sigma_i \boldsymbol{u}_i \quad(1 \leqslant i \leqslant r)$ 求得 $u_i$

参考：
《线性代数及其应用》7.4
《数值分析》12.3
1
2

xinxiangwangzhi_

关注

9
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
SVD--奇异值分解详细推导与证明

令AAA是m×nm \times nm×n矩阵, 那么ATAATA是对称矩阵且可以正交对角化. 令v1⋯vnv1⋯vn是RnRn的单位正交基且构成ATAATA的特征向量，λ1⋯λnλ1⋯λn是ATAATA对应的特征值，那么对1⩽i⩽n1⩽i⩽n∥Avi∥2AviTAvivi⊤A⊤Avivi⊤λivi由于vi。
复制链接

扫一扫