奇异值分解(SVD)摘记——从EVD到SVD

zfoox

已于 2022-08-08 17:00:18 修改

阅读量838

点赞数 1

分类专栏： Math&Phys 文章标签：线性代数矩阵机器学习

于 2020-04-21 22:42:41 首次发布

本文链接：https://blog.csdn.net/xfijun/article/details/104589238

版权

Math&Phys 专栏收录该内容

14 篇文章 3 订阅

订阅专栏

奇异值分解摘记——从EVD到SVD

1. 矩阵的对角化(Diagonalization)
2. 实对称矩阵的特征分解(Eigenvalue Decomposition,EVD)
- 2.1 实对称矩阵的对角化
- 2.2 正交矩阵的几何意义
3. 奇异值分解(Singular Value Decomposition,SVD)

1. 矩阵的对角化(Diagonalization)

$\qquad$ 假设 $A_{n\times n}$ 具有 $n$ 个线性无关的特征向量 $\{x_1,x_2,\cdots,x_n\},\ x_i\in R^n$ ，可以定义特征向量矩阵 $S=[x_1,x_2,\cdots,x_n]$ ，那么矩阵 $A$ 可以被对角化 $\text{(diagonalized)}$ 为一个对角阵 $\Lambda$ （对角线元素为特征值）：

$\qquad\qquad S^{-1}AS=\Lambda=\left[\begin{matrix} \lambda_1 & & & \\ & \lambda_2 & & \\ & & \ddots & \\ & & & \lambda_n \end{matrix}\right]$ 　　或者　　 $A=S\Lambda S^{-1}$

$\qquad$ 为了完成矩阵 $A$ 的对角化，其特征向量矩阵 $S$ 必须可逆（要求 $n$ 个线性无关的特征向量，或者没有重复的特征值）。

$\qquad$ 上述对角化的过程实际上是：

$\qquad\qquad$ 由：　 $Ax_i=\lambda_ix_i,\ i=1,\cdots,n$

$\qquad\qquad$ 可得： $AS=A[x_1,x_2,\cdots,x_n]=[\lambda_1x_1,\lambda_2x_2,\cdots,\lambda_nx_n]$

$\qquad\qquad$ 而：　 $[\lambda_1x_1,\lambda_2x_2,\cdots,\lambda_nx_n]=[x_1,x_2,\cdots,x_n] \left[\begin{matrix} \lambda_1 & & & \\ & \lambda_2 & & \\ & & \ddots & \\ & & & \lambda_n \end{matrix}\right]=S\Lambda$

$\qquad$ 矩阵的对角化可以简化很多问题。例如， $A^m=\underbrace{S\Lambda S^{-1} S\Lambda S^{-1}\cdots S\Lambda S^{-1}}_m=S\Lambda^mS^{-1}$
$\qquad$

2. 实对称矩阵的特征分解(Eigenvalue Decomposition,EVD)

2.1 实对称矩阵的对角化

$\qquad$ 假设 $A_{n\times n}$ 为实对称 $\textbf{(real\ symmetric)}$ 矩阵，考虑其对角化过程：
$\qquad$
$\qquad\qquad \left\{ \begin{aligned} \ A&=S\Lambda S^{-1} \\ A&=A^T \end{aligned} \right.$ $\Longrightarrow$ 　 $A^T=\left(S\Lambda S^{-1}\right)^T=\left(S^{-1}\right)^T\Lambda S^T$

$\qquad\qquad\qquad\qquad\qquad\ \ \Longrightarrow$ 　 $A=S\Lambda S^{-1}=\left(S^{-1}\right)^T\Lambda S^T=A^T$

$\qquad\qquad\qquad\qquad\qquad\ \ \Longrightarrow$ 　 $S^{-1}=S^T$ 或 $S^TS=\bold I$
$\qquad$
$\qquad$ 此时，特征向量矩阵 $S=[x_1,x_2,\cdots,x_n],x_i\in R^n$ 是正交矩阵 $\text{(orthogonal\ matrix)}$ ，具有特殊的性质： $S$ 中任意一个特征向量 $x_i$ 与其他特征向量 $x_j,\ (j\neq i)$ 都正交。

$\qquad\qquad S^TS=\bold I \quad \Longrightarrow\quad\left\{ \begin{aligned} \ x_i^Tx_j&=0&,i\neq j \\ x_i^Tx_j&=1&,i=j \end{aligned} \right.$

$\qquad$ 为了区别于一般矩阵的对角化，记实对称矩阵的正交矩阵（特征向量矩阵）为 $V$ 、特征值对角阵为 $D$ ，那么实对称矩阵 $A$ 可以对角化为：

$\qquad\qquad\qquad A=VDV^{-1}=VDV^T$ ，　其中 $V^TV=\bold I$ 或 $V^{-1}=V^T$
$\qquad$

2.2 正交矩阵的几何意义

$\qquad$ 在实对称矩阵 $A=VDV^{-1}$ 的对角化过程中，正交矩阵 $V$ 的主要作用在于：

将实对称矩阵 $A$ 看成 $R^n$ 到 $R^n$ 的线性变换

$\qquad\qquad A:R^n\longrightarrow R^n$
$\qquad\qquad\quad\ \ \ v_i\longrightarrow Av_i,\qquad v_i,Av_i\in R^n$

实对称矩阵 $A$ 的特征向量矩阵 $V$ 提供了变换前后的 $R^n$ 中的正交基 $\{v_1,v_2,\cdots,v_n\}$

$\qquad$ 将 $A$ 的对角化写为 $A V = V D$ ，也就是 $Av_i=\lambda_iv_i$ $,\ v_i\in R^n$ ，那么：
$\qquad(1)$ 向量 $v_i\in R^n$ 经过矩阵 $A$ 变换之后仍在 $R^n$ 中 $\text{(the\ transformation\ takes}\ R^n\ \text{to\ itself)}$
$\qquad(2)$ 向量 $v_i$ 的方向没变，只是向量的长度以 $\lambda_i$ 的比率进行了缩放
$\qquad$
$\qquad$ 因此，如果采用正交矩阵 $V$ 中的特征向量 $\{v_1,v_2,\cdots,v_n\},v_i\in R^n$ 同时作为构建变换前的 $R^n$ 和变换后的 $R^n$ 的基向量，那么变换前后的 $R^n$ 仅仅在尺度上发生了改变（如图 $1$ 和图 $3$ 所示）。

$\qquad$
例1　　实对称矩阵 $A=\left[\begin{matrix}3&0\\0&1\end{matrix}\right]$ ，对应了 $R^2$ 中的线性变换： $\left[\begin{matrix}3&0\\0&1\end{matrix}\right]\left[\begin{matrix}x_1\\x_2\end{matrix}\right]=\left[\begin{matrix}3x_1\\x_2\end{matrix}\right],\ \ \left[\begin{matrix}x_1\\x_2\end{matrix}\right]\in R^2$

$\qquad$ 　　特征向量为 $\boldsymbol v_1=\left[\begin{matrix}1\\0\end{matrix}\right]$ 和 $\boldsymbol v_2=\left[\begin{matrix}0\\1\end{matrix}\right]$ ，特征向量矩阵 $V=\left[\begin{matrix}1&0\\0&1\end{matrix}\right]$

$\qquad$ 　　特征值为 $\lambda_1=3,\ \lambda_2=1$ ，特征值对角阵 $D=\left[\begin{matrix}3&0\\0&1\end{matrix}\right]$
$\qquad$ 在这里插入图片描述

图1 标准坐标轴方向正好是特征向量的方向： $\boldsymbol e_1=[1,0]^T=\boldsymbol v_1,\ \boldsymbol e_2=[0,1]^T=\boldsymbol v_2$
由 $Av_i=\lambda_iv_i$ ，特征向量 $\boldsymbol v_i$ 经过线性变换之后，在新的 $R^2$ 中方向不会改变，只是改变了长度。
因此，对于“标准坐标轴方向”的单位向量 $\boldsymbol e_1$ 和 $\boldsymbol e_2$ 而言，在新的 $R^2$ 中方向仍保持不变：
$(1)\ \boldsymbol e_1$ 方向上的尺度放大了 $\lambda_1=3$ 倍
$(2)\ \boldsymbol e_2$ 方向上的尺度放大了 $\lambda_2=1$ 倍（尺度没变）

例2　　实对称矩阵 $A=\left[\begin{matrix}2&1\\1&2\end{matrix}\right]$ ，对应了 $R^2$ 中的线性变换： $\left[\begin{matrix}2&1\\1&2\end{matrix}\right]\left[\begin{matrix}x_1\\x_2\end{matrix}\right]=\left[\begin{matrix}2x_1+x_2\\x_1+2x_2\end{matrix}\right]$

$\qquad$ 　　特征向量为 $\boldsymbol v_1=\frac{1}{2}\left[\begin{matrix}\sqrt{2}\\\sqrt{2}\end{matrix}\right]$ 和 $\boldsymbol v_2=\frac{1}{2}\left[\begin{matrix}-\sqrt{2}\\\sqrt{2}\end{matrix}\right]$ ，特征向量矩阵 $V=\frac{1}{2}\left[\begin{matrix}\sqrt{2}&-\sqrt{2}\\\sqrt{2}&\sqrt{2}\end{matrix}\right]$

$\qquad$ 　　特征值为 $\lambda_1=3,\ \lambda_2=1$ ，特征值对角阵 $D=\left[\begin{matrix}3&0\\0&1\end{matrix}\right]$
$\qquad$ 在这里插入图片描述

图2 标准坐标轴方向不再是特征向量的方向： $\boldsymbol e_1=[1,0]^T\neq k_1\boldsymbol v_1,\ \boldsymbol e_2=[0,1]^T\neq k_2\boldsymbol v_2$
“标准坐标轴方向”的单位向量 $\boldsymbol e_1$ 和 $\boldsymbol e_2$ 经过线性变换之后，在新的 $R^2$ 中为： $x_1^{\prime}=2x_1+x_2,\ x_2^{\prime}=x_1+2x_2$
也就是会改变大小和方向： $\boldsymbol e_1^{\prime}=A\boldsymbol e_1=[2,1]^T,\boldsymbol e_2^{\prime}=A\boldsymbol e_2=[1,2]^T$ 。

$\qquad$ 在这里插入图片描述

图3 由 $Av_i=\lambda_iv_i$ ，特征向量 $\boldsymbol v_i$ 经过线性变换之后，在新的 $R^2$ 中方向不会改变，只是改变了长度：
$(1)\ \boldsymbol v_1=\frac{1}{2}[\sqrt{2},\sqrt{2}]^T$ 方向上的尺度放大了 $\lambda_1=3$ 倍
$(2)\ \boldsymbol v_2=\frac{1}{2}[-\sqrt{2},\sqrt{2}]^T$ 方向上的尺度放大了 $\lambda_2=1$ 倍（尺度没变）
　
也就是说，如果采用特征向量 $\boldsymbol v_1$ 和 $\boldsymbol v_2$ 作为基向量来构造 $R^2$ ，那么变换前后的 $R^2$ 仅仅是尺度发生了改变。

$\qquad$

3. 奇异值分解(Singular Value Decomposition,SVD)

$\qquad$ 奇异值分解 $\text{SVD}$ 可以实现对一般矩阵 $A_{m\times n}$ （非方阵）的对角化：

$\qquad\qquad A=U\Sigma V^T$ 　或者　 $AV=U\Sigma$

$\qquad\qquad$ 其中， $U_{m\times m}$ 和 $V_{n\times n}$ 都是正交矩阵
$\qquad\qquad$ 　　　 $\Sigma_{m\times n}$ 是对角阵 $(\Sigma_{ii}=\sigma_i)$

$\qquad$

3.1 SVD的实质

$\qquad$ 理解 $\text{SVD}$ 的本质，还得从线性变换的角度去看待，如图 $4$ 所示：
在这里插入图片描述

图4 在《向量空间基础》一文中已经说明：
$1)$ 对于一个秩为 $r$ 的矩阵 $A_{m\times n}$ ，其中必然包含着一个 $r\times r$ 的可逆方阵 $\hat A_{r\times r}$
$2)$ 线性变换 $A_{m\times n}:R^n\rightarrow R^m$ ，实际上是由 $A_{m\times n}:C(A^T)\rightarrow C(A)$ 完成（图中的 $A\boldsymbol x_r=\boldsymbol b$ ）
$3)$ 去掉空间 $N (A)$ 和 $N(A^T)$ ，线性变换 $A_{m\times n}:C(A^T)\rightarrow C(A)$ 实际上是指 $r$ 维子空间上的 $\hat A_{r\times r}:R^r\rightarrow R^r$
　
图片取自于《Introduction to Linear Algebra(Gilbert Strang)》Fig 4.3

$\qquad$ 从线性变换的角度来看：矩阵 $A_{m\times n}$ 将 $R^n$ 中的向量变换为 $R^m$ 中的向量。
$\qquad$ 然而，仅仅使用真实大小的可逆矩阵 $A_{r\times r}$ 来表示矩阵 $A_{m\times n}$ 的对角化，无法完整说明矩阵 $A_{m\times n}$ 作为 $R^n\longrightarrow R^m$ 线性变换的过程，只能说明实际的 $C(A^T)\longrightarrow C(A)$ 变换过程（图 $4$ 中的 $A\boldsymbol x_r=\boldsymbol b$ ），而 $C (A)$ 和 $C(A^T)$ 空间的实际维度都为 $r$ —— 都只有 $r$ 个线性无关的基向量。

$\qquad$
$\qquad$ 因此，对于一个秩为 $r$ 的矩阵 $A_{m\times n}$ ，其 $\text{SVD}$ 对角化本质上是指 $r$ 维子空间上的可逆方阵 $\hat A_{r\times r}$ 所对应的线性变换 $\hat A_{r\times r}:R^r\rightarrow R^r$ ，也就是：

$\qquad\qquad\left\{\begin{aligned}A\boldsymbol v_1=\sigma_1\boldsymbol u_1 \\ A\boldsymbol v_2=\sigma_2\boldsymbol u_2\\ \\ A\boldsymbol v_r=\sigma_r\boldsymbol u_r\end{aligned}\right.\quad\Longrightarrow\quad A_{m\times n}\left[\begin{matrix} & &\\ \ \boldsymbol v_1 &\cdots &\boldsymbol v_r\ \\ & & \end{matrix}\right]_{n\times r}=\left[\begin{matrix} & &\\ \ \boldsymbol u_1 &\cdots &\boldsymbol u_r\ \\ & & \end{matrix}\right]_{m\times r}\left[\begin{matrix} \sigma_1 & & \\ & \ddots & \\ & & \sigma_r \end{matrix}\right]_{r\times r}$

$\qquad$ 奇异向量 $\text{(singular\ vector)}\ \boldsymbol v_1,\cdots,\boldsymbol v_r$ 都在 $A$ 的行空间 $C(A^T)$ 中，而 $\boldsymbol u_1,\cdots,\boldsymbol u_r$ 都在 $A$ 的列空间 $C (A)$ 中。而且，奇异值 $\sigma_1,\cdots,\sigma_r$ 都是正数（见 $3.3$ 节结论 $1$ ）。

$\qquad$ 因此，矩阵 $A_{m\times n}$ 的奇异值分解也可以写为：

$\qquad\qquad$ $A=U\Sigma V^T=U_r\Sigma_r V_r^T=\boldsymbol u_1\sigma_1\boldsymbol v_1^T+\cdots+\boldsymbol u_r\sigma_r\boldsymbol v_r^T$

$\qquad$
例3　　假设 $r = 2, m = n = r$ ，奇异值分解的过程如图 $5$ 所示：
$\qquad$ 在这里插入图片描述

图5 与实对称矩阵的 $\text{EVD}$ 不同：
$(1)$ 奇异向量 $\boldsymbol v_i\in R^n$ 经过矩阵 $A_{m\times n}$ 变换为 $A\boldsymbol v_i\in R^m$ 之后不一定满足方向不变
$(2)$ 将矩阵 $A_{m\times n}$ 变换后的向量 $A\boldsymbol v_1$ 和 $A\boldsymbol v_2$ 单位化，就是 $R^m$ 中的向量 $\boldsymbol u_1$ 和 $\boldsymbol u_2$
　　且满足 $A\boldsymbol v_1=\sigma_1\boldsymbol u_1,A\boldsymbol v_2=\sigma_2\boldsymbol u_2$ （奇异值为长度）
$(3)$ 正交的奇异向量 $\boldsymbol v_1$ 和 $\boldsymbol v_2$ ，经过矩阵 $A_{m\times n}$ 变换为 $A\boldsymbol v_1$ 和 $A\boldsymbol v_2$ 后仍保持正交性，即：向量 $\boldsymbol u_1$ 和 $\boldsymbol u_2$ 也正交
　
【注】：本例中由于 $m = n = r = 2$ ，因此两个零空间 $N(A)=\{\boldsymbol 0\}$ 和 $N(A^T)=\{\boldsymbol 0\}$
　　
图1,2,3,5 均取自于：《We Recommend a Singular Value Decomposition》

$\qquad$
例4　　奇异值分解 $A=U\Sigma V^T=U_r\Sigma_r V_r^T=\boldsymbol u_1\sigma_1\boldsymbol v_1^T+\cdots+\boldsymbol u_r\sigma_r\boldsymbol v_r^T$ 过程描述

$\qquad$ 图 $6 (a) (b)$ 表示源空间，图 $6 (c)$ 表示目标空间，矩阵 $A_{3\times 3}$ 的秩为 $r = 2$ ，其 $\text{SVD}$ 过程为：

$\qquad(1)$ 图 $6 (a)$ 中， $R^3$ 空间 $\boldsymbol v_3$ 轴上的所有向量经过 $A_{3\times 3}$ 变换后为 $\boldsymbol 0$ ，即零空间 $N(A)=\{k\boldsymbol v_3\}$

$\qquad(2)$ 在图 $6 (a)$ 的 $R^3$ 空间中去掉零空间 $N(A)=\{k\boldsymbol v_3\}$ ，就变成了图 $6 (b)$ 中(与零空间正交的)实际维度为 $2$ 的行空间 $C(A^T)$ ，即图 $6 (b)$ 阴影区域所在平面

$\qquad(3)$ 从图 $6 (b)$ 的行空间 $C(A^T)$ 中选择出正交的奇异向量 $\boldsymbol v_1,\boldsymbol v_2$ ，经过 $A$ 变换后就变成了图 $6 (c)$ 中的向量 $A\boldsymbol v_1=\sigma_1\boldsymbol u_1$ 和 $A\boldsymbol v_2=\sigma_2\boldsymbol u_2$ ，向量 $\boldsymbol u_1,\boldsymbol u_2$ 仍保持正交性，以 $\boldsymbol u_1,\boldsymbol u_2$ 为基向量就构建出了实际维度为 $2$ 的列空间 $C (A)$ ，即图 $6 (c)$ 阴影区域所在平面

$\qquad(4)$ 奇异值分解 $A=U\Sigma V^T=U_r\Sigma_r V_r^T$ 实际上是指 $\hat A_{2\times 2}:C(A^T)\rightarrow C(A)$
$\qquad$ 在这里插入图片描述

图6 取自于《A Singularly Valuable Decomposition: The SVD of a Matrix》Fig.2

$\qquad$

3.2 SVD的奇异向量(Singular vector)

$\qquad$ 由上节分析可知，只考虑用 $\boldsymbol v_1,\cdots,\boldsymbol v_r$ 作为基向量构建行空间 $C(A^T)$ 、以及用 $\boldsymbol u_1,\cdots,\boldsymbol u_r$ 作为基向量构建列空间 $C (A)$ 来完成 $\text{SVD}$ 显然不足以描述线性变换 $A_{m\times n}:R^n\longrightarrow R^m$ 的完整过程，还必须完成以下内容：

使用正交矩阵 $V_{n\times n}$ 中的所有列向量 $\{\boldsymbol v_i\}_{i=1}^n$ 构建 $R^n$ 空间

$\qquad(1)$ 由于 $r$ 个线性无关的奇异向量 $\boldsymbol v_1,\cdots,\boldsymbol v_r$ 都在 $A$ 的行空间 $C(A^T)$ 中，实际上只是构成了 $R^n$ 中的子空间 $R^r\subseteq R^n$ ，并不足以构成整个 $R^n$

$\qquad(2)$ 由于行空间 $C(A^T)$ 在 $R^n$ 中的正交补空间为零空间 $N (A)$ ，为了构建整个 $R^n$ ，还必须补充构成 $N (A)$ 的 $n - r$ 个 $\{\boldsymbol v_i\}_{i=r+1}^n$ 基向量，也就是要使用到 $V_{n\times n}$ 的全部列向量 $\{\boldsymbol v_i\}_{i=1}^n$

零空间 $N (A)$ 中的 $n - r$ 个 $\{\boldsymbol v_i\}_{i=r+1}^n$ 基向量，均与行空间 $C(A^T)$ 中的 $\boldsymbol v_1,\cdots,\boldsymbol v_r$ 正交
　
由于 $A\boldsymbol v_i=\boldsymbol 0\in R^m,\ \forall\ \boldsymbol v_i\in N(A)\sub R^n$ ，矩阵 $A$ 将 $N (A)$ 中的向量变换为了 $R^m$ 的原点
也就是说， $N (A)$ 中的向量没能真正体现出“矩阵 $A$ 作为线性变换”应有的作用，可以认为是“冗余的”

使用正交矩阵 $U_{m\times m}$ 中的所有列向量 $\{\boldsymbol u_i\}_{i=1}^m$ 构建 $R^m$ 空间

$\qquad(1)$ 由于 $r$ 个线性无关的 $\boldsymbol u_1,\cdots,\boldsymbol u_r$ 都在 $A$ 的列空间 $C (A)$ 中，实际上只是构成了 $R^m$ 中的子空间 $R^r\subseteq R^m$ ，并不足以构成整个 $R^m$

$\qquad(2)$ 由于列空间 $C (A)$ 在 $R^m$ 中的正交补空间为左零空间 $N(A^T)$ ，为了构建整个 $R^m$ ，还必须补充构成 $N(A^T)$ 的 $m - r$ 个 $\{\boldsymbol u_i\}_{i=r+1}^m$ 基向量，也就是要使用到 $U_{m\times m}$ 的全部列向量 $\{\boldsymbol u_i\}_{i=1}^m$

左零空间 $N(A^T)$ 中的 $m - r$ 个 $\{\boldsymbol u_i\}_{i=r+1}^m$ 基向量，均与列空间 $C (A)$ 中的 $\boldsymbol u_1,\cdots,\boldsymbol u_r$ 正交
　
由于 $A^T\boldsymbol u_i=\boldsymbol 0\in R^n,\ \forall\ \boldsymbol u_i\in N(A^T)\sub R^m$ ，矩阵 $A^T$ 将 $R^m$ 中的一些向量 $\boldsymbol u_i\in N(A^T)$ 变换为了 $R^n$ 的原点
因此， $N(A^T)\sub R^m$ 中的这些向量对于变换 $A^T$ 而言也是“冗余的”

$\qquad$
$\qquad$ 使用所有 $\{\boldsymbol u_i\}_{i=1}^m$ 和 $\{\boldsymbol v_i\}_{i=1}^n$ 构建了完整的 $R^m$ 和 $R^n$ 之后，矩阵 $A_{m\times n}$ 作为 $R^n\longrightarrow R^m$ 的线性变换过程才得以完整体现。此时，完整的奇异值分解就表示为 $AV=U\Sigma$ ，也就是：
$\qquad$
$\qquad\qquad A\ \underbrace{\left[\begin{matrix} \\ \ \boldsymbol v_1\ \cdots\ \boldsymbol v_r\ \cdots\ \boldsymbol v_n\\ \\ \end{matrix}\right] }_{V_{n\times n}}=\underbrace{ \left[\begin{matrix} \\ \ \boldsymbol u_1\ \cdots\ \boldsymbol u_r\ \cdots\ \boldsymbol u_m\\ \\ \end{matrix}\right] }_{U_{m\times m}} \underbrace{ \left[\begin{matrix} \sigma_1 & & \\ & \ddots & \\ & & \sigma_r \\ & & & \end{matrix}\right]}_{\Sigma_{m\times n}}$

$\qquad$ 或者 $A=U\Sigma V^T=U_r\Sigma_r V_r^T$ 的形式：

$\qquad\qquad \begin{aligned}A &= \left[\begin{matrix} \ \boldsymbol u_1\ \cdots\ \boldsymbol u_r\ \Big|\ \boldsymbol u_{r+1}\ \cdots\ \boldsymbol u_m \end{matrix}\right] \left[\begin{matrix} \sigma_1 & & & 0 &\cdots & 0 \\ & \ddots & &\vdots & 0 & \vdots \\ & & \sigma_r & \vdots & 0 & \vdots\\ 0& \cdots & 0 & 0 & \cdots & 0 \\ \vdots & 0 & \vdots & \vdots &\ddots & \vdots \\ 0& \cdots & 0 & 0 & \cdots &0 \end{matrix}\right] \left[\begin{matrix} \boldsymbol v_1^T\\ \vdots\\ \boldsymbol v_r^T\\ ——\\ \boldsymbol v_{r+1}^T\\ \vdots\\ \boldsymbol v_n^T\\ \end{matrix}\right]\\ &= \underbrace{ \left[\begin{matrix} \ \boldsymbol u_1\ \cdots\ \boldsymbol u_r \end{matrix}\right] \left[\begin{matrix} \sigma_1 & & \\ & \ddots & \\ & & \sigma_r \end{matrix}\right] \left[\begin{matrix} \boldsymbol v_1^T\\ \vdots\\ \boldsymbol v_r^T \end{matrix}\right] }_{U_r\Sigma_r V_r^T}+ \left[\begin{matrix} \boldsymbol u_{r+1}\ \cdots\ \boldsymbol u_m \end{matrix}\right] \left[\begin{matrix} & & \\ & \bold 0 & \\ & & \end{matrix}\right] \left[\begin{matrix} \boldsymbol v_{r+1}^T\\ \vdots\\ \boldsymbol v_n^T\\ \end{matrix}\right] \end{aligned}$

$\qquad$

3.3 SVD奇异向量与EVD的关系

$\qquad$
结论1 右奇异向量矩阵 $V_{n\times n}=[\boldsymbol v_1,\cdots,\boldsymbol v_n],\ \boldsymbol v_i\in R^n$ 是实对称矩阵 $A^TA$ 的特征分解 $\text{EVD}$ 的特征向量集，且实对称矩阵 $A^TA$ 的特征值都是非负的，矩阵 $A_{m\times n}$ 进行 $\text{SVD}$ 后的奇异值都是非负的。

$\qquad\qquad A^TA=VDV^T$
$\qquad\qquad$ 其中，正交矩阵 $V_{n\times n}=[\boldsymbol v_1,\cdots,\boldsymbol v_n],\ \boldsymbol v_i\in R^n$ 就是 $\text{SVD}$ 的右奇异向量矩阵
$\qquad\qquad$ 　　　对角阵 $D_{n\times n}$ 的对角线元素 $\lambda_i$ 为 $A^TA$ 的特征值，假设特征值在对角线上以降序排列

$\qquad$ 由于：
$\qquad\qquad\qquad A^TAV=VD\Longrightarrow A^TA\boldsymbol v_i=\lambda_i\boldsymbol v_i$

$\qquad$ 可得：
$\qquad\qquad\qquad\begin{aligned}(A\boldsymbol v_i)^T(A\boldsymbol v_j)&=\boldsymbol v_i^TA^TA\boldsymbol v_j \\ &=\boldsymbol v_i^T(\lambda_j\boldsymbol v_j) \\ &=\lambda_j\boldsymbol v_i^T\boldsymbol v_j \\ &=0 \end{aligned}$

$\qquad$ 这就说明，正交矩阵 $V_{n\times n}$ 中正交的列向量 $\{\boldsymbol v_1,\cdots,\boldsymbol v_n\},\ \boldsymbol v_i\in R^n$ ，经过矩阵 $A_{m\times n}$ 变换为 $R^m$ 中的 $\{A\boldsymbol v_1,\cdots,A\boldsymbol v_n\},\ A\boldsymbol v_i\in R^m$ 后，仍然是正交的。

$\qquad$
$\qquad$ 因此：

$\qquad\qquad\qquad(A\boldsymbol v_i)^T(A\boldsymbol v_j)\Longrightarrow\left\{\begin{aligned}(A\boldsymbol v_i)^T(A\boldsymbol v_j)&=\lambda_j\boldsymbol v_i^T\boldsymbol v_j=0 &,i\neq j\\ \\(A\boldsymbol v_i)^T(A\boldsymbol v_i)&=\Vert A\boldsymbol v_i \Vert^2=\lambda_i\ge0 &,i=j \end{aligned}\right.$

$\qquad$ 这就说明，实对称矩阵 $A^TA$ 的特征值 $\lambda_i$ 都是非负的。

$\qquad$ 又因为，在 $\text{SVD}$ 中满足 $A\boldsymbol v_i=\sigma_i\boldsymbol u_i,\quad i\in\{1,\cdots,r\}$ ，因此：

$\qquad\qquad\qquad\boldsymbol u_i=\dfrac{A\boldsymbol v_i}{\big|A\boldsymbol v_i \big|}=\dfrac{1}{\sqrt{\lambda_i}}A\boldsymbol v_i=\dfrac{1}{\sigma_i}A\boldsymbol v_i,\quad i\in\{1,\cdots,r\}$

$\qquad$ 这就说明，矩阵 $A_{m\times n}$ 进行 $\text{SVD}$ 后的奇异值 $\sigma_i=\sqrt{\lambda_i}\ge0$ ，都是非负的。

$\qquad$
结论2 左奇异向量矩阵 $U_{m\times m}=[\boldsymbol u_1,\cdots,\boldsymbol u_m],\ \boldsymbol u_i\in R^m$ 是实现实对称矩阵 $AA^T$ 的特征分解 $\text{EVD}$ 的特征向量集，而且具有与实对称矩阵 $A^TA$ 相同的非零特征值。

$\qquad$ 由于满足 $\ \ A\boldsymbol v_i=\sigma_i\boldsymbol u_i,\quad i\in\{1,\cdots,r\}$

$\qquad$ 又因为：
$\qquad\qquad\qquad \boldsymbol u_i=\dfrac{1}{\sqrt{\lambda_i}}A\boldsymbol v_i=\dfrac{1}{\sigma_i}A\boldsymbol v_i,\quad i\in\{1,\cdots,r\}$

$\qquad$ 因此：

$\qquad\qquad\qquad \begin{aligned}AA^T\boldsymbol u_i&=AA^T\left(\dfrac{1}{\sigma_i}A\boldsymbol v_i\right)\\ &=\dfrac{1}{\sigma_i}A(A^TA\boldsymbol v_i)\\ &=\dfrac{1}{\sigma_i}A(\lambda_i\boldsymbol v_i)\\ &=\dfrac{1}{\sigma_i}\lambda_i(A\boldsymbol v_i) \\ &=\dfrac{1}{\sigma_i}\lambda_i(\sigma_i\boldsymbol u_i)\\ &=\lambda_i\boldsymbol u_i \end{aligned}$