《统计学习方法》——奇异值分解(SVD)

最新推荐文章于 2023-09-19 20:33:25 发布

秋男不吃牛肉豆制品牛奶小麦

最新推荐文章于 2023-09-19 20:33:25 发布

阅读量578

点赞数

分类专栏：机器学习统计学习文章标签：算法

本文链接：https://blog.csdn.net/weixin_43766770/article/details/90399750

版权

机器学习同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

统计学习

6 篇文章 0 订阅

订阅专栏

奇异值分解(singular value decomposition,SVD)是矩阵因子分解方法。主成分分析、潜在语义分析都用到奇异值分解。矩阵的奇异值分解可以看作是方阵对角化的推广。

15.1 奇异值分解的定义与性质

15.1.1 定义与定理

定义15.1（奇异值分解）矩阵的奇异值分解是指，将一个非零的 $m\times n$ 实矩阵 $A$ ， $A\in R^{m\times n}$ ，表示为以下三个实矩阵乘积形式的运算，即进行矩阵的因子分解：
$A=U\sum V^T$ 其中， $U$ 是 $m$ 阶正交矩阵(orthogonal matrix)， $V$ 是 $n$ 阶正交矩阵， $\sum$ 是由降序排列的非负的对角元素组成的 $m\times n$ 矩形对角矩阵(rectangular diagonal matrix). $UU^T=I$ $VV^T=I$ $\sum=diag(\sigma_1,\sigma_2,\cdot\cdot\cdot,\sigma_p)$ $\sigma_1\geq\sigma_2\geq\cdot\cdot\cdot\geq\sigma_p\geq0$ $p = m i n (m, n)$ $U\sum V^T$ 称为矩阵A的奇异值分解， $\sigma_i$ 称为矩阵A的奇异值， $U$ 的列向量称为左奇异向量， $V$ 的列向量称为右奇异向量。
定理15.2（奇异值分解基本定理）若 $A$ 为一 $m\times n$ 实矩阵， $A\in R^{m\times n}$ ，则 $A$ 的奇异值分解一定存在 $A=U\sum V^T$ 其中， $U$ 是 $m$ 阶正交矩阵(orthogonal matrix)， $V$ 是 $n$ 阶正交矩阵， $\sum$ 是由降序排列的非负的对角元素组成的 $m\times n$ 矩形对角矩阵。
$\color{red}{定理证明：}$ 证明属于构造性的，即构造出奇异值分解的各个矩阵，步骤如下：

确定矩阵 $V$ 和 $\sum$ :
矩阵 $A$ 是 $m\times n$ 实矩阵，则矩阵 $A^TA$ 是 $n$ 阶实对称矩阵，因而 $A^TA$ 的特征值都是实数，并且存在一个 $n$ 阶正交实矩阵 $V$ 实现 $A^TA$ 的对角化，使得 $V^T(A^TA)V=\bigwedge$ 成立，其中 $\bigwedge$ 是 $n$ 阶对角矩阵，其对角线元素由 $A^TA$ 的特征值组成。（ $\color{red}{实对称矩阵一定可以对角化----矩阵理论}$ ）。
$A^TA$ 的特征值都是非负的，令 $\lambda$ 矩阵 $A^TA$ 的一个特征值， $x$ 是对应的特征向量，所以： $||Ax||^2=x^TA^TAx=\lambda x^Tx=\lambda||x||^2$ 于是， $\lambda=\frac{||Ax||^2}{|x||^2}\geq 0$ 正交矩阵 $V$ 的列的排列使得对应的特征值按照从大到小的顺序排列， $\lambda_1\geq\lambda_2\geq\cdots\geq\lambda_n\geq 0$ 计算特征值的平方根——矩阵A的奇异值 $\sigma_j=\sqrt\lambda_j, j=1,2,\cdots,n$ 设 $A$ 的秩是 $r$ ， $r a n k (A) = r$ ，则矩阵 $A^TA$ 的秩也是 $r$ 。由于 $A^TA$ 是对称矩阵，它的秩等于正的特征值的个数，所以 $\lambda_1\geq\lambda_2\geq\cdots\geq\lambda_r>0,\lambda_{r+1}=\lambda_{r+2}=\cdots=\lambda_n=0$ 对应的有 $\sigma_1\geq\sigma_2\geq\cdots\geq\sigma_r>0,\sigma_{r+1}=\sigma_{r+2}=\cdots=\sigma_n$ 令 $V_1=[v_1\ v_2\ \cdots v_r],\ V_2=[v_{r+1},v_{r+2},\cdots ,v_n]$ 其中， $v_1,v_2,\cdots,v_r$ 分别是矩阵 $A^TA$ 的正特征值对应的特征向量， $v_{r+1},v_{r+2},\cdots,v_n$ 为0特征值对应的特征向量，则 $V=[V_1,V_2]$ 此为矩阵特征值分解中的 $n$ 阶矩阵 $V$ .
令 $\sum_1= \begin{bmatrix} \sigma_1 & & & \\ & \sigma_2&& \\ & & \ddots& \\ &&&\sigma_r \end{bmatrix}$ 则 $\sum_1$ 是一个对角矩阵，其对角元素为降序排列的正的 $\sigma_1,\sigma_2,\cdots,\sigma_r$ ，于是 $m\times n$ 矩形对角矩阵 $\sum$ 可以表示为 $\sum_1= \begin{bmatrix} \sum_1 &0 \\ 0&0 \\ \end{bmatrix}$ 这就是矩阵奇异值分解中的 $m\times n$ 矩形对角矩阵 $\sum$ 。
上面的矩阵 $V_2$ 的列向量是矩阵 $A^TA$ 对应于特征值为0的特征向量。因此 $A^TAv_j=0，j=r+1,\cdots,n$ $V_2$ 的列向量构成了矩阵 $A^TA$ 的零空间 $N(A^TA)$ ，而 $N(A^TA)=N(A)$ （ $\color{red}{零空间问题证明}$ ）。所以 $V_2$ 的列向量构成 $A$ 的零空间的一组标准正交基。因此 $AV_2=0$ 由于 $V$ 是正交矩阵，所以 $I=V^TV=V_1V_1^T+V_2V_2^T$ $A=AI=AV_1V_1^T+AV_2V_2^T=AV_1V_1^T$
确定矩阵 $U$
构造 $m$ 阶矩阵 $U$ 。令 $u_j=\frac{1}{\sigma_j}Av_j，j=1,2,\cdots,r$ $U_1=[u_1\ u_2 \ \cdots u_r]$ 则有 $AV_1=U_1\sum_1$
$U_1$ 的列向量构成了一组标准正交集，因为 $u_i^Tu_j=(\frac{1}{\sigma_i}v_i^TA^T)(\frac{1}{\sigma_j}Av_j)$ $=\frac{1}{\sigma_i\sigma_j}v_i^T(A^TAv_j)$ $=\frac{\sigma_j}{\sigma_i}v_i^Tv_j$ $=\delta_{ij}, i=1,2,\cdots,r；j=1,2,\cdots,r$ 可知， $u_1,u_2,\cdots,u_r$ 构成 $A$ 的列空间的一组标准正交基，列空间的维数是 $r$ 。
令 $u_{r+1},u{r+2},\cdots,u_{m}$ 为 $N(A^T)$ 的一组标准正交基。因此， $U$ 是 $m$ 阶正交矩阵，这就是矩阵A的奇异值分解中的 $m$ 阶正交矩阵。
证明 $U\sum V^T=A$
$U\sum V^T=[U_1\ U_2]\begin{bmatrix}\sum_1 &0 \\ 0&0 \ \end{bmatrix} \begin{bmatrix} V_1^T\\V_2^T \end{bmatrix}$ $=U_1\sum_1V_1^T=AV_1V_1^T=A$ 这就是矩阵 $A$ 的奇异值分解。

15.1.2 紧奇异值分解与截断奇异值分解

定义15.1的奇异值分解称为矩阵的完全奇异值分解，实际常用的紧奇异值分解与截断奇异值分解。紧奇异值分解是与原始矩阵等秩的奇异值分解，截断奇异值分解是比原始矩阵低秩的奇异值分解。

紧奇异值分解
设 $m\times n$ 实矩阵 $A$ ， $A\in R^{m\times n}$ ,其秩为 $r$ ， $r\leq min(m,n)$ ,则称 $U_r\sum_rV_r$ 为矩阵A的紧奇异值分解，即 $A=U_r\sum_rV_r$ 其中 $U_r$ 是 $m\times r$ 矩阵， $V_r$ 是 $n\times r$ 矩阵， $\sum_r$ 是 $r$ 阶对角矩阵。 $U_r$ 、 $V_r$ 、 $\sum_r$ 分别是由矩阵 $U$ 、 $V$ 、 $\sum$ 的前 $r$ 列、前 $r$ 列、前 $r$ 个对角元素构成。紧奇异值分解的秩与原始矩阵 $A$ 的秩相同。
截断奇异值分解
截断奇异值分解是取最大的 $k$ 个奇异值( $k < r$ ， $r$ 为矩阵的秩)对应的部分。
设 $m\times n$ 实矩阵 $A$ ， $A\in R^{m\times n}$ ,其秩为 $r$ ，且 $0 < k < r$ ,则称 $U_k\sum_kV_k$ 为矩阵A的紧奇异值分解，即 $A\approx U_k\sum_kV_k$ 其中 $U_k$ 是 $m\times k$ 矩阵， $V_k$ 是 $n\times k$ 矩阵， $\sum_k$ 是 $k$ 阶对角矩阵。 $U_k$ 、 $V_k$ 、 $\sum_k$ 分别是由矩阵 $U$ 、 $V$ 、 $\sum$ 的前 $k$ 列、前 $k$ 列、前 $k$ 个对角元素构成。紧奇异值分解的秩比原始矩阵 $A$ 的秩低。

秋男不吃牛肉豆制品牛奶小麦

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《统计学习方法》——奇异值分解(SVD)

奇异值分解(singular value decomposition,SVD)是矩阵因子分解方法。主成分分析、潜在语义分析都用到奇异值分解。矩阵的奇异值分解可以看作是方阵对角化的推广。15.1 奇异值分解的定义与性质15.1.1 定义与定理定义15.1（奇异值分解）矩阵的奇异值分解是指，将一个非零的m×nm\times nm×n实矩阵AAA，A∈Rm×nA\in R^{m\times...
复制链接

扫一扫

专栏目录