【机器学习的数学基础】（八）矩阵分解(Matrix Decomposition)(下)

最新推荐文章于 2024-09-12 20:49:05 发布

二进制人工智能

最新推荐文章于 2024-09-12 20:49:05 发布

阅读量1.8k

点赞数 3

分类专栏：机器学习的数学基础文章标签：机器学习数学基础

本文链接：https://blog.csdn.net/weixin_44378835/article/details/114375742

版权

机器学习的数学基础专栏收录该内容

16 篇文章 2893 订阅

订阅专栏

文章目录

- 4 矩阵分解(Matrix Decomposition)(下)
- - 4.6 矩阵逼近
  - 4.7 矩阵Phylogeny

4 矩阵分解(Matrix Decomposition)(下)

4.6 矩阵逼近

我们认为奇异值分解是将一个矩阵分解为三个矩阵的乘积 $\boldsymbol{A}=\boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{V}^{\top} \in \mathbb{R}^{m \times n}$ 的一种方法，其中 $\boldsymbol{U} \in \mathbb{R}^{m \times m}$ 和 $\boldsymbol{V} \in \mathbb{R}^{n \times n}$ 是正交的， $\boldsymbol{\Sigma}$ 主对角线上为奇异值。现在，我们将不进行完整奇异值分解(full SVD)，而是研究奇异值分解如何将矩阵 $\boldsymbol{A}$ 表示为简单（低秩）矩阵 $\boldsymbol{A}_i$ 的和，这有助于采用比完整奇异值分解计算成本更低的矩阵近似方案。

我们构造秩1矩阵 $\boldsymbol{A}_{i} \in \mathbb{R}^{m \times n}$ 为：
$\boldsymbol{A}_{i}:=\boldsymbol{u}_{i} \boldsymbol{v}_{i}^{\top}\qquad (4.90)$
它由 $\boldsymbol{U}$ 和 $\boldsymbol{V}$ 的第 $i$ 个正交列向量的外积构成。

在这里插入图片描述
图 4.11用SVD进行图像处理。(a)原始灰度图像是一个由0(黑)和1(白)之间的值组成的1,432 × 1,910的矩阵。(b) - (f)秩1矩阵 $\boldsymbol{A}_{1}, \ldots, \boldsymbol{A}_{5}$ 及其对应的奇异值 $\sigma_{1}, \ldots, \sigma_{5}$ 。每个秩1矩阵的网格状结构是由左奇异向量和右奇异向量的外积决定的。

秩为 $r$ 的矩阵 $\boldsymbol{A} \in \mathbb{R}^{m \times n}$ 能被写成秩1矩阵 $\boldsymbol{A}_i$ 的和：
$\boldsymbol{A}=\sum_{i=1}^{r} \sigma_{i} \boldsymbol{u}_{i} \boldsymbol{v}_{i}^{\top}=\sum_{i=1}^{r} \sigma_{i} \boldsymbol{A}_{i}$
其中，外积矩阵 $\boldsymbol{A}_{i}$ 权重为第 $i$ 个奇异值 $\sigma_{i}$ 。

我们可以看出上式成立的原因： $\boldsymbol{A}=\boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{V}^{\top}$ 中，奇异值矩阵 $\boldsymbol{\Sigma}$ 的对角结构仅将匹配的左右奇异向量作内积： $\boldsymbol{u}_{i} \boldsymbol{v}_{i}^{\top}$ ，并用相应的奇异值 $σ_i$ 对它们进行缩放。对于 $i\not =j$ 的项 $\Sigma_{i j} \boldsymbol{u}_{i} \boldsymbol{v}_{j}^{\top}$ 都消失了，因为 $\boldsymbol{\Sigma}$ 除了对角线外都是0。任何 $i\gt r$ 乘项都会消失，因为相应的奇异值也为0。

在(4.90)中，我们引入了秩-1矩阵 $\boldsymbol{A}_{i}$ 。我们将 $r$ 个秩-1矩阵求和得到秩- $r$ 矩阵 $\boldsymbol{A}$ 。如果这个和没有包括所有矩阵 $\boldsymbol{A}_i，i=1, \ldots, r$ ，而是 $k\lt r$ 个时，我们得到的是 $\boldsymbol{A}$ 的秩 $k$ 逼近(rank-k approximation)：
$\widehat{\boldsymbol{A}}(k):=\sum_{i=1}^{k} \sigma_{i} \boldsymbol{u}_{i} \boldsymbol{v}_{i}^{\top}=\sum_{i=1}^{k} \sigma_{i} \boldsymbol{A}_{i}$
其中 $\operatorname{rk}(\widehat{\boldsymbol{A}}(k))=k$ 。
在这里插入图片描述
图 4.12用SVD进行图像重建。(a)原始图像。(b) - (f)使用SVD的低秩逼近进行图像重建，其中秩k近似由 $\widehat{\boldsymbol{A}}(k)=\sum_{i=1}^{k} \sigma_{i} \boldsymbol{A}_{i}$ 给出。

图4.12显示了巨石阵原始图像 $\boldsymbol{A}$ 的低阶逼近 $\widehat{\boldsymbol{A}}(k)$ 。岩石的形状变得越来越明显，并且在等级5的近似值中可以清楚地识别出来。虽然原始图像需要 $\cdot 1,910=2,735,120$ 个数字，但秩5近似法只需要我们存储五个奇异值和五个左右奇异向量（每个向量分别含1432和1910个数字），总共 $\cdot(1,432+1,910+1)=16,715$ 个数字，为原始图像的0.6%多。

为了度量 $\boldsymbol{A}$ 与其秩k近似 $\widehat{\boldsymbol{A}}(k)$ 之间的差异（误差），我们需要用到范数这个概念。在解析几何中，我们已经在向量上使用了度量向量长度的范数。通过类比，我们也可以定义矩阵的范数。

定义 23矩阵的谱范数

对于 $\ { 0 } \boldsymbol{x} \in \mathbb{R}^{n} \backslash\{\mathbf{0}\}$ ，矩阵 $\boldsymbol{A}$ 的谱范数(Spectral Norm of a Matrix)定义为：
$\|\boldsymbol{A}\|_{2}:=\max _{\boldsymbol{x}} \frac{\|\boldsymbol{A} \boldsymbol{x}\|_{2}}{\|\boldsymbol{x}\|_{2}}$
我们在矩阵范数（左侧）中引入了下标的表示法，类似于向量的欧几里德范数（右侧）的下标2。谱范数决定了向量 $\boldsymbol{x}$ 与 $\boldsymbol{A}$ 相乘时，最多变得多长。

定理 4.24

$\boldsymbol{A}$ 的谱范数是其最大奇异值 $\sigma_i$ 。

定理 4.25 Eckart-Young 定理

考虑一个秩为 $r$ 的矩阵 $\boldsymbol{A} \in \mathbb{R}^{m \times n}$ ，令 $\boldsymbol{B} \in \mathbb{R}^{m \times n}$ 为秩 $k$ 的矩阵，对于 $k\le r$ 的 $\widehat{\boldsymbol{A}}(k)=\sum_{i=1}^{k} \sigma_{i} \boldsymbol{u}_{i} \boldsymbol{v}_{i}^{\top}$ ，以下成立：
$\widehat{\boldsymbol{A}}(k)=\operatorname{argmin}_{\mathrm{rk}(\boldsymbol{B})=k}\|\boldsymbol{A}-\boldsymbol{B}\|_{2}\qquad (4.94)$
$\|\boldsymbol{A}-\widehat{\boldsymbol{A}}(k)\|_{2}=\sigma_{k+1}\qquad (4.95)$

Eckart-Young定理明确地说明了我们使用秩 $k$ 逼近来逼近 $\boldsymbol{A}$ 所引入的误差是多少。我们可以把用奇异值分解得到的秩 $k$ 近似解释为满秩矩阵 $\boldsymbol{A}$ 在秩最大为 $k$ 的矩阵所在的低维空间上的投影。在所有可能的投影中，奇异值分解使 $\boldsymbol{A}$ 和任何秩 $k$ 逼近之间的（谱范数得到的）误差最小化。

Eckart-Young定理意味着我们可以使用奇异值分解（SVD）将秩 $r$ 矩阵 $\boldsymbol{A}$ 降为秩 $k$ 矩阵 $\widehat{\boldsymbol{A}}$ ，这是一种取主要成分并达到最优的（在谱范数意义上）方式。我们可以将秩 $k$ 矩阵对 $\boldsymbol{A}$ 的逼近解释为有损压缩的一种方法。因此，矩阵的低秩逼近出现在许多机器学习应用中，例如图像处理、噪声滤波和不适定问题的正则化。此外，它在降维和主成分分析中起着关键作用，我们将第十章中看到。

4.7 矩阵Phylogeny

“phylogenetic”一词描述了我们如何获取个体与群体之间的关系，并源于希腊语中的“tribe”和“source”。
在这里插入图片描述

图4 .13与机器学习相关的矩阵的Phylogeny。

在第2章和第3章中，我们介绍了线性代数和解析几何的基础知识。在这一章中，我们研究了矩阵和线性映射的基本特征。图4.13描述了不同类型矩阵之间关系的Phylogeny（黑色箭头表示子集）以及我们可以对其执行的操作（蓝色）。

我们考虑所有实矩阵(real matrices) $\boldsymbol{A} \in \mathbb{R}^{n \times m}$ 。对于非方阵（其中 $n\not =m$ ），奇异值分解总是存在的，正如我们在本章中看到的。以方阵(square matrices) $\boldsymbol{A} \in \mathbb{R}^{n \times n}$ 为中心，行列式告诉我们方阵是否具有逆矩阵(inverse matrix)，即它是否属于正则可逆矩阵类。如果平方 $n \times n$ 矩阵具有 $n$ 个线性无关的特征向量，则矩阵是非退化的(non-defective)，并且存在特征分解（定理4.12）。我们知道，重复的特征值可能导致矩阵退化，这种矩阵是不能对角化的。

非奇异矩阵和非退化矩阵是不同的。例如，旋转矩阵是可逆的（行列式是非零的），但不一定可对角化（特征值不能保证是实数）。

我们进一步研究了非退化 $n \times n$ 方阵的分支。如果条件 $\boldsymbol{A}^{\top} \boldsymbol{A}=\boldsymbol{A} \boldsymbol{A}^{\top}$ 成立，则 $\boldsymbol{A}$ 是正规的(normal)。此外，如果更严格的条件 $\boldsymbol{A}^{\top} \boldsymbol{A}=\boldsymbol{A} \boldsymbol{A}^{\top}=\boldsymbol{I}$ 成立，则 $\boldsymbol{A}$ 称为正交（orthogonal,见定义3.8）。正交矩阵集是正则（可逆）矩阵的子集，满足 $\boldsymbol{A}^{\top}=\boldsymbol{A}^{-1}$ 。

正规矩阵有一个常见的子集，即对称矩阵 $\boldsymbol{S} \in \mathbb{R}^{n \times n}$ ，它满足 $\boldsymbol{S}=\boldsymbol{S}^{\top}$ 。对称矩阵只有实特征值。对称矩阵的子集由正定矩阵 $\boldsymbol{P}$ 组成，正定矩阵 $\boldsymbol{P}$ 对所有 $\ { 0 } \boldsymbol{x} \in \mathbb{R}^{n} \backslash\{\mathbf{0}\}$ 满足 $\boldsymbol{x}^{\top} \boldsymbol{P} \boldsymbol{x}>0$ 的条件。在这种情况下，存在唯一的Cholesky分解（Cholesky decomposition，定理4.18）。正定矩阵只有正特征值且总是可逆的（即，具有非零行列式）。