深度学习数学基础--线性代数_range线性代数-CSDN博客

本文链接：https://blog.csdn.net/xxliu_csdn/article/details/87071168

文章目录

前言

机器学习数学基础整理只涉及理解深度学习必须的代数知识。

2.1 标量、向量、矩阵和张量

标量（scalar）就是一个单独的数，用斜体表示，通常赋予小写的变量名称，eg : $n, s$
向量（vector）是一列数，这些数是有序排列的，通过次序中的索引可以确定每个单独的数。
通常用粗体的小写变量表示，eg : $\boldsymbol{n}$
明确表示向量中的元素时，可以将元素排列成一个方括号包围的纵列：
$\boldsymbol{x}=\left [ \begin{matrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{matrix} \right]$
定义集合 $S=\{1,3,6\}$ ，记 $x_S$ 指定 $x_1,x_3,x_6$
记 $x_{-1}$ 指定 $\boldsymbol{x}$ 中除 $x_1$ 外的所有元素
记 $x_{-S}$ 指定 $\boldsymbol{x}$ 中除 $x_1,x_3,x_6$ 外的所有元素
矩阵（matrix）是一个二维数组，其中每一个元素由两个索引所确定。通常用粗体的大写变量名称表示。
eg : $\mathbf{A}$
张量（tensor）是坐标超过两维的数组。一般的，一个数组的元素分布在若干维坐标的规则网格中，称之为张量。
使用字体 $\sf{A}$ 来表示张量。张量 $\sf{A}$ 中坐标为 $(i, j, k)$ 的元素记做 $\sf{A}_{i,j,k}$
转置 (transpose) 是矩阵的重要操作之一，将矩阵的行列互换得到的新矩阵称为转置矩阵。
$（A^{\sf{T}})_{i,j}=A_{j,i}$
标量可以看做只有一个元素的矩阵，因此，标量的转置等于它本身， $a=a^{\sf{T}}$
只要矩阵形状一样我们可以把两个矩阵相加(对应位置元素相加)：
$\mathbf{C}=\mathbf{A}+\mathbf{B}$
即 $C_{i,j}=A_{i,j}+B_{i,j}$
标量和矩阵相乘，或是和矩阵相加时，我们只需将其与矩阵的每个元素相乘或相加，比如
$\mathbf{D}=a⋅\mathbf{B}+c$
其中 $D_{i,j}=a⋅B_{i,j}+c$
在深度学习中允许矩阵和向量相加，比如 $\mathbf{C}=\mathbf{A}+b$
其中 $C_{i,j}=A_{i,j}+b_j$
换言之，向量 $\mathbf{b}$ 和矩阵 $\mathbf{A}$ 的每一行相加。这个简写方法使得无需在加法操作前定义一个将向量 $\mathbf{b}$ 复制到每一行而生成的矩阵。这种隐式地复制向量 $\mathbf{b}$ 到很多位置的方式，被称为广播（broadcasting）。

2.2 矩阵和向量相乘

矩阵乘法是矩阵运算中最重要的操作之一。两个矩阵 $\mathbf{A}$ 和 $\mathbf{B}$ 的矩阵乘积（matrix product）是第三个矩阵 $\mathbf{C}$ 。为了使乘法可被定义，矩阵 $\mathbf{A}$ 的列数必须和矩阵 $\mathbf{B}$ 的行数相等。如果矩阵 $\mathbf{A}$ 的形状是 $m\times n$ ，矩阵 $\mathbf{B}$ 的形状是 $n\times p$ ，那么矩阵 $\mathbf{C}$ 的形状是 $m\times p$ 。我们可以通过将两个或多个矩阵并列放置以书写矩阵乘法，例如
$\mathbf{C}=\mathbf{AB}$
具体地，该乘法操作定义为
$C_{i,j}=\sum_kA_{i,k}B_{k,j}$
注意，两个矩阵的标准乘积不是指两个矩阵中对应元素的乘积。不过那样的矩阵乘积确实存在，称为元素对应乘积（element-wise product）或者Hadamard 乘积（Hadamard product），
记做 $\mathbf{A}\odot\mathbf{B}$

矩阵乘积服从分配律
$\mathbf{A}(\mathbf{B}+\mathbf{C})=\mathbf{AB}+\mathbf{AC}$
矩阵乘法服从结合律
$\mathbf{A}(\mathbf{BC})=(\mathbf{AB})\mathbf{C}$
但矩阵乘法并不满足交换律( $\mathbf{AB}=\mathbf{B}\mathbf{A}$ 并非总是成立)，然而向量点积满足交换律
$\boldsymbol{x}^{\sf{T}}\boldsymbol{y}=\boldsymbol{y}^{\sf{T}}\boldsymbol{x}$
矩阵乘积的转置有简单的形式
$(\mathbf{AB})^{\sf{T}}=\mathbf{B}^{\sf{T}}\mathbf{A}^{\sf{T}}$
我们可用线性代数符号表示线性方程组
$\mathbf{A}\boldsymbol{x}=\mathbf{b}$
其中 $\mathbf{A}\in\Bbb{R}^{m\times n}$ 是已知矩阵， $\mathbf{b}\in \Bbb{R}^m$ 是已知向量, $\boldsymbol{x}\in \Bbb{R}^m$ 是要求解的未知向量。上式可重写为
$\begin{matrix} \mathbf{A}_{1,1}x_1+\mathbf{A}_{1,2}x_2+\cdots+\mathbf{A}_{1,n}x_n=b_1\\ \mathbf{A}_{2,1}x_1+\mathbf{A}_{2,2}x_2+\cdots+\mathbf{A}_{2,n}x_n=b_2\\ \cdots\\ \mathbf{A}_{m,1}x_1+\mathbf{A}_{m,2}x_2+\cdots+\mathbf{A}_{m,n}x_n=b_m \end{matrix}$

2.3 单位矩阵和逆矩阵

单位矩阵（identity matrix）：任意向量和单位矩阵相乘都不会改变，
$ 维向量不变的单位矩阵记做 $\mathbf{I}_n$ ,形式上

$\forall{\boldsymbol{x}}\in \Bbb{R}^n,\mathbf{I}_n\boldsymbol{x}=\boldsymbol{x} \quad (\mathbf{I}_n\in \Bbb{R}^{n\times n})$

单位矩阵的结构很简单，主对角线的元素都是1，其他元素为0

$\left[\begin{matrix} 1\quad0\quad0\\ 0\quad1\quad0\\ 0\quad0\quad1 \end{matrix}\right]$
$\text{单位矩阵的一个样例：这是}\mathbf{I}_3$

矩阵 $\mathbf{A}$ 的逆矩阵记作 $\mathbf{A}^{−1}$ ,其定义的矩阵满足如下条件:
$\mathbf{A}^{−1}\mathbf{A}=\mathbf{I}_n$
我们可以通过如下步骤求解 $\mathbf{A}\boldsymbol{x}=\mathbf{b}$

$\begin{array}{clr} \mathbf{A}\boldsymbol{x}&=\mathbf{b}\\ \mathbf{A}^{−1}\mathbf{A}\boldsymbol{x}&= \mathbf{A}^{−1}\mathbf{b}\\ \mathbf{I}_{n}\boldsymbol{x}&= \mathbf{A}^{−1}\mathbf{b}\\ \boldsymbol{x}&= \mathbf{A}^{−1}\mathbf{b} \end{array}$

当然，这取决于我们能否找到一个逆矩阵 $\mathbf{A}^{−1}$ 。

2.4 线性相关和生成子空间

如果逆矩阵 $\mathbf{A}^{−1}$ 存在，那么 $\mathbf{A}\boldsymbol{x}=\mathbf{b}$ 对于每一个向量 $\mathbf{b}$ 恰好存在一个解，
但是，对于方程组而言，对于向量 $\mathbf{b}$ 的某些值，有可能不存在解，或者存在无限多个解。

在多于一个解但是少于无限多个解的情况是不可能发生的；因为如果 $\boldsymbol{x}$ 和 $\boldsymbol{y}$ 都是某方程组的解，则
$\mathbf{z}=\alpha\boldsymbol{x}+(1−\alpha)\boldsymbol{y}$
(其中 $\alpha$ 取任意实数) 也是该方程组的解。

为了分析方程有多少个解，我们可以将 $\mathbf{A}$ 的列向量看作从原点（元素都是零的向量）出发的不同方向，确定有多少种方法可以到达向量 $\mathbf{b}$ 。在这个观点下，向量 $\boldsymbol{x}$ 中的每个元素表示我们应该沿着这些方向走多远，即 $\boldsymbol{x}_i$ 表示我们需要沿着第 $i$ 个向量的方向走多远：
$\mathbf{A}\boldsymbol{x}=\sum_i\boldsymbol{x}_i\mathbf{A}_{:,i}$
一般而言这种组合称为线性组合（linear combination）。

一组向量的生成子空间（span）是原始向量线性组合后所能抵达的点的集合。

确定 $\mathbf{A}\boldsymbol{x}=\mathbf{b}$ 是否有解相当于确定向量 $\mathbf{b}$ 是否在 $\mathbf{A}$ 列向量的生成子空间中，这个特殊的生成子空间被称为 $\mathbf{A}$ 的列空间（column space）或 $\mathbf{A}$ 的值域（range）。

为了使方程 $\mathbf{A}\boldsymbol{x}=\mathbf{b}$ 对于任意向量 $\mathbf{b} \in \Bbb{R}^m$ 都存在解，我们要求 $\mathbf{A}$ 的列空间构成整个 $\Bbb{R}^m$ 。如果 $\Bbb{R}^m$ 中的某个点不在 $\mathbf{A}$ 的列空间中，那么该点对应的 $\mathbf{b}$ 会使得该方程没有解。

矩阵 $\mathbf{A}$ 的列空间是整个 $\Bbb{R}^m$ 的要求，意味着 $\mathbf{A}$ 至少有 $m$ 列，即 $n\ge m$ 。否则， $\mathbf{A}$ 列空间的维数会小于 $m$ 。例如，假设 $\mathbf{A}$ 是一个 $3\times 2$ 的矩阵。目标 $\mathbf{b}$ 是3维的，但是 $\boldsymbol{x}$ 只有2维。所以无论如何修改 $\boldsymbol{x}$ 的值，也只能描绘出 $\Bbb{R}^3$ 空间中的二维平面。当且仅当向量 $\mathbf{b}$ 在该二维平面中时，该方程有解。

不等式 $\ge m$ 仅是方程对每一点都有解的必要条件。这不是一个充分条件，因为有些列向量可能是冗余的。假设有一个 $\Bbb{R}^{2\times 2}$ 中的矩阵，它的两个列向量是相同的。那么它的列空间和它的一个列向量作为矩阵的列空间是一样的。换言之，虽然该矩阵有 $2$ 列，但是它的列空间仍然只是一条线，不能涵盖整个 $\Bbb{R}^2$ 空间。这种冗余称为线性相关（linear dependence）,如果一组向量中的任意一个向量都不能表示成其他向量的线性组合，那么这组向量称为线性无关。

2.5 范数

在机器学习中经常使用范数来衡量向量大小。

形式上 $L^p$ 范数定义如下：
$\left \| x\right \|_p=(\sum_i |x_i|^p)^{\frac{1}{p}}$
其中 $p\in \Bbb{R},p\ge 1$ 。

范数是将向量映射到非负值得函数，直观上说向量 $\boldsymbol{x}$ 的范数衡量从原点到点 $\boldsymbol{x}$ 的距离。严格上说范数是满足以下条件的任意函数：

$f(\boldsymbol{x})=0\Longrightarrow \boldsymbol{x}=0$
$f(\boldsymbol{x}+\boldsymbol{y})\le f(\boldsymbol{x})+f(\boldsymbol{y})$ （三角不等式（triangle inequality））
$\forall\alpha\in \Bbb{R},f(\alpha\boldsymbol{x})=|\alpha|f(\boldsymbol{x})$

机器学习中常用的范数

当 $p = 2$ 时， $L^2$ 范数称为欧几里得范数（Euclidean norm），经常简化表示为 $\left \| x\right\|$ , 略去了下标2

平方 $L^2$ 范数也经常用来衡量向量的大小，可以简单的通过点积 $\boldsymbol{x}^{\sf{T}}\boldsymbol{x}$ 计算。在数学和计算上都比 $L^2$ 范数本身更方便，但它在原点附近增长十分缓慢，

当 $p = 1$ 时， $L^1$ 范数可以简化为 $\left\|x\right\|_1=\sum_i |x_i|$ （在各个位置斜率相同）

当 $p=\infty$ 时， $L^\infty$ 范数称为最大范数（max norm）,这个范数表示向量中具有最大幅值的元素的绝对值：
$\left\|x\right\|_\infty = \max\limits_{i} |x_i|$

衡量矩阵的大小深度学习中,常用Frobrnius范数（Frobenius norm）：
$\left\|\mathbf{A}\right\|_F=\sqrt{\sum_{i,j}A_{i,j}^2}$

两个向量的点积可以用范数来表示，具体如下：
$\boldsymbol{x}^{\sf{T}}\boldsymbol{y}=\|\boldsymbol{x}\|_2\|\boldsymbol{y}\|_2\cos\theta$
其中 $\theta$ 表示 $\boldsymbol{x} \text{和} \boldsymbol{y}$ 的夹角

2.6 特殊类型的矩阵和向量

对角矩阵（diagonal matrix）：只有主对角线上含有非零元素。
用 $diag(\boldsymbol{v})$ 表示对角元素由向量 $\boldsymbol{v}$ 中元素给定的一个对角方阵。
$diag(\boldsymbol{v})\boldsymbol{x} = \boldsymbol{v}\odot\boldsymbol{x}$
对角方阵的逆矩阵存在，当且仅当对角元素都是非零值，在这种情况下
$diag(\boldsymbol{v})^{-1}=diag([1/\Bbb{v_1},\cdots,1/\Bbb{v_n}]^{\sf{T}})$

对称矩阵（symmetric matrix）是转置和自己相等的矩阵。即
$\mathbf{A}=\mathbf{A}^{\sf{T}}$

单位向量（unit vector）是具有单位范数的向量，即
$\|\boldsymbol{x}\|_2=1$
如果 $\boldsymbol{x}^{\sf{T}}\boldsymbol{y}=0$ 那么向量 $\boldsymbol{x}$ 和 $\boldsymbol{y}$ 相互正交（orthogonal），如果这些向量相互正交且范数为1，则称为标准正交（orthonormal）

正交矩阵（orthogonal matrix）指行向量和列向量是分别标准正交的方阵，即
$\mathbf{A}^{\sf{T}}\mathbf{A}=\mathbf{A}^{\sf{T}}\mathbf{A}=\mathbf{I}$
这意味着
$\mathbf{A}^{-1}=\mathbf{A}^{\sf{T}}$

2.7 特征分解

特征分解（eigendecomposition）是使用最广的矩阵分解之一，即将矩阵分解为一组特征向量和特征值。
方阵 $\mathbf{A}$ 的特征向量（eigenvector）是指与 $\mathbf{A}$ 相乘后相当于对该向量进行缩放的非零向量 $\boldsymbol{v}$ :

$\mathbf{A}\boldsymbol{v}=\lambda\boldsymbol{v}$

其中标量 $\lambda$ 称为这个特征向量的特征值（eigenvalue）.

假设矩阵 $\mathbf{A}$ 有 n 个线性无关的特征向量 $\{\boldsymbol{v}^{(1)},\cdots ,\boldsymbol{v}^{(n)}\}$ ,对应着特征值 $\{\lambda_1,\cdots,\lambda{n}\}$ 。我们将特征向量连接成一个矩阵，使得每一列是一个特征向量: $\mathbf{V}=[\boldsymbol{v}^{(1)},\cdots ,\boldsymbol{v}^{(n)}]$ ,同理将特征值连接成一个向量 $\boldsymbol{\lambda}=[\lambda_1,\cdots,\lambda_n]^{\sf{T}}$ ,因此 $\mathbf{A}$ 的特征分解可以记作

$\mathbf{A}=\mathbf{V}diag(\boldsymbol{\lambda})\mathbf{V}^{−1}$

每一个实对称矩阵都可以分解成实特征向量和实特征值：

$\mathbf{A}=\mathbf{Q\Lambda Q}^{\sf{T}}$

其中 $\mathbf{Q}$ 是 $\mathbf{A}$ 的特征向量组成的正交矩阵， $\mathbf{\Lambda}$ 是对角矩阵。特征值 $\Lambda_{i,i}$ 对应的特征向量是矩阵 $\mathbf{Q}$ 的第 $i$ 列，记作 $\mathbf{Q}_{:,i}$

正定（positive definite）：所有特征值都是正数的矩阵
半正定（positive semidefinite）：所有特征值都是非负数的矩阵
负定（negative definite）：所有特征值都是负数的矩阵
半负定（negative semidefinite）：所有特征值都是非正数的矩阵

对于半正定矩阵，保证 $\forall \boldsymbol{x},\boldsymbol{x}^{\sf{T}}\mathbf{A}\boldsymbol{x} \ge 0$ ，
此外，正定矩阵还保证 $\boldsymbol{x}^{\sf{T}}\mathbf{A}\boldsymbol{x} = 0\Rightarrow \boldsymbol{x}=\mathbf{0}$ ，

2.8 奇异值分解

奇异值分解（singular value decomposition,SVD）：将矩阵分解为奇异向量（singular value vector）和奇异值（singular value）。每一个实数矩阵都有一个奇异值分解，但不一定都有特征分解。非方阵的矩阵没有特征分解，只能使用奇异值分解

奇异值分解将矩阵分解为三个矩阵的乘积：
$\mathbf{A}=\mathbf{UDV}^{\sf{T}}$
假设 $\mathbf{A}$ 是一个 $m\times n$ 的矩阵，那么 $\mathbf{U}$ 则是一个 $m\times m$ 的矩阵， $\mathbf{D}$ 是一个 $m\times n$ 的矩阵， $\mathbf{V}$ 是一个 $n\times n$ 的矩阵。矩阵 $\mathbf{U}$ 和 $\mathbf{V}$ 都定义为正交矩阵，而 $\mathbf{D}$ 定义为对角矩阵。 $\mathbf{D}$ 不一定是方阵

对角矩阵 $\mathbf{D}$ 对角线上的元素称为矩阵 $\mathbf{A}$ 的奇异值，矩阵 $\mathbf{U}$ 的列向量称为左奇异向量（left singular vector），矩阵 $\mathbf{V}$ 的列向量称为右奇异向量（right singular vector）。

$\mathbf{A}$ 的左奇异向量是 $\mathbf{AA}^{\sf{T}}$ 的特征向量
$\mathbf{A}$ 的右奇异向量是 $\mathbf{A}^{\sf{T}}\mathbf{A}$ 的特征向量
$\mathbf{A}$ 的非零奇异值是 $\mathbf{AA}^{\sf{T}}$ 和 $\mathbf{A}^{\sf{T}}\mathbf{A}$ 特征值的平方根

SVD拓展矩阵求逆到非方阵矩阵上

2.9 Moore-Penrose伪逆

矩阵 $\mathbf{A}$ 的伪逆定义为

$\mathbf{A}^+=\lim\limits_{a\rightarrow 0}(\mathbf{A}^{\sf{T}}\mathbf{A}+\alpha\mathbf{I})^{−1}\mathbf{A}^{\sf{T}}$

计算伪逆的实际算法没有基于这个定义，而是使用下面的公式：

$\mathbf{A}^+=\mathbf{VD}^+\mathbf{U}^{\sf{T}}$

其中矩阵 $\mathbf{U、D} \text{和} \mathbf{V}$ 是矩阵 $\mathbf{A}$ 奇异值分解后得到的矩阵，对角矩阵 $\mathbf{D}$ 的伪逆 $\mathbf{D}^+$ 是其非零元素取倒数之后转置得到的。

当矩阵 $\mathbf{A}$ 的列数多于行数时，使用伪逆求解线性方程是众多可能解法中的一种。且 $\boldsymbol{x}=\mathbf{A}^+\boldsymbol{y}$ 是方程所有可行解中欧几里得范数 $\|\boldsymbol{x}\|_2$ 最小的一个

当矩阵 $\mathbf{A}$ 的行数多于列数时，可能没有解。在这种情况下，通过伪逆得到的 $\boldsymbol{x}$ 使得 $\mathbf{A}\boldsymbol{x} \text{和} \boldsymbol{y}$ 的欧几里得距离 $\|\mathbf{A}\boldsymbol{x}-\boldsymbol{y}\|_2$ 最小

2.10 迹运算

迹运算返回的是矩阵对角元素的和：

$\operatorname{Tr}(\mathbf{A})=\sum\limits_i\mathbf{A}_{i,i}$

矩阵迹的一些性质：

迹运算提供了另一种描述矩阵Frobenius范数的方法

$\|\mathbf{A}\|_F=\sqrt{\operatorname{Tr}{(\mathbf{AA}^{\sf{T}})}}$

迹运算在转置运算下是不变的

$\operatorname{Tr}(\mathbf{A})=\operatorname{Tr}(\mathbf{A^{\sf{T}}})$

多个矩阵相乘得到的方阵的迹,和将这些矩阵总的最后一个挪到最前面之后相乘的迹是相同的，（需考虑挪动次序后矩阵乘积依然定义良好）

$\operatorname{Tr}{(\mathbf{ABC})}=\operatorname{Tr}{(\mathbf{CAB})}=\operatorname{Tr}{(\mathbf{BCA})}$

更一般的：

$\operatorname{Tr}(\prod\limits_{i=1}^n\mathbf{F}^{(i)})=\operatorname{Tr}(\mathbf{F}^{(n)}\prod\limits_{i=1}^{n-1}\mathbf{F}^{(i)})$

例如矩阵 $\mathbf{A}\in \Bbb{R}^{m\times n}$ ,矩阵 $\mathbf{B}\in \Bbb{R}^{n\times m}$ ,可以得到

$\operatorname{Tr}{(\mathbf{AB})}=\operatorname{Tr}{(\mathbf{BA})}$

尽管 $\mathbf{AB}\in \Bbb{R}^{m\times m}$ 和 $\mathbf{BA}\in \Bbb{R}^{n\times n}$ 。

标量在迹运算后仍然是它自己

$a=\operatorname{Tr}(a)$

2.11 行列式

行列式记作 $\det(\mathbf{A})$ ,是一个将方阵 $\mathbf{A}$ 映射到实数的函数。行列式的值等于矩阵特征值的乘积。
行列式的绝对值可以用来衡量矩阵参与矩阵乘法后空间扩大或者缩小了多少。
如果行列式是0，那么空间至少沿着某一维完全收缩了使其失去了所有的体积。
如果行列式是1，那么这个转换保持空间体积不变。