【机器学习的数学基础】（一）线性代数(Linear Algebra)（上）

二进制人工智能

已于 2024-07-08 09:48:34 修改

阅读量2.2w

点赞数 69

分类专栏：机器学习的数学基础文章标签：线性代数机器学习

于 2021-03-23 09:28:39 首次发布

本文链接：https://blog.csdn.net/weixin_44378835/article/details/115050415

版权

机器学习的数学基础专栏收录该内容

16 篇文章 2770 订阅

订阅专栏

文章目录

- 2 线性代数(Linear Algebra)（上）

2 线性代数(Linear Algebra)（上）

在形式化一些直观概念时，常见的方法是构造一组对象(符号)和一些操作这些对象的规则。这就是所谓的代数(algebra)。线性代数是研究向量以及使用某些确定的规则来操作向量的一门学科。

我们许多人从学校里知道的向量被称为“几何向量”，通常用上方带一个小箭头的字母表示，例如 $\vec{y}$ 和 $\vec{x}$ 。在这本书中，我们将讨论向量的更一般的概念，并使用粗体字母来表示它们，例如， $\boldsymbol{x}$ 和 $\boldsymbol{y}$

一般来说，向量是特殊的对象，将它们相加并乘以标量产生的是另一个相同类型的对象。从抽象的数学来看，任何满足这两个性质的物体都可以被认为是向量。下面举一些例子：

图 2.1 不同类型的向量。向量可以是出人意料的对象，包括（a）几何向量和（b）多项式。

1 几何向量

几何向量（见图2.1(a)）在高中数学和物理中可能很常见。它可以被绘制成有向线段(至少二维)。两个几何向量 $\overrightarrow{\boldsymbol{x}}$ 和 $\overrightarrow{\boldsymbol{y}}$ 相加： $\overrightarrow{\boldsymbol{x}}+\overrightarrow{\boldsymbol{y}}=\overrightarrow{\boldsymbol{z}}$ ，得到另一几何向量 $\overrightarrow{\boldsymbol{z}}$ 。另外，几何向量与一个标量(scalar)相乘： $\lambda \overrightarrow{\boldsymbol{x}}, \lambda \in \mathbb{R}$ ，依然得到一个几何向量。事实上， $\overrightarrow{\boldsymbol{x}}$ 是被 $λ$ 缩放(scaled)的原始向量。因此，几何向量是前面介绍的向量概念的一个实例。将向量解释为几何向量使我们能够利用方向和大小直观地解释数学运算。

2 多项式

多项式也是向量；见图2.1(b)：两个多项式能相加，并得到另一个多项式；多项式与标量 $\lambda \in \mathbb{R}$ 相乘，得到的也是多项式。因此，多项式也是向量的一个实例。注意多项式与几何向量有很大的不同。几何向量是具体的“图”，多项式是抽象的概念。然而，根据前文描述的向量概念，它们都是向量。

3 音频信号

音频信号是用一组数字表示的。我们可以把音频信号加在一起，得到新的音频信号。如果我们对音频信号进行缩放，我们也会得到一个音频信号。因此，音频信号也是向量。

4 $\mathbb{R}^{n}$ 的元素(含 $n$ 个实数的元组)

$\mathbb{R}^{n}$ 比多项式更抽象，它是这本书关注的概念。例如,
$\boldsymbol{a}=\left[\begin{array}{l}1 \\2 \\3\end{array}\right] \in \mathbb{R}^{3}$

这个向量包含三个实数元素。两个向量 $\boldsymbol{a}, \boldsymbol{b} \in \mathbb{R}^{n}$ 相加得到另一个向量： $\boldsymbol{a}+\boldsymbol{b}=\boldsymbol{c} \in \mathbb{R}^{n}$ 。另外，向量 $\boldsymbol{a} \in \mathbb{R}^{n}$ 与标量 $\lambda \in \mathbb{R}$ 相乘得到一个被缩放的向量： $\lambda \boldsymbol{a} \in \mathbb{R}^{n}$ 。

将向量视为 $\mathbb{R}^{n}$ 的元素还有一个额外的好处，即它可以用计算机上的实数数组表示。许多编程语言都支持数组操作，这使得我们可以方便地实现有关向量操作的算法。

线性代数关注的是这些向量之间的相似性。我们可以把它们加起来，然后乘以标量。我们将主要关注 $\mathbb{R}^n$ 中的向量，因为线性代数中的大多数算法都是在 $\mathbb{R}^n$ 中表述的。我们将在第8章中看到，我们用 $\mathbb{R}^n$ 中的向量来表示数据。在这本书中，我们将关注有限维向量空间，在这种情况下，任何向量和 $\mathbb{R}^n$ 之间都有1:1的对应关系。如果方便的话，我们将利用几何向量来直观表示，并考虑基于数组的算法。

数学中的一个主要概念是“封闭性”。相关的问题是:我提出的操作得到的所有的东西组成的集合是什么?在向量的例子中：从一个小的向量集合开始，然后把它们相加，再按比例缩放，得到的向量集合是什么?这将产生一个向量空间(第2.4节)。向量空间的概念及其特性是机器学习的基础。图2.2总结了本章介绍的概念。

图2.2 本章介绍的概念的思维导图，以及这些概念在本书其他部分中的使用。

线性代数在机器学习和一般数学中扮演着重要的角色。本章所介绍的概念将在第三章中进一步扩展到几何学相关的概念。在第五章，我们将讨论向量微积分，需要一些矩阵运算的知识。在第十章中，我们将使用投影(将在3.8节中介绍)进行主成分分析(PCA)实现降维。在第九章，我们将讨论线性回归，其中线性代数在解决最小二乘问题中扮演核心角色。

2.1 线性方程组

线性方程组是线性代数的核心部分。许多问题可以表述为线性方程组，而线性代数为我们提供了求解它们的工具。

例 2.1
一家公司要生产产品 $N_{1}, \ldots, N_{n}$ ，需要资源 $R_{1}, \ldots, R_{m}$ 。要生产单位产品 $N_j$ ，需要 $a_{ij}$ 单位的资源 $R_i$ 。其中 $\ldots, m$ ， $\ldots, n$

我们的目标是找到一个最优的生产计划，即在资源 $R_i$ 的有单位总数 $b_i$ 可用且（理想情况下）没有剩余资源的前提下，产品 $N_j$ 的应生产多少单位 $x_i$ 的计划。

如果我们要分别生产 $x_{1}, \ldots, x_{n}$ 单元个相应产品，我们总共需要
$a_{i 1} x_{1}+\cdots+a_{i n} x_{n}$

单元个 $R_i$ 。最优生产计划 $\left(x_{1}, \ldots, x_{n}\right) \in \mathbb{R}^{n}$ 需要满足以下方程组：
$\begin{array}{c}a_{11} x_{1}+\cdots+a_{1 n} x_{n}=b_{1} \\\vdots \\a_{m 1} x_{1}+\cdots+a_{m n} x_{n}=b_{m}\end{array} \qquad(2.3)$

其中 $a_{i j} \in \mathbb{R}$ ， $b_{i} \in \mathbb{R}$ 。

式(2.3)就是线性方程组(system of linear equations)的一般形式。 $x_{1}, \ldots, x_{n}$ 是这个方程组的未知数。每一个满足式(2.3)的 $n$ 元组 $\left(x_{1}, \ldots, x_{n}\right) \in\mathbb{R}^{n}$ 都是线性方程组的一个解（solution）。

例 2.2
线性方程组
$\begin{array}{rrr}x_{1}& +&x_{2}&+&x_{3}&=&3 \qquad(1)\\x_{1}& -&x_{2}&+&2 x_{3}&=&2 \qquad(2)\\2 x_{1}& & &+&3 x_{3}&=&1 \qquad(3)\end{array}$

无解(no solution)：将前两个方程相加得到 $2 x_{1}+3 x_{3}=5$ ，这与第三个方程（3）相矛盾。

让我们看看另一个线性方程组：
$\begin{array}{rrr}x_{1}& +&x_{2}&+&x_{3}&=&3 \qquad(1)\\x_{1}& -&x_{2}&+&2 x_{3}&=&2 \qquad(2)\\& & x_{2}&+& x_{3}&=&2 \qquad(3)\end{array}$

根据第一个和第三个方程，得到 $x_1=1$ 。由(1)+(2)得到： $2 x_{1}+3 x_{3}=5$ ，即： $x_3$ =1。由(3)，我们可以得到 $x_2=1$ 。因此， $(1 ， 1 ， 1)$ 是唯一解(unique solution)（通过代入方程组可验证 $(1 ， 1 ， 1)$ 是解）。

接下来看第三个例子：
$\begin{array}{rrr}x_{1}& +&x_{2}&+&x_{3}&=&3 \qquad(1)\\x_{1}& -&x_{2}&+&2 x_{3}&=&2 \qquad(2)\\2 x_{1}& & &+&3 x_{3}&=&5 \qquad(3)\end{array}$

因为 $(1) + (2) = (3)$ ，我们可以省略第三个等式（冗余）。由(1)和(2)，我们可以得到： $2 x_{1}=5-3 x_{3}$ ， $2 x_{2}=1+x_{3}$ 。我们定义 $x_{3}=a \in \mathbb{R}$ 为自由变量，使得任意三元组 $\left(\frac{5}{2}-\frac{3}{2} a, \frac{1}{2}+\frac{1}{2} a, a\right), \quad a \in \mathbb{R}$ 是线性方程组的一个解，即我们得到一个包含无穷多解（infinitely many solutions）的解集。

一般来说，对于一个实值线性方程组，我们要么无解，要么有唯一解，要么有无穷多解。线性回归(Linear regression，第九章)能解决无解的方程组。

备注（线性方程组的几何解释）。

在具有两个变量 $x_1$ ， $x_2$ 的线性方程组中，每个线性方程表示 $x_1-x_2$ 平面上的一条线。由于线性方程组的解必须同时满足所有方程，所以解集是这些线的交集。这个交集可以是一条直线（如果线性方程描述同一条直线）、一个点，也可以是空的（当直线平行时）。
对于两个变量的方程组

$\begin{array}{l}4 x_{1}+4 x_{2}=5 \\2 x_{1}-4 x_{2}=1\end{array}$

其图示为：

图 2.3 二元线性方程组的解空间可以几何地解释为两条直线的交点。每个线性方程都代表一条直线。

方程组的解空间为点 $(x_1,x_2)=(1,\frac{1}{4})$

类似地，对于三个变量，每个线性方程确定了三维空间中的一个平面。这些平面相交部分，即同时满足所有线性方程组的集合，为方程组的解集，它可以是一个平面、一条直线、一个点或空的（当这些平面不相交时）。

在介绍求解线性方程组的方法前，我们首先介绍一种线性方程组的紧凑表示法。我们将系数 $a_{ij}$ 组合表示为向量，并进一步组合表示成矩阵。换句话说，我们将
$\begin{array}{c}a_{11} x_{1}+\cdots+a_{1 n} x_{n}=b_{1} \\\vdots \\a_{m 1} x_{1}+\cdots+a_{m n} x_{n}=b_{m}\end{array}$

写成以下形式：
$\left[\begin{array}{c}a_{11} \\\vdots \\a_{m 1}\end{array}\right] x_{1}+\left[\begin{array}{c}a_{12} \\\vdots \\a_{m 2}\end{array}\right] x_{2}+\cdots+\left[\begin{array}{c}a_{1 n} \\\vdots \\a_{m n}\end{array}\right] x_{n}=\left[\begin{array}{c}b_{1} \\\vdots \\b_{m}\end{array}\right]$

$\Longleftrightarrow\left[\begin{array}{ccc}a_{11} & \cdots & a_{1 n} \\\vdots & & \vdots \\a_{m 1} & \cdots & a_{m n}\end{array}\right]\left[\begin{array}{c}x_{1} \\\vdots \\x_{n}\end{array}\right]=\left[\begin{array}{c}b_{1} \\\vdots \\b_{m}\end{array}\right]$

下面，我们将仔细研究这些矩阵(matrices )并定义一些计算规则。我们将在2.3节中回到求解线性方程的问题。

2.2 矩阵

矩阵在线性代数中起着核心作用。它们可以用来紧凑地表示线性方程组，也可以表示线性函数（线性映射），这将在后面2.7节看到。在我们讨论这些话题之前，让我们先定义什么是矩阵，以及我们可以对矩阵做什么样的操作。我们将在第四章看到矩阵的更多性质。

定义2.1（矩阵）

对于任意 $\in \mathbb{N}$ ， $(m, n)$ 实值矩阵(Matrix) $\boldsymbol{A}$ 是由元素 $a_{ij}$ 组成的 $m \cdot n$ 元组，其中 $\ldots, m, j=1, \ldots, n$ ，并按照 $m$ 行和 $n$ 列的表格形式排序：

按惯例， $(1, n)$ -矩阵称为行(rows)， $(m, 1)$ -矩阵称为列(columns)。这两个特殊矩阵也称为行或列向量(row/column vectors)。另外，我们称 $(n, n)$ -矩阵为 $n$ 阶方阵(square matrices)，因为它们行数和与列数相等。

如果一个矩阵的所有元素都为0，则称这个矩阵为零矩阵 $\boldsymbol{O}$ ：

$\left[\begin{array}{cccc}0 & 0 & \cdots & 0 \\0 & 0 & \cdots & 0 \\\vdots & \vdots & & \vdots \\0 & 0 & \cdots & 0\end{array}\right]$

备注：

$\mathbb{R}^{m \times n}$ 是所有 $(m, n)$ 实值矩阵的集合。 $\boldsymbol{A} \in \mathbb{R}^{m \times n}$ 可以等价地表示为 $\boldsymbol{a} \in \mathbb{R}^{m n}$ ，方法是将矩阵的所有 $n$ 列叠加成一个长向量，如图2.4所示。（线性代数（下）的定理 2.17给出解释）

图2.4 通过堆叠其列，矩阵 $\boldsymbol{A}$ 可以表示为长向量 $\boldsymbol{a}$ 。

2.2.1 矩阵加法和乘法

矩阵 $\boldsymbol{A} \in \mathbb{R}^{m \times n}, \boldsymbol{B} \in \mathbb{R}^{m \times n}$ 相加定义为其对应元素相加，即：

$\boldsymbol{A}+\boldsymbol{B}:=\left[\begin{array}{ccc}a_{11}+b_{11} & \cdots & a_{1 n}+b_{1 n} \\\vdots & & \vdots \\a_{m 1}+b_{m 1} & \cdots & a_{m n}+b_{m n}\end{array}\right] \in \mathbb{R}^{m \times n}$

以下是矩阵加法的一些性质：

对于矩阵 $\boldsymbol{A} \in \mathbb{R}^{m \times n}，\boldsymbol{B} \in \mathbb{R}^{m \times n}，\boldsymbol{C} \in \mathbb{R}^{m \times n}$ ：
$\boldsymbol{A}+\boldsymbol{B}=\boldsymbol{B}+\boldsymbol{A}$
$(\boldsymbol{A}+\boldsymbol{B})+\boldsymbol{C}=\boldsymbol{A}+(\boldsymbol{B}+\boldsymbol{C})$
$\boldsymbol{A}+\boldsymbol{O}=\boldsymbol{A}$
$\boldsymbol{A}+(-\boldsymbol{A})=\boldsymbol{O}$

对于矩阵 $\boldsymbol{A} \in \mathbb{R}^{m \times n}, \boldsymbol{B} \in \mathbb{R}^{n \times k}$ 相乘： $\boldsymbol{C}=\boldsymbol{A B} \in \mathbb{R}^{m \times k}$ ， $\boldsymbol{C}$ 的元素 $c_{ij}$ 计算如下：
$c_{i j}=\sum_{l=1}^{n} a_{i l} b_{l j}=a_{i 1} b_{1 j}+a_{i 2} b_{2 j}+\cdots+a_{i n} b_{nj}，\quad i=1, \ldots, m, \quad j=1, \ldots, k$

这意味着，为了计算元素 $c_{ij}$ ，我们将 $\boldsymbol{A}$ 的第 $i$ 行的元素与 $\boldsymbol{B}$ 的第 $j$ 列元素对应相乘，然后求和。在后面的解析几何中，我们将其称为相应行和列的点积(dot product)。在某些情况下，我们需要明确表示我们在进行乘法运算，我们用符号 $\boldsymbol{A}·\boldsymbol{B}$ 来表示矩阵乘法（显式地表示“ $\cdot$ ”).

特别地，如果 $\boldsymbol{A}$ 是一个 $n$ 阶方阵，则记 $\overbrace{\boldsymbol{A} \cdot \boldsymbol{A} \cdots \boldsymbol{A}}^{k}=\boldsymbol{A}^{k}$ 为 $\boldsymbol{A}$ 的 $k$ 次幂。

备注：

矩阵只有在“相邻”维度匹配时才能相乘。例如， $n \times k$ 矩阵 $\boldsymbol{A}$ 可以与 $k \times m$ 矩阵 $\boldsymbol{B}$ 相乘，且只能从左侧相乘：
$\underbrace{A}_{n \times k} \underbrace{B}_{k \times m}=\underbrace{C}_{n \times m}$

$m\not =n$ ，所以 $\boldsymbol{B}\boldsymbol{A}$ 不成立，因为相邻维度不匹配。

备注：

矩阵乘法不是对矩阵元素的逐元素运算，即 $c_{i j} \neq a_{i j} b_{i j}$ ，即使 $\boldsymbol{A},\boldsymbol{B}$ 的尺寸选择得当。实际上，这种逐元素的乘法通常出现在编程语言中，被称为Hadamard积( Hadamard product)。

例 2.3

对于

$\boldsymbol{A}=\left[\begin{array}{lll}1 & 2 & 3 \\3 & 2 & 1\end{array}\right] \in \mathbb{R}^{2 \times 3}, \boldsymbol{B}=\left[\begin{array}{cc}0 & 2 \\1 & -1 \\0 & 1\end{array}\right] \in \mathbb{R}^{3 \times 2}$
我们可以得到：
$\boldsymbol{A B}=\left[\begin{array}{lll}1 & 2 & 3 \\3 & 2 & 1\end{array}\right]\left[\begin{array}{cc}0 & 2 \\1 & -1 \\0 & 1\end{array}\right]=\left[\begin{array}{ll}2 & 3 \\2 & 5\end{array}\right] \in \mathbb{R}^{2 \times 2}$

$\boldsymbol{B} \boldsymbol{A}=\left[\begin{array}{cc}0 & 2 \\1 & -1 \\0 & 1\end{array}\right]\left[\begin{array}{lll}1 & 2 & 3 \\3 & 2 & 1\end{array}\right]=\left[\begin{array}{ccc}6 & 4 & 2 \\-2 & 0 & 2 \\3 & 2 & 1\end{array}\right] \in \mathbb{R}^{3 \times 3}$

从这个例子中，我们已经可以看出矩阵乘法是不可交换顺序的，即 $\boldsymbol{A B} \neq \boldsymbol{B A}$ ，另见图2.5的说明。

图2.5 即使矩阵乘法 $\boldsymbol{A B}$ 和 $\boldsymbol{B A}$ 都有定义，结果的维数也可能不同。

定义 2.2(单位矩阵)

在 $\mathbb{R}^{n \times n}$ 中，单位矩阵( identity matrix)：
$\boldsymbol{I}_{n}:=\left[\begin{array}{cccccc}1 & 0 & \cdots & 0 & \cdots & 0 \\0 & 1 & \cdots & 0 & \cdots & 0 \\\vdots & \vdots & \ddots & \vdots & \ddots & \vdots \\0 & 0 & \cdots & 1 & \cdots & 0 \\\vdots & \vdots & \ddots & \vdots & \ddots & \vdots \\0 & 0 & \cdots & 0 & \cdots & 1\end{array}\right] \in \mathbb{R}^{n \times n}$

为 $n \times n$ -矩阵，对角线上为1，其他为0。

现在我们已经定义了矩阵乘法和单位矩阵，让我们看看矩阵的一些性质：

结合律(Associativity)
$\forall \boldsymbol{A} \in \mathbb{R}^{m \times n}, \boldsymbol{B} \in \mathbb{R}^{n \times p}, \boldsymbol{C} \in \mathbb{R}^{p \times q}:(\boldsymbol{A} \boldsymbol{B}) \boldsymbol{C}=\boldsymbol{A}(\boldsymbol{B C})$
分配律(Distributivity)

$\begin{aligned}\forall \boldsymbol{A}, \boldsymbol{B} \in \mathbb{R}^{m \times n}, \boldsymbol{C}, \boldsymbol{D} \in \mathbb{R}^{n \times p}:(\boldsymbol{A}+\boldsymbol{B}) \boldsymbol{C} &=\boldsymbol{A} \boldsymbol{C}+\boldsymbol{B C} \\\boldsymbol{A}(\boldsymbol{C}+\boldsymbol{D}) &=\boldsymbol{A} \boldsymbol{C}+\boldsymbol{A} \boldsymbol{D}\end{aligned}$

与单位矩阵乘法

对于 $\neq n$ ， $\boldsymbol{I}_{m} \neq \boldsymbol{I}_{n}$ .

$\forall \boldsymbol{A} \in \mathbb{R}^{m \times n}: \boldsymbol{I}_{m} \boldsymbol{A}=\boldsymbol{A} \boldsymbol{I}_{n}=\boldsymbol{A}$

方阵的幂

$\left(\boldsymbol{A}^{k}\right)^{l}=\boldsymbol{A}^{k l}, \boldsymbol{A}^{k} \boldsymbol{A}^{l}=\boldsymbol{A}^{k+l}$
注意：
$(\boldsymbol{A} \boldsymbol{B})^{k}=(\boldsymbol{A} \boldsymbol{B})(\boldsymbol{A} \boldsymbol{B}) \cdots(\boldsymbol{A} \boldsymbol{B}) \neq \boldsymbol{A}^{k} \boldsymbol{B}^{k}$

$(\boldsymbol{A}+\boldsymbol{B})^{2}=\boldsymbol{A}^{2}+\boldsymbol{A} \boldsymbol{B}+\boldsymbol{B} \boldsymbol{A}+\boldsymbol{B}^{2} \neq \boldsymbol{A}^{2}+2 \boldsymbol{A} \boldsymbol{B}+\boldsymbol{B}^{2}$
$(\boldsymbol{A}+\boldsymbol{B})(\boldsymbol{A}-\boldsymbol{B})=\boldsymbol{A}^{2}-\boldsymbol{A} \boldsymbol{B}+\boldsymbol{B} \boldsymbol{A}-\boldsymbol{B}^{2} \neq \boldsymbol{A}^{2}-\boldsymbol{B}^{2}$

2.2.2 逆和转置

定义 2.3(逆)

考虑一个方阵 $\boldsymbol{A} \in \mathbb{R}^{n \times n}$ ，使得矩阵 $\boldsymbol{B} \in \mathbb{R}^{n \times n}$ ： $\boldsymbol{A}\boldsymbol{B}=\boldsymbol{I_{n}}=\boldsymbol{B}\boldsymbol{A}$ ，则 $\boldsymbol{B}$ 称为 $\boldsymbol{A}$ 的逆(Inverse)，表示为： $\boldsymbol{A}^{-1}$

不过，不是所有矩阵 $\boldsymbol{A}$ 都有逆 $\boldsymbol{A}^{-1}$ 。如果矩阵的逆存在，则称它为正则/可逆/非奇异(regular/invertible/nonsingular)，否则称为奇异/不可逆(singular/noninvertible)。当矩阵逆存在时，这个逆是唯一的。在第2.3节中，我们将讨论通过求解线性方程组来计算矩阵逆的一般方法。

备注(2×2矩阵逆的存在性)：

考虑一个矩阵：
$\boldsymbol{A}:=\left[\begin{array}{ll}a_{11} & a_{12} \\a_{21} & a_{22}\end{array}\right] \in \mathbb{R}^{2 \times 2}$

将它与 $\boldsymbol{A}'$ 相乘
$\boldsymbol{A}^{\prime}:=\left[\begin{array}{cc}a_{22} & -a_{12} \\-a_{21} & a_{11}\end{array}\right]$

我们得到：

$\boldsymbol{A} \boldsymbol{A}^{\prime}=\left[\begin{array}{cc}a_{11} a_{22}-a_{12} a_{21} & 0 \\0 & a_{11} a_{22}-a_{12} a_{21}\end{array}\right]=\left(a_{11} a_{22}-a_{12} a_{21}\right) \boldsymbol{I}$

因此：当且仅当 $a_{11} a_{22}-a_{12} a_{21} \neq 0$
$\boldsymbol{A}^{-1}=\frac{1}{a_{11} a_{22}-a_{12} a_{21}}\left[\begin{array}{cc}a_{22} & -a_{12} \\-a_{21} & a_{11}\end{array}\right]$

在后面的4.1节中，我们将会知道 $a_{11} a_{22}-a_{12} a_{21}$ 是2x2矩阵的行列式(determinant)。此外，我们一般可以用行列式来检验矩阵是否可逆。

例 2.4：逆矩阵

对于矩阵
$\boldsymbol{A}=\left[\begin{array}{lll}1 & 2 & 1 \\4 & 4 & 5 \\6 & 7 & 7\end{array}\right], \quad \boldsymbol{B}=\left[\begin{array}{ccc}-7 & -7 & 6 \\2 & 1 & -1 \\4 & 5 & -4\end{array}\right]$
由于 $\boldsymbol{A}\boldsymbol{B}=\boldsymbol{I}=\boldsymbol{B}\boldsymbol{A}$ ，因此两个矩阵互逆。

以下是逆的一些重要性质：
$\boldsymbol{A} \boldsymbol{A}^{-1}=\boldsymbol{I}=\boldsymbol{A}^{-1} \boldsymbol{A}$

$(\boldsymbol{A B})^{-1}=\boldsymbol{B}^{-1} \boldsymbol{A}^{-1}$

$(\boldsymbol{A}+\boldsymbol{B})^{-1} \neq \boldsymbol{A}^{-1}+\boldsymbol{B}^{-1}$
类似于 $\frac{1}{2+4}=\frac{1}{6} \neq \frac{1}{2}+\frac{1}{4}$

定义 2.4(转置)

对于矩阵 $\boldsymbol{A} \in \mathbb{R}^{m \times n}$ ，若矩阵 $\boldsymbol{B} \in \mathbb{R}^{n \times m}$ 满足 $b_{i j}=a_{j i}$ ，则 $\boldsymbol{B}$ 称为 $\boldsymbol{A}$ 的转置(Transpose)，记作
$\boldsymbol{B}=\boldsymbol{A}^{\top}$

$\boldsymbol{A}=\left[\begin{array}{cccc}a_{11} & a_{12} & \cdots & a_{1 n} \\a_{21} & a_{22} & \cdots & a_{2 n} \\\vdots & \vdots & & \vdots \\a_{m 1} & a_{m 2} & \cdots & a_{m n}\end{array}\right], \text { 则 } \boldsymbol{A}^{\mathrm{T}}=\left[\begin{array}{cccc}a_{11} & a_{21} & \cdots & a_{m 1} \\a_{12} & a_{22} & \cdots & a_{m 2} \\\vdots & \vdots & & \vdots \\a_{1 n} & a_{2 n} & \cdots & a_{n m}\end{array}\right]$

通常， $\boldsymbol{A}^{\top}$ 可以通过将 $\boldsymbol{A}$ 的列写为 $\boldsymbol{A}^{\top}$ 的行来获得。

$\left(\boldsymbol{A}^{\top}\right)^{\top}=\boldsymbol{A}$

$(\boldsymbol{A}+\boldsymbol{B})^{\top}=\boldsymbol{A}^{\top}+\boldsymbol{B}^{\top}$

$(\boldsymbol{A B})^{\top}=\boldsymbol{B}^{\top} \boldsymbol{A}^{\top}$

矩阵 $\boldsymbol{A}$ 的主对角线(main diagonal
)（有时称为“principal diagonal”、“primary diagonal”、“leading diagonal”或“major diagonal”）是元素 $A_{ij},i=j$ 的集合。

定义 2.5(对称矩阵)

若对于矩阵 $\boldsymbol{A} \in \mathbb{R}^{n \times n}$ 有 $\boldsymbol{A}=\boldsymbol{A}^{\top}$ ，则称它是对称的(symmetric)。

注意，只有 $(n ， n)$ -矩阵可以是对称的。另外，如果矩阵 $\boldsymbol{A}$ 可逆，则 $\boldsymbol{A}^{\top}$ 也是可逆的，且 $\left(\boldsymbol{A}^{-1}\right)^{\top}=\left(\boldsymbol{A}^{\top}\right)^{-1}=: \boldsymbol{A}^{-\top}$

备注：（对称矩阵的和与积）

对称矩阵 $\boldsymbol{A}, \boldsymbol{B} \in \mathbb{R}^{n \times n}$ 之和总是对称的。然而，尽管他们积总是有定义的，但通常不是对称的：
$\left[\begin{array}{ll}1 & 0 \\0 & 0\end{array}\right]\left[\begin{array}{ll}1 & 1 \\1 & 1\end{array}\right]=\left[\begin{array}{ll}1 & 1 \\0 & 0\end{array}\right]$

2.2.3 与标量相乘

让我们看看当矩阵与标量 $\lambda \in \mathbb{R}$ 相乘时会发生什么。若有 $\boldsymbol{A} \in \mathbb{R}^{m \times n}$ ， $\lambda \in \mathbb{R}$ ，则 $\lambda \boldsymbol{A}=\boldsymbol{K}, K_{i j}=\lambda a_{i j}$ 。实际上， $\lambda$ 对矩阵的每个元素进行了缩放。对于 $\lambda, \psi \in \mathbb{R}$ ，以下公式成立：

结合律：
$(\lambda \psi) \boldsymbol{C}=\lambda(\psi \boldsymbol{C}), \quad \boldsymbol{C} \in \mathbb{R}^{m \times n}$
$\lambda(\boldsymbol{B C})=(\lambda \boldsymbol{B}) \boldsymbol{C}=\boldsymbol{B}(\lambda \boldsymbol{C})=(\boldsymbol{B C}) \lambda, \quad \boldsymbol{B} \in \mathbb{R}^{m \times n}, \boldsymbol{C} \in \mathbb{R}^{n \times k}$

这允许我们任意移动标量的位置。

$(\lambda \boldsymbol{C})^{\top}=\boldsymbol{C}^{\top} \lambda^{\top}=\boldsymbol{C}^{\top} \lambda=\lambda \boldsymbol{C}^{\top} \text { since } \lambda=\lambda^{\top} \text { for all } \lambda \in \mathbb{R}$
分配律：
$(\lambda+\psi) \boldsymbol{C}=\lambda \boldsymbol{C}+\psi \boldsymbol{C}, \quad \boldsymbol{C} \in \mathbb{R}^{m \times n}$
$\lambda(\boldsymbol{B}+\boldsymbol{C})=\lambda \boldsymbol{B}+\lambda \boldsymbol{C}, \quad \boldsymbol{B}, \boldsymbol{C} \in \mathbb{R}^{m \times n}$

例 2.5(分配律)

如果我们定义：
$C:=\left[\begin{array}{ll}1 & 2 \\3 & 4\end{array}\right]$

那么对任意 $\lambda, \psi \in \mathbb{R}$ ，我们可以得到：
$\begin{aligned}(\lambda+\psi) \boldsymbol{C} &=\left[\begin{array}{cc}(\lambda+\psi) 1 & (\lambda+\psi) 2 \\(\lambda+\psi) 3 & (\lambda+\psi) 4\end{array}\right]=\left[\begin{array}{cc}\lambda+\psi & 2 \lambda+2 \psi \\3 \lambda+3 \psi & 4 \lambda+4 \psi\end{array}\right] \\&=\left[\begin{array}{cc}\lambda & 2 \lambda \\3 \lambda & 4 \lambda\end{array}\right]+\left[\begin{array}{cc}\psi & 2 \psi \\3 \psi & 4 \psi\end{array}\right]=\lambda \boldsymbol{C}+\psi \boldsymbol{C}\end{aligned}$

2.2.4 分块矩阵

矩阵除了可以看作一个整体，还可以看作是由若干个子矩阵拼接而成，将矩阵用若干水平线和竖直线分成几块子块，称为矩阵的分块。

矩阵 $\boldsymbol{A}$ 按行分块：

其中
$\boldsymbol{\alpha} _{i}=[a_{i1},a_{i2},\cdots,a_{in}]，i=1,2,\cdots,m$

矩阵 $\boldsymbol{A}$ 按列分块：

其中
$\boldsymbol{\alpha} _{j}=[a_{1j},a_{2j},\cdots,a_{mj}]^T，j=1,2,\cdots,n$

矩阵 $\boldsymbol{A}$ 混合分块：

分块矩阵的运算：

在保证子块运算满足矩阵运算条件的前提下，有以下运算：

$\begin{bmatrix} \boldsymbol{A}_{1}&\boldsymbol{A}_{2}\\ \boldsymbol{A}_{3}&\boldsymbol{A}_{4}\end{bmatrix}+\begin{bmatrix} \boldsymbol{B}_{1}&\boldsymbol{B}_{2}\\ \boldsymbol{B}_{3}&\boldsymbol{B}_{4} \end{bmatrix}=\begin{bmatrix} \boldsymbol{A}_{1}+\boldsymbol{B}_{1}&\boldsymbol{A}_{2}+\boldsymbol{B}_{2}\\ \boldsymbol{A}_{3}+\boldsymbol{B}_{3}&\boldsymbol{A}_{4}+\boldsymbol{B}_{4} \end{bmatrix}$

$\begin{bmatrix} \boldsymbol{A}_{1}&\boldsymbol{A}_{2}\\ \boldsymbol{A}_{3}&\boldsymbol{A}_{4}\end{bmatrix}\begin{bmatrix} \boldsymbol{B}_{1}&\boldsymbol{B}_{2}\\ \boldsymbol{B}_{3}&\boldsymbol{B}_{4} \end{bmatrix}=\begin{bmatrix} \boldsymbol{A}_{1}\boldsymbol{B}_{1}+\boldsymbol{A}_2\boldsymbol{B}_3&\boldsymbol{A}_{1}\boldsymbol{B}_{2}+\boldsymbol{A}_{2}\boldsymbol{B}_{4}\\ \boldsymbol{A}_{3}\boldsymbol{B}_1+\boldsymbol{A}_4\boldsymbol{B}_{3}&\boldsymbol{A}_{3}\boldsymbol{B}_2+\boldsymbol{A}_4\boldsymbol{B}_{4} \end{bmatrix}$

$\begin{bmatrix} \boldsymbol{A}_{1}&\boldsymbol{A}_{2}\\ \boldsymbol{A}_{3}&\boldsymbol{A}_{4}\end{bmatrix}^\top=\begin{bmatrix} \boldsymbol{A}_{1}^\top&\boldsymbol{A}_{3}^\top\\ \boldsymbol{A}_{2}^\top&\boldsymbol{A}_{4}^\top\end{bmatrix}$

$\begin{bmatrix} \boldsymbol{A}_{1}&\boldsymbol{O}\\ \boldsymbol{O}&\boldsymbol{A}_{4}\end{bmatrix}^n=\begin{bmatrix} \boldsymbol{A}_{1}^n&\boldsymbol{O}\\ \boldsymbol{O}&\boldsymbol{A}_{4}^n\end{bmatrix}$

$\begin{bmatrix} \boldsymbol{A}_{1}&\boldsymbol{O}\\ \boldsymbol{O}&\boldsymbol{A}_{4}\end{bmatrix}^{-1}=\begin{bmatrix} \boldsymbol{A}_{1}^{-1}&\boldsymbol{O}\\ \boldsymbol{O}&\boldsymbol{A}_{4}^{-1}\end{bmatrix}$

$\begin{bmatrix} \boldsymbol{O}&\boldsymbol{A}_{2}\\ \boldsymbol{A}_{3}&\boldsymbol{O}\end{bmatrix}^{-1}=\begin{bmatrix} \boldsymbol{O}&\boldsymbol{A}_{3}^{-1}\\ \boldsymbol{A}_{2}^{-1}&\boldsymbol{O}\end{bmatrix}$

例子：

在这里插入图片描述

2.2.5 线性方程组的紧凑表示

如果我们考虑考虑线性方程组

$\begin{array}{l}2 x_{1}+3 x_{2}+5 x_{3}=1 \\4 x_{1}-2 x_{2}-7 x_{3}=8 \\9 x_{1}+5 x_{2}-3 x_{3}=2\end{array}$

利用矩阵的乘法法则，我们可以把这个方程组写成更紧凑的形式
$\left[\begin{array}{ccc}2 & 3 & 5 \\4 & -2 & -7 \\9 & 5 & -3\end{array}\right]\left[\begin{array}{l}x_{1} \\x_{2} \\x_{3}\end{array}\right]=\left[\begin{array}{l}1 \\8 \\2\end{array}\right]$

可以注意到， $x_1$ 缩放第一列， $x_2$ 缩放第二列， $x_3$ 缩放第三列。

一般来说，线性方程组可以用矩阵形式表示为 $\boldsymbol{A}\boldsymbol{x}=\boldsymbol{b}$ ；且乘积 $\boldsymbol{A}\boldsymbol{x}$ 是 $\boldsymbol{A}$ 每一列的（线性）组合。我们将在2.5节中更详细地讨论线性组合。

2.3 线性方程组的求解

线性代数(Linear Algebra)（上+）

翻译自：
《MATHEMATICS FOR MACHINE LEARNING》作者是 Marc Peter Deisenroth，A Aldo Faisal 和 Cheng Soon Ong

二进制人工智能

关注

69
点赞
踩
360

收藏

觉得还不错? 一键收藏
打赏
7
评论
【机器学习的数学基础】（一）线性代数(Linear Algebra)（上）

2.1 线性方程组2.2 矩阵2.2.1 矩阵加法和乘法2.2.2 逆和转置2.2.3 与标量相乘2.2.4 线性方程组的紧凑表示2.3 线性方程组的求解2.3.1 特解和通解2.3.2 初等变换2.3.3 Minus-1 技巧2.3.4 求解线性方程组的算法..............................
复制链接

扫一扫