【机器学习的数学基础】（九）向量微积分(Vector Calculus)(上)

最新推荐文章于 2024-10-26 15:34:31 发布

二进制人工智能

最新推荐文章于 2024-10-26 15:34:31 发布

阅读量4.7k

点赞数 8

分类专栏：机器学习的数学基础文章标签：机器学习数学基础

本文链接：https://blog.csdn.net/weixin_44378835/article/details/114395732

版权

机器学习的数学基础专栏收录该内容

16 篇文章

订阅专栏

文章目录

- 5 向量微积分(Vector Calculus)

5 向量微积分(Vector Calculus)

机器学习中的许多算法是根据一组期望的模型参数来优化目标函数的(这些参数控制模型对数据的解释程度)：找到好的参数可看作一个优化问题（见第8.2节和第8.3节）。例如：

（i）线性回归（见第9章），其中我们研究曲线拟合问题并优化线性权重参数以极大化似然；

（ii）用于降维和数据压缩的神经网络自编码器，其中参数是每层的权重和偏差，我们通过链式法则最小化重建损失；

（iii）高斯混合模型（见第11章）用于数据分布建模，在该模型中，我们优化了每个混合成分的位置和形状参数，以极大化模型的似然。

在这里插入图片描述
图 5.1向量微积分在(a)回归问题:找到参数，使曲线能很好地解释观察值。(b)高斯混合模型进行密度估计：求平均值和协方差，使得数据(点)可以被很好地解释。

图 5.1展示了其中一些方法，我们通常使用利用梯度信息的优化算法（7.2节）来解决这些问题。图 5.2概述了本章中的各个概念的关系，以及它们如何与本书的其他章节的联系。

在这里插入图片描述
图 5.2本章介绍的概念的思维导图，以及它们与其它章节的联系。

本章的核心是函数这一概念。函数 $f$ 是将两个量相互关联的量。在本书中，这两个量通常是输入 $\boldsymbol{x} \in \mathbb{R}^{D}$ 和目标（函数值） $f(\boldsymbol{x})$ ，如果没有其他说明，我们假设它们是实数。这里 $\mathbb{R}^{D}$ 是 $f$ 的定义域，函数值 $f(\boldsymbol{x})$ 是 $f$ 的像/陪域。

2.7.3中，我们详细地讨论了线性函数。我们用
$\begin{aligned}f: \mathbb{R}^{D} & \rightarrow \mathbb{R} \\\boldsymbol{x} & \mapsto f(\boldsymbol{x})\end{aligned}$
来表示函数，其中 $\mathbb{R}^{D} \rightarrow \mathbb{R}$ 指定 $f$ 是从 $\mathbb{R}^{D}$ 到 $\mathbb{R}$ 的映射， $\boldsymbol{x} \mapsto f(\boldsymbol{x})$ 指定输入 $\boldsymbol{x}$ 到函数值 $f(\boldsymbol{x})$ 的显式赋值。函数 $f$ 为每个输入 $\boldsymbol{x}$ 指定一个函数值 $f(\boldsymbol{x})$ 。

例 5.1

回忆一下，点积是内积(3.2节)的特例。函数 $f(\boldsymbol{x})=\boldsymbol{x}^{\top} \boldsymbol{x}, \boldsymbol{x} \in \mathbb{R}^{2}$ 用前面的符号表示为：
$\begin{aligned}f: \mathbb{R}^{2} & \rightarrow \mathbb{R} \\\boldsymbol{x} & \mapsto x_{1}^{2}+x_{2}^{2}\end{aligned}$

在这一章中，我们将讨论如何计算函数的梯度，这通常是机器学习模型的学习中必不可少的，因为梯度是朝着陡峭的方向上升的。因此，向量微积分是机器学习中重要的基本数学工具之一。在这本书中，我们假设函数都是可微的。使用一些在这里没有涵盖的附加技术定义，我们所提到的许多方法还可以扩展到次微分（sub-differentials，在某些点连续但不可微的函数）。我们将在第7章中研究函数约束。

5.1 单变量函数的微分

接下来，我们简要回顾一下单变量函数的微分，这可能是我们在高中就已经很熟悉的了。我们从一个单变量函数 $\in \mathbb{R}$ 的差商开始，然后用它来定义导数。

定义 5.1 差商

差商(Difference Quotient)
$\frac{\delta y}{\delta x}:=\frac{f(x+\delta x)-f(x)}{\delta x}$
计算函数 $f$ 图形上通过两点的割线的斜率。图5.3展示的是两点的 $x$ 坐标分别为 $x_0$ 和 $x_0+δx$ 的情况。

在这里插入图片描述
图 5.3 函数 $f$ 在 $x_0$ 和 $x_0+δ_x$ 之间的平均斜率(average incline)是 $f(x_0)$ 和 $f(x_0+δ_x)$ 割线（蓝色）的斜率，由 $δ y / δ x$ 给出。

如果我们假设 $f$ 是线性函数，差商也可以被认为是 $f$ 在 $x$ 和 $x + δ x$ 之间的平均斜率( average slope)。在极限 $δ x \to 0$ 下，如果 $f$ 是可微的，则得到 $f$ 在 $x$ 的正切(tangent)。正切就是 $f$ 关于 $x$ 的导数。

定义 5.2导数

更正式地说，对于 $h\gt 0$ ， $f$ 在 $x$ 的导数(derivative)被定义为极限：
$\frac{\mathrm{d} f}{\mathrm{~d} x}:=\lim _{h \rightarrow 0} \frac{f(x+h)-f(x)}{h}$
这样上面图5.3的割线也变成了切线。

$f$ 导数的方向指向 $f$ 最陡峭的上升方向。

例 5.2 多项式的导数

计算 $f(x)=x^{n}, n \in \mathbb{N}$ 的导数。我们可以很快得到答案是 $nx^{n−1}$ ，但是这里我们想用导数的定义推导这个结果

利用导数的定义，我们得到：
$\begin{aligned}\frac{\mathrm{d} f}{\mathrm{~d} x} &=\lim _{h \rightarrow 0} \frac{\textcolor{blue}{f(x+h)}-\textcolor{red}{f(x)}}{h} \\&=\lim _{h \rightarrow 0} \frac{\textcolor{blue}{(x+h)^{n}}-\textcolor{red}{x^{n}}}{h} \\&=\lim _{h \rightarrow 0} \frac{\textcolor{blue}{\sum_{i=0}^{n}\left(\begin{array}{l}n \\i\end{array}\right) x^{n-i} h^{i}}-\textcolor{red}{x^{n}}}{h} .\end{aligned}$
由于 $\textcolor{red}{x^{n}}=\left(\begin{array}{c}n \\0\end{array}\right) x^{n-0} h^{0}$ ， $x^n$ 项被消去，我们得到从 $i = 1$ 开始求和的项
$\begin{aligned}\frac{\mathrm{d} f}{\mathrm{~d} x} &=\lim _{h \rightarrow 0} \frac{\sum_{i=1}^{n}\left(\begin{array}{l}n \\i\end{array}\right) x^{n-i} h^{i}}{h} \\&=\lim _{l \rightarrow 0} \sum_{i=1}^{n}\left(\begin{array}{l}n \\i\end{array}\right) x^{n-i} h^{i-1} \\&=\lim _{h \rightarrow 0}\left(\begin{array}{l}n \\1\end{array}\right) x^{n-1}+\underbrace{\sum_{i=2}^{n}\left(\begin{array}{l}n \\i\end{array}\right) x^{n-i} h^{i-1}}_{\rightarrow 0 \text { as } h \rightarrow 0} \\&=\frac{n !}{1 !(n-1) !} x^{n-1}=n x^{n-1} .\end{aligned}$

我们常见的组合符号 $C_n^m$ 也可写成 $\left(\begin{array}{l}n\\m\end{array}\right)$ 。

5.1.1 泰勒级数

泰勒级数是函数 $f$ 的无穷项和的表示。这些项是用 $f$ 的导数来确定的

定义 5.3泰勒多项式

$\mathbb{R} \rightarrow \mathbb{R}$ 的 $n$ 次泰勒多项式(Taylor polynomial)定义为
$T_{n}(x):=\sum_{k=0}^{n} \frac{f^{(k)}\left(x_{0}\right)}{k !}\left(x-x_{0}\right)^{k}$
其中 $f^{(k)}(x_0)$ 是 $f$ 在 $x_0$ 的第 $k$ 阶导(假设它存在)， $\frac{f^{(k)}\left(x_{0}\right)}{k !}$ 是多项式的系数。

定义 5.4泰勒级数

对于一个平滑的函数 $\in \mathcal{C}^{\infty}, f: \mathbb{R} \rightarrow \mathbb{R}$ ( $\in \mathcal{C}^{\infty}$ 表示 $f$ 连续且可微无穷多次。)， $f$ 在 $x_0$ 的泰勒级数(Taylor series)定义为：
$T_{\infty}(x)=\sum_{k=0}^{\infty} \frac{f^{(k)}\left(x_{0}\right)}{k !}\left(x-x_{0}\right)^{k}$

当 $x_0=0$ 时，我们得到麦克劳林级数(Maclaurin series)这一泰勒级数的特殊实例。如果 $f(x)=T_{\infty}(x)$ ，那么 $f$ 称为解析的(analytic)。

备注：
一般来说， $n$ 次泰勒多项式是非多项式函数的近似值。它在 $x_0$ 附近与 $f$ 相似。然而， $n$ 次泰勒多项式用 $k\le n$ 次多项式表示 $f$ 已经足够精确了，因为导数 $f^{(i)}, i>k$ 可能为0。

例 5.3 泰勒多项式

已知多项式：
$f(x)=x^{4}$
求在 $x_0=1$ 的泰勒多项式 $T_6$ 。我们首先计算系数 $f^{(k)}(1)$ ， $\ldots, 6:$
$\begin{aligned}f(1) &=1 \\f^{\prime}(1) &=4 \\f^{\prime \prime}(1) &=12 \\f^{(3)}(1) &=24 \\f^{(4)}(1) &=24 \\f^{(5)}(1) &=0 \\f^{(6)}(1) &=0\end{aligned}$

因此，期望的泰勒多项式是
$\begin{aligned}T_{6}(x) &=\sum_{k=0}^{6} \frac{f^{(k)}\left(x_{0}\right)}{k !}\left(x-x_{0}\right)^{k} \\&=1+4(x-1)+6(x-1)^{2}+4(x-1)^{3}+(x-1)^{4}+0\end{aligned}$

展开并重新排列：
$\begin{aligned}T_{6}(x)=&(1-4+6-4+1)+x(4-12+12-4) \\&+x^{2}(6-12+6)+x^{3}(4-4)+x^{4} \\=& x^{4}=f(x)\end{aligned}$
我们得到了原函数的精确表示。

例 5.4 泰勒级数

考虑函数
$f(x)=\sin (x)+\cos (x) \in \mathcal{C}^{\infty}$

我们寻求 $f$ 在 $x_0=0$ 的泰勒级数展开式，这是 $f$ 的麦克劳林级数展开式。我们得到以下导数：
$\begin{aligned}f(0) &=\sin (0)+\cos (0)=1 \\f^{\prime}(0) &=\cos (0)-\sin (0)=1 \\f^{\prime \prime}(0) &=-\sin (0)-\cos (0)=-1 \\f^{(3)}(0) &=-\cos (0)+\sin (0)=-1 \\f^{(4)}(0) &=\sin (0)+\cos (0)=f(0)=1\\...\end{aligned}$

我们可以在这里看到一个模式：泰勒级数中的系数只有 $\pm 1$ （因为 $s i n （ 0 ） = 0$ ），每个系数在切换到另一个之前出现两次。此外， $f^{(k+4)}(0)=f^{(k)}(0)$ 。

因此， $f$ 在 $x_0=0$ 处的整个泰勒级数展开为：
$\begin{aligned}T_{\infty}(x) &=\sum_{k=0}^{\infty} \frac{f^{(k)}\left(x_{0}\right)}{k !}\left(x-x_{0}\right)^{k} \\&=1+x-\frac{1}{2 !} x^{2}-\frac{1}{3 !} x^{3}+\frac{1}{4 !} x^{4}+\frac{1}{5 !} x^{5}-\cdots \\&=\textcolor{orange}{1-\frac{1}{2 !} x^{2}+\frac{1}{4 !} x^{4} \mp \cdots}+\textcolor{blue}{x-\frac{1}{3 !} x^{3}+\frac{1}{5 !} x^{5} \mp \cdots} \\&=\textcolor{orange}{\sum_{k=0}^{\infty}(-1)^{k} \frac{1}{(2 k) !} x^{2 k}}+\textcolor{blue}{\sum_{k=0}^{\infty}(-1)^{k} \frac{1}{(2 k+1) !} x^{2 k+1} }\\&=\textcolor{orange}{\cos (x)}+\textcolor{blue}{\sin (x)}\end{aligned}$

其中我们使用了幂级数展开：
$\cos (x)=\sum_{k=0}^{\infty}(-1)^{k} \frac{1}{(2 k) !} x^{2 k}$
$\sin (x)=\sum_{k=0}^{\infty}(-1)^{k} \frac{1}{(2 k+1) !} x^{2 k+1}$

图5.4显示了 $n = 0 、 1 、 5 、 10$ 时对应的泰勒多项式 $T_n$ 以及 $f$ 。

在这里插入图片描述
图 5.4泰勒多项式。原函数 $f (x) = s i n (x) + c o s (x)$ (黑色，实心)在 $x_0 = 0$ 附近用泰勒多项式(虚线)逼近。高阶泰勒多项式能更好地逼近函数 $f$ 。 $T_{10}$ 在 $[- 4, 4]$ 中已经与 $f$ 很相似了。

备注：
泰勒级数是幂级数的特例，幂级数表达式为：
$f(x)=\sum_{k=0}^{\infty} a_{k}(x-c)^{k}$

其中 $a_k$ 为系数， $c$ 为常数。定义5.4中的式子是它的特殊形式。

5.1.2 微分法则

下面，我们用 $f^{'}$ 表示 $f$ 的导数，简要地说明基本的微分规则：

乘积法则：
$g(x))^{\prime}=f^{\prime}(x) g(x)+f(x) g^{\prime}(x)$
除法法则：

$\left(\frac{f(x)}{g(x)}\right)^{\prime}=\frac{f^{\prime}(x) g(x)-f(x) g^{\prime}(x)}{(g(x))^{2}}$
加法法则：

$(f(x)+g(x))^{\prime}=f^{\prime}(x)+g^{\prime}(x)$
链式法则：

$(g(f(x)))^{\prime}=(g \circ f)^{\prime}(x)=g^{\prime}(f(x)) f^{\prime}(x)$
这里， $\circ f$ 表示函数复合： $\mapsto f(x) \mapsto g(f(x))$

例 5.5 链式法则

让我们用链式法则计算函数 $h(x)=(2 x+1)^{4}$ 的导数
$\begin{array}{l}h(x)=(2 x+1)^{4}=g(f(x)) \\f(x)=2 x+1 \qquad(5.34)\\g(f)=f^{4}\end{array}$

我们得到了 $f$ 和 $g$ 的导数为：
$\begin{array}{l}f^{\prime}(x)=2 \\g^{\prime}(f)=4 f^{3}\end{array}$
使得 $h$ 的导数为：

$h^{\prime}(x)=g^{\prime}(f) f^{\prime}(x)=\left(4 f^{3}\right) \cdot 2 \stackrel{(5.34)}{=} 4(2 x+1)^{3} \cdot 2=8(2 x+1)^{3}$

5.2 偏微分与梯度

第5.1节中讨论的微分只适用于一个标量变量 $\in \mathbb{R}$ 的函数 $f$ 。在下面，我们考虑函数 $f$ 包含一个或多个变量x∈Rn的一般情况，例如， $f(\boldsymbol{x})=f\left(x_{1}, x_{2}\right)$ 。导数对多变量函数的推广是梯度(gradient)。

我们通过一次改变一个变量并保持其他变量不变来求函数 $f$ 相对于 $x$ 的偏导数。梯度就是这些偏导数(partial derivatives)构成的的集合。

定义 5.5偏导数

对于有 $n$ 个变量 $x_{1}, \ldots, x_{n}$ 的函数 $\mathbb{R}^{n} \rightarrow \mathbb{R}, \boldsymbol{x} \mapsto f(\boldsymbol{x}), \boldsymbol{x} \in \mathbb{R}^{n}$ ，我们定义偏导数为：
$\begin{aligned}\frac{\partial f}{\partial x_{1}} &=\lim _{h \rightarrow 0} \frac{f\left(x_{1}+h, x_{2}, \ldots, x_{n}\right)-f(\boldsymbol{x})}{h} \\& \vdots \\\frac{\partial f}{\partial x_{n}} &=\lim _{h \rightarrow 0} \frac{f\left(x_{1}, \ldots, x_{n-1}, x_{n}+h\right)-f(\boldsymbol{x})}{h}\end{aligned}\qquad (5.39)$
将它们组成一个行向量：
$\nabla_{\boldsymbol{x}} f=\operatorname{grad} f=\frac{\mathrm{d} f}{\mathrm{~d} \boldsymbol{x}}=\left[\begin{array}{cccc}\frac{\partial f(\boldsymbol{x})}{\partial x_{1}} & \frac{\partial f(\boldsymbol{x})}{\partial x_{2}} & \cdots & \frac{\partial f(\boldsymbol{x})}{\partial x_{n}}\end{array}\right] \in \mathbb{R}^{1 \times n} \qquad (5.40)$

其中 $n$ 是变量个数，1是 $f$ 的像/值域/陪域的维数。这里，我们定义了列向量 $\boldsymbol{x}=\left[x_{1}, \ldots, x_{n}\right]^{\top}\in \mathbb{R}^n$ 。(5.40)中的行向量称为 $f$ 的梯度(gradient)或雅可比矩阵(Jacobian)，是第5.1节中导数的推广。

备注：
这种雅可比矩阵的定义是一般雅可比矩阵的特例，一般雅可比矩阵是对向量值函数(vector-valued function)定义的。我们将在第5.3节谈到这一点。

例 5.6偏导数的链式法则

对于 $y)=\left(x+2 y^{3}\right)^{2}$ ，我们求其偏微分：
$\frac{\partial f(x, y)}{\partial x}=2\left(x+2 y^{3}\right) \frac{\partial}{\partial x}\left(x+2 y^{3}\right)=2\left(x+2 y^{3}\right)$
$\frac{\partial f(x, y)}{\partial y}=2\left(x+2 y^{3}\right) \frac{\partial}{\partial y}\left(x+2 y^{3}\right)=12\left(x+2 y^{3}\right) y^{2}$
其中我们使用了链式法则计算。

备注（梯度用行向量表示）。

向量通常用列向量表示，将梯度向量定义为列向量在文献中并不少见。我们将梯度向量定义为行向量的原因有两个：

首先，我们可以一致地将梯度推广到向量值函数 $\mathbb{R}^{n} \rightarrow \mathbb{R}^{m}$ （然后梯度变成矩阵）。其次，我们可以很方便地应用多变量链式法则，而不必注意梯度的维数。我们将在第5.3节讨论这两点。

例 5.7 梯度 (Gradient)

对于 $f\left(x_{1}, x_{2}\right)=x_{1}^{2} x_{2}+x_{1} x_{2}^{3} \in \mathbb{R}$ ，其偏导数为：
$\frac{\partial f\left(x_{1}, x_{2}\right)}{\partial x_{1}}=2 x_{1} x_{2}+x_{2}^{3}$
$\frac{\partial f\left(x_{1}, x_{2}\right)}{\partial x_{2}}=x_{1}^{2}+3 x_{1} x_{2}^{2}$
那么其梯度为
$\frac{\mathrm{d} f}{\mathrm{~d} \boldsymbol{x}}=\left[\frac{\partial f\left(x_{1}, x_{2}\right)}{\partial x_{1}} \quad \frac{\partial f\left(x_{1}, x_{2}\right)}{\partial x_{2}}\right]=\left[2 x_{1} x_{2}+x_{2}^{3} \quad x_{1}^{2}+3 x_{1} x_{2}^{2}\right] \in \mathbb{R}^{1 \times 2}$

5.2.1 偏微分的基本法则

对于多变量 $\boldsymbol{x} \in \mathbb{R}^{n}$ 的情况下，我们从学校知道的基本微分法则（如加法法则、乘法法则、链式法则；另见第5.1.2节）仍然适用。然而，当我们计算关于向量 $\boldsymbol{x} \in \mathbb{R}^{n}$ 的导数时，我们需要注意：梯度现在涉及到向量和矩阵，而矩阵乘法是不可交换的（第2.2.1节）。
以下是一般的乘法法则、加法法则和链式法则：
乘法法则
$\frac{\partial}{\partial \boldsymbol{x}}(f(\boldsymbol{x}) g(\boldsymbol{x}))=\frac{\partial f}{\partial \boldsymbol{x}} g(\boldsymbol{x})+f(\boldsymbol{x}) \frac{\partial g}{\partial \boldsymbol{x}}$
加法法则
$\frac{\partial}{\partial \boldsymbol{x}}(f(\boldsymbol{x})+g(\boldsymbol{x}))=\frac{\partial f}{\partial \boldsymbol{x}}+\frac{\partial g}{\partial \boldsymbol{x}}$
链式法则
$\frac{\partial}{\partial \boldsymbol{x}}(g \circ f)(\boldsymbol{x})=\frac{\partial}{\partial \boldsymbol{x}}(g(f(\boldsymbol{x})))=\frac{\partial g}{\partial f} \frac{\partial f}{\partial \boldsymbol{x}}$

让我们仔细看看链式法则。链式法则在某种程度上类似于矩阵乘法的规则，即我们所说的两矩阵相邻维度必须匹配才能定义矩阵乘法；参见第2.2.1节。如果我们从左到右，链式法则显示出与矩阵乘法相似的性质： $\partial f$ 出现在第一个因子的“分母”(类似于矩阵乘法第一个矩阵的列数)和第二个因子的“分子”中(相当于矩阵乘法中第二个矩阵的行数)。如果我们将这些因子相乘，这样的乘法是有定义的，即 $\partial f$ 的维数匹配， $\partial f$ 被“消去”，留下 $\partial g / \partial x$ 。

这只是一种直观解释，但在数学上并不正确，因为偏导数不是分数。

5.2.2 链式法则

考虑两个变量 $x_1$ ， $x_2$ 的函数 $\mathbb{R}^{2} \rightarrow \mathbb{R}$ 。此外， $x_1(t)$ 和 $x_2(t)$ 本身就是 $t$ 的函数。为了计算 $f$ 相对于 $t$ 的梯度，我们需要对多元函数使用链式法则：
$\frac{\mathrm{d} f}{\mathrm{~d} t}=\left[\begin{array}{ll}\frac{\partial f}{\partial x_{1}} & \frac{\partial f}{\partial x_{2}}\end{array}\right]\left[\begin{array}{l}\frac{\partial x_{1}(t)}{\partial t} \\\frac{\partial x_{2}(t)}{\partial t}\end{array}\right]=\frac{\partial f}{\partial x_{1}} \frac{\partial x_{1}}{\partial t}+\frac{\partial f}{\partial x_{2}} \frac{\partial x_{2}}{\partial t}$

其中 $\mathrm{d}$ 表示梯度， $\partial$ 表示偏导数。

例 5.8

考虑 $f\left(x_{1}, x_{2}\right)=x_{1}^{2}+2 x_{2}$ ，其中 $x_{1}=\sin t$ ， $x_{2}=\cos t$ ，那么：
$\begin{aligned}\frac{\mathrm{d} f}{\mathrm{~d} t} &=\frac{\partial f}{\partial x_{1}} \frac{\partial x_{1}}{\partial t}+\frac{\partial f}{\partial x_{2}} \frac{\partial x_{2}}{\partial t} \\&=2 \sin t \frac{\partial \sin t}{\partial t}+2 \frac{\partial \cos t}{\partial t} \\&=2 \sin t \cos t-2 \sin t=2 \sin t(\cos t-1)\end{aligned}$
是 $f$ 对 $t$ 的导数。

如果 $f(x_1，x_2)$ 是 $x_1$ 和 $x_2$ 的函数，其中 $x_1(s，t)$ 和 $x_2(s，t)$ 是两个变量 $s$ 和 $t$ 的函数，则用链式法则求得偏导数为：
$\frac{\partial f}{\partial \textcolor{orange}{s}}=\frac{\partial f}{\partial \textcolor{blue}{x_{1}}} \frac{\partial \textcolor{blue}{x_{1}}}{\partial \textcolor{orange}{s}}+\frac{\partial f}{\partial \textcolor{blue}{x_{2}}} \frac{\partial \textcolor{blue}{x_{2}}}{\partial \textcolor{orange}{s}}$

$\frac{\partial f}{\partial \textcolor{orange}{t}}=\frac{\partial f}{\partial \textcolor{blue}{x_{1}}} \frac{\partial \textcolor{blue}{x_{1}}}{\partial \textcolor{orange}{t}}+\frac{\partial f}{\partial \textcolor{blue}{x_{2}}} \frac{\partial \textcolor{blue}{x_{2}}}{\partial \textcolor{orange}{t}}$

梯度由矩阵相乘得到
$\frac{\mathrm{d} f}{\mathrm{~d}(s, t)}=\frac{\partial f}{\partial \boldsymbol{x}} \frac{\partial \boldsymbol{x}}{\partial(s, t)}=\underbrace{\left[\frac{\partial f}{\textcolor{blue}{\partial x_{1}}} \quad \frac{\partial f}{\textcolor{orange}{\partial x_{2}}}\right]}_{=\frac{\partial f}{\partial \boldsymbol{x}}} \underbrace{\left[\begin{array}{cc}\textcolor{blue}{\frac{\partial x_{1}}{\partial s}} & \textcolor{blue}{\frac{\partial x_{1}}{\partial t}} \\\textcolor{orange}{\frac{\partial x_{2}}{\partial s}} & \textcolor{orange}{\frac{\partial x_{2}}{\partial t}}\end{array}\right]}_{=\frac{\partial \boldsymbol{x}}{\partial(s, t)}}$

这种将链式规则写成矩阵乘法的简洁方法只有在将梯度定义为行向量时才有意义。否则，我们将需要转置矩阵来匹配维数。转置对象是向量或矩阵时，转置是小事一桩；然而，当对象是张量时（我们将在下面讨论），转置就不再是小事了。

备注：验证梯度实现的正确性

在计算机程序中对梯度的正确性进行数值检验时，可以利用偏导数的定义中差商(见5.39)的极限：当我们计算梯度并实现它们时，我们可以使用有限差分对我们的实现结果进行数值检验：我们选择一个较小值 $h$ （例如， $h=10^{−4}$ ），并将偏导数的定义中的有限差分近似值与梯度的解析结果进行比较。如果误差很小，我们的梯度实现很有可能是正确的。“小”可以是 $\sqrt{\frac{\sum_{i}\left(d h_{i}-d f_{i}\right)^{2}}{\sum_{i}\left(d h_{i}+d f_{i}\right)^{2}}}<10^{-6}$ ，其中 $dh_i$ 是有限差分近似， $df_i$ 是 $f$ 关于第 $i$ 变量 $x_i$ 的解析梯度。
.

5.3 向量值函数的梯度

到目前为止，我们讨论了映射到实数的函数 $f:\mathbb{R}^{n} \rightarrow \mathbb{R}$ 的偏导数和梯度。下面，我们将梯度的概念推广到向量值函数（向量场） $\boldsymbol{f}：\mathbb{R}^{n} \rightarrow \mathbb{R}^m$ ，其中 $n\ge 1，m\gt 1$ 。

对于一个函数 $\boldsymbol{f}: \mathbb{R}^{n} \rightarrow \mathbb{R}^{m}$ ， $\boldsymbol{x}=\left[x_{1}, \ldots, x_{n}\right]^{\top} \in \mathbb{R}^{n}$ ，相应的函数值向量如下所示：
$\boldsymbol{f}(\boldsymbol{x})=\left[\begin{array}{c}f_{1}(\boldsymbol{x}) \\\vdots \\f_{m}(\boldsymbol{x})\end{array}\right] \in \mathbb{R}^{m}$

用这种方法写向量值函数，可以把向量值函数 $\boldsymbol{f}: \mathbb{R}^{n} \rightarrow \mathbb{R}^{m}$ 看作函数的向量 $\left[f_{1}, \ldots, f_{m}\right]^{\top}$ ，其中每个 $f_{i}: \mathbb{R}^{n} \rightarrow \mathbb{R}$ 的微分法则正是我们在第5.2节中讨论的法则。

因此，向量值函数 $\boldsymbol{f}: \mathbb{R}^{n} \rightarrow \mathbb{R}^{m}$ 关于 $x_i\in\mathbb{R}，i=1,...,n$ 的偏导数由以下向量给出：
$\frac{\partial \boldsymbol{f}}{\partial x_{i}}=\left[\begin{array}{c}\frac{\partial f_{1}}{\partial x_{i}} \\\vdots \\\frac{\partial f_{m}}{\partial x_{i}}\end{array}\right]=\left[\begin{array}{c}\lim _{h \rightarrow 0} \frac{f_{1}\left(x_{1}, \ldots, x_{i-1}, x_{i}+h, x_{i+1}, \ldots x_{n}\right)-f_{1}(\boldsymbol{x})}{h} \\\vdots \\\lim _{h \rightarrow 0} \frac{f_{m}\left(x_{1}, \ldots, x_{i-1}, x_{i}+h, x_{i+1}, \ldots x_{n}\right)-f_{m}(\boldsymbol{x})}{h}\end{array}\right] \in \mathbb{R}^{m}\qquad (5.55)$

由(5.40)可知，非向量 $f$ 相对于向量的梯度是偏导数组成的行向量。在(5.55)中，每一个偏导数 $∂\boldsymbol{f}/∂x_i$ 则是一个列向量。因此，我们通过组合这些偏导数得到 $\boldsymbol{f}: \mathbb{R}^{n} \rightarrow \mathbb{R}^{m}$ 相对于 $\boldsymbol{x} \in \mathbb{R}^{n}$ 的梯度：
在这里插入图片描述

定义 5.6 雅可比矩阵

向量值函数 $\boldsymbol{f}: \mathbb{R}^{n} \rightarrow \mathbb{R}^{m}$ 的所有一阶偏导数的集合称为雅可比矩阵(Jacobian)。雅可比矩阵 $\boldsymbol{J}$ 是一个 $m \times n$ 矩阵，我们将其定义和排列如下：
$\boldsymbol{J}=\nabla_{\boldsymbol{x}} \boldsymbol{f}=\frac{\mathrm{d} \boldsymbol{f}(\boldsymbol{x})}{\mathrm{d} \boldsymbol{x}}=\left[\begin{array}{lll}\frac{\partial \boldsymbol{f}(\boldsymbol{x})}{\partial x_{1}} & \cdots & \frac{\partial \boldsymbol{f}(\boldsymbol{x})}{\partial x_{n}}\end{array}\right]$
$=\left[\begin{array}{ccc}\frac{\partial f_{1}(\boldsymbol{x})}{\partial x_{1}} & \cdots & \frac{\partial f_{1}(\boldsymbol{x})}{\partial x_{n}} \\\vdots & & \vdots \\\frac{\partial f_{m}(\boldsymbol{x})}{\partial x_{1}} & \cdots & \frac{\partial f_{m}(\boldsymbol{x})}{\partial x_{n}}\end{array}\right]\qquad(5.58)$

$\boldsymbol{x}=\left[\begin{array}{c}x_{1} \\\vdots \\x_{n}\end{array}\right], \quad J(i, j)=\frac{\partial f_{i}}{\partial x_{j}}$

作为（5.58）的一个特例，函数 $\mathbb{R}^{n} \rightarrow \mathbb{R}^{1}$ 将向量 $\boldsymbol{x} \in \mathbb{R}^{n}$ 映射到标量（例如 $f(\boldsymbol{x})=\sum_{i=1}^{n} x_{i}$ ），其对应的雅可比矩阵是一个行向量（维数 $1 \times n$ 的矩阵）；参见公式（5.40）。

备注：
在这本书中，我们使用了导数的分子布局(numerator layout)，即 $\boldsymbol{f} \in \mathbb{R}^{m}$ 对 $\boldsymbol{x} \in \mathbb{R}^{n}$ 的导数 $\mathrm{d} \boldsymbol{f} / \mathrm{d} \boldsymbol{x}$ 是一个 $m \times n$ 矩阵，其中 $\boldsymbol{f}$ 的元素定义了相应雅可比矩阵的行， $\boldsymbol{x}$ 的元素定义了相应雅可比矩阵的列；见（5.58）。还有分母布局(denominator layout)，它是分子布局的转置。

我们将在第6.7节中看到雅可比矩阵如何用于概率分布的变量变换方法。由于变量变换而产生的缩放量可由行列式得到。

在这里插入图片描述
图 5.5 $\boldsymbol{f}$ 的雅可比矩阵的行列式可以用来计算蓝色和橙色区域之间的放大倍数。

在第4.1节中，我们看到行列式可以用来计算平行四边形的面积。如果给定两个向量 $\boldsymbol{b}_{1}=[1,0]^{\top}，\boldsymbol{b}_{2}=[0,1]^{\top}$ 作为单位正方形（图5.5中的蓝色区域）的边，则该正方形的面积为：
$\left|\operatorname{det}\left(\left[\begin{array}{ll}1 & 0 \\0 & 1\end{array}\right]\right)\right|=1$

如果我们取一个平行四边形（图5.5中的橙色区域），它的边为 $\boldsymbol{c}_{1}=[-2,1]^{\top}, \boldsymbol{c}_{2}=[1,1]^{\top}$ ，则它的面积是行列式（见第4.1节）的绝对值
$\left|\operatorname{det}\left(\left[\begin{array}{cc}-2 & 1 \\1 & 1\end{array}\right]\right)\right|=|-3|=3$

即它的面积正好是单位方形的三倍。我们可以通过一个将单位方形转换成另一个方形的映射来找到这个缩放因子。用线性代数的术语说，就是有效地执行从 $\left(\boldsymbol{b}_{1}, \boldsymbol{b}_{2}\right)$ 到 $\left(\boldsymbol{c}_{1}, \boldsymbol{c}_{2}\right)$ 的变量变换。在我们的例子中，这个映射是线性的，且它的行列式的绝对值正好给出了我们要寻找的缩放因子。

我们将描述两种确定这种映射的方法。首先，我们假设映射是线性的，这样我们就可以使用第2章中的工具来确定这个映射。其次，我们将使用我们在本章中讨论的工具，找到使用偏导数的映射。

方法 1

为了开始使用线性代数的方法，我们首先确定 $\left\{\boldsymbol{b}_{1}, \boldsymbol{b}_{2}\right\}$ 和 $\left\{\boldsymbol{c}_{1}, \boldsymbol{c}_{2}\right\}$ 都是 $\mathbb{R}^2$ 的基。我们要有效地执行的是从 $\left\{\boldsymbol{b}_{1}, \boldsymbol{b}_{2}\right\}$ 到 $\left\{\boldsymbol{c}_{1}, \boldsymbol{c}_{2}\right\}$ 的基变换，就得寻找实现基变换的变换矩阵。利用第2.7.2节的结果，我们确定了所需的基变化矩阵为
$\boldsymbol{J}=\left[\begin{array}{cc}-2 & 1 \\1 & 1\end{array}\right]\qquad （5.62）$
它使得 $\boldsymbol{J}\boldsymbol{b}_1=\boldsymbol{c}_1$ ， $\boldsymbol{J}\boldsymbol{b}_2=\boldsymbol{c}_2$ 。 $\boldsymbol{J}$ 的行列式的绝对值 $|\operatorname{det}(\boldsymbol{J})|=3$ ，这正是我们在寻找的缩放因子，即 $\left(\boldsymbol{c}_{1}, \boldsymbol{c}_{2}\right)$ 所张成的四边形的面积是 $\left(\boldsymbol{b}_{1}, \boldsymbol{b}_{2}\right)$ 所张成的面积的三倍。

方法 2

线性代数方法适用于线性变换；对于非线性变换（与第6.7节有关），我们有基于偏微分的更一般的方法。

在这种方法中，我们考虑执行变量变换的函数 $\boldsymbol{f}: \mathbb{R}^{2} \rightarrow \mathbb{R}^{2}$ 。在我们的例子中， $\boldsymbol{f}$ 将关于 $\left(\boldsymbol{b}_{1}, \boldsymbol{b}_{2}\right)$ 的任意向量 $\boldsymbol{x} \in \mathbb{R}^{2}$ 的坐标映射到关于 $\left(\boldsymbol{c}_{1}, \boldsymbol{c}_{2}\right)$ 的坐标 $\boldsymbol{y} \in \mathbb{R}^{2}$ 。我们想确定映射，这样我们就可以计算出一个面积（或体积）被 $\boldsymbol{f}$ 变换时它是如何变化的。为此，我们需要找出 $\boldsymbol{f}(\boldsymbol{x})$ 在 $\boldsymbol{x}$ 微小变化时它是如何变化的。雅可比矩阵 $\frac{\mathrm{d} \boldsymbol{f}}{\mathrm{d} \boldsymbol{x}} \in \mathbb{R}^{2 \times 2}$ 正是这个问题的答案。由
$y_{1}=-2 x_{1}+x_{2}$
$y_{2}=x_{1}+x_{2}$

我们得到了 $\boldsymbol{x}$ 和 $\boldsymbol{y}$ 之间的函数关系，这允许我们计算得到偏导数
$\frac{\partial y_{1}}{\partial x_{1}}=-2, \quad \frac{\partial y_{1}}{\partial x_{2}}=1, \quad \frac{\partial y_{2}}{\partial x_{1}}=1, \quad \frac{\partial y_{2}}{\partial x_{2}}=1$

将它们组合成雅可比矩阵：
$\boldsymbol{J}=\left[\begin{array}{ll}\frac{\partial y_{1}}{\partial x_{1}} & \frac{\partial y_{1}}{\partial x_{2}} \\\frac{\partial y_{2}}{\partial x_{1}} & \frac{\partial y_{2}}{\partial x_{2}}\end{array}\right]=\left[\begin{array}{cc}-2 & 1 \\1 & 1\end{array}\right]\qquad （5.66）$

雅可比矩阵表示我们想要的坐标变换。如果坐标变换是线性的（如我们的例子），那么它是精确的，（5.66）精确地恢复了（5.62）中的基变化矩阵。如果坐标变换是非线性的，雅可比矩阵则用一个线性变换局部地逼近这个非线性变换。雅可比行列式 $|\operatorname{det}(\boldsymbol{J})|$ 的绝对值是变换坐标时面积或体积的缩放因子。我们的例子得到 $|\operatorname{det}(\boldsymbol{J})|=3$ 。

当我们在第6.7节变换随机变量和概率分布时，将使用到雅可比行列式和变量变换。在机器学习中，这些变换与使用重参数化技巧(reparametrization trick)（也称为infinite perturbation analysis）训练深度神经网络关系密切。

在这里插入图片描述
图 5.6（偏）导数的维度。

在这一章中，我们学习了函数的导数。图5.6总结了变量-函数在各种情况下导数的维度。如果 $\mathbb{R} \rightarrow \mathbb{R}$ ，梯度就是一个标量（左上角的那一块）。对于 $\mathbb{R}^{D} \rightarrow \mathbb{R}$ ，梯度是 $1 \times D$ 的行向量（右上角那一块）。对于 $\boldsymbol{f}: \mathbb{R} \rightarrow \mathbb{R}^{E}$ ，梯度是 $E \times 1$ 列向量（左下角的那一块），对于 $\boldsymbol{f}: \mathbb{R}^{D} \rightarrow \mathbb{R}^{E}$ ，梯度是 $E \times D$ 矩阵（右下角那一块）。

例 5.9 向量值函数的梯度

给定 $\boldsymbol{f}(\boldsymbol{x})=\boldsymbol{A} \boldsymbol{x}, \quad \boldsymbol{f}(\boldsymbol{x}) \in \mathbb{R}^{M}, \quad \boldsymbol{A} \in \mathbb{R}^{M \times N}, \quad \boldsymbol{x} \in \mathbb{R}^{N}$

为了计算梯度 $\mathrm{d} \boldsymbol{f} / \mathrm{d} \boldsymbol{x}$ ，我们首先确定 $\mathrm{d} \boldsymbol{f} / \mathrm{d} \boldsymbol{x}$ 的维数：由于 $\boldsymbol{f}: \mathbb{R}^{N} \rightarrow \mathbb{R}^{M}$ ，因此 $\mathrm{d} \boldsymbol{f} / \mathrm{d} \boldsymbol{x} \in \mathbb{R}^{M \times N}$ 。其次，为了计算梯度，我们还需要确定 $f$ 对每个 $x_j$ 的偏导数：
$f_{i}(\boldsymbol{x})=\sum_{j=1}^{N} A_{i j} x_{j} \Longrightarrow \frac{\partial f_{i}}{\partial x_{j}}=A_{i j}$

我们收集雅可比矩阵中的偏导数，得到梯度
$\frac{\mathrm{d} \boldsymbol{f}}{\mathrm{d} \boldsymbol{x}}=\left[\begin{array}{ccc}\frac{\partial f_{1}}{\partial x_{1}} & \cdots & \frac{\partial f_{1}}{\partial x_{N}} \\\vdots & & \vdots \\\frac{\partial f_{M}}{\partial x_{1}} & \cdots & \frac{\partial f_{M}}{\partial x_{N}}\end{array}\right]=\left[\begin{array}{ccc}A_{11} & \cdots & A_{1 N} \\\vdots & & \vdots \\A_{M 1} & \cdots & A_{M N}\end{array}\right]=\boldsymbol{A} \in \mathbb{R}^{M \times N}$

例 5.10链式法则

考虑函数 $\mathbb{R} \rightarrow \mathbb{R}, h(t)=(f \circ g)(t)$ ，其中
$\mathbb{R}^{2} \rightarrow \mathbb{R}$
$\mathbb{R} \rightarrow \mathbb{R}^{2}$
$f(\boldsymbol{x})=\exp \left(x_{1} x_{2}^{2}\right)$
$\boldsymbol{x}=\left[\begin{array}{l}x_{1} \\x_{2}\end{array}\right]=g(t)=\left[\begin{array}{l}t \cos t \\t \sin t\end{array}\right] \qquad (5.72)$

计算 $h$ 关于 $t$ 的梯度。由 $\mathbb{R}^{2} \rightarrow \mathbb{R}$ 和 $\mathbb{R} \rightarrow \mathbb{R}^{2}$ ，我们注意到
$\frac{\partial f}{\partial \boldsymbol{x}} \in \mathbb{R}^{1 \times 2}, \quad \frac{\partial g}{\partial t} \in \mathbb{R}^{2 \times 1}$

通过应用链式法则计算所需的梯度：
$\begin{aligned}\frac{\mathrm{d} h}{\mathrm{~d} t} &=\textcolor{blue}{\frac{\partial f}{\partial x}} \textcolor{orange}{\frac{\partial x}{\partial t}}=\textcolor{blue}{\left[\begin{array}{ll}\frac{\partial f}{\partial x_{1}} & \frac{\partial f}{\partial x_{2}}\end{array}\right]}\textcolor{orange}{\left[\frac{\frac{\partial x_{1}}{\partial t}}{\frac{\partial x_{2}}{\partial t}}\right]} \\&=\textcolor{blue}{\left[\exp \left(x_{1} x_{2}^{2}\right) x_{2}^{2} \quad 2 \exp \left(x_{1} x_{2}^{2}\right) x_{1} x_{2}\right]}\textcolor{orange}{\left[\begin{array}{c}\cos t-t \sin t \\\sin t+t \cos t\end{array}\right]} \\&=\exp \left(x_{1} x_{2}^{2}\right)\left(x_{2}^{2}(\cos t-t \sin t)+2 x_{1} x_{2}(\sin t+t \cos t)\right)\end{aligned}$

其中 $x_{1}=t \cos t，x_{2}=t \sin t$ ，见(5.72)。

例 5.11 线性模型中最小二乘损失的梯度

考虑线性模型
$\boldsymbol{y}=\boldsymbol{\Phi} \boldsymbol{\theta}$
其中 $\boldsymbol{\theta} \in \mathbb{R}^{D}$ 是参数向量， $\mathbf{\Phi} \in \mathbb{R}^{N \times D}$ 为输入的特征值而 $\boldsymbol{y} \in \mathbb{R}^{N}$ 为响应值。我们定义函数：
$L(\boldsymbol{e}):=\|\boldsymbol{e}\|^{2}$
$\boldsymbol{e}(\boldsymbol{\theta}):=\boldsymbol{y}-\boldsymbol{\Phi} \boldsymbol{\theta}\qquad (5.77)$
并使用链式法则求 $\frac{\partial L}{\partial \boldsymbol{\theta}}$ 。 $L$ 被称为最小二乘损失(least-squares loss)函数。
在开始计算之前，我们确定梯度的维数为
$\frac{\partial L}{\partial \boldsymbol{\theta}} \in \mathbb{R}^{1 \times D}$
链式法则允许我们计算梯度
$\frac{\partial L}{\partial \boldsymbol{\theta}}=\textcolor{blue}{\frac{\partial L}{\partial \boldsymbol{e}}}\textcolor{orange}{ \frac{\partial \boldsymbol{e}}{\partial \boldsymbol{\theta}}}$
其中第 $d$ 个元素由以下得到：
$\frac{\partial L}{\partial \boldsymbol{\theta}}[1, d]=\sum_{n=1}^{N} \frac{\partial L}{\partial \boldsymbol{e}}[n] \frac{\partial \boldsymbol{e}}{\partial \boldsymbol{\theta}}[n, d]$

我们知道 $\|\boldsymbol{e}\|^{2}=\boldsymbol{e}^{\top} \boldsymbol{e}$ （见第3.2节），并确定
$\textcolor{blue}{\frac{\partial L}{\partial e}=2 e^{\top}} \in \mathbb{R}^{1 \times N}$

此外，我们得到
$\textcolor{orange}{\frac{\partial e}{\partial \theta}=-\Phi} \in \mathbb{R}^{N \times D}$

最后得到我们的期望导数为：
$\frac{\partial L}{\partial \boldsymbol{\theta}}=\textcolor{orange}{-}\textcolor{blue}{2 \boldsymbol{e}^{\top}} \textcolor{orange}{\boldsymbol{\Phi}} \stackrel{(5.77)}{=}\textcolor{orange}{-}\textcolor{blue}{\underbrace{2\left(\boldsymbol{y}^{\top}-\boldsymbol{\theta}^{\top} \boldsymbol{\Phi}^{\top}\right)}_{1 \times N}}\textcolor{orange}{ \underbrace{\mathbf{\Phi}}_{N \times D}} \in \mathbb{R}^{1 \times D}$

备注：如果不使用链式法则，而是通过对以下函数求导：
$L_{2}(\boldsymbol{\theta}):=\|\boldsymbol{y}-\boldsymbol{\Phi} \boldsymbol{\theta}\|^{2}=(\boldsymbol{y}-\boldsymbol{\Phi} \boldsymbol{\theta})^{\top}(\boldsymbol{y}-\boldsymbol{\Phi} \boldsymbol{\theta})$
我们也可以得到相同的结果，。这种方法对于像 $L_2$ 这样的简单函数是可行的，但是对于复杂的函数组合却变得不切实际。