【深度学习】— 微积分—导数和微分、导数的定义、导数的数值计算、导数的符号、常用导数规则、微分法则、应用示例、偏导数、梯度、梯度的常用公式、链式法则

之墨_

已于 2024-09-28 12:20:26 修改

阅读量838

点赞数 10

分类专栏：笔记深度学习文章标签：深度学习人工智能

于 2024-09-28 11:57:26 首次发布

本文链接：https://blog.csdn.net/weixin_56462041/article/details/142599750

版权

笔记同时被 2 个专栏收录

185 篇文章 31 订阅

订阅专栏

深度学习

4 篇文章 0 订阅

订阅专栏

【深度学习】— 微积分—导数和微分、导数的定义、导数的数值计算、导数的符号、常用导数规则、微分法则、应用示例、偏导数、梯度、梯度的常用公式、链式法则

导数和微分
偏导数
梯度
- 梯度的常用公式
链式法则
- 单变量的链式法则
- 多变量的链式法则
对于函数 $f(\mathbf{x}) = 3x_1^2 + 5e^{x^2_2}$ 求梯度
对于函数 $f(\mathbf{x}) = \|\mathbf{x}\|_2$ 求梯度

导数和微分

导数是深度学习优化算法中的关键步骤。我们通常选择对模型参数可微的损失函数，以便了解每个参数对损失的影响。

导数的定义

假设我们有一个函数 $\mathbb{R} \to \mathbb{R}$ ，它的导数定义为：
$\lim_{h \to 0} \frac{f(x + h) - f(x)}{h}$
如果 $f^{'} (a)$ 存在，则称 $f$ 在 $a$ 处是可微的。导数 $f^{'} (x)$ 表示 $f (x)$ 相对于 $x$ 的瞬时变化率。

导数的数值计算

让我们用一个函数 $f(x) = 3x^2 - 4x$ 进行实验，计算 $f^{'} (1)$ ：

import numpy as np

def f(x):
    return 3 * x ** 2 - 4 * x

def numerical_lim(f, x, h):
    return (f(x + h) - f(x)) / h

h = 0.1
for i in range(5):
    print(f'h={h:.5f}, numerical limit={numerical_lim(f, 1, h):.5f}')
    h *= 0.1

输出:

h=0.10000, numerical limit=2.30000
h=0.01000, numerical limit=2.03000
h=0.00100, numerical limit=2.00300
h=0.00010, numerical limit=2.00030
h=0.00001, numerical limit=2.00003

当 $h$ 接近 0 时，数值结果接近 $2$ 。

导数的符号

给定 $y = f (x)$ ，以下导数符号是等价的：
$\frac{dy}{dx} = \frac{df}{dx} = \frac{d}{dx}f(x) = Df(x) = D_x f(x)$

常用导数规则

$D [C] = 0$ （ $C$ 是常数）
$D[x^n] = nx^{n-1}$ （幂律）
$D[e^x] = e^x$
$D[\ln(x)] = \frac{1}{x}$

微分法则

假设 $f (x)$ 和 $g (x)$ 都可微， $C$ 是常数，则：

常数相乘法则:
$\frac{d}{dx}[Cf(x)] = C \frac{d}{dx}f(x)$
加法法则: $\frac{d}{dx}[f(x) + g(x)] = \frac{d}{dx}f(x) + \frac{d}{dx}g(x)$
乘法法则: $\frac{d}{dx}[f(x)g(x)] = f(x) \frac{d}{dx}[g(x)] + g(x) \frac{d}{dx}[f(x)]$
除法法则:
$\frac{d}{dx}\left[\frac{f(x)}{g(x)}\right] = \frac{g(x) \frac{d}{dx}[f(x)] - f(x) \frac{d}{dx}[g(x)]}{[g(x)]^2}$

应用示例

对 $f(x) = 3x^2 - 4x$ ，我们可以应用上述规则计算其导数：
$\cdot 2x - 4 = 6x - 4$
当 $x = 1$ 时， $f^{'} (1) = 2$ ，与前面的实验结果一致。此导数也是曲线 $u = f (x)$ 在 $x = 1$ 处切线的斜率。

偏导数

在深度学习中，函数通常依赖于多个变量，因此需要将导数的概念推广到多元函数上。

假设 $f(x_1, x_2, \ldots, x_n)$ 是一个关于 $n$ 个变量的函数， $y$ 关于第 $i$ 个参数 $x_i$ 的偏导数定义为：
$\frac{\partial y}{\partial x_i} = \lim_{h \to 0} \frac{f(x_1, \ldots, x_{i-1}, x_i + h, x_{i+1}, \ldots, x_n) - f(x_1, \ldots, x_i, \ldots, x_n)}{h}$

为了计算 $\cfrac{\partial y}{\partial x_i}$ ，我们可以将除 $x_i$ 之外的其他变量视为常数，进而计算 $y$ 关于 $x_i$ 的导数。

偏导数的常用符号包括：
$\frac{\partial y}{\partial x_i} = \frac{\partial f}{\partial x_i} = f_{x_i} = f_i = D_i f = D_{x_i} f$

梯度

我们可以将多元函数对其所有变量的偏导数组合起来，形成该函数的梯度（gradient）向量。

假设函数 $\mathbb{R}^n \to \mathbb{R}$ ，其输入是一个 $n$ 维向量 $\mathbf{x} = [x_1, x_2, \ldots, x_n]^\top$ ，输出是一个标量。函数 $f(\mathbf{x})$ 相对于 $\mathbf{x}$ 的梯度是一个包含 $n$ 个偏导数的向量：
$\nabla_{\mathbf{x}} f(\mathbf{x}) = \left[ \frac{\partial f(\mathbf{x})}{\partial x_1}, \frac{\partial f(\mathbf{x})}{\partial x_2}, \ldots, \frac{\partial f(\mathbf{x})}{\partial x_n} \right]^\top$

通常情况下， $\nabla_{\mathbf{x}} f(\mathbf{x})$ 简写为 $\nabla f(\mathbf{x})$ 。

梯度的常用公式

假设 $\mathbf{x}$ 为 $n$ 维向量，在微分多元函数时经常使用以下规则：

对于所有 $\in \mathbb{R}^{m \times n}$ ，有 $\nabla_{\mathbf{x}} (A\mathbf{x}) = A^\top$
对于所有 $\in \mathbb{R}^{n \times m}$ ，有 $\nabla_{\mathbf{x}} (\mathbf{x}^\top A) = A$
对于所有 $\in \mathbb{R}^{n \times n}$ ，有 $\nabla_{\mathbf{x}} (\mathbf{x}^\top A \mathbf{x}) = (A + A^\top)\mathbf{x}$
$\nabla_{\mathbf{x}} \|\mathbf{x}\|^2 = \nabla_{\mathbf{x}} (\mathbf{x}^\top \mathbf{x}) = 2\mathbf{x}$

对于任意矩阵 $X$ ，也有 $\nabla_{X} \|X\|_F^2 = 2X$ 。

这些梯度的计算在设计深度学习中的优化算法时非常有用。

链式法则

在深度学习中，函数通常是复合函数（composite function），因此直接对这些函数求导可能比较复杂。幸运的是，链式法则使我们能够有效地对复合函数进行微分。

单变量的链式法则

假设 $y = f (u)$ 和 $u = g (x)$ 都是可微的，根据链式法则，我们有：
$\frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx}$

这意味着，我们可以先对 $f (u)$ 关于 $u$ 求导，然后对 $g (x)$ 关于 $x$ 求导，最后将两者相乘来获得 $y$ 关于 $x$ 的导数。

多变量的链式法则

现在，让我们考虑一个更一般的场景，即函数具有任意数量的变量。

假设可微函数 $y$ 有 $m$ 个变量 $u_1, u_2, \ldots, u_m$ ，并且每个 $u_i$ 都是 $n$ 个变量 $x_1, x_2, \ldots, x_n$ 的可微函数。注意， $y$ 也是关于 $x_1, x_2, \ldots, x_n$ 的函数。

根据链式法则， $y$ 关于 $x_j$ 的偏导数可以表示为：
$\frac{\partial y}{\partial x_j} = \sum_{i=1}^{m} \frac{\partial y}{\partial u_i} \cdot \frac{\partial u_i}{\partial x_j}$

在这里插入图片描述
这种多变量情况下的链式法则，使得我们可以对深度学习中的复杂复合函数进行微分。这也是反向传播算法在深度学习中有效求解梯度的基础原理。

对于函数 $f(\mathbf{x}) = 3x_1^2 + 5e^{x^2_2}$ 求梯度

给定函数
$f(\mathbf{x}) = 3x_1^2 + 5e^{x_2^2}$
其中， $\mathbf{x}$ 是一个二维向量， $\mathbf{x} = (x_1, x_2)$ 。

求梯度
梯度是对每个变量的偏导数所组成的向量：

对 $x_1$ 求偏导数：
$\frac{\partial f}{\partial x_1} = 6x_1$
对 $x_2$ 求偏导数：
$\frac{\partial f}{\partial x_2} = 10x_2 e^{x_2^2}$

因此，梯度为：
$\nabla f(\mathbf{x}) = \left( \frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2} \right) = (6x_1, 10x_2 e^{x_2^2})$

对于函数 $f(\mathbf{x}) = \|\mathbf{x}\|_2$ 求梯度

给定函数
$f(\mathbf{x}) = \|\mathbf{x}\|_2$
其中 $\|\mathbf{x}\|_2$ 是 $\mathbf{x}$ 的 $L_2$ 范数，定义为：
$\|\mathbf{x}\|_2 = \sqrt{x_1^2 + x_2^2 + \cdots + x_n^2}$

求梯度
梯度的计算公式是：
$\nabla f(\mathbf{x}) = \frac{\mathbf{x}}{\|\mathbf{x}\|_2}$

L2范数的梯度公式可以展开为向量的每个分量的梯度。对于向量 $\mathbf{x} = [x_1, x_2, \ldots, x_n]^T$ ，其L2范数为：

$\|\mathbf{x}\|_2 = \sqrt{x_1^2 + x_2^2 + \cdots + x_n^2}$

对L2范数求向量 $\mathbf{x}$ 的梯度，我们得到：

$\nabla \|\mathbf{x}\|_2 = \left[ \frac{\partial \|\mathbf{x}\|_2}{\partial x_1}, \frac{\partial \|\mathbf{x}\|_2}{\partial x_2}, \ldots, \frac{\partial \|\mathbf{x}\|_2}{\partial x_n} \right]^T$

现在，我们对每个分量求偏导数：

$\frac{\partial \|\mathbf{x}\|_2}{\partial x_i} = \frac{\partial}{\partial x_i} \left( \sqrt{x_1^2 + x_2^2 + \cdots + x_n^2} \right)$

使用链式法则，我们有：

$\frac{\partial \|\mathbf{x}\|_2}{\partial x_i} = \frac{1}{2\sqrt{x_1^2 + x_2^2 + \cdots + x_n^2}} \cdot 2x_i = \frac{x_i}{\sqrt{x_1^2 + x_2^2 + \cdots + x_n^2}}$