神经翻译笔记3扩展b. 自动微分

最新推荐文章于 2022-10-22 22:25:12 发布

TimsonShi

最新推荐文章于 2022-10-22 22:25:12 发布

阅读量895

点赞数 2

分类专栏：神经翻译笔记文章标签：自动微分

本文链接：https://blog.csdn.net/xacecask2/article/details/89326751

版权

本文介绍了自动微分的概念，区分了它与数值微分和符号微分的区别。重点讲解了自动微分的前向模式和后向模式，分析了它们在机器学习中的应用，特别是对神经网络训练的影响。前向模式适用于输入维度较小的情况，而后向模式则在输出维度较小但输入维度大的场景中更为高效。自动微分是现代深度学习框架如TensorFlow的基础，用于计算梯度，推动模型优化。

摘要由CSDN通过智能技术生成

神经翻译笔记3扩展b. 自动微分

本文无说明的部分（包括配图）均是翻译/演绎自：

Baydin, A. G., Pearlmutter, B. A., Radul, A. A., & Siskind, J. M. (2017). Automatic differentiation in machine learning: a survey. Journal of machine learning research, 18(153), 1-43.

不过没有包含若干偏理论的内容

其它引用会单独注明

引言

如前所示，在训练神经网络时，需要计算损失函数对网络参数的梯度，其中会涉及到很多次导数的计算。一般来讲，编程计算导数有四种做法

手动微分（manual differentiation），手动推出导数是什么样，然后硬编码。这种做法既耗时也容易出错，还没有灵活性
数值微分（numerical differentiation），利用数值代数方法逼近函数的导数值。这种方法存在舍入误差和截断误差，而且扩展性差，在深度学习需要计算百万量级参数的梯度时不适用
符号微分（symbolic differentiation）。通常是计算机代数系统采用，例如Mathematica, Maxima和Maple等等。这种方法试图给出给定表达式导数的代数形式，但是会导致表达式爆炸的现象。而且其底层依赖一个封闭的表达式库，给方法求解问题的范畴施加了局限
自动微分（automatic differentiation），或者也被称为算法微分（algorithmic differentiation），是本文的主题

自动微分不是什么

自动微分不是数值微分

这里先介绍一下数值微分的计算思想。考虑到导数的定义，如果一个函数 $y = f (x)$ 在点 $x_0$ 处可导，那么其在该点处的导数为
$f'(x_0) = \lim_{\Delta x\rightarrow 0}\frac{\Delta y}{\Delta x} = \lim_{\Delta x\rightarrow 0} \frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x}$
因此可以使用导数的定义，使用一个特别小的 $\Delta x$ （例如 $10^{-6}$ ）来计算导数。但是这种做法会产生偏差。假设以 $h$ 代替 $\Delta x$ ，那么近似计算 $f$ 在 $x$ 点处的导数为
$\approx \frac{f(x+h) - f(x)}{h}$
而 $f (x + h)$ 关于 $x$ 的泰勒展开为
$\frac{h^2}{2}f''(\xi),\ \ \ \xi \in (x, x+h)$
因此会存在一个 $-\frac{h}{2}f''(\xi)$ 的误差，该误差称为截断误差（truncation error）。这种方法称为前向差分法（forward differencing），注意其截断误差是 $O (h)$ 的
对于前向微分法，有一种改进的方法可以提高估计的准确率，称为中心差分法（centered differencing）
$\approx \frac{f(x+h) - f(x-h)}{2h}$
（验证内容来自于马里兰大学学院市分校（UMD）数值分析课AMSC466的讲义）下面验证该式有更好的准确度。该式右侧的泰勒展开为
$\begin{aligned} f(x+h) &= f(x) + hf'(x) + \frac{h^2}{2}f''(x) + \frac{h^3}{6}f'''(\xi_1) \\ f(x-h) &= f(x) - hf'(x) + \frac{h^2}{2}f''(x) - \frac{h^3}{6}f'''(\xi_1) \end{aligned}$
其中 $\xi_1 \in (x, x+h), \xi_2 \in (x-h, x)$ 。因此
$\frac{f(x+h) - f(x-h)}{2h} - \frac{h^2}{12}[f'''(\xi_1) + f'''(x_2)]$
即中心差分法的截断误差是 $-\frac{h^2}{12}[f'''(\xi_1) + f'''(\xi_2)]$ 。假设三阶导数在区间 $[x - h, x + h]$ 连续，那么由介值定理，存在点 $\xi \in (x-h, x+h)$ 使得
$f'''(\xi) = \frac{1}{2}[f'''(\xi_1) + f'''(\xi_2)]$
因此
$\frac{f(x+h) - f(x-h)}{2h}-\frac{h^2}{6}f'''(\xi)$
即中心差分法的截断误差是 $O(h^2)$ 的。当 $h$ 很小时，该误差小于前向差分法的误差 $\blacksquare$

**数值微分的缺点是存在截断误差和舍入误差，同时计算太慢。**比较不幸的是，随着 $h$ 大小的变化，截断误差和舍入误差的变化趋势相反：当 $h$ 趋近于0时，截断误差也趋近于0，但是舍入误差会慢慢增大，反之相反。下图给出了函数 $f(x) = 64x(1-x)(1-2x)^2(1-8x+8x^2)^2$ 使用数值微分计算在点 $x_0 = 0.2$ 的导数时误差随 $h$ 变化的图像。

数值微分误差与h的关系

此外还需注意一点：当参数是标量时，前向差分法和中心差分法的计算代价相同。不过当参数是向量时，使用中心差分法计算函数 $\mathbb{R}^n \rightarrow \mathbb{R}^m$ 的雅可比矩阵需要额外 $m n$ 个计算量。尤其在深度学习领域，对于 $n$ 维向量，这种 $O (n)$ 的计算量是算法的主要瓶颈，而误差已经不重要了

自动微分不是符号微分

符号微分将输入式子表达为一个表达式树，然后对每个节点使用一些预先设置好的规则做转换。符号微分可以帮助人们更深入地了解问题域的结构，有时候还能给出极值条件的解析解，不过它们会产生指数量级的表达式，因此计算起来效率很低。考虑函数 $h (x) = f (x) g (x)$ 和微分的乘法法则
$\frac{d}{dx}(f(x)g(x)) \rightsquigarrow \left(\frac{d}{dx}f(x)\right)g(x) + f(x)\left(\frac{d}{dx}g(x)\right)$
由于 $h$ 是两个函数的乘积，因此 $h (x)$ 和 $\frac{d}{dx}h(x)$ 有相同的成分，分别是 $f (x)$ 和