神经翻译笔记3扩展b. 自动微分

最新推荐文章于 2022-10-19 22:10:51 发布

TimsonShi

最新推荐文章于 2022-10-19 22:10:51 发布

阅读量876

点赞数 2

分类专栏：神经翻译笔记文章标签：自动微分

本文链接：https://blog.csdn.net/xacecaSK2/article/details/89326751

版权

本文介绍了自动微分的概念，区分了它与数值微分和符号微分的区别。重点讲解了自动微分的前向模式和后向模式，分析了它们在机器学习中的应用，特别是对神经网络训练的影响。前向模式适用于输入维度较小的情况，而后向模式则在输出维度较小但输入维度大的场景中更为高效。自动微分是现代深度学习框架如TensorFlow的基础，用于计算梯度，推动模型优化。

摘要由CSDN通过智能技术生成

神经翻译笔记3扩展b. 自动微分

本文无说明的部分（包括配图）均是翻译/演绎自：

Baydin, A. G., Pearlmutter, B. A., Radul, A. A., & Siskind, J. M. (2017). Automatic differentiation in machine learning: a survey. Journal of machine learning research, 18(153), 1-43.

不过没有包含若干偏理论的内容

其它引用会单独注明

引言

如前所示，在训练神经网络时，需要计算损失函数对网络参数的梯度，其中会涉及到很多次导数的计算。一般来讲，编程计算导数有四种做法

手动微分（manual differentiation），手动推出导数是什么样，然后硬编码。这种做法既耗时也容易出错，还没有灵活性
数值微分（numerical differentiation），利用数值代数方法逼近函数的导数值。这种方法存在舍入误差和截断误差，而且扩展性差，在深度学习需要计算百万量级参数的梯度时不适用
符号微分（symbolic differentiation）。通常是计算机代数系统采用，例如Mathematica, Maxima和Maple等等。这种方法试图给出给定表达式导数的代数形式，但是会导致表达式爆炸的现象。而且其底层依赖一个封闭的表达式库，给方法求解问题的范畴施加了局限
自动微分（automatic differentiation），或者也被称为算法微分（algorithmic differentiation），是本文的主题

自动微分不是什么

自动微分不是数值微分

这里先介绍一下数值微分的计算思想。考虑到导数的定义，如果一个函数 $y = f (x)$ 在点 $x_0$ 处可导，那么其在该点处的导数为
$f'(x_0) = \lim_{\Delta x\rightarrow 0}\frac{\Delta y}{\Delta x} = \lim_{\Delta x\rightarrow 0} \frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x}$
因此可以使用导数的定义，使用一个特别小的 $\Delta x$ （例如 $10^{-6}$ ）来计算导数。但是这种做法会产生偏差。假设以 $h$ 代替 $\Delta x$ ，那么近似计算 $f$ 在 $x$ 点处的导数为
$\approx \frac{f(x+h) - f(x)}{h}$
而 $f (x + h)$ 关于 $x$ 的泰勒展开为
$\frac{h^2}{2}f''(\xi),\ \ \ \xi \in (x, x+h)$
因此会存在一个 $-\frac{h}{2}f''(\xi)$ 的误差，该误差称为截断误差（truncation error）。这种方法称为前向差分法（forward differencing），注意其截断误差是 $O (h)$ 的
对于前向微分法，有一种改进的方法可以提高估计的准确率，称为中心差分法（centered differencing）
$\approx \frac{f(x+h) - f(x-h)}{2h}$
（验证内容来自于马里兰大学学院市分校（UMD）数值分析课AMSC466的讲义）下面验证该式有更好的准确度。该式右侧的泰勒展开为
$\begin{aligned} f(x+h) &= f(x) + hf'(x) + \frac{h^2}{2}f''(x) + \frac{h^3}{6}f'''(\xi_1) \\ f(x-h) &= f(x) - hf'(x) + \frac{h^2}{2}f''(x) - \frac{h^3}{6}f'''(\xi_1) \end{aligned}$
其中 $\xi_1 \in (x, x+h), \xi_2 \in (x-h, x)$ 。因此
$\frac{f(x+h) - f(x-h)}{2h} - \frac{h^2}{12}[f'''(\xi_1) + f'''(x_2)]$
即中心差分法的截断误差是 $-\frac{h^2}{12}[f'''(\xi_1) + f'''(\xi_2)]$ 。假设三阶导数在区间 $[x - h, x + h]$ 连续，那么由介值定理，存在点 $\xi \in (x-h, x+h)$ 使得
$f'''(\xi) = \frac{1}{2}[f'''(\xi_1) + f'''(\xi_2)]$
因此
$\frac{f(x+h) - f(x-h)}{2h}-\frac{h^2}{6}f'''(\xi)$
即中心差分法的截断误差是 $O(h^2)$ 的。当 $h$ 很小时，该误差小于前向差分法的误差 $\blacksquare$

**数值微分的缺点是存在截断误差和舍入误差，同时计算太慢。**比较不幸的是，随着 $h$ 大小的变化，截断误差和舍入误差的变化趋势相反：当 $h$ 趋近于0时，截断误差也趋近于0，但是舍入误差会慢慢增大，反之相反。下图给出了函数 $f(x) = 64x(1-x)(1-2x)^2(1-8x+8x^2)^2$ 使用数值微分计算在点 $x_0 = 0.2$ 的导数时误差随 $h$ 变化的图像。

数值微分误差与h的关系

此外还需注意一点：当参数是标量时，前向差分法和中心差分法的计算代价相同。不过当参数是向量时，使用中心差分法计算函数 $\mathbb{R}^n \rightarrow \mathbb{R}^m$ 的雅可比矩阵需要额外 $m n$ 个计算量。尤其在深度学习领域，对于 $n$ 维向量，这种 $O (n)$ 的计算量是算法的主要瓶颈，而误差已经不重要了

自动微分不是符号微分

符号微分将输入式子表达为一个表达式树，然后对每个节点使用一些预先设置好的规则做转换。符号微分可以帮助人们更深入地了解问题域的结构，有时候还能给出极值条件的解析解，不过它们会产生指数量级的表达式，因此计算起来效率很低。考虑函数 $h (x) = f (x) g (x)$ 和微分的乘法法则
$\frac{d}{dx}(f(x)g(x)) \rightsquigarrow \left(\frac{d}{dx}f(x)\right)g(x) + f(x)\left(\frac{d}{dx}g(x)\right)$
由于 $h$ 是两个函数的乘积，因此 $h (x)$ 和 $\frac{d}{dx}h(x)$ 有相同的成分，分别是 $f (x)$ 和

最低0.47元/天解锁文章

TimsonShi

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
神经翻译笔记3扩展b. 自动微分

文章目录神经翻译笔记3扩展b. 自动微分引言自动微分不是什么自动微分不是数值微分自动微分不是符号微分自动微分及其主要模式前向模式（Forward mode）二元数后向模式（Backward mode）自动微分与机器学习基于梯度的优化神经网络、深度学习与可微分编程实现陷阱性能扰动混淆数值计算的陷阱近似问题实现方法TensorFlow的实现静态图模式梯度计算函数动态图模式神经翻译笔记3扩展b. 自动...
复制链接

扫一扫