BP算法的数学基础-链式求导法则中的细节问题推敲

最新推荐文章于 2024-02-17 16:36:43 发布

ywsdxxzj

最新推荐文章于 2024-02-17 16:36:43 发布

阅读量711

点赞数

分类专栏：神经网络数学推导文章标签：人工智能神经网络深度学习

本文链接：https://blog.csdn.net/ywsdxxzj/article/details/115950090

版权

神经网络同时被 2 个专栏收录

9 篇文章 1 订阅

订阅专栏

数学推导

2 篇文章 0 订阅

订阅专栏

前言

众所周知，深度神经网络的一大精髓在于BP算法。每个Batch的前馈计算完成后，采用BP算法可以很方便地求得梯度，或者说，损失函数 $E$ 对于任一个权重 $w_{i, j}$ 的偏导 $\frac{\partial E}{\partial w_{i, j}}$ 都是可知的。下一步，便可以很自然地才用梯度下降算法对权重更新，以向最小值点前进。

四个基本方程

BP算法的核心是如下的4个基本方程，不论什么形式的误差函数，都能够通过这4个基本方程逐层求解，最终就能够得到我们需要的梯度。

BP算法的4个基本方程
其中， $\delta_{j}^{l}$ 被定义为第 $l$ 层的误差，其中输出层误差如下：
$\delta^{L}_{j} = \frac{ \partial C}{ \partial a^{L}_{j} } \sigma_{'}(z^{L}_{j})$

而这4个方程中，最能够体现“反向传播”的思想的莫过于BP2，其本质是使用 $l + 1$ 层的误差 $\delta^{l+1}$ 来表示第 $l$ 层的误差 $\delta_{i}^{l}$ ，这样就能够实现从后一层到前一层的反向推进过程。而因为全连接层每一个神经元都和上一层的所有神经元相连，会导致链式法则运用起来比较复杂，接下来我们就详细讨论这一过程。

链式法则

大家在学高数的时候都学过，复合函数求导要使用链式法则。随便举一个经典的例子：
$f (u, v) = u + 7 v, u (x, y) = 3 x + 2 y, v (x, y) = x y$
容易得到:
$\frac{df}{dx}=\frac{\partial f }{\partial u}\frac{\partial u }{\partial x} + \frac{\partial f }{\partial v}\frac{\partial v }{\partial x}=3+7y$
但是实际上我们是默认了一些东西的，为了后面研究全连接层众多参数的情况下更加清晰明朗，在这里有必要不厌其烦的追究一下：

如何知道中间变量只有 $u$ 和 $v$ ？
如何知道 $x$ 对于 $y$ 没有影响，即 $\frac{\partial y }{\partial x}$ 为零？

一、完备表达

对于第一个问题，或许我们可以直接说：“这是由于 $f (u, v)$ 的括号内只有 $u$ 和 $v$ ，倘若给出的形式是 $f (u, v, w)$ ，大可以写成：
$\frac{df}{dx}=\frac{\partial f }{\partial u}\frac{\partial u }{\partial x} + \frac{\partial f }{\partial v}\frac{\partial v }{\partial x}+ \frac{\partial f }{\partial w}\frac{\partial w }{\partial x}$ 。”

看起来这是一个很trivial的问题，然而在面临误差函数 $E$ 这样的函数，我们很难知道他到底有哪些中间变量。事实上，直觉上我们会感到，对于任意一层 $l$ 它都可以写成 $E(w_{i,j};a_{1}^{l}, ...,a_{n_{l}}^{l})$ 的形式（并非完全严谨，后面会说明这里权重的指代）。

严谨地说呢，当一个函数用某几个变量就能够全部表达时，我们就可以在括号里面只填入这几个参数。我把这样的一组参数称为能够完备表达函数 $f$ 的参数，比如：

$e^{x^{2}+3y+sinz+xyz}$ 就能够记为 $f (x, y, z)$ 。就算再有 $h = x y z$ ，也不需要记为 $f (x, y, z, h)$ 。

回到实际问题，当我们要分析 $E$ 对于中间变量 $a_{1}^{l}, ...,a_{n_{l}}^{l}$ 这种情况，我们其实把 $E$ 表为这一层的全部输出（和一些权重）的函数，但是实际上一层一层地求不太现实。

一个简单的等价表达是：

对于给定序列 $a_{1}^{l}, ...,a_{n_{l}}^{l}$ ，如果 $f$ 的值是唯一确定的，即可认为 $f$ 可由 $a_{1}^{l}, ...,a_{n_{l}}^{l}$ 完备表达，记为： $f(a_{1}^{l}, ...,a_{n_{l}}^{l})$

不难发现，给定某一层的参数和该层往后的所有连接权重，即可得到确定的损失函数值，于是可以表达为： $E(W;a_{1}^{l}, ...,a_{n_{l}}^{l})$ ，其中 $W$ 即代表第 $l$ 层往后的所有权重。链式求导时，只需要考虑表中的这些参数，比如：
$\frac{\partial E}{\partial w_{i,j}}=\sum_{j}\frac{\partial E}{\partial a_{j}^{l}}\frac{\partial a^{l}_{j}}{\partial w_{i,j}} \tag{1}$
而不需再考虑诸如 $\frac{\partial E}{\partial a_{i}^{l-1}}\frac{\partial a_{i}^{l-1}}{\partial a_{j}^{l}}$ 一项的影响，尽管此项可能非零（后一层输出必定受到前一层输出的影响）。

二、影响传递

如何判断一个变量对另一个变量的偏导 $\frac{\partial y }{\partial x}$ 是不是零呢？我们在直角坐标系中通常认为这是trivial的，因为 $x$ 和 $y$ 之间没有直观的联系（除非给出约束）。对于神经网络，我们也可以直观得将偏导数理解为一种贡献率，或者显著性，即一个参数的变化引起另一个参数变化的敏感程度。（于是自然有人利用这个来做剪枝，这里可以参见我的另一篇博客。）

基于神经网络的前馈计算过程，给出以下几条容易得到的假设：

前馈计算中，前一层的参数对后一层的输出一般有影响，反之，后一层的参数一般对前一层的输出没有直观影响；
如果不是本身变化，一般认为权重 $w_{i,j}$ 、偏置 $b_{l}$ 等等都是常数，对别的参数有贡献率 $\frac{\partial a_{k}^{l} }{\partial w_{i,j}}$ ，但是反之 $\frac{\partial w_{i,j} }{\partial x}$ 一般都为零。

具体的计算，主要使用这个式子：
$a_{j}^{l}=\sigma(\sum_{i}w_{j,i}a_{i}^{l-1}+b^{l})$

一个细节

有了上面两个部分的铺垫，反过来可以注意到一件事，即一般情况下上面的式(1)应该写成：
$\frac{\partial E}{\partial w_{m,n}}=\sum_{j}\frac{\partial E}{\partial a_{j}^{l}}\frac{\partial a^{l}_{j}}{\partial w_{i,j}}+\sum_{k,h}\frac{\partial E}{\partial w_{k,h}}\frac{\partial w_{k,h}}{\partial w_{m,n}} \tag{2}$
假设 $w_{m,n}$ 是第 $l_{0}$ 层的参数，而 $a^{l}_{j}$ 是第 $l$ 层的输出。

若取 $l>l_{0}$ ，显然后排的输出会受到前排权重的影响，即 $\forall j,\frac{\partial a^{l}_{j}}{\partial w_{m,n}}\neq0$ ，并且此时 $(k, h)$ 将不能取到 $(m, n)$ ，即右边第二项求和为零，上式退化为先前的情况；

而取 $\leq l_{0}$ ，显然前排的输出与后排的权重没什么联系，即 $\forall j,\frac{\partial a^{l}_{j}}{\partial w_{m,n}}=0$ ，所以右边的第一项求和为零，而第二项只有在取 $(k, h) = (m, n)$ 时非零，上式退化为：
$\frac{\partial E}{\partial w_{m,n}}=\frac{\partial E}{\partial w_{m,n}}\frac{\partial w_{m,n}}{\partial w_{m,n}}=\frac{\partial E}{\partial w_{m,n}}$
表明这种情况没有分析价值。但是这仍然是成立的，这充分说明了这种分析方法的严谨性。