神经网络反向传播(BP)公式推导_bp神经网络传播公式-CSDN博客

本文链接：https://blog.csdn.net/weixin_45771770/article/details/115003577

神经网络反向传播公式推导

前言（简要）

阅读文本之前，默认您对神经网络的结构有了基本的了解，并且在阅读其他文章后觉得似懂非懂，想弄懂反向传播是如何真正地传导

符号定义

A multi-layer neural network with one hidden layer

上图中展示了一张最基本的多层神经网络（具有一个隐藏层，多层的思想和这个完全相同，文末点睛）：
输入层是
${x_k}={x_1,...,x_K}$
隐藏层是
${h_i}={h_1,...,h_N}$
输出层是
${y_j}={y_1,...,y_M}$
为了清楚起见，我们使用k、I、j分别作为输入、隐藏和输出层单元的下标。我们用 $u_i$ 和 $u_j^{'}$ 分别表示隐藏层单元和输出层单元的净输入。
我们想导出更新方程，用于学习输入层和隐藏层之间的权重 $w_{ki}$ 和隐藏层和输出层之间的权重 $w_{ij}^{'}$ 。我们假设所有的计算单元（图中的隐藏层和输出层）都使用 $σ (u)$ 作为激活函数。因此，对于隐藏层中的一个单元 $h_i$ ，它的输出定义为
$h_i=σ(u_i)=σ(\sum_{k=1}^{K} w_{ki}x_k)$
类似地，对于输出层中的一个单元 $y_j$ ，它的输出定位为：
$y_j=σ(u_j^{'})=σ(\sum_{i=1}^{N} w_{ij}^{'}h_i)$
损失函数我们使用平方和损失函数
$E(x,t,W,W^{'})=\frac{1}{2}\sum_{j=1}^{M} (y_j-t_j)^2$
其中 $W={w_{ki}},是一个K*N的权重矩阵（输入层-隐藏层），W^{'}={w_{ij}^{'}},一个N*M的权重矩阵（隐藏层-输出层），t={t_1,...,t_M},是一个M维的向量，即标签$

重点强调

我们反向传播的目的是获取 $w_{ki}$ 和 ${w_{ij}^{'}}$ 的更新方程。我们只需要分别求出误差函数E对权重的导数。为了使推导变得简单，我们需要开始计算最右侧层(即输出层)的导数，对于每一层，我们将计算分为三个步骤，分别计算输出、净输入和权重的误差导数。该过程如下所示：

推导过程

我们从输出层开始。第一步是计算输出误差的导数：
$\frac{\partial{E}}{\partial{y_j}}=y_j-t_j$
第二步是计算误差相对于输出层净输入的导数。请注意，当对某个事物进行导数时，我们需要保持其他一切不变。还要注意，这个值非常重要，因为它将在后续计算中多次重复使用。我们使用 $EI_j^{'}$ 来表示它，出于简单.
$\frac{\partial{E}}{\partial{u_j^{'}}}=\frac{\partial{E}}{\partial{y_j}}*\frac{\partial{y_j}}{\partial{u_j^{'}}}=(y_j-t_j)*y_j(1-y_j):=EI_j^{'} (1)$
:=是定义的意思
第三步是计算关于输出层和隐藏层之间的权重的误差的导数。
$\frac{\partial{E}}{\partial{w_{ij}^{'}}}=\frac{\partial{E}}{\partial{u_j^{'}}}*\frac{\partial{u_j^{'}}}{\partial{w_{ij}^{'}}}=EI_j^{'}*h_i$
到目前为止，我们已经获得了隐藏层和输出层之间的权重更新方程.
$w_{ij}^{new}=w_{ij}^{old}-η*\frac{\partial{E}}{\partial{w_{ij}^{'}}}=w_{ij}^{old}-η*EI_j^{'}*h_i$
其中η > 0是学习率。
我们可以重复同样的三个步骤来获得左边一层(前一层)权重的更新方程，这本质上是反向传播的思想。我们重复第一步，计算关于隐藏层输出的误差导数。请注意，隐藏层的输出与输出层中的所有单元相关。
$\frac{\partial{E}}{\partial{h_i}}=\sum_{j=1}^{M}\frac{\partial{E}}{\partial{u_{j}^{'}}}\frac{\partial{u_j^{'}}}{\partial{h_i}}=\sum_{j=1}^{M}EI_j^{'}*w_{ij}^{'}$
然后我们重复上面的第二步，计算关于隐藏层净输入的误差导数。这个值也很重要，我们称之为 $EI_i$
$\frac{\partial{E}}{\partial{u_i}}=\frac{\partial{E}}{\partial{h_i}}*\frac{\partial{h_i}}{\partial{u_i}}=\sum_{j=1}^{M}EI_j^{'}*u_{ij}^{'}*h_i*(1-h_i):=EI_i(2)$
接下来，我们重复上面的第三步，计算关于输入层和隐藏层之间的权重的误差导数。
$\frac{\partial{E}}{\partial{w_{ki}}}=\frac{\partial{E}}{\partial{u_i}}*\frac{\partial{u_i}}{\partial{w_{ki}}}=EI_i*x_k$
最后，我们可以获得隐藏层和输入层之间的权重更新方程
. $w_{ki}^{new}=w_{ij}^{old}-η*EI_i*x_k$

点睛

从上面的例子中，我们可以看到，计算一层导数时的中间结果( $EI_j^{'}$ )可以被前一层重用。假设在输入层之前还有另一层，那么还可以重用 $EI_i$ 来继续高效地计算导数链。比较等式(1)和(2)，我们可以发现在(2)中，因子 $\sum_{j=1}^{M}EI_j^{'}w_{ij}^{'}$ 就像隐藏层单元 $h_i$ 的“误差”。我们可以将这个术语解释为从右边一层“反向传播”的误差，如果网络有更多的隐藏层，这种传播可能会进一步反向。