机器学习11：神经网络中的反向传播算法的简单理解（Backpropagation，BP）

最新推荐文章于 2022-05-01 15:28:35 发布

Sayram_0

最新推荐文章于 2022-05-01 15:28:35 发布

阅读量317

点赞数

分类专栏：机器学习文章标签： python 机器学习深度学习神经网络人工智能

本文链接：https://blog.csdn.net/weixin_45476502/article/details/108774360

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

本文通过一个简单的神经网络例子，详细解释了反向传播算法的工作原理，利用链式法则计算误差梯度，并应用梯度下降法更新权重。通过逐步计算，展示了如何从预测值与真实值的误差开始，反向更新每一层的权重，从而逐步优化模型，使其预测结果更加接近真实值。

摘要由CSDN通过智能技术生成

前言

在学习神经网络的时候，一直不理解反向传播算法，看到一大堆公式，总是一头雾水。看了很多大佬的分析和解说，最后通过自己一步步的分析和理解发现，相比直接看公式和方程，似乎一个简单的例子更容易理解这种看似复杂实际上并不复杂的算法，下面主要通过一个简单的例子来表达我对BP（反向传播算法）的理解。

链式法则（乘法法则）

如果已经理解链式法则的可以忽略这一部分。

链式法则可以说是反向传播算法的重中之重，几乎每一步的运算都会用到它。

核心理解如下：
假设有两个函数： $y = g (x), z = f (y)$
很显然： $\frac{dy}{dx}=g'(x),\frac{dz}{dy}=f'(y)$
为了求 $\frac{dz}{dx}$ ，我们就需要用到链式法则：
$\frac{dz}{dx}=\frac{dz}{dy}·\frac{dy}{dx}$

反向传播算法引例

看下面这个网络：

一共有3层：输入层、隐藏层、输出层。输入层有两个神经元 $x_1,x_2$ ，隐藏层有两个神经元 $h_1,h_2$ （这里为了简化问题，方便我们理解算法，我们可以先不用考虑激活函数），输出有一个神经元 $y$ .

为了直观的理解这个网络，我们可以为每个参数赋上具体的数值，比如，令 $x_1=1,x_2=2$ ，假设各个权重的真实值分别是 $w_1,w_2,w_3,w_4,w_5,w_6=1,2,3,4,5,6$ ，这样，通过正向运算，我们可以得到 $y$ 的目标真实值 $t a r g e t = 91$ 。

因此，在反向传播的过程中，我们只知道 $x_1=1,x_2=2$ 以及 $t a r g e t = 91$ ， $w_1,w_2,w_3,w_4,w_5,w_6$ 是未知的，为了使反向传播进行下去，我们需要随机初始化各个权重值，假设我们随机初始化的结果是：
$w_1,w_2,w_3,w_4,w_5,w_6=0.5,1.0,1.5,2.0,2.5,3.0$

下面就是反向传播算法的具体计算过程了：

首先，我们要计算误差，也就是真实值与预测值之间的误差 $e=\frac{1}{2}(target-y)^2$ 。上面提到，真实值 $t a r g e t = 91$ ，需要我们计算预测值 $y$ ：

$\begin{aligned} h_1 &= w_1x_1+w_2x_2=2.5\\ h_2 &= w_3x_1+w_4x_2=5.5\\ y &= w_5h_1+w_6h_2=22.75\\ \end{aligned}$
$e=\frac{1}{2}(target-y)^2=2329.03125$

然后，我们就要开始更新各个权重值了，我们先来更新 $w_6$ 和 $w_5$ ，为了更新 $w_6$ ，需要计算 $\frac{\partial e}{\partial w_6}$ ，根据链式法则：
$\frac{\partial e}{\partial w_6}=\frac{\partial e}{\partial y}·\frac{\partial y}{\partial w_6}$
已知 $e=\frac{1}{2}(target-y)^2$ ，则
$\begin{aligned} \frac{\partial e}{\partial y}&=2·\frac{1}{2}·(target-y)·(-1)\\ &=y-target\\ &=22.75-91\\&=-68.25 \end{aligned}$
又 $y=w_5h_1+w_6h_2$ ，则
$\frac{\partial y}{\partial w_6}=h_2=5.5$
因此，
$\frac{\partial e}{\partial w_6}=\frac{\partial e}{\partial y}·\frac{\partial y}{\partial w_6}=-375.375$
最后，我们就可以运用梯度下降法来更新 $w_6$ ，假设学习率 $\alpha=0.005$ ，则
$\begin{aligned} w_6'&=w_6-\alpha·\frac{\partial e}{\partial w_6}\\&=3.0-0.005*(-375.375)\\&=4.876875 \end{aligned}$

同理，我们可以按照上面的方法更新 $w_5$ ：

上面已经求得 $\frac{\partial e}{\partial y}=-68.25$ .
根据 $y=w_5h_1+w_6h_2$ ：
$\frac{\partial y}{\partial w_5}=h_1=2.5$
则，
$\begin{aligned} w_5'&=w_5-\alpha·\frac{\partial e}{\partial w_5}\\&=2.5-0.005*(-68.25*2.5)\\&=3.353125 \end{aligned}$

下面，我们来更新 $w_1,w_2,w_3,w_4$ .

对 $w_1$ ，根据链式法则：
$\frac{\partial e}{\partial w_1}=\frac{\partial e}{\partial y}·\frac{\partial y}{\partial h_1}·\frac{\partial h_1}{\partial w_1}$
$\frac{\partial e}{\partial y}$ 上面已经求过，根据 $y=w_5h_1+w_6h_2$ 可以求得：
$\frac{\partial y}{\partial h_1}=w_5=2.5$
根据 $h_1=w_1x_1+w_2x_2$ 可以求得：
$\frac{\partial h_1}{\partial w_1}=x_1=1$
所以，
$\begin{aligned} \frac{\partial e}{\partial w_1}&=\frac{\partial e}{\partial y}·\frac{\partial y}{\partial h_1}·\frac{\partial h_1}{\partial w_1}\\&=(-68.25)*2.5*1\\&=-170.625 \end{aligned}$
因此，
$\begin{aligned} w_1'&=w_1-\alpha·\frac{\partial e}{\partial w_1}\\&=w_1-\alpha·(y-t)·w_5·x_1\\&=0.5-0.005*(-170.625)\\&=1.353125 \end{aligned}$

同理，
$\begin{aligned} w_2'&=w_2-\alpha·\frac{\partial e}{\partial w_2}\\&=w_2-\alpha·(y-t)·w_5·x_2\\&=1-0.005*(-68.25)*2.5*2\\&=2.70625 \end{aligned}$
$\begin{aligned} w_3'&=w_3-\alpha·\frac{\partial e}{\partial w_3}\\&=w_3-\alpha·(y-t)·w_6·x_1\\&=1.5-0.005*(-68.25)*3*1\\&=2.52375 \end{aligned}$
$\begin{aligned} w_4'&=w_4-\alpha·\frac{\partial e}{\partial w_4}\\&=w_4-\alpha·(y-t)·w_6·x_2\\&=2-0.005*(-68.25)*3*2\\&=4.0475 \end{aligned}$

现在，我们已经更新了所有的权重值：
$w_1,w_2,w_3,w_4,w_5,w_6=1.353125,2.70625,2.52375,4.0475,3.353125,4.876875$
再次根据前向运算可以求得 $y = 74.47$ ， $e = 136.58$ ，我们可以发现，新的预测值更接近真实值了，而且，误差变得更小了，就这样，只要重复上面的步骤，我们就可以得到越来越准确的预测模型了！！！！