【李宏毅机器学习笔记】BP算法

最新推荐文章于 2022-10-17 00:56:59 发布

Morphlng

最新推荐文章于 2022-10-17 00:56:59 发布

阅读量310

点赞数

分类专栏：学习机器学习文章标签：神经网络算法深度学习人工智能机器学习

本文链接：https://blog.csdn.net/weixin_44151650/article/details/119830623

版权

学习机器学习专栏收录该内容

9 篇文章 6 订阅

订阅专栏

Backpropagation

神经网络中，我们利用梯度下降法来对损失函数进行优化，这在神经元数量不多的时候很有效。但是深层神经网络中，有上百万的参数需要调整，单纯使用梯度下降法可以算，但几乎不可能算完。因此我们需要更有效的方法来优化损失函数，这也就引出了反向传播(backpropagation)

链式法则

下图是多层神经网络的一个模型，现在我们要对损失函数L进行优化，即对其中每个参数求偏导。以图中三角部分为例，展开：

Backpropagation

假设该部分的模型函数如下：

$z=w_1x_1+w_2x_2+b$

z是即将输入给激活函数的值， $w_1$ 是 $x_1$ 的权重， $w_2$ 是 $x_2$ 的权重，b是偏置值，如下：

forward_backward_pass
根据链式法则，我们将损失函数（这里的C是整个损失函数中的某一个加项）对某一个 $w$ 的偏导，拆成了上图中的形式。

前/后向传播

就像上图中标出的那样，我们把 $\frac{\partial z}{\partial w}$ ，称为前向传播项；把 $\frac{\partial C}{\partial z}$ ，称为后向传播项。

1、前向传播

之所以 $\frac{\partial z}{\partial w}$ 称为前向传播，是因为它的值只和与参数直接相连的输入有关。例如在上图中， $\frac{\partial z}{\partial w_1} = x_1$ ， $\frac{\partial z}{\partial w_2} = x_2$

2、反向传播

$\frac{\partial C}{\partial z}$ 是很复杂的，因为C和z并不直接相关，我们用链式法则对其可以继续分解（假设经过激活函数后的输出可表示为 $a=\sigma(z)$ ）：

$\frac{\partial C}{\partial z}=\frac{\partial a}{\partial z}\frac{\partial C}{\partial a}$

Backward_pass

其中 $\frac{\partial a}{\partial z}$ 就是激活函数在z处的值，可以简单的表示为 $\sigma^{'}(z)$ 。而 $\frac{\partial C}{\partial a}$ 又要求我们继续进行链式展开：

$\frac{\partial C}{\partial a}=\frac{\partial z^{'}}{\partial a}\frac{\partial C}{\partial z^{'}}+\frac{\partial z^{''}}{\partial a}\frac{\partial C}{\partial z^{''}}$

很容易发现这是一个迭代的过程，因为我们总需要继续求解下一层的偏导数。这里我们先假设 $\frac{\partial C}{\partial z^{'}}$ 和 $\frac{\partial C}{\partial z^{''}}$ 已知，那么可以把最初的式子改写为：

$\frac{\partial C}{\partial z}=\sigma^{'}(z)\left[w_3 \frac{\partial C}{\partial z^{'}} + w_4 \frac{\partial C}{\partial z^{''}} \right]$

下面这张图能够让你更好的理解，为什么它被称为“反向”传播。

为什么叫后向传播

如何继续计算

1、单隐层

如果，上图中红色的就是output层，那么我们上面给出的假设已知是成立的，因为此时：

$\frac{\partial C}{\partial z^{'}}=\frac{\partial y_1}{\partial z^{'}}\frac{\partial C}{\partial y_1}$

$\frac{\partial C}{\partial z^{''}}=\frac{\partial y_2}{\partial z^{''}}\frac{\partial C}{\partial y_2}$

y与z之间的关系，由激活函数得出；而C与y之间的关系，正是你定义的损失函数，这些偏导都是已知的。

2、多隐层

那如果红色的之后还有很多层，我们其实只需要继续迭代，直到达到output层即可。我们可以想象成有一个逆向的神经网络，其优化过程如下：

逆向网络

总结

BP算法分为三个步骤（对某一个参数）：

forward pass。正向求取各个 $\frac{\partial z}{\partial w}=a$
backward pass。反向求取各个 $\frac{\partial C}{\partial z}$
combine。 $\times \frac{\partial C}{\partial z} = \frac{\partial C}{\partial w}$

Morphlng

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【李宏毅机器学习笔记】BP算法

Backpropagation神经网络中，我们利用梯度下降法来对损失函数进行优化，这在神经元数量不多的时候很有效。但是深层神经网络中，有上百万的参数需要调整，单纯使用梯度下降法可以算，但几乎不可能算完。因此我们需要更有效的方法来优化损失函数，这也就引出了反向传播(backpropagation)链式法则下图是多层神经网络的一个模型，现在我们要对损失函数L进行优化，即对其中每个参数求偏导。以图中三角部分为例，展开：假设该部分的模型函数如下：z=w1x1+w2x2+bz=w_1x_1+w_2x_2+
复制链接

扫一扫