李宏毅机器学习-----Back propagation反向传播

最新推荐文章于 2023-10-04 19:27:01 发布

zyuPp

最新推荐文章于 2023-10-04 19:27:01 发布

阅读量355

点赞数

分类专栏：李宏毅机器学习

本文链接：https://blog.csdn.net/zyuPp/article/details/99442463

版权

李宏毅机器学习专栏收录该内容

11 篇文章 14 订阅

订阅专栏

反向传播的背景

在这里插入图片描述
Back propagation这个方法其实也是Gradient Descent，只是为了让神经网络有效率地train出来，所以才有了反向传播。

假设一堆参数 $\theta$ (weight and bias)
初始化一个值 $\theta^0$
计算 $\theta^0$ 对Loss function的偏微分，就是gradient， $\nabla L(\theta)$ 是一个vector
计算完这个vector的偏微分，就可以去更新 $\theta$
神经网络有百万级别的参数，而反向传播就是有效率地计算梯度（那个vector）

Chain Rule链式法则

在这里插入图片描述
这个是微分的法则，不懂的可以去搜一下就可以了，很好理解~

反向传播

科普环节：损失函数Loss，代价函数Cost，总体损失函数Total Loss区别

损失函数：定义在单个训练样本上的，单指一个样本的误差
代价函数：定义在整个训练集上的，即所有样本的误差的总和的平均
总体损失函数：定义在整个训练集上的，即所有样本的误差的总和，也是我们反向传播需要最小化的值

在这里插入图片描述
$L(\theta)$ 就是神经网络的总体损失函数，我们要求每个样本的损失函数 $C(\theta)$ 的偏微分，加起来就是 $L(\theta)$ ，先对一个神经元进行分析。

神经元分析

在这里插入图片描述

第一个Neuron的输入就是x，根据之前做过的步骤，就得到z
计算w对C的偏微分，可以通过链式法则，分解开为w对z偏微分乘上z对C偏微分
$\frac { \partial z } { \partial w }$ 很容易就可以计算出来，称之为Forward Pass
$\frac { \partial C } { \partial z }$ 是比较复杂的，称之为Backward Pass

Forward pass

在这里插入图片描述

forward pass是很容易计算的，因为我们已知输入是x，根据公式，w对z的微分，就是我们的输入。

Backward pass

在这里插入图片描述
这一部分就非常的困难复杂，因为我们要求 $\frac{ \partial C } { \partial z }$ ，我们先用链式法则，把它分解开。

假设神经元function是sigmoid，然后 $a=\sigma(z)$
a通过weight $w_3$ ，加上别的value，得到 $z^\prime$
a还会乘上别的weight $w_4$ ，加上别的value，得到 $z^{\prime\prime}$
$\frac { \partial C } { \partial z } = \frac { \partial a } { \partial z } \frac { \partial C } { \partial a }$

$\frac { \partial a } { \partial z }$ 其实就是对sigmoid函数做偏微分，这个很好计算，那 $\frac { \partial C } { \partial a }$ 又如何计算呢？

a会通过影响 $z^{\prime}和z^{\prime\prime}$ 来影响C，通过上面链式法则中case 2的形式，就会获得上面最后一条式子，如果有很N个neuron，就会加上N个，这里的例子就只假设了两项。
$\frac { \partial z ^ { \prime } } { \partial a }=w_3$
$\frac { \partial z ^ { \prime\prime } } { \partial a }=w_4$

现在我们还是不知道 $\frac {\partial C } { \partial z ^ { \prime } }$ 和 $\frac {\partial C } { \partial z ^ { \prime\prime } }$ ，不过我们假设已经知道了它们的值，继续运算下去。
在这里插入图片描述
最后就可以得到上面这条式子。我们可以从另外一个观点去看待这个式子

有另外一个神经元，把forward的过程逆向过来,其中 $\sigma^{\prime}(z)$ 是常数，因为它在向前传播的时候就已经确定了。

case1 ：已经到达输出层

在这里插入图片描述

假设红色的两个神经元就是已经是output layer，已经计算出来了y1和y2
可以得到 $\frac { \partial C } { \partial z ^ { \prime } } = \frac { \partial y _ { 1 } } { \partial z ^ { \prime } } \frac { \partial C } { \partial y _ { 1 } }$
最后一个神经元的function是已知的，这个看我们怎么设计而已，这样可以算出 $\frac { \partial y _ { 1 } } { \partial z ^ { \prime } }$ ，，即这个function的偏微分。
$\frac { \partial C } { \partial y _ { 1 } }$ 这个要看你的cost function怎么定义，即ouput和target之间是如何评估的，可以是entropy，可以是mean square error，总之它也是可以计算出来的

case2：未到达输出层

在这里插入图片描述
后面还有很多layers，就会继续往后一直通过链式法则算下去。

对于这个问题，我们要继续计算后面绿色的 $\frac{\partial C}{\partial z_a}$
和 $\frac{\partial C}{\partial z_b}$ ,然后通过继续乘 $w_5和w_6$ 得到 $\frac{\partial C}{\partial z'}$ ，但是要是 $\frac{\partial C}{\partial z_a}$ 和 $\frac{\partial C}{\partial z_b}$ 都不知道，那么我们就继续往后面层计算，一直到碰到输出值，得到输出值之后再反向往输入那个方向走。

简短的例子：

在这里插入图片描述
要求z对C的偏微分，需要知道z1和z2对C的偏微分，要知道前面这个，又要知道z3和z4对C的偏微分，以此类推，所以其实我们可以反过来思考，从output层往前计算。

$\sigma^{\prime}(z_n)$ 就像个放大器一样，通过乘以这个可以得z对C的微分值，这个是取决于你的激活函数的，这里只是刚好用上了sigmoid函数

实际上进行backward pass时候和向前传播的计算量差不多

总结：

在这里插入图片描述

计算 $\frac{\partial z}{\partial w}$ Forward pass的部分）和计算 $\frac{\partial C}{\partial z}$ ( Backward pass的部分 )
然后把 $\frac{\partial z}{\partial w}$ 和 $\frac{\partial C}{\partial z}$ 相乘，我们就可以得到 $\frac{\partial C}{\partial w}$
得到神经网络中所有的参数，然后用梯度下降就可以不断更新，得到损失最小的函数