2020李宏毅机器学习笔记-Backpropagation

最新推荐文章于 2022-06-14 17:18:44 发布

ZN_daydayup

最新推荐文章于 2022-06-14 17:18:44 发布

阅读量392

点赞数

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zn961018/article/details/116089859

版权

Backpropagation （反向传播）

Backpropagation(反向传播)，就是告诉我们用gradient descent来train一个neural network的时候该怎么做，它只是求微分的一种方法，而不是一种新的算法。

Gradient Descent

gradient descent的使用方法，跟前面讲到的linear Regression或者是Logistic Regression是一模一样的，

唯一的区别就在于当它用在neural network的时候，network parameters Θ = w1,w2....b1,b2....有着大量可能多达上百万个的参数，

所以传统的求微分方法行不通，计算量太大无法快速有效的求出微分。

这就是Backpropagation要做的事情，所以Backpropagation并不是一个和gradient descent不同的training的方法，

它就是gradient descent，它只是一个比较有效率的算法，让你在计算这个gradient的vector的时候更有效率。

链式求导法则（Chain Rule）

Backpropagation里面并没有什么高深的数学，你唯一需要记得的就只有Chain Rule(链式法则)

对整个neural network，我们定义了一个loss function：，它等于所有training data的loss之和

这个表达式告诉我们，只需要考虑如何计算对某一笔data的，再将所有training data的cross entropy对参数w的偏微分累计求和，

就可以把total loss对某一个参数w的偏微分给计算出来。

我们先考虑某一个neuron，先拿出上图中被红色三角形圈住的neuron，假设只有两个input x1,x2 ，通过这个neuron，我们先得到 y = b + w1x1 + w2x2，

然后经过activation function从这个neuron中output出来，作为后续neuron的input，再经过了非常非常多的事情以后，会得到最终的output y1,y2。

现在的问题是这样：∂l / ∂w 该怎么算？按照chain rule，可以把它拆分成两项∂l / ∂w = （∂z/∂w）* （∂l/∂z），这两项分别去把它计算出来。

前面这一项是比较简单的，后面这一项是比较复杂的。

计算前面这一项∂z/∂w的这个process，我们称之为Forward pass；而计算后面这项∂l/∂z的process，我们称之为Backward pass

先考虑∂z/∂w这一项，完全可以秒算出来，∂z/∂w1 = x1,∂z/∂w2 = x2,

它的规律是这样的：求∂z/∂w，就是看w前面连接的input是什么，那微分后的∂z/∂w值就是什么，

因此只要计算出neural network里面每一个neuron的output就可以知道任意的z对w的偏微分。

比如hidden layer作为neuron的输入时，那该neuron的input就是前一层neuron的output，

于是的值就是前一层的z经过activation function之后输出的值(下图中的数据是假定activation function为sigmoid function得到的)。

Backward pass

再考虑∂l/∂z这一项，它是比较复杂的，这里我们依旧假设activation function是sigmoid function。

我们的z通过activation function得到a，这个neuron的output是，接下来这个a会乘上某一个weight w3 ，再加上其它一大堆的value得到z'，

它是下一个neuron activation function的input，然后a又会乘上另一个weight w4 ，再加上其它一堆value得到z''，后面还会发生很多很多其他事情，

不过这里我们就只先考虑下一步会发生什么事情：

这里的 ∂a/∂z 实际上就是activation function的微分(在这里就是sigmoid function的微分)，接下来的问题是∂l / ∂a 应该长什么样子呢？

a会影响z'和z''，而z'和z''会影响 l，所以通过chain rule可以得到,

这里的∂z' / ∂a = w3，∂z''/ ∂a = w4，那∂l/∂z'和∂l/∂z''又该怎么算呢？这里先假设我们已经通过某种方法把和这两项给算出来了，然后回过头去就可以把∂l / ∂z 给轻易地算出来。

另一个观点

这个式子还是蛮简单的，然后，我们可以从另外一个观点来看待这个式子,

你可以想象说，现在有另外一个neuron，它不在我们原来的network里面，在下图中它被画成三角形，这个neuron的input就是∂l/∂z'和∂l/∂z''，

那input ∂l/∂z' 就乘上w3，input ∂l/∂z'' 就乘上w4，它们两个相加再乘上activation function的微分，就可以得到output∂l/∂z。

值得注意的是，这里的是一个constant常数，它并不是一个function，因为z其实在计算forward pass的时候就已经被决定好了，z是一个固定的值。

两种情况

ok，现在我们最后需要解决的问题是，怎么计算∂l/∂z' 和∂l/∂z''这两项，假设有两个不同的case：

case 1：Output Layer

假设蓝色的这个neuron已经是hidden layer的最后一层了，也就是说连接在z'和z''后的这两个红色的neuron已经是output layer，

它的output就已经是整个network的output了，这个时候计算就比较简单。

其中∂y1/z' 就是output layer的activation function (softmax) 对z'的偏微分

而∂ l / ∂y1 就是loss对y1的偏微分，它取决于你的loss function是怎么定义的，也就是你的output和target之间是怎么evaluate的，

你可以用cross entropy，也可以用mean square error，用不同的定义，的值就不一样∂ l / ∂y1。

这个时候，你就已经可以把 l 对w1和w2的偏微分∂ l / ∂w1、∂ l / ∂w2算出来了。

Case 2：Not Output Layer

假设现在红色的neuron并不是整个network的output，那z'经过红色neuron的activation function得到a'，

然后output a 和w5、w6相乘并加上一堆其他东西分别得到za和zb，如上图所示

根据之前的推导证明类比，如果知道∂l/∂za和∂l/∂zb，我们就可以计算∂l/∂z'，如下图所示，借助运算放大器的辅助理解，

将乘上和乘上的值加起来再通过op-amp，乘上放大系数，就可以得到output ∂l/∂z'

知道z'和z''就可以知道z，知道za和zb就可以知道z'，...... ，现在这个过程就可以反复进行下去，直到找到output layer，

我们可以算出确切的值，然后再一层一层反推回去。

你可能会想说，这个方法听起来挺让人崩溃的，每次要算一个微分的值，都要一路往后走，一直走到network的output，

如果写成表达式的话，一层一层往后展开，感觉会是一个很可怕的式子，但是！实际上并不是这个样子做的。

你只要换一个方向，从output layer的开始算∂l/∂z，你就会发现它的运算量跟原来的network的Feedforward path其实是一样的。

但是，如果你反过来先去计算z5和z6的偏微分的话，这个process，就突然之间变得有效率起来了。

总结：

总结一下Backpropagation是怎么做的：

1.Forward pass，每个neuron的activation function的output，就是它所连接的weight的∂z/∂w

2.Backward pass，建一个与原来方向相反的neural network，它的三角形neuron的output就是∂l/∂z

把通过forward pass得到的∂z/∂w和通过backward pass得到的∂l/∂z乘起来就可以得到对的偏微分∂l/∂w

.

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
2020李宏毅机器学习笔记-Backpropagation

Backpropagation （反向传播）Backpropagation(反向传播)，就是告诉我们用gradient descent来train一个neural network的时候该怎么做，它只是求微分的一种方法，而不是一种新的算法。Gradient Descentgradient descent的使用方法，跟前面讲到的linear Regression或者是Logistic Regression是一模一样的，唯一的区别就在于当它用在neural network的时候，networ.
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。