2020李宏毅机器学习笔记-Backpropagation

Backpropagation (反向传播)

Backpropagation(反向传播),就是告诉我们用gradient descent来train一个neural network的时候该怎么做,它只是求微分的一种方法,而不是一种新的算法。

 

Gradient Descent

gradient descent的使用方法,跟前面讲到的linear Regression或者是Logistic Regression是一模一样的,

唯一的区别就在于当它用在neural network的时候,network parameters Θ = w1,w2....b1,b2....有着大量可能多达上百万个的参数,

所以传统的求微分方法行不通,计算量太大无法快速有效的求出微分。

 

这就是Backpropagation要做的事情,所以Backpropagation并不是一个和gradient descent不同的training的方法,

它就是gradient descent,它只是一个比较有效率的算法,让你在计算这个gradient的vector的时候更有效率。

 

链式求导法则(Chain Rule)

Backpropagation里面并没有什么高深的数学,你唯一需要记得的就只有Chain Rule(链式法则)

对整个neural network,我们定义了一个loss function:,它等于所有training data的loss之和

这个表达式告诉我们,只需要考虑如何计算对某一笔data的,再将所有training data的cross entropy对参数w的偏微分累计求和,

就可以把total loss对某一个参数w的偏微分给计算出来。

我们先考虑某一个neuron,先拿出上图中被红色三角形圈住的neuron,假设只有两个input x1,x2 ,通过这个neuron,我们先得到 y = b + w1x1 + w2x2,

然后经过activation function从这个neuron中output出来,作为后续neuron的input,再经过了非常非常多的事情以后,会得到最终的output y1,y2。

 

现在的问题是这样:∂l / ∂w 该怎么算?按照chain rule,可以把它拆分成两项∂l / ∂w = (∂z/∂w)* (∂l/∂z),这两项分别去把它计算出来。

前面这一项是比较简单的,后面这一项是比较复杂的。

 

计算前面这一项∂z/∂w的这个process,我们称之为Forward pass;而计算后面这项∂l/∂z的process,我们称之为Backward pass

先考虑∂z/∂w这一项,完全可以秒算出来,∂z/∂w1 = x1,∂z/∂w2 = x2,

它的规律是这样的:∂z/∂w,就是看w前面连接的input是什么,那微分后的∂z/∂w值就是什么

因此只要计算出neural network里面每一个neuron的output就可以知道任意的z对w的偏微分。

比如hidden layer作为neuron的输入时,那该neuron的input就是前一层neuron的output,

于是的值就是前一层的z经过activation function之后输出的值(下图中的数据是假定activation function为sigmoid function得到的)。

 

Backward pass

再考虑∂l/∂z这一项,它是比较复杂的,这里我们依旧假设activation function是sigmoid function。

我们的z通过activation function得到a,这个neuron的output是,接下来这个a会乘上某一个weight w3 ,再加上其它一大堆的value得到z',

它是下一个neuron activation function的input,然后a又会乘上另一个weight w4 ,再加上其它一堆value得到z'',后面还会发生很多很多其他事情,

不过这里我们就只先考虑下一步会发生什么事情:

这里的 ∂a/∂z 实际上就是activation function的微分(在这里就是sigmoid function的微分),接下来的问题是∂l / ∂a 应该长什么样子呢?

a会影响z'和z'',而z'和z''会影响 l,所以通过chain rule可以得到,

这里的∂z' / ∂a = w3,∂z''/ ∂a = w4,那∂l/∂z'和∂l/∂z''又该怎么算呢?这里先假设我们已经通过某种方法把和这两项给算出来了,然后回过头去就可以把∂l / ∂z 给轻易地算出来。

 

另一个观点

这个式子还是蛮简单的,然后,我们可以从另外一个观点来看待这个式子,

你可以想象说,现在有另外一个neuron,它不在我们原来的network里面,在下图中它被画成三角形,这个neuron的input就是∂l/∂z'和∂l/∂z'',

那input ∂l/∂z' 就乘上w3,input ∂l/∂z'' 就乘上w4,它们两个相加再乘上activation function的微分 ,就可以得到output∂l/∂z。

值得注意的是,这里的是一个constant常数,它并不是一个function,因为z其实在计算forward pass的时候就已经被决定好了,z是一个固定的值。

 

两种情况

ok,现在我们最后需要解决的问题是,怎么计算∂l/∂z' 和∂l/∂z''这两项,假设有两个不同的case:

case 1:Output Layer

假设蓝色的这个neuron已经是hidden layer的最后一层了,也就是说连接在z'和z''后的这两个红色的neuron已经是output layer,

它的output就已经是整个network的output了,这个时候计算就比较简单。

其中∂y1/z' 就是output layer的activation function (softmax) 对z'的偏微分

而∂ l / ∂y1 就是loss对y1的偏微分,它取决于你的loss function是怎么定义的,也就是你的output和target之间是怎么evaluate的,

你可以用cross entropy,也可以用mean square error,用不同的定义,的值就不一样∂ l / ∂y1。

这个时候,你就已经可以把 l 对w1和w2的偏微分∂ l / ∂w1、∂ l / ∂w2算出来了。

 

Case 2:Not Output Layer

假设现在红色的neuron并不是整个network的output,那z'经过红色neuron的activation function得到a',

然后output a 和w5、w6相乘并加上一堆其他东西分别得到za和zb,如上图所示

根据之前的推导证明类比,如果知道∂l/∂za和∂l/∂zb,我们就可以计算∂l/∂z',如下图所示,借助运算放大器的辅助理解,

将乘上和乘上的值加起来再通过op-amp,乘上放大系数,就可以得到output  ∂l/∂z'

知道z'和z''就可以知道z,知道za和zb就可以知道z',...... ,现在这个过程就可以反复进行下去,直到找到output layer,

我们可以算出确切的值,然后再一层一层反推回去。

你可能会想说,这个方法听起来挺让人崩溃的,每次要算一个微分的值,都要一路往后走,一直走到network的output,

如果写成表达式的话,一层一层往后展开,感觉会是一个很可怕的式子,但是!实际上并不是这个样子做的。

你只要换一个方向,从output layer的开始算∂l/∂z,你就会发现它的运算量跟原来的network的Feedforward path其实是一样的。

但是,如果你反过来先去计算z5和z6的偏微分的话,这个process,就突然之间变得有效率起来了。

 

总结:

总结一下Backpropagation是怎么做的:

1.Forward pass,每个neuron的activation function的output,就是它所连接的weight的∂z/∂w

2.Backward pass,建一个与原来方向相反的neural network,它的三角形neuron的output就是∂l/∂z

把通过forward pass得到的∂z/∂w和通过backward pass得到的∂l/∂z乘起来就可以得到对的偏微分∂l/∂w

.

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
李宏毅2020机器学习笔记中,有一个关于注意力机制(Attention)的部分。这部分内容主要介绍了生成模型(Generation)、注意力(Attention)、生成的技巧(Tips for Generation)以及指针网络(Pointer Network)。在生成模型中,主要讲述了如何生成一个有结构的对象。接下来介绍了注意力机制,包括一些有趣的技术,比如图片生成句子等。在生成的技巧部分,提到了一些新的技术以及可能遇到的问题和偏差,并给出了相应的解决方案。最后,稍微提到了强化学习。其中还提到了在输出"machine"这个单词时,只需要关注"机器"这个部分,而不必考虑输入中的"学习"这个部分。这样可以得到更好的结果。另外,还提到了关于产生"ei"的方法,其中有研究应用了连续动态模型自注意力(Self-attention)来学习位置编码的方法。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [2020李宏毅机器学习笔记-Condition Generation by RNN&Attention](https://blog.csdn.net/zn961018/article/details/117593813)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *3* [李宏毅机器学习学习笔记:Self-attention](https://blog.csdn.net/weixin_44455827/article/details/128094176)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值