神经网络与深度学习 作业10:第六章课后题(LSTM | GRU)

目录

习题6-3 当使用公式(6.50)作为循环神经网络得状态更新公式时,分析其可能存在梯度爆炸的原因并给出解决办法.

习题6-4推导LSTM 网络中参数的梯度,并分析其避免梯度消失的效果.

习题6-5推导GRU网络中参数的梯度,并分析其避免梯度消失的效果. (选做) 

附加题6-1P:什么时候应该用GRU?什么时候用LSTM?(选做) 

参考资料 


习题6-3 当使用公式(6.50)作为循环神经网络得状态更新公式时,分析其可能存在梯度爆炸的原因并给出解决办法.

梯度爆炸问题产生的原因是由于公式Z_{k}=Uh_{k-1}+Wx_{k}+b作为函数g(\ast )在第k时刻的输入时,计算误差项\delta _{t,k}=\frac{\partial L_{t}}{\partial z_{k}},梯度可能会过大,从而导致梯度爆炸,可以通过使用LSTM网络来增加门控机制,以此来解决该问题。


习题6-4推导LSTM 网络中参数的梯度,并分析其避免梯度消失的效果.

 LSTM中通过门控机制解决梯度问题,遗忘门,输入门和输出门是非0就是1的,门为1时,梯度能够很好的在LSTM传递,减轻了梯度消失发生的概率,门为0时,上一刻的信息对当前时刻无影响,因此也没必要接受传递更新参数。

习题6-5推导GRU网络中参数的梯度,并分析其避免梯度消失的效果. (选做) 

GRU具有调节信息流动的门单元,但没有一个单独的记忆单元,GRU将输入门和遗忘门整合成一个升级门,通过门来控制梯度。这种方式使网络学会合理地设置门控数值,从而决定何时让梯度消失,何时保持梯度。 

 

附加题6-1P:什么时候应该用GRU?什么时候用LSTM?(选做) 

相较于LSTM, 由于 GRU 参数更少,收敛速度更快,因此花费时间要少很多。 而LSTM则更加灵活,因为它具有三个门控。但实际上,二者之间的表现差距往往并不大,远没有调参所带来的效果明显,二者之间的选择要根据具体的任务和数据集而定。

参考资料 

 GRU和LSTM在各种使用场景应该如何选择? - 知乎 (zhihu.com)

lstm-bp过程的手工源码实现 - Bob·li - 博客园 (cnblogs.com) 

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值