神经网络与深度学习作业10：第六章课后题（LSTM | GRU）

最新推荐文章于 2023-10-27 11:28:11 发布

Jacobson Cui

最新推荐文章于 2023-10-27 11:28:11 发布

阅读量913

点赞数 1

分类专栏：神经网络与深度学习《神经网络与深度学习》课后习题文章标签：深度学习神经网络 lstm

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_53651790/article/details/128064978

版权

神经网络与深度学习同时被 2 个专栏收录

17 篇文章 12 订阅

订阅专栏

《神经网络与深度学习》课后习题

12 篇文章 7 订阅

订阅专栏

目录

习题6-3 当使用公式(6.50)作为循环神经网络得状态更新公式时，分析其可能存在梯度爆炸的原因并给出解决办法.

习题6-4推导LSTM 网络中参数的梯度,并分析其避免梯度消失的效果.

习题6-5推导GRU网络中参数的梯度,并分析其避免梯度消失的效果. (选做)

附加题6-1P:什么时候应该用GRU?什么时候用LSTM?(选做)

习题6-3 当使用公式(6.50)作为循环神经网络得状态更新公式时，分析其可能存在梯度爆炸的原因并给出解决办法.

梯度爆炸问题产生的原因是由于公式 $Z_{k}=Uh_{k-1}+Wx_{k}+b$ 作为函数 $g(\ast )$ 在第k时刻的输入时，计算误差项 $\delta _{t,k}=\frac{\partial L_{t}}{\partial z_{k}}$ ，梯度可能会过大，从而导致梯度爆炸，可以通过使用LSTM网络来增加门控机制，以此来解决该问题。

习题6-4推导LSTM 网络中参数的梯度,并分析其避免梯度消失的效果.

LSTM中通过门控机制解决梯度问题，遗忘门，输入门和输出门是非0就是1的，门为1时，梯度能够很好的在LSTM传递，减轻了梯度消失发生的概率，门为0时，上一刻的信息对当前时刻无影响，因此也没必要接受传递更新参数。

习题6-5推导GRU网络中参数的梯度,并分析其避免梯度消失的效果. (选做)

GRU具有调节信息流动的门单元，但没有一个单独的记忆单元，GRU将输入门和遗忘门整合成一个升级门，通过门来控制梯度。这种方式使网络学会合理地设置门控数值，从而决定何时让梯度消失，何时保持梯度。

附加题6-1P:什么时候应该用GRU?什么时候用LSTM?(选做)

相较于LSTM，由于 GRU 参数更少，收敛速度更快，因此花费时间要少很多。而LSTM则更加灵活，因为它具有三个门控。但实际上，二者之间的表现差距往往并不大，远没有调参所带来的效果明显，二者之间的选择要根据具体的任务和数据集而定。

参考资料

GRU和LSTM在各种使用场景应该如何选择？ - 知乎 (zhihu.com)

lstm-bp过程的手工源码实现 - Bob·li - 博客园 (cnblogs.com)

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
神经网络与深度学习作业10：第六章课后题（LSTM | GRU）

第六章课后题（LSTM | GRU）
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。