长短期记忆（Long Short-Term Memory，LSTM）

最新推荐文章于 2024-07-21 09:38:39 发布

piupiurui

最新推荐文章于 2024-07-21 09:38:39 发布

阅读量1.9k

点赞数

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yizhishuixiong/article/details/105572296

版权

深度学习专栏收录该内容

12 篇文章 4 订阅

订阅专栏

续上一篇 RNN 笔记：https://blog.csdn.net/yizhishuixiong/article/details/105588233

普通的 RNN（只有短期记忆）会由于梯度消失或梯度弥散无法回忆起久远记忆（若预测所需关键信息出现在数据开头，RNN 分析到数据末尾时，将误差反向传播到开头，容易因梯度消失或梯度弥散而出现误差无限小或无限大）；

为了解决上述问题，提出了 LSTM（长一点的短期记忆）；

LSTM 相比于普通 RNN 多了一个全局控制器（主线）、输入控制、输出控制、忘记控制（遗忘门）；

若某一输入对于全局结果较重要，就会按照重要程度加入全局控制器中再进行分析；
若某一输入改变了全局结果，那么忘记控制就会将之前的某些输入忘记，按比例替换成当前的输入；
全局控制器取决于输入控制和忘记控制；
最后由输出控制综合全局控制器和输入决定最终的输出结果；

LSTM 的结构如下：

其中每个重复的模块中有三个“门”结构：

这是由一个 sigmoid 层与一个乘法操作构成的（sigmoid 函数输出是0到1之间的数字，为1时表示所有量都可以通过此门，为0时表示所有量都不能通过此门）；

遗忘控制：

LSTM 网络经过学习，通过 t 时刻的输入，决定此时刻记住之前百分之多少的内容；

输入控制：

由 tanh 产生一个候选状态，通过输入控制门来决定要以何种方式更新这一状态（相当于使用输入控制门来进行选择），然后将更新后的结果加入主线中；

输出控制：

通过输出控制门确定将输出当前状态 < $h^{_{t-1}},x^{_{t}}$ > 的哪部分，再与 经过遗忘控制和输入控制的主线状态经过 tanh 处理后的结果 相乘，确定此时刻输出；

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。