对LSTM中M（Memory）的再思考

最新推荐文章于 2024-09-01 21:39:37 发布

zheng_saber

最新推荐文章于 2024-09-01 21:39:37 发布

阅读量1.9k

点赞数

分类专栏：深度学习文章标签：机器学习深度学习 LSTM

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zheng_saber/article/details/78625691

版权

本文探讨了LSTM网络中的记忆机制，通过分析RNN与LSTM的结构差异，指出LSTM中的遗忘门如何处理历史信息，以及这种机制带来的优势。文章提出，遗忘门可能在某些情况下会丢弃有效的历史信息，引发对LSTM记忆功能的深入思考。

摘要由CSDN通过智能技术生成

注：转载需得到作者同意！

知乎地址：https://zhuanlan.zhihu.com/p/28263453

本文动机

最近手上有一个分类任务，由于处理的数据是实时的序列，便考虑使用Long Short-Term Memory(LSTM)网络实现。在现在的深度学习有监督学习的判别模型中，有两大强有力的武器：

1.处理空域数据的卷积神经网络（Convolutional Neural Network，CNN）

2.处理时域数据的循环神经网络（Recurrent Neural Networks，RNN）

RNN由于其网络特性，将上一时刻的隐藏层输出与此时刻的数据一起作为此时刻的输入，使得历史时刻对于当前时刻的输出具有影响。而LSTM正是RNN中的变体，其独特的“门”设计解决了RNN中梯度消失/爆炸问题。

那么，LSTM中是否真的存在memory？若存在，存在的形式是怎样的？这样的形式会带来怎样的优势？又存在着怎样的问题？本文试图探讨这些问题，但由于作者（研究生一枚）水平有限，希望对这个问题同样有兴趣的朋友（无论是大牛或是小白）一起探讨，如有作者表述错误或是理解错误的地方，也请多多指正，谢谢~

先行知识

这里贴出一些书/教程/博客作为本文的先行知识，一些基础的入门知识本文不再赘述。（毕竟自己写也可能不会有这些大大清晰的说）

1. Long Short-term Memory, Neural Computation 9(8):1735-1780,1997 第一篇当然放上LSTM开山论文，1997年发表于Neural Computation。论文一共32页，写的很学术严谨，个人觉得论文中图画的有点错综复杂，倒不如后面几篇研究人员画的直白易懂。

2. Long short-term memory wikipedia对于LSTM的解读，详略得当，重点一目了然。

3. YJango的循环神经网络——介绍来自 YJango 大大的超智能体 · GitBook 一书中对于RNN的讲解。

YJango的循环神经网络——实现LSTM 这是LSTM的讲解，详细易懂，非常推荐。

书中附有实例代码，每句都有注释，理论+实践的方式能快速理解LSTM的工作原理。

另外YJango从自然生物角度出发探讨人工智能的思路也令人眼前一亮。

4.

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。