LSTM长短期记忆网络

LSTM是一种特殊RNN,旨在解决长期依赖性问题。它通过细胞状态和门控机制(输入门、输出门、遗忘门)有效地学习和保持长期信息。这种网络在手写识别、语音识别等领域表现出色,能处理时间序列中的长距离相关性,避免传统RNN的梯度消失和爆炸问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

长短期记忆网络 – Long short-term memory | LSTM

一文看懂长短期记忆网络 - LSTM

什么是 LSTM?

长短期记忆网络——通常被称为 LSTM,是一种特殊的 RNN,能够学习长期依赖性。由 Hochreiter 和 Schmidhuber(1997)提出的,并且在接下来的工作中被许多人改进和推广。LSTM 在各种各样的问题上表现非常出色,现在被广泛使用。

LSTM 被明确设计用来避免长期依赖性问题。长时间记住信息实际上是 LSTM 的默认行为,而不是需要努力学习的东西!

所有递归神经网络都具有神经网络的链式重复模块。在标准的 RNN 中,这个重复模块具有非常简单的结构,例如只有单个 tanh 层。

RNN中,只有单个tanh层

LSTM 也具有这种类似的链式结构,但重复模块具有不同的结构。不是一个单独的神经网络层,而是四个,并且以非常特殊的方式进行交互。

LSTM有4个神经网络层

不要担心细节。稍后我们将逐步浏览 LSTM 的图解。现在,让我们试着去熟悉我们将使用的符号。

不同符号的含义

在上面的图中,每行包含一个完整的向量,从一个节点的输出到其他节点的输入。粉色圆圈表示逐点运算,如向量加法;而黄色框表示学习的神经网络层。行合并表示串联,而分支表示其内容正在被复制,并且副本将转到不同的位置。

LSTM的核心思路

LSTM 的关键是细胞状态,即图中上方的水平线。

细胞状态有点像传送带。它贯穿整个链条,只有一些次要的线性交互作用。信息很容易以不变的方式流过。

LSTM 的关键是细胞状态,即图中上方的水平线

LSTM 可以通过所谓“门”的精细结构向细胞状态添加或移除信息。

门可以选择性地以让信息通过。它们由 S 形神经网络层和逐点乘法运算组成。

LSTM 可以通过所谓“门”的精细结构向细胞状态添加或移除信息

S 形网络的输出值介于 0 和 1 之间,表示有多大比例的信息通过。0 值表示“没有信息通过”,1 值表示“所有信息通过”。

一个 LSTM 有三种这样的门用来保持和控制细胞状态。

如果对详细的技术原理感兴趣,可以看看这篇文章《Illustrated Guide to LSTM’s and GRU’s: A step by step explanation

百度百科+维基百科

百度百科版本

长短期记忆人工神经网络(Long-Short Term Memory,LSTM)论文首次发表于1997年。由于独特的设计结构,LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件。

LSTM的表现通常比时间递归神经网络及隐马尔科夫模型(HMM)更好,比如用在不分段连续手写识别上。2009年,用LSTM构建的人工神经网络模型赢得过ICDAR手写识别比赛冠军。LSTM还普遍用于自主语音识别,2013年运用TIMIT自然演讲数据库达成17.7%错误率的纪录。作为非线性模型,LSTM可作为复杂的非线性单元用于构造更大型深度神经网络。

维基百科版本

长短期记忆(LSTM)单位是递归神经网络(RNN)的单位。由LSTM单元组成的RNN通常称为LSTM网络(或仅称为LSTM)。公共LSTM单元由单元,输入门,输出门和忘记门组成。该单元记住任意时间间隔内的值,并且三个门控制进出单元的信息流。

LSTM网络非常适合基于时间序列数据进行分类,处理和预测,因为在时间序列中的重要事件之间可能存在未知持续时间的滞后。开发LSTM是为了处理在训练传统RNN时可能遇到的爆炸和消失的梯度问题。对于间隙长度的相对不敏感性是LSTM相对于RNN,隐马尔可夫模型和其他序列学习方法在许多应用中的优势。

### 关于CTC损失函数的学术论文 连接时序分类(CTC, Connectionist Temporal Classification)是一种用于处理序列数据的方法,在语音识别和手写识别等领域有广泛应用。为了理解 CTC 损失函数及其应用,可以参考以下几篇重要文献: #### 经典引入文章 一篇开创性的研究工作介绍了 CTC 的概念以及其在不同场景下的实现方法[^1]。 ```bibtex @inproceedings{graves2006connectionist, title={Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks}, author={Graves, Alex and Fernández, Santiago and Gomez, Faustino and Schmidhuber, J{\"u}rgen}, booktitle={Proceedings of the 23rd international conference on Machine learning}, pages={369--376}, year={2006} } ``` 该论文不仅定义了 CTC 方法论的基础框架,还展示了如何利用循环神经网络 (RNNs) 对未分段的时间序列进行标注。 #### 后续改进与发展 随着技术进步,后续的研究进一步优化和完善了最初的算法设计。例如,针对长短期记忆(LSTM)模型与 CTC 结合使用的探讨提供了更高效的解决方案[^2]。 ```bibtex @article{miao2015eesen, title={{Eesen}: End-to-end speech recognition using deep RNN models and WFST-based decoding}, author={Miao, Yajie and Gowayyed, Mohamed and Metze, Florian}, journal={arXiv preprint arXiv:1507.08240}, year={2015} } ``` 这篇文档深入分析了端到端语音识别系统的构建过程,并强调了 CTC 在其中扮演的关键角色。 #### 实际应用场景案例 实际部署方面也有不少有价值的参考资料,比如描述了一个基于 TensorFlow 平台实现高效训练流程的具体实例。 通过这些资源的学习,能够全面掌握 CTC 损失函数的工作原理和技术细节。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值