Long Short-Term Memory Recurrent Neural Network Architectures for Large Scale Acoustic Modeling论文阅读

最新推荐文章于 2022-12-11 21:57:57 发布

工藤旧一

最新推荐文章于 2022-12-11 21:57:57 发布

阅读量1k

点赞数 1

分类专栏： # 项目经验

本文链接：https://blog.csdn.net/weixin_45459911/article/details/106583874

版权

项目经验专栏收录该内容

10 篇文章 0 订阅

订阅专栏

《Long Short-Term Memory Recurrent Neural Network Architectures
for Large Scale Acoustic Modeling》论文阅读及补充

一、Abstract

1、进行了一个分布式训练：在大规模集群上，LSTM使用异步随机梯度下降优化。

2、证明了一个两层的LSTM（每个LSTM层都有一个线性回归投影层），可以超过目前最先进的语音识别性能。

3、这种结构比其他结构更有效地利用模型参数，收敛速度快，性能优于参数多一个数量级的深度前馈神经网络。

key word

LSTM、RNN、语义识别

二、Introduction

语音是一个复杂的时变信号，在不同的时间尺度范围内具有复杂的相关性。

递归神经网络(RNNs)包含循环连接，这使得它们成为比前馈神经网络更强大的建模序列数据的工具。在手写体识别和语言建模等序列标记和预测任务中，神经网络已经取得了巨大的成功。然而，在语音识别的声学模型中，深度神经网络(DNNs)是公认的最先进的技术，最近RNNs除了小范围的手机识别任务外几乎没有受到关注。

DNNs只能在固定大小的声学框架滑动窗口上进行有限的时间建模。它们只能对窗口内的数据进行建模，不适合处理不同的通话速率和长期依赖关系。相比之下，递归神经网络包含一些循环，这些循环将前一个时间步的网络活动作为输入输入到网络中，从而影响当前时间步的预测。这些激活被存储在网络的内部状态中，原则上可以保存长期的时间上下文信息。这种机制允许RNN在输入序列历史中利用动态变化的上下文窗口，而不是像在前馈网络中使用的固定大小的窗口那样使用静态的上下文窗口。特别是长短时记忆(LSTM)架构，它克服了RNN的一些建模缺陷，在概念上更适合于声学建模任务。

LSTM和传统的RNN已成功地应用于各种序列预测和序列标记任务。

已经证明LSTM模型在学习无上下文和上下文敏感的语言方面比RNN表现得更好。在TIMIT语音数据库上，提出了双向LSTM (BLSTM)网络用于声学帧的语音标记，该网络对输入序列进行双向操作，以决定当前的输入。对于在线和离线手写识别，BLSTM网络与一个连接时间分类(CTC)层一起使用，并从未分割的序列数据中进行训练，已经被证明比基于隐藏markov模型(HMM)的系统性能更好。类似的基于深度BLSTM网络的技术也被提出用于基于图形的语音识别。BLSTM网络也被提出用于在多流框架下进行音素预测，用于连续会话语音识别。在架构方面，继DNNs在声学建模方面的成功之后，一个深度BLSTM RNN与一个CTC输出层和一个预测电话序列的RNN传感器相结合，已经被证明可以在TIMIT数据库上达到最先进的电话识别精度。

三、网络结构

1、传统LSTM

LSTM在递归隐藏层中包含称为记忆块（如下图所示）的特殊单元。记忆块中包含着记忆单元，这些记忆单元除了用来控制信息流的特殊乘法单元(称为“门”)外，还具有自连接来存储网络的时间状态。原始体系结构中的每个内存块包含一个输入门和一个输出门。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Okdpk8nJ-1591409972184)(C:\Users\X-i\AppData\Roaming\Typora\typora-user-images\image-20200530204224132.png)]

输入门控制输入激活到的流记忆细胞。输出门控制细胞激活到网络其余部分的输出流。然后遗忘门被添加到内存块[中。这解决了LSTM模型的一个弱点，它阻止模型处理没有被分割成子序列的连续输入流。遗忘门在通过细胞的自循环连接将其作为输入添加到细胞之前，对细胞的内部状态进行调整，从而自适应地遗忘或重新设置细胞的记忆。

2、Deep LSTM

通过叠加多个LSTM层来构建深LSTM RNNs。请注意，LSTM RNNs已经是一种深度架构，因为它们可以被看作是一个在时间上展开的前馈神经网络，其中每一层都共享相同的模型参数。

模型的输入要经过多个非线性层，就像在DNNs中一样，然而，给定时间瞬间的特征只经过一个非线性层处理，然后才提供该时间的输出。

与标准LSTM RNNs相比，深层LSTM RNNs还有另一个好处:它们可以更好地利用参数，将参数分布在空间的多个层上。例如，不是将标准模型的内存大小增加2倍，而是可以有4个具有大致相同数量参数的层。这将导致输入在每个时间步上进行更多的非线性操作。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-egd7Cy6n-1591409972191)(C:\Users\X-i\AppData\Roaming\Typora\typora-user-images\image-20200530205158500.png)]

四、序列问题

序列问题主要分为以下四种类型：

序列预测（Sequence Prediction）；
序列分类（Sequence Classiﬁcation）；
序列生成（Sequence Generation）；
序列到序列的的预测（Sequence-to-Sequence Prediction）。

1、序列预测

预测给定序列的下一个值

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OoeDph7C-1591409972195)(C:\Users\X-i\AppData\Roaming\Typora\typora-user-images\image-20200531182255825.png)]

一些序列预测问题的问题包括：

天气预测。给定一个序列的基于时间的天气的观察值，预测明天的天气。
股票预测。给定一个基于时间的有价证券序列波动值，预测明天有价证券的波动。
产品推荐。给定一个客户曾经的购物情况，预测下一个阶段客户的购物。

2、序列分类

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ddep28AT-1591409972201)(C:\Users\X-i\AppData\Roaming\Typora\typora-user-images\image-20200531182501371.png)]

序列分类问题的一些例子包括：

DNA序列分类。给定DNA序列值A,C,G和T，预测序列是编码区域还是非编码区域。
自动检测。给定一个序列的观察值，预测序列是否是反常的。
情感分析。给定一个文本的序列，例如综述或者是推特，预测这段文本的情感是积极的还是消极的。

3、序列生成

序列生成包含一个新的输出序列，该序列和语料集里面序列有着相同的特征。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-g5pzYgC4-1591409972205)(C:\Users\X-i\AppData\Roaming\Typora\typora-user-images\image-20200531182700549.png)]

序列生成问题的一些例子包括：

文本生成：给定一个语料集的文本，例如莎士比亚的文学作品，生成新的句子或者段落的文本，它们可以从语料集中提取出来。
手写体预测：给定一个手写体的语料库，生成具有在语料库中具有手写属性的新的短语的手写体。
音乐生成：给定音乐实例的语料库，生成具有语料库属性的新音乐片段。序列模型可以指以单次观测作为输入的序列生成。一个例子是图像的自动文本描述。
图像字幕的生成：给定图像作为输入，生成描述该图像的单词序列。

4、序列到序列的预测

序列到序列的预测涉及给定一个输入序列并预测一个输出序列。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dx71e42a-1591409972209)(C:\Users\X-i\AppData\Roaming\Typora\typora-user-images\image-20200531182819869.png)]

序列到序列问题的一些例子包括：

多步时间序列预测。给定一系列时间观察值，预测一系列未来时间步长的观测序列。
文本摘要。给定文本文档，预测描述源原档的突出部分的较短文本序列。
程序执行。给定文本描述程序或数学方程，预描述正确输出的字符序列。

五、对LSTM的补充

1、LSTM网络

LSTM网络和传统MLP是不同的。像MLP，网络由神经元层组成。输入数据通过网络传播以进行预测。与RNN一样，LSTM具有递归连接，使得来自先前时间步的神经元的先前激活状态被用作形成输出的上下文。

RNNs一直以来所面临的一个关键问题是怎么样有效地训练它们。实验表明，权重更新过程导致权重变化，权重很快变成了如此之小，小到没有效果（梯度消失）或者权重变得如此之大，导致非常大的变化或者溢出（梯度爆炸），这一问题是非常的困难的。LSTM通过设计而克服了这一困难。

LSTM网络的计算单元被称为存储单元（memory cell），存储器块（memory block）或者简称单元（cell）。当描述MLPs时，术语“神经元”作为计算单元是根深蒂固的，因此它经常被用来指LSTM存储单元。LSTM单元由权重和门组成。

2、LSTM权重

一个记忆单元具有输入、输出的权重参数，以及通过暴露于输入时间步长而建立的内部状态。

输入权重。用于对当前时间步长的输入进行加权。
输出权重。用于对上次步骤的输出进行加权。
内部状态。在这个时间步长的输出计算中使用内部状态。

3、LSTM门

记忆单元的关键是门。这些也是加权函数，它们进一步控制单元中的信息。有三个门：

遗忘门。决定什么样的信息需要从单元中丢弃。
输入门。决定输入中哪些值来更新记忆状态。
输出门。根据输入和单元的内存决定输出什么。

在内部状态的更新中使用了遗忘门和输入门。输入门是单元实际输出什么的最后限制。正是这些门和一致的数据流被称为CEC（constant error carrousel），它保持每个单元稳定（既不爆炸或者消失）。

4、LSTM的限制

LSTMs给人留下了深刻的印象。网络的设计克服了RNNs的技术挑战，用神经网络实现了对序列预测的保证。LSTM的应用在一系列的复杂问题上取得了令人印象深刻的结果。但是LSTMs对于所有的序列预测问题可能不是理想的。

例如，在时间序列预测中，通常用于预测信息在过去观察的一个小窗口内。通常，具有窗口或线性模型的MLP可能是一个不太复杂和更合适的模型。

LSTM的一个重要的局限是记忆。或者更准确地说，记忆是如何被滥用的。有可能迫使LSTM模型在很长的输入时间步长上记住单个观察。这是LSTM的不良使用，并且需要LSTM模型记住多个观察将失败。当将LSTM应用于时间序列预测时，可以看出，该问题表述为回归，要求删除是输入序列中的多个遥远时间步长的函数。一个LSTM可能被迫在这个问题上执行，但是通常比一个精心设计的自回归模型或重新考虑问题一般少一些。

LSTM并不是一种令人期待的新技术，而且需要仔细的考虑你问题的框架。把LSTMs的内部状态看做是一个方便的内部变量来捕捉和提供预测的背景。如果你的问题看起来像一个传统的自回归问题，在一个小窗口内具有最相关的滞后观察，那么在考虑LSTM之前，也许使用MLP和滑动窗口开发性能的基线。

“基于时间窗口的MLP在某些时间序列预测基准上优于LSTM的pure-[autoregression]方法，仅通过查看最近的一些输入来解决。因此，LSTM的特殊长处，即学会记住很长的、位置的时间段的单个事件，是不必要的。”

，那么在考虑LSTM之前，也许使用MLP和滑动窗口开发性能的基线。

工藤旧一

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Long Short-Term Memory Recurrent Neural Network Architectures for Large Scale Acoustic Modeling论文阅读

《Long Short-Term Memory Recurrent Neural Network Architecturesfor Large Scale Acoustic Modeling》论文阅读及补充文章目录一、Abstractkey word二、Introduction三、网络结构1、传统LSTM2、Deep LSTM四、序列问题1、序列预测2、序列分类3、序列生成4、序列到序列的预测五、对LSTM的补充1、LSTM网络2、LSTM权重3、LSTM门4、LSTM的限制一、Abstract1、
复制链接

扫一扫