论文翻译Very Deep Self-Attention Networks for End-to-End Speech Recognition

最新推荐文章于 2023-12-11 00:44:14 发布

glow-worm

最新推荐文章于 2023-12-11 00:44:14 发布

阅读量492

点赞数

分类专栏：论文翻译文章标签：语音识别

原文链接：https://www.isca-speech.org/archive/Interspeech_2019/pdfs/2702.pdf

版权

论文翻译专栏收录该内容

1 篇文章 0 订阅

订阅专栏

用于端到端语音识别的非常深的自注意力网络

摘要

最近，语音识别的端到端序列-序列模型引起了研究团体极大的兴趣。虽然以前的架构选择通常围绕时延神经网络（TDNN ,time-delay neural networks）和长短时记忆递归神经网络（LSTM）,我们提出通过Transformer架构使用self-attention作为替代。我们的分析表明，深层的Transformer网络具有很强的学习能力能够超过以前的端到端方法，甚至可以与传统的混合系统相竞争。此外，我们对于编码器和解码器用高达48层的Transformer结合随机残差连接，训练了一个非常深的模型，大幅提高了通用性和训练效率。所得到的模型比以前的端到端ASR模型在Switchboard基准测试上都有更好的表现。这些模型的集成在 on Switchboard 和 CallHome测试集上分别达到了9.9%和17.7%的错误率。这一发现使我们的端到端模型达到了与以前的混合系统竞争的水平。此外，通过模型集成， Transformers可以胜过某些混合系统，后者在结构和训练过程方面都更复杂。

1.介绍

最近，ASR中的序列到序列方法受到了极大的关注，因为与传统的混合系统相比，它能够联合训练所有组件，使其达到一个共同的目标，从而降低复杂性和错误传播。传统的系统在声学模型中将表示划分为不同的层次，尤其是分离全局特征（如通道和说话人特征）和局部特征（音素层次）。采用不同的损失函数对语言模型和声学模型进行训练，然后在译码过程中进行组合。相比之下，神经端到端模型表现为基于两个主要模型组件（编码器和解码器）之间的动态交互，从声音信号到文本序列的直接映射，联合训练两个组件以最大化生成输出序列的可能性。神经编码器将语音特征读入成为高级表示，然后输入到自回归解码器，该解码器专注的生成输出序列。

在这种情况下，我们的目标是在端到端模型中重新考虑声学模型。以前的方法一般采用长短时记忆神经网络（LSTM）或者时延神经网络在帧级特征上进行操作来学习序列级别的表示。这些神经网络能够在不同时间步之间捕捉长范围/特征/和局部依赖。

最近，自注意力机制被证明可以有效地表达包括文本、图像甚至声音信号在内的不同结构，并取得了很好地结果。使用自注意力机制的Transformer模型在主流NLP任务中取得了最先进的水平。自注意力网络的吸引力来自于在序列中的任何元素之间建立直接联系的能力。自注意力可以随着输入序列的长度进行缩放，而不受任何限制因素的影响，例如，CNN的核大小，或LSTM的梯度消失问题。此外，自注意力网络相比递归结构在计算方面也有优势，因为中间状态不再递归连接，从而可以实现更高效的批处理操作。因此，自注意力网络可以通过多层的合理训练，从而在各种任务中实现最先进的性能。自注意力和 Transformer已经探索性地应用于ASR，但是迄今为止效果不理想。[8]发现编码器（声学模型）中的自注意力并不是有效的，但是结合LSTM能带来边界改善和更大的可解释性，而[11]没有发现使用 Transformer相比于其他结构有任何值得注意的改进，这里编码器结合了自注意力机制和卷积/LSTM。在这项工作中，我们证明， Transformer几乎不需要修改就能适用于语音识别任务。具体来说，我们利用自注意力网络对于ASR的优点，使我们的声学编码器和字符生成解码器的构造没有任何卷积或递归。就我们所知，这是提出该系统架构的第一次尝试，并且我们表明，一个具有竞争力的端到端ASR模型可以单独使用通用S2S系统的标准训练技术来实现。

我们的贡献如下。首先，我们证明了深度是获得具有竞争力的使用Transformer的端到端ASR模型的一个重要因素。其次，为了便于训练非常深的配置，我们提出了一种用于Transformer的随机深度变化，灵感来自于用于图像分类的随机残差网络[12]。

我们发现，在标准300h Switchboard 基准测试中，它的规范化能力是在端到端ASR模型中获得最好结果的关键贡献。这个结果是通过使用总共48个Transformer层横跨编码器和解码器实现的。

2.模型描述

2.1 带有注意力机制的编码器-解码器

模型的主要组件包括一个编码器，它使用源序列，然后生成一个高级表示；一个解码器生成目标序列。解码器将数据建模为条件语言模型，将离散token序列的概率分解为基于之前生成的token和编码器表示的分布的有序乘积。

编码器和解码器都是神经网络，需要神经组件学习时间步长与输入和输出序列之间的关系。该解码器还需要以编码器表示的特定组件为条件的机制。对Transformer来说，注意力机制或其变体多头注意力机制是模型的核心所在。

2.2多头注意力

基本上，attention指的是从一组查询Q、键K和值V中使用基于内容的信息提取器的方法。检索函数基于Q查询和K键之间的相似性[13]，依次返回V值的加权和，如下所示:
$Attention(Q,K,V)=softmax(QK^T)V \tag1$

最近，[9]改进了点积注意力，通过事前缩放查询Q，并在n个平行头中引入对键、查询和值的子空间投影，在n个平行头中使用相应的头执行n个注意力操作。结果是每个头部的注意力输出连接在一起。值得注意的是，不像使用带有门控机制的单一状态来传输数据的循环连接或线性结合有限核大小的局部状态的卷积连接，自注意力聚合所有时间步的信息而不需要任何中间转换。

2.3 层结构

总体架构如图1所示。 Transformer的编码器和解码器由层构成，每个层都包含自注意力子层，并结合前馈神经网络。

图1 从声学特征到文字级转录的转换图。红色的连接表示残差连接，根据公式5对随机 Transformer进行重新标定。

为了使编码器适应长语音，我们遵循[8]的重塑实践，将连续的帧分组为一步。随后，我们将输入特征与正弦位置编码[9]结合。虽然直接将声学特征添加到位置编码中是有害的，可能会在训练[8]时导致发散，但我们在添加之前简单地将连接的特征投影到更高的维数(512，就像模型中的其他隐藏层一样)来解决这个问题。特别是在语音识别的情况下，位置编码与可学习的位置嵌入[14]相比具有明显的优势，因为与文本序列相比，语音信号可以任意长并且具有更多的差异。

Transformer编码器将输入特征传递到自注意层，随后是具有1层隐含层使用ReLU激活函数的前馈神经网络。在这些子模块之前，我们按照原来的工作加入残差连接，在较低层次的表示和较高层次的表示之间建立捷径。残差层的存在极大地增加了神经元值的大小，然后在每个残差连接之后放置的层归一化[15]层减轻了神经元值的大小。

该解码器是近年来[9]翻译系统中标准的Transformer解码器。解码器和编码器之间的显著区别是，为了保持模型的自回归特性，必须掩盖解码器的自注意层，以便每个状态只能访问过去的状态。此外，在自注意层和前馈层之间放置一个额外的注意力层，使用目标隐藏层作为查询，编码器输出作为键和值。残差和层归一化的设置与编码器相同。

与之前提出的RNNs和CNNs网络相比，这种特殊的Transformer设计具有各种优点。首先，每一层和子模块的计算可以在输入的小批量和时间维度上有效地并行化。其次，残差层和归一化的结合是使更大深度配置具有可训练性的关键，这也是最近MT和自然语言处理研究取得性能突破的主要原因[10,16]。

2.4 随机层

残差连接密度高是Transformer在多个层中得到良好训练的原因。然而，由于更复杂的架构和优化难度，深度模型通常存在过拟合问题。关于残差网络的研究表明，在训练过程中，网络由多个子网络组成，它们通过快捷连接采用不同的路径，因此就有了冗余层。受[12]之前工作的启发，我们建议在Transformer中应用随机残差层。这个方法类似于Dropout，其关键思想是在训练过程中随机丢弃层。输入 $x$ 与其对应的神经层的原始残差连接有如下形式：
$R(x)=LayerNorm(F(x)+x)\tag2$
在式3中，内部函数 $F$ 为自注意力、前馈层甚至解码器-编码器注意力。[15]中的层归一化可以防止隐藏层的大小变大。随机残差连接从根本上在函数 $F$ 中应用了掩码 $M$ ，如下所示：
$R(x)=LayerNorm(M*F(x)+x)\tag3$
掩码M仅取0或者1作为值，由类似于dropout的伯努利分布生成。当M=1时，激活内部函数F，当M=0时跳过。这些残差连接使得在训练过程中可以创建更多的子网配置，而在推理过程中给出了给出了完整的网络，导致了不同自网络集成的效果，[18]中对此进行了分析。由于Transformer中的残差连接数量是可观的，对于如何使用参数来丢弃层来说，这并不是无关紧要的。也就是说，该层越低，需要设置的概率p就越低。因此，p值的设置策略如下：

每个编码器或解码器层内的子层共享相同的掩码，因此每个掩码决定删除或者保留整个层（包括内部的子层）。这样我们每一层都有一个超参数p。
正如[12]中所建议的，较低的网络层在编码器端处理原生级的声学特性，在解码器端处理字符嵌入。因此，较低层次 $l$ 的概率较低，根据公式4会根据深度线性缩放，p是全局层次的参数，L为总层数。
最后，由于这些层在训练过程中以 $1-p_l$ 的概率被选择，并且在推理过程中总是出现，所以我们将这些层的输出按 $\frac{1}{1-p_l}$ 的比例缩放，只要它们没有被跳过。因此，每个随机残差连接在训练时的形式为（测试时去除标量）：
$p_l=\frac{l}{L}(1-p)\tag4$
$R(x)=LayerNorm(M*F(x)*\frac{1}{1-p_l}+x)\tag5$

3.实验设置

3.1数据

我们的实验在Switchboard-1 Release 2 (LDC97S62)语料库上进行，包含超过三个小时的语音。Hub5’00 评估数据 (LDC2002S09) 作为我们的测试集。所有模型在40个log mel过滤库特征上进行训练，每个会话提取这些特征并进行归一化。我们还采用了一种简单的下采样方法，将4个连续的特征向量堆叠起来，从而将输出序列的长度减少4倍。除了filter-bank特征，我们没有使用任何辅助功能。我们采用[20]的方法来生成语音扰动训练集。我们还在TED-LIUM 3数据集上进行了额外的训练，由于序列较长，更具有挑战性。

3.2实现细节

我们的超参数搜索围绕原始Transformer论文中的机器翻译模型的基本配置展开。在我们所有的实验中，设嵌入维度d为512，前馈子层的隐藏状态大小为1024。我们设置了小批量的大小，以便可以在GPU中适合我们的模型，我们积累梯度，每25000个字符更新。Adam对训练进度的自适应学习率：
$lr=init\_lr*d^{-0.5} *\min(step^{-0.5},step*warmup^{-1.5})\tag6$
其中，init_lr被设置为2，学习率预热了8000步。Dropout（应用在残差连接和注意力权重之前）设置为0.2。我们也以p=0.1应用字符dropout，以 $\epsilon=0.1$ 应用标签平滑。

4.结果

SWB测试集的实验结果如表1所示。浅配置(即4层)对于任务来说是不够的，当我们将深度从4增加到24时，SWB测试中的WER从20.8%减少到12.1%。12和24之间的改善不那么显著(只有5%的WER)，这似乎是一种过拟合的症状。

通过随机网络的加入，证实了我们对过拟合的怀疑。在12层时，随机连接对CH性能的提升幅度很小，而在24层时提高幅度更大。随着这一趋势，随机48层模型在CH测试集上不断改进，表现出较好的泛化能力。

可以论证的是，更深层次的模型的优点是提供更多的参数，如第二列所示。我们使用8层的浅层模型进行了对比实验，但将模型大小加倍，使其参数计数比24层更大。这个模型的性能比24层模型差得多，这说明更深层的网络和更小的规模比更宽更浅的配置更有益。相反，我们发现只有一半大小的48层模型与12层模型是等效的，这可能是由于过度规则化所致。

我们的第二个发现是Transformer的编码器比解码器需要更深的网络。这与[31]先前的工作是一致的，它增加了CNN编码器的深度。如上所示，编码器有从音频特性开始的学习表示，而编码器处理字符序列的生成，有条件地基于编码器表示。不同的模式意味着不同的配置。保持层的总数为48，我们将深度转移到编码器。我们使用更浅层的解码器，只有8层，但是40层的编码器与24层的配置一样好。更令人惊讶的是，我们在36−12的配置下获得了最佳的结果，其WER为20.6%，这与之前使用数据扩充的最佳端到端工作相比具有竞争力。

第三，我们的正则化技术(dropout，标签平滑和随机网络)的组合与数据增加是相加的，这进一步提高了我们的结果为18.1%的36 - 12设置。据我们所知，该模型为端到端ASR模型之间的SWB基准建立了最先进的结果，如表2所示。与具有相似数据约束条件的最佳混合模型相比，我们的模型在CH测试集上表现优异，而在没有任何额外语言模型训练数据的SWB测试集上仍具有竞争力。该结果表明了随机Transformer的强推广性。

最后，相似深度的实验表明，与LSTMs[5]或TDNNs[6]相比，自注意里表现出竞争性。前者从建立深度残差网络中获益颇多，其中我们的主要发现表明深度对于在ASR任务中使用自注意力至关重要。

4.1在TED-LIUM数据集

表3显示了我们在TED-LIUM(版本3)数据集上的结果。与SWB模型相似的配置，我们超过一个强大的基线，它使用外部语言模型训练比可用的转录和速度扰动更大的数据，使用我们的模型有36个编码器层和12个解码器层。这一结果延续了这些模型受益于更深的编码器的趋势，加上随机残差连接，我们进一步提高了相对21.8%的WER，从14.2提高到11.1%。考虑到模型的潜力4，强烈建议通过进一步的超参数优化可以获得更好的结果。

5.相关工作

使用自我注意作为ASR模型的主要组成部分的想法已经以各种形式被研究。[8]结合了自我注意和LSTMs，而[32]在CTC模型中使用自我注意作为替代。将Transformer的一个变体应用到ASR中，增加TDNN层，对声信号进行下行采样。虽然自注意力提供了各种好处，如训练速度或模型可解释性，但以前的工作不能提出在性能方面的提高。我们的工作提供了一个“只自注意力”的模型，并表明，在高容量和正则化的条件下，这样的网络可以超过以前的端到端模型，接近混合系统的性能。

6.结论

对S2S模型来说，直接从声学映射到文本转录是一个具有挑战性的任务。从理论上讲，自注意可以替代使用TDNNs或LSTMs进行声学建模，这里我们首次证明了Transformer可以有效用于ASR，关键是建立非常深入的随机模型。在2个标准基准的端到端模型中达到了最先进的结果，我们的网络是ASR最深的配置之一。未来的工作将包括在更现实和更具挑战性的条件下开发该框架，如实时识别，其中延迟和流是至关重要的。