基于WFST的非自回归流式端到端语音识别

最新推荐文章于 2024-07-12 01:06:11 发布

郑郑yay

最新推荐文章于 2024-07-12 01:06:11 发布

阅读量530

点赞数

分类专栏：论文翻译文章标签：语音识别

本文链接：https://blog.csdn.net/weixin_43587572/article/details/115547353

版权

论文翻译专栏收录该内容

3 篇文章 0 订阅

订阅专栏

摘要：

近年来，基于注意的编解码器端到端（E2E）模型在自动语音识别领域受到越来越多的关注。然而，AED模型在商业应用中部署时仍然存在缺点。自回归波束搜索译码使其在高并发应用中效率低下。集成外部词级语言模型也很不方便。最重要的是，由于存在全局注意机制，AED模型难以进行流式识别。在本文中，我们提出了一个新的框架，即WNARS，使用混合CTC注意AED模型和加权有限状态传感器（WFST）来解决这些问题。我们从自回归波束搜索切换到CTC分支译码，CTC分支译码以分块流的方式使用WFST进行首通译码。然后，解码器分支对生成的假设执行非自回归的第二遍重打分。在AISHELL-1任务中，我们的WNARS在640ms延迟下实现了5.22%的字符错误率，据我们所知，这是在线ASR的最新性能。在10000小时普通话任务上的进一步实验表明，与强TDNN-BLSTM无网格MMI基线相比，该方法在50%延迟的情况下提高了20%以上。

引言：

CTC-attention架构在AED模型训练过程中向编码器引入了CTC目标，这鼓励AED模型的输入和输出之间的对齐为单调的[10]。在推理过程中，提出了一种单次解码方法，该方法结合ctc、注意力和额外的循环神经网络语言模型(RNNLM)生成最终结果[11]。尽管这种混合架构在ASR中取得了重大进展，但在实际应用中仍存在三个挑战:

1. 解码效率:CTC-attention模型采用自回归方式解码。每个输出令牌都是根据以前生成的令牌迭代生成的。解码器必须计算输出长度的数倍，这是非常耗时的。

2. LM整合:另外，CTC-attention模型由于存在自回归问题，不方便利用词级LMs。在[11]中，集成了一个字符级的RNNLM来进行一次解码。然而，在语音识别中，词级LMs比字符级LMs更强大。

3.流解码:由于AED模型的输入和输出序列长度不同，解码器内部的注意模块必须关注整个编码器输出，从而产生输入和输出序列之间的软对齐。这使得流解码变得困难。

在本研究中，我们采用CTC-attention架构，提出了一种新的基于wfst的非自回归流语音识别(WNARS)框架来同时解决上述三个问题。CTC分支配备了WFST，以更好地集成字级语言模型，作为首通解码器，负责流解码。因此，我们将一个流式的局部注意问题转化为流式的CTC问题。然后，解码器分支以非自回归的方式重新计算生成的假设，条件是整个编码器的输出。在AISHELL-1和10,000小时工业汉语任务上的实验结果表明了该方法的有效性。

提出的模型:

高AED模型译码效率的关键是将模型从自回归译码中解放出来。幸运的是，CTC注意结构给了我们一个机会来实现非自回归解码灵活的双通道解码框架。像[12]一样，我们使用CTC来生成初始假设，并使用注意解码器来修正结果。与〔12〕不同，在第一通过阶段的CTC解码期间，WFST将n-gram字级LM集成以产生n-best假设。然后，在第二遍阶段，注意力解码器以教学强制的方式对假设进行重设。使用可调的超参数α和β将两个通过假设分数结合起来，以生成最终结果。图2。给出了基于WFST的非自回归译码框架。在这个框架下，我们不仅绕过了自回归问题，而且探索了一种将词级语言模型集成到AED模型中的方法

我们在第一次通过解码中使用的搜索图是由三个单独的wfst构建的，如[3]所示。表示为G的语法WFST编码语言中允许的单词序列（单词级语言模型）。表示为L的词汇WFST编码从词汇单位序列（本文中的汉字）到单词的映射。表示为T的标记WFST将帧级CTC标签序列映射到单个词典单元。毕竟，搜索图S编译如下：