用于端到端语音识别的文本数据多任务训练

最新推荐文章于 2024-04-08 11:59:05 发布

尚歌

最新推荐文章于 2024-04-08 11:59:05 发布

阅读量1.1k

点赞数

分类专栏：语音识别文章标签：人工智能语音识别多任务学习

本文链接：https://blog.csdn.net/wudibaba21/article/details/113800378

版权

多任务训练端到端语音识别语言模型解码器纯文本数据

关键词由CSDN通过智能技术生成

该论文提出了一种基于注意力的端到端语音识别模型的多任务训练方法，利用纯文本数据对解码器进行正则化，以整合语言级别信息。在不使用额外的语言模型的情况下，这种方法在LibriSpeech数据集上实现了性能提升，与浅层融合相当。通过分析，证明了该方法能有效融合语言信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文

MULTITASK TRAINING WITH TEXT DATA FOR END-TO-END SPEECH RECOGNITION

摘要

论文提出了一种基于注意力的端到端语音识别模型的多任务训练方法，以更好地整合语言级别的信息。通过对语音识别任务和下一令牌预测语言建模任务进行多任务训练，我们将解码器规范化为序列到序列的体系结构。在LibriSpeech的100小时子集或完整的960小时数据集上进行训练，所提出的方法导致相对于基线的相对性能提高了11％，可与语言模型浅层融合相提并论，而在解码过程中不需要额外的神经网络。通过对样本输出句和稀有词的误码率的分析表明，该方法可以有效地融合语言水平信息。

引言

基于注意力机制的端到端语音识别系统可以将音频直接映射到文本表示。训练数据由音频以及文本组成，与孤立的音频或者文本相比，这些数据更加昂贵且困难。最近通过纯音频数据进行语音识别已经取得了实质性的提升[1][2],研究利用纯文本数据的最常见方法是训练语言模型（LM），并使用浅层，冷层或深层融合将其集成到识别过程中。这些方法直接利用第二个神经网络模型，因此需要用于LM的额外空间和计算资源，这使得它们更难以在资源受限的环境（例如设备上的ASR系统）中部署。

也可以使用文本语音合成（TTS）将纯文本数据转换为音频文本对。 Li等人，在神经机器翻译中受到反向翻译方法的启发。提出使用从纯文本数据生成的音频-文本对来训练ASR模型[3]。提出了多篇论文，以一种周期一致的方式联合训练ASR和TTS模型。 Wang等。使用损失项来鼓励ASR模型在相同话语的真实和合成表示上生成一致的输出[4]。这些方法面临合成音频可能使ASR模型偏向不真实语音的问题。

作为LM融合和TTS的替代方案，提出了知识提取方法&#x