论文
MULTITASK TRAINING WITH TEXT DATA FOR END-TO-END SPEECH RECOGNITION
摘要
论文提出了一种基于注意力的端到端语音识别模型的多任务训练方法,以更好地整合语言级别的信息。通过对语音识别任务和下一令牌预测语言建模任务进行多任务训练,我们将解码器规范化为序列到序列的体系结构。在LibriSpeech的100小时子集或完整的960小时数据集上进行训练,所提出的方法导致相对于基线的相对性能提高了11%,可与语言模型浅层融合相提并论,而在解码过程中不需要额外的神经网络。通过对样本输出句和稀有词的误码率的分析表明,该方法可以有效地融合语言水平信息。
引言
基于注意力机制的端到端语音识别系统可以将音频直接映射到文本表示。训练数据由音频以及文本组成,与孤立的音频或者文本相比,这些数据更加昂贵且困难。最近通过纯音频数据进行语音识别已经取得了实质性的提升[1][2],研究利用纯文本数据的最常见方法是训练语言模型(LM),并使用浅层,冷层或深层融合将其集成到识别过程中。这些方法直接利用第二个神经网络模型,因此需要用于LM的额外空间和计算资源,这使得它们更难以在资源受限的环境(例如设备上的ASR系统)中部署。
也可以使用文本语音合成(TTS)将纯文本数据转换为音频文本对。 Li等人,在神经机器翻译中受到反向翻译方法的启发。提出使用从纯文本数据生成的音频-文本对来训练ASR模型[3]。提出了多篇论文,以一种周期一致的方式联合训练ASR和TTS模型。 Wang等。使用损失项来鼓励ASR模型在相同话语的真实和合成表示上生成一致的输出[4]。这些方法面临合成音频可能使ASR模型偏向不真实语音的问题。
作为LM融合和TTS的替代方案,提出了知识提取方法&#x