用于端到端语音识别的文本数据多任务训练

该论文提出了一种基于注意力的端到端语音识别模型的多任务训练方法,利用纯文本数据对解码器进行正则化,以整合语言级别信息。在不使用额外的语言模型的情况下,这种方法在LibriSpeech数据集上实现了性能提升,与浅层融合相当。通过分析,证明了该方法能有效融合语言信息。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文

      MULTITASK TRAINING WITH TEXT DATA FOR END-TO-END SPEECH RECOGNITION

摘要

论文提出了一种基于注意力的端到端语音识别模型的多任务训练方法,以更好地整合语言级别的信息。通过对语音识别任务和下一令牌预测语言建模任务进行多任务训练,我们将解码器规范化为序列到序列的体系结构。在LibriSpeech的100小时子集或完整的960小时数据集上进行训练,所提出的方法导致相对于基线的相对性能提高了11%,可与语言模型浅层融合相提并论,而在解码过程中不需要额外的神经网络。通过对样本输出句和稀有词的误码率的分析表明,该方法可以有效地融合语言水平信息。

引言

基于注意力机制的端到端语音识别系统可以将音频直接映射到文本表示。训练数据由音频以及文本组成,与孤立的音频或者文本相比,这些数据更加昂贵且困难。最近通过纯音频数据进行语音识别已经取得了实质性的提升[1][2],研究利用纯文本数据的最常见方法是训练语言模型(LM),并使用浅层,冷层或深层融合将其集成到识别过程中。这些方法直接利用第二个神经网络模型,因此需要用于LM的额外空间和计算资源,这使得它们更难以在资源受限的环境(例如设备上的ASR系统)中部署。

也可以使用文本语音合成(TTS)将纯文本数据转换为音频文本对。 Li等人,在神经机器翻译中受到反向翻译方法的启发。提出使用从纯文本数据生成的音频-文本对来训练ASR模型[3]。提出了多篇论文,以一种周期一致的方式联合训练ASR和TTS模型。 Wang等。使用损失项来鼓励ASR模型在相同话语的真实和合成表示上生成一致的输出[4]。这些方法面临合成音频可能使ASR模型偏向不真实语音的问题。

作为LM融合和TTS的替代方案,提出了知识提取方法&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值