面向鲁棒口语理解的声学组块混淆语言模型微调算法

本文提出了一种新的声学组块混淆感知语言模型学习方法,通过处理ASR连读、删除误识,增强意图识别模型对语音识别错误的鲁棒性。实验结果显示,该方法在多个意图分类数据集上提高了模型的精度,特别是在误识文本上的表现优于多种基线方法。
摘要由CSDN通过智能技术生成

口语语言理解作为任务型对话系统的核心组件,目的是从语音识别文本中获取用户的意图表示信息,并将这些信息提供给对话管理组件进行分析和决策。近年来,随着深度学习技术的引入,ASR和SLU技术得到了长足发展,精度获得显著提升[1-3]。尽管如此,当有域外语音或噪声语音输入时,ASR文本中会存在插入、删除和修改错误,降低意图识别的准确率,影响对话系统的用户体验[4-5]。比如句子“Add song too sleepy dime”的正确用户意图应该是“Add to playlist”,但这个句子被ASR误识为“I 'd song too sleepy dime”时,它的意图变成了“Search screening event”。在这个例子中,因为“Add”被误识别成“I’d”,用户意图就发生了漂移。

为了应对这类挑战,有文献提出从语音信号到意图的端到端模型,直接从语音中识别意图[6-9]。文献[10]将成熟ASR模型的声学模型部分作为预训练的语音编码器,然后联合微调该语音编码器和意图识别任务,提升了识别精度。文献[11]提出学习音素加文本的预训练语言模型,基于它的意图识别模型对转录错误的容忍度有一定提升。但上述方法都需要除文本外的资源支持,即音素和语音信号,限制了使用场景。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

罗伯特之技术屋

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值