面向鲁棒口语理解的声学组块混淆语言模型微调算法

最新推荐文章于 2024-08-28 23:27:41 发布

罗伯特之技术屋

最新推荐文章于 2024-08-28 23:27:41 发布

阅读量99

点赞数

分类专栏：物联网及AI前沿技术专栏计算机软件及理论发展专栏信息资源管理与发展专栏文章标签：语言模型算法人工智能

本文链接：https://blog.csdn.net/weixin_57147647/article/details/129165732

版权

物联网及AI前沿技术专栏同时被 3 个专栏收录

173 篇文章 19 订阅 ¥69.90 ¥99.00

订阅专栏

超级会员免费看

计算机软件及理论发展专栏

87 篇文章 0 订阅 ¥69.90 ¥99.00

订阅专栏

超级会员免费看

信息资源管理与发展专栏

86 篇文章 2 订阅 ¥69.90 ¥99.00

订阅专栏

超级会员免费看

本文提出了一种新的声学组块混淆感知语言模型学习方法，通过处理ASR连读、删除误识，增强意图识别模型对语音识别错误的鲁棒性。实验结果显示，该方法在多个意图分类数据集上提高了模型的精度，特别是在误识文本上的表现优于多种基线方法。

摘要由CSDN通过智能技术生成

口语语言理解作为任务型对话系统的核心组件，目的是从语音识别文本中获取用户的意图表示信息，并将这些信息提供给对话管理组件进行分析和决策。近年来，随着深度学习技术的引入，ASR和SLU技术得到了长足发展，精度获得显著提升[1-3]。尽管如此，当有域外语音或噪声语音输入时，ASR文本中会存在插入、删除和修改错误，降低意图识别的准确率，影响对话系统的用户体验[4-5]。比如句子“Add song too sleepy dime”的正确用户意图应该是“Add to playlist”，但这个句子被ASR误识为“I 'd song too sleepy dime”时，它的意图变成了“Search screening event”。在这个例子中，因为“Add”被误识别成“I’d”，用户意图就发生了漂移。

为了应对这类挑战，有文献提出从语音信号到意图的端到端模型，直接从语音中识别意图[6-9]。文献[10]将成熟ASR模型的声学模型部分作为预训练的语音编码器，然后联合微调该语音编码器和意图识别任务，提升了识别精度。文献[11]提出学习音素加文本的预训练语言模型，基于它的意图识别模型对转录错误的容忍度有一定提升。但上述方法都需要除文本外的资源支持，即音素和语音信号，限制了使用场景。

了解本专栏

超级会员免费看

罗伯特之技术屋

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
面向鲁棒口语理解的声学组块混淆语言模型微调算法

口语语言理解作为任务型对话系统的核心组件，目的是从语音识别文本中获取用户的意图表示信息，并将这些信息提供给对话管理组件进行分析和决策。近年来，随着深度学习技术的引入，ASR和SLU技术得到了长足发展，精度获得显著提升[尽管如此，当有域外语音或噪声语音输入时，ASR文本中会存在插入、删除和修改错误，降低意图识别的准确率，影响对话系统的用户体验[
复制链接

扫一扫