对话式AI : 语音助手时代的开启

Magic Data

已于 2022-06-22 11:06:12 修改

阅读量2.2k

点赞数 1

文章标签：人工智能语音识别机器学习

于 2022-06-22 10:56:37 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47718443/article/details/125405188

版权

对话式交流是人与人之间相互理解、彼此传递信息最方便、最重要的媒介。如今，是人工智能的时代，也是每个人都能够拥有语音助手的时代。几乎每个人手机上都有个 “小爱同学”，“Hi Siri” 或者 “叮咚叮咚”... 这些语音助手。

但是，目前我们与这些语音助手的交互还不能如同人类交流一般顺畅自如。语音助手在与人的交流中，很容易陷入 “傻瓜模式” 或者 “固定套路回答模式”，经常答非所问，更不用说和人们智能、个性化交互。这主要是由于这些语音助手背后缺乏对语音语义的准确理解、对话逻辑的构建以及正确的反馈。

语音助手的看似仅仅是个手机APP，但其内部算法原理却异常复杂。其普遍结构通常需要四组输入和输出，管道的每一层都分别需一组自然语言理解（NLU）、对话状态跟踪（DST）、对话策略管理（DP）和自然语言生成（NLG）。复杂的结构使得语音助手的智能化变得充满挑战。

挑战

多个功能模块的联合优化

对话式AI语音助手使用语音进行交互，底层算法涉及语音识别、自然语言理解、对话跟踪、决策管理和语音合成等个模块。每个模块使用不同的深度神经网络模型和算法来构建，彼此之间相互协作才能完成语音助手与人类之间的交流。每个模块单独优化会往往会陷入局部最优。如何保证多个功能模块之间相互促进、共同优化是这一问题的难点。

真实场景下对话数据紧缺

AI语音助手算法模型的训练依赖大量对话标注数据。由于对话式语音交互数据采集场景复杂、采集过程需要多人配合、且采集周期较长

最低0.47元/天解锁文章

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
对话式AI : 语音助手时代的开启

语音助手的看似仅仅是个手机APP，但其内部算法原理却异常复杂。其普遍结构通常需要四组输入和输出，管道的每一层都分别需一组自然语言理解（NLU）、对话状态跟踪（DST）、对话策略管理（DP）和自然语言生成（NLG）。复杂的结构使得语音助手的智能化变得充满挑战。......
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。