阿里的语音机器人怎么样?

本文介绍了阿里如何通过语音语义驱动技术优化电话机器人的交互体验。在电话机器人中,关键在于语音识别和自然语言理解。阿里提出的语音特色文本驱动对话模型,结合发音和语义信息,提高了在口语化表达和噪音环境下的理解准确性,提升了机器人的容错能力,从而实现更智能的电话机器人服务。
摘要由CSDN通过智能技术生成

要回答这个问题,我们需要从语音机器人的基础能力介绍起

1、语音机器人简介及挑战

语音机器人(电话机器人),主要包括两种形态:呼入,即由机器人来承接用户电话咨询业务;外呼,即由机器人主动发起电话,触达用户,从而完成语音对话。

不论呼入,还是外呼,核心都包括电话通信技术、语音识别技术、对话技术,从当前行业来说,由于电话通信技术比较成熟,语音机器人效果瓶颈主要在:语音识别技术、对话技术。要优化语音与对话的体验,核心主要包括两方面:一方面对用户的理解越来越准确,另一方面提供尽量顺畅的交互能力,最终达成好的交互体验和业务效果。

由于实际语音交互中,口语化表达、噪音干扰、短词短句等情况广泛存在,实际业务中对于用户声音转写为文本、很难达到一个比较好的效果。

阿里的语音机器人怎么样?——语音语义驱动简介

2、语音机器人与用户交互模式

典型的语音机器人与用户交互,在用户声音输入后,通常包括几个处理流程:

ASR:Automatic Speech Recognition,自动语音识别技术,即将用户输入的声音信息转写成对应的文本

NLU:Natural Language Understanding,自然语言理解,可以简单理解为,解析文本中包含的意图/目的

DM:Dialog Management,对话管理,即基于NLU返回结果进行决策,确定机器人下一步行动,可能是回复某个答案、也可能是表示对用户问题的不理解,也可能需要对用户进行反问意图确认。

NLG:Natural Language Generation,自然语言生成,可以理解为,生成回复给用户的答案,需要注意的是,此时的答案还是文本形式。

TTS:Text To Speech,从文本到语音,即语音合成,把NLG生成的文本答案合成为语音答案,从而播放给用户。

由于整个对话的核心模块(NLU、DM、NLG)是完全基于文本操作的,所以丢失了一些语音模态的信息,如用户情绪化的语气就无法传递给模型,同时ASR也会给下游带来误差传播。

3、语音语义驱动让语音机器人更聪明

基于以上问题,阿里对于ASR和NLU,提出了语音特色的文本驱动对话。语音特色的文本驱动对话,本质是一个具有容错能力的模型,用户声音信息的理解,不在割裂为ASR和NLU两段,机器人可同时基于发音信息和语义信息来解决用户意思,在某些字有错误的情况下,由于模型同时包含了语音、语义信息,因而具有更高的容错能力。

基于语音语义驱动技术,阿里的机器人能更准确的理解用户的意思,成为更聪明的机器人。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值