人机交互-语音交互方法综述

最新推荐文章于 2024-06-03 11:28:22 发布

yuxy36

最新推荐文章于 2024-06-03 11:28:22 发布

阅读量4.8k

点赞数 5

分类专栏：人机交互

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yuxy36/article/details/107586443

版权

本文详细介绍了智能语音交互的四个关键技术模块：自动语音识别（ASR）、自然语言理解（NLU）、自然语言生成（NLG）和文字转语音（TTS）。ASR通过声学模型和语言模型将语音转为文本，NLU理解用户意图，NLG生成自然语言响应，TTS将文本转化为语音。这些技术协同工作，实现与用户的高效语音交互。

摘要由CSDN通过智能技术生成

上图展示了智能语音的界面架构，从中可以看出，语音交互所涉及的技术模块有 4 个部分，如下图所示：

首先，通过应用自动语音识别技术听到用户说的话，然后应用自然语言理解来分析语句的含义，随后用自然语言生成对话结果，最后应用文字转语音技术将结果播放给用户，完成与用户的语音交互。下面分别介绍这几种技术：

自动语音识别：Automatic Speech Recognition, ASR

ASR是通过声学模型和语言模型，将人的语音识别为文本的技术。

上图是标准语音系统的组成元素。声学概率的评估是由声音前端和一个声学模型处理的，而词组序列的概率评估则是由一个语言模型处理的。找到得分最高的词组序列的代码称为搜索组件。虽然这些模块在逻辑上是分开的，但是它们在语音识别中的应用是高度相互依赖的。

前端模式：输入的语言被数字化，并转化成一个矢量序列，它可以找到由一个声学前端输入的整体频谱。多年来，标准的前端模式都是用梅尔频率倒谱系数（MFCC）的矢量来表示语言的每一个帧。该表达被选择呈现一帧的整个频谱包络，但抑制了基本频率的谐波。
声学模型：在一个标

最低0.47元/天解锁文章

关注

5
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。