上图展示了智能语音的界面架构,从中可以看出,语音交互所涉及的技术模块有 4 个部分,如下图所示:
首先,通过应用自动语音识别技术听到用户说的话,然后应用自然语言理解来分析语句的含义,随后用自然语言生成对话结果,最后应用文字转语音技术将结果播放给用户,完成与用户的语音交互。下面分别介绍这几种技术:
自动语音识别:Automatic Speech Recognition, ASR
ASR是通过声学模型和语言模型,将人的语音识别为文本的技术。
上图是标准语音系统的组成元素。声学概率的评估是由声音前端和一个声学模型处理的,而词组序列的概率评估则是由一个语言模型处理的。找到得分最高的词组序列的代码称为搜索组件。虽然这些模块在逻辑上是分开的,但是它们在语音识别中的应用是高度相互依赖的。
- 前端模式:输入的语言被数字化,并转化成一个矢量序列,它可以找到由一个声学前端输入的整体频谱。多年来,标准的前端模式都是用梅尔频率倒谱系数(MFCC) 的矢量来表示语言的每一个帧。该表达被选择呈现一帧的整个频谱包络,但抑制了基本频率的谐波。
- 声学模型:在一个标