文章目录
概要
“听懂——理解——回答”的闭环涉及到三类技术:语音识别(ASR)、自然语言处理(NLP)以及语音合成(TTS)。
ASR的首要任务就是解决下面的问题:
用 X X X表示语音信号, T T T表示文字序列,则要求解的是下面这个问题:
T ∗ = a r g m a x P ( T ∣ X ) T^* = argmaxP(T|X) T∗=argmaxP(T∣X)具体来说,是输入一段语音信号,要找一个文字序列(由词或字组成),使得它与语音信号的匹配程度最高。转换成贝叶斯公式:
T ∗ = a r g m a x P ( T ∣ X ) = a r g m a x P ( X ∣ T ) P ( T ) P ( X ) T^* = argmaxP(T|X)=argmax \frac{P(X|T)P(T)}{P(X)} T∗=argmaxP(T∣X)=argmaxP(X)