简话A S R (持续更新)

概要

“听懂——理解——回答”的闭环涉及到三类技术:语音识别(ASR)、自然语言处理(NLP)以及语音合成(TTS)。
在这里插入图片描述

ASR的首要任务就是解决下面的问题:
X X X表示语音信号, T T T表示文字序列,则要求解的是下面这个问题:
T ∗ = a r g m a x P ( T ∣ X ) T^* = argmaxP(T|X) T=argmaxP(TX)具体来说,是输入一段语音信号,要找一个文字序列(由词或字组成),使得它与语音信号的匹配程度最高。转换成贝叶斯公式:
T ∗ = a r g m a x P ( T ∣ X ) = a r g m a x P ( X ∣ T ) P ( T ) P ( X ) T^* = argmaxP(T|X)=argmax \frac{P(X|T)P(T)}{P(X)} T=argmaxP(TX)=argmaxP(X)

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值