语音识别一、语音识别介绍

caimanong

于 2018-04-22 23:57:26 发布

阅读量4.3k

点赞数

分类专栏：语音识别文章标签：语音识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xm1076709179/article/details/80044970

版权

本文介绍了语音识别的概念，即自动将语音转化为文字的ASR技术，它涉及信号处理、统计、机器学习等多个领域。一个完整的系统包括声学模型和语言模型，解码过程基于最大后验概率MAP原则，寻找使p(W|X)概率最大的对应文本W。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

语音识别就是将包含文字信息的语音通过计算机转化成文字的过程，也叫语音转写，英文叫automatic speech recognition(ASR)或者 speech to text(STT)，语音识别框架一般如图所示：
这里写图片描述
从上图中可以看出，语音识别技术是一个复杂的多学科交叉技术，涉及到信号处理、统计、机器学习、语言学、数据挖掘、生理学等知识。一个完整的语音识别系统声学方面和语言学方面。声学方面包括从最初的语音信号获取（这其中包括将语音转化成电信号）到语音信号处理（包括模数转换，降噪、增强、端点检测（VAD）等），再到特征提取（MFCC、FB、PLP、BN等），最后到声学模型建模；语言学方面包括字典（词典）构造，语言模型建模等。通过建立的声学模型和语言模型就可以对输入的测试语音进行解码，得到相对应的文字。

解码原理（基于最大后验概率MAP）

假设我们有一段语音 $X$ (通常是提取的特征),要得到对应的文本 $W$ ，就是求使得概率 $p(W|X)$ 最大的 $W$ 的过程，即求

\bar{W} = a r g m a x_{W} p (W | X)

$\overline{W} = argmax_W p(W|X)$
利用条件概率公式和贝叶斯公式将上述公式转化为

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。