语音识别声学模型介绍

最新推荐文章于 2024-10-16 19:54:27 发布

道法—自然

最新推荐文章于 2024-10-16 19:54:27 发布

阅读量4.3k

点赞数

分类专栏：人工智能

本文链接：https://blog.csdn.net/wyqwilliam/article/details/106596544

版权

本文介绍了语音识别中的声学模型，从传统的GMM-HMM模型到基于深度学习的CD-DNN-HMM模型。GMM-HMM使用混合高斯模型描述语音特征，而CD-DNN-HMM利用深度神经网络提高声学建模能力，特别是在应对环境噪声和大规模数据时表现优越。

摘要由CSDN通过智能技术生成

关于声学模型，主要有两个问题，分别是特征向量序列的可变长和音频信号的丰富变化性。可变长特征向量序列问题在学术上通常有动态时间规划（Dynamic Time Warping, DTW）和隐马尔科夫模型（Hidden Markov Model, HMM）方法来解决。而音频信号的丰富变化性是由说话人的各种复杂特性或者说话风格与语速、环境噪声、信道干扰、方言差异等因素引起的。声学模型需要足够的鲁棒性来处理以上的情况。

在过去，主流的语音识别系统通常使用梅尔倒谱系数（Mel-Frequency Cepstral Coefficient, MFCC）或者线性感知预测（Perceptual Linear Prediction, PLP）作为特征，使用混合高斯模型-隐马尔科夫模型（GMM-HMM）作为声学模型。在近些年，区分性模型，比如深度神经网络（Deep Neural Network, DNN）在对声学特征建模上表现出更好的效果。基于深度神经网络的声学模型，比如上下文相关的深度神经网络-隐马尔科夫模型（CD-DNN-HMM）在语音识别领域已经大幅度超越了过去的GMM-HMM模型。

我们首先介绍传统的GMM-HMM声学模型，然后介绍基于深度神经网络的声学模型。