语音识别的研究工作大约开始于50年代,当时AT& T Bell实验室实现了第一个可识别十个英文数字的语音识别系统――Audry系统。70年代,语音识别领域取得了突破。在理论上,LP技术得到进一步发展,动态时间归正技术(DTW)基本成熟,特别是提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在实践上,实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。80年代,语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。HMM模型的广泛应用应归功于AT&T。
语音识别技术的发展,和机器学习技术的发展密不可分,尤其是深度学习出现之后。而使用机器学习或者是深度学习都离不开各种神经网络模型。
神经网络(NN)的最新进展使越来越多的创新应用成为可能。作为一种节能的硬件解决方案,CNN 或传统 ANN 的机器学习加速器在嵌入式视觉、 机器人和网络物理领域也越来越受欢迎。
语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。语音识别系统本质上是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单元。
目前具有代表性的语音识别方法主要有动态时间规整技术(DTW)、隐马尔可夫模型(HMM)、矢量量化(VQ)、人工神经网络(ANN)、支持向量机(SVM)等方法。
首先看GMM-HMM模型。
HMM-GMM模型
- 什么是HMM?
隐马尔可夫模型(HMM)是语音信号处理中的一种统计模型,是由马尔可夫链演变来的,所以它是基于参数模型的统计识别方法。由于其模式库是通过反复训练形成的与训练输出信号吻合概率最大的最佳模型参数而不是预先储存好的模式样本,且其识别过程中运用待识别语音序列与HMM参数之间的似然概率达到最大值所对应的最佳状态序列作为识别输出,因此是较理想的语音识别模型。
红圈-->一个可见状态。 蓝框-->一个隐含状态
举个例子来理解隐含马尔可夫链:
假设在暗室中由N个口袋,每个口袋中由M种不同颜色的求。一个实验员根据某一概率分布随机的选取一个初始口袋,从中根据不同颜色的求的分布概率随机的取出一个球并记录下该球的颜色。而后再根据口袋的概率分布选取一个口袋,再根据不用管色球的概率分布随机选取一个球,记录下颜色。重复这个过程我们就得到了一串标记球颜色的序列,如"红黄红蓝.."。当你把这串序列给暗室外的人看的时候,他们只是看到最终球的颜色序列,但不知道口袋的序列。
在上面的例子中,口袋对应于HMM中的隐藏状态,而颜色序列则代表可观察的输出序列。从一个口袋转向另一个口袋代表状态间的转换,从口袋中取球代表该状态的观察状态输出。
2.HMM解决的3个问题:
1)计算likelihood--前向算法 :给定HMM的模型参数和一个观察序列,计算出观察序列O的概率分布矩阵P(O|u