语音识别
文章平均质量分 72
语音识别方向
IT届的菜鸟
这个作者很懒,什么都没留下…
展开
-
kaldi的源码(一):关于prepare_lang的L.fst的个人理解
kaldi的prepare_lang和lang文件讲解原创 2022-02-13 21:09:39 · 1672 阅读 · 0 评论 -
HMM的个人理解
HMM的个人理解HMM的定义组成和基本假设分类HMM的全称为隐马尔科夫模型,是由一个隐藏的马尔科夫链生产不可观测的状态序列,再由各个状态生成一个观测产生观测序列的过程。序列的每一个位置看作一个时刻。(官方解释)在我看来隐马尔可夫在语言识别解决的问题是通过特征提取出的音频信息找到状态的过程,当然这个状态可以看作音素等。像音频信息是一个可以观测的已知的信息,而状态是未知的,HMM就是通过已知的信息找到未知信息的模型。HMM三个重要的参数,状态转移矩阵(A),观测概率矩阵(B),初始状态向量(Π)。又称H原创 2021-10-14 19:50:08 · 1321 阅读 · 0 评论 -
GMM与EM个人的理解
GMM与EM个人的理解本文GMM和EM是个人的粗浅理解,并不一定是正确的,欢迎大家批评指正。1.GMMGMM在语音识别的有大的作用。全名叫高斯混合分布,通俗的理解是多个高斯分布模型构成的。GMM为后面的HMM提供了一个概率分布,将不完全数据的边缘分布转换为完全数据的联合分布。单独的高斯模型有两个重要参数,一个是均值,另一个就是协方差矩阵。pi为各个高斯模型在混合模型的权重。我们设置观测变量为x,隐藏变量为z,在语言识别中,观测变量就是通过MFCC提取的每一帧的音频信号的特征,隐藏变量就是一个状态,原创 2021-10-14 15:56:23 · 453 阅读 · 0 评论