声学模型（一） hmm声学训练流程

最新推荐文章于 2024-05-22 11:49:22 发布

xmdxcsj

最新推荐文章于 2024-05-22 11:49:22 发布

阅读量7.3k

点赞数 5

分类专栏：声学模型文章标签：声学模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xmdxcsj/article/details/51057500

版权

声学模型专栏收录该内容

20 篇文章 36 订阅

订阅专栏

概况

1. Word-hmm

一个词对应一个hmm的情况，对应的训练数据如果删除了开始结尾的静音数据的话，无需标注既可以训练。

常用训练流程：

HInit->HRest

对于训练数据较少而且需要较好的抗噪性，可以使用固定方差的模型。模型的方差可以使用HCompV进行估算，无需进行重估。

2. Sub-word hmm

对于phone级别的hmm训练，需要额外引入HERest命令，根据训练数据的类型可以分为两类训练方式：

1. 对于labelled的训练数据

HInit->HRest->HERest

由于有分段音素级别的标注，可以使用word-hmm的初始化方式，使用HInit和HRest单独的初始化每一个单独的phone。

2. 对于unlabelled的训练数据

HCompv->HERest

对于只有音素序列的标注，可以使用flat start的初始化方式，即HCompV将全局的均值方差初始化每一个phone的HMM，每一个训练语音都会被均分。

相关命令

HCompV：初始化高斯的均值和方差，使用训练语料的全局均值和方差

HInit：初始化高斯的均值和方差，使用viterbi估计

HRest：Baum-Welch重估高斯的均值和方差，isolated-unittraining

HERest：Baum-Welch重估高斯的均值和方差，embedded-unit training

HMMIRest：对HERest训练好的hmm进行区分度训练

HInit和HRest用于训练word级别的hmm；HCompVHRestand HERest或者HInitHRest and HERest用于训练sub-word连续模型。

1. HInit

1. 初始化模型参数

对于每一条训练语音，按照标注平均分配对应的帧到hmm，由此可得到每个hmm对应的均值和方法以及对应的转移矩阵。

对于混合高斯：每一个特征vector对应于得分最高的的高斯模型，每个高斯模型对应的vector的个数作为该高斯模型的weight。Uniform segmentation的时候使用k-means算法将特征的vector归类到对应的state

2. Viterbi搜索迭代

首先，使用viterbi算法找到每一条训练语句对应的状态序列，重估HMM的参数；使用viterbi对齐状态以后可以计算出训练数据的似然值，可以依次迭代运行下去，直到似然值不再增加。

2. HCompV

使用HInit初始化的的局限性在于需要提供labelled的训练数据。对于没有labelled的数据，HCompv可以使用全局的均值和方差来初始化hmm。所有的hmm的参数都一样，使用全局的模型参数。

3. HRest

适用于对孤立单元的hmm进行重估，整体流程和HInit类似，不同之处在于：

1. 输入的HMM已经完成了初始化。

2. 使用前后向算法估算，而不是维特比。优势在于：

维特比搜索使用的是硬判决，每一帧严格对应于某一个state；前向后向算法使用的软判决，每一帧得出的是该帧对应于某一状态的概率。

4. HERest

用于embedded training，使用全集的训练数据同时更新所有的hmm。

首先将语音对应的标注进行hmm展开；然后利用前后向算法对参数进行更新。

一般需要2到5轮迭代

关注

5
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
声学模型（一） hmm声学训练流程

声学训练基本流程
复制链接

扫一扫

专栏目录

xmdxcsj CSDN认证博客专家 CSDN认证企业博客

码龄15年

132: 原创

9万+: 周排名

165万+: 总排名

91万+: 访问

: 等级

8567: 积分

818: 粉丝

313: 获赞

118: 评论

937: 收藏

私信

关注

热门文章

分类专栏

python 2篇
工具 7篇
sphinx 3篇
linux相关 3篇
机器学习 10篇
杂谈 3篇
htk 8篇
android 2篇
语音识别 10篇
mapreduce
神经网络 21篇
torch 8篇
gpu 3篇
语言模型 7篇
theano 1篇
audio
kaldi 15篇
声学模型 20篇
c/c++ 2篇
线性代数库 4篇
语音合成 5篇

最新评论

自监督预训练（三）wav2vec 2.0原理剖析
wust不吃洋葱: 请问feature encoder最后两层cnn的输出为什么不是(x-80)/160和(x-80)/320呢？
CTC学习笔记（一）简介
凯尔哥: 我真的是没搞明白，为什么这篇博客会有这么高的阅读量
CTC学习笔记（四）解码-WFST
魔法学徒q: 大佬您好，因为看您分享过几篇语音识别中使用wfst的论文，想到您应该对wfst比较了解。目前我用wenet做训练识别一个官方以外的数据集时，我是使用该数据集语料库和librispeech的lexicon做的lm解码，但是我发现解码结果是把所有音频都识别成了一个单词yeah。请问我是需要重新构建lexicon，还是可能其他地方出错了呢？
CTC学习笔记（二）训练和公式推导
treeswolf: 这篇博客，最后导softmax前的输出的推导是最清楚的了，其它篇都没有，泛泛而谈。
自监督预训练（二）语音部分
小方abc: 工作了还有时间看这么多论文吗？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。