声学特征变换 fMLLR

最新推荐文章于 2022-11-21 19:25:30 发布

xmdxcsj

最新推荐文章于 2022-11-21 19:25:30 发布

阅读量7.2k

点赞数 3

分类专栏：声学模型

本文链接：https://blog.csdn.net/xmdxcsj/article/details/78512645

版权

声学模型专栏收录该内容

20 篇文章 36 订阅

订阅专栏

含义

这里写图片描述
当测试数据 $Y$ 和模型 $\Lambda_x$ 不匹配的时候，可以通过变换的方式进行匹配[1]：

model-space 也就是 $\Lambda_x$ 转化为 $\Lambda_y$
feature-space 也就是 $Y$ 转化为 $X$

其中model-space的变换又可以分为两种：

unconstrained: 均值和方差无关
constrained: 均值和方差变换是相同的形式

对于constrained model-space transformations，虽然出发点是对模型的均值和方差做转换，但是公式推导[2]最后的形式可以看成对输入的特征做线性变化，所以Constrained Maximum Likelihood Linear Regression (CMLLR)也称为feature-space MLLR (fMLLR)。
fMLLR主要用于SAT（speaker adaptive training）训练，基本思想是训练得到的转化矩阵，使得adaptation数据在当前模型获得最大似然值。

kaldi使用

steps/train_sat.sh

#1.获得trans
#  假设特征40维，每个speaker对应一个40*41维的矩阵
gmm-est-fmllr
#使用trans
transform-feats --utt2spk=ark:$sdata/JOB/utt2spk ark,s,cs:$dir/trans.JOB ark:- ark:- |
#查看trans矩阵
copy-matrix ark:trans.1 ark,t:trans.1.txt

参考

[1].A Maximum-Likelihood Approach to Stochastic Matching for Robust Speech Recognition
[2].Maximum likelihood linear transformations for HMM-based speech recognition

后面的技术分享转移到微信公众号上面更新了，【欢迎扫码关注交流】

在这里插入图片描述

xmdxcsj

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
声学特征变换 fMLLR

含义当测试数据YY和模型Λx\Lambda_x不匹配的时候，可以通过变换的方式进行匹配[1]： - model-space 也就是Λx\Lambda_x转化为Λy\Lambda_y - feature-space 也就是YY转化为XX其中model-space的变换又可以分为两种： - unconstrained: 均值和方差无关 - constrained: 均值和方差变换是相同的形式
复制链接

扫一扫

专栏目录