声学特征变换 fMLLR


含义

这里写图片描述
当测试数据 Y Y Y和模型 Λ x \Lambda_x Λx不匹配的时候,可以通过变换的方式进行匹配[1]:

  • model-space 也就是 Λ x \Lambda_x Λx转化为 Λ y \Lambda_y Λy
  • feature-space 也就是 Y Y Y转化为 X X X

其中model-space的变换又可以分为两种:

  • unconstrained: 均值和方差无关
  • constrained: 均值和方差变换是相同的形式

对于constrained model-space transformations,虽然出发点是对模型的均值和方差做转换,但是公式推导[2]最后的形式可以看成对输入的特征做线性变化,所以Constrained Maximum Likelihood Linear Regression (CMLLR)也称为feature-space MLLR (fMLLR)。
fMLLR主要用于SAT(speaker adaptive training)训练,基本思想是训练得到的转化矩阵,使得adaptation数据在当前模型获得最大似然值。

kaldi使用

steps/train_sat.sh

#1.获得trans
#  假设特征40维,每个speaker对应一个40*41维的矩阵
gmm-est-fmllr
#使用trans
transform-feats --utt2spk=ark:$sdata/JOB/utt2spk ark,s,cs:$dir/trans.JOB ark:- ark:- |
#查看trans矩阵
copy-matrix ark:trans.1 ark,t:trans.1.txt

参考

[1].A Maximum-Likelihood Approach to Stochastic Matching for Robust Speech Recognition
[2].Maximum likelihood linear transformations for HMM-based speech recognition

后面的技术分享转移到微信公众号上面更新了,【欢迎扫码关注交流】

在这里插入图片描述

  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值