声学特征转换 kaldi工具

最新推荐文章于 2022-11-21 19:25:30 发布

xmdxcsj

最新推荐文章于 2022-11-21 19:25:30 发布

阅读量3.4k

点赞数 3

分类专栏：声学模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xmdxcsj/article/details/78512672

版权

声学模型专栏收录该内容

20 篇文章 37 订阅

订阅专栏

基本工具

1.transform-feats

transform-feats <transform> <input-feats> <output-feats>

其中transform是对应的特征转化矩阵，如果transform是rxfilename形式，认为是speaker-independent；如果transform是rspecifier形式，有-utt2spk选项，认为是per-speaker，没有-utt2spk选项，认为是per-utterance。

speaker-independent: LDA MLLT/STC
per-speaker or per-utterance: fMLLR

2.compose-transform
将多个transform合并为一个
3.weight-silence-post
在说话人相关的特征变换中，需要删除silence对应的帧

说话人无关特征

lda

原始mfcc特征40维，左右3帧，扩展成280维，然后经过转换矩阵（40*280）将特征降维到40维，转换矩阵即为LDA

acc-lda获取LDA的统计量
est-lda根据统计量进行LDA估计

frame splicing

splice-feats左右拼帧

delta feature

add-deltas 增加差分

HLDA

gmm-acc-hlda
gmm-est-hlda

STC／MLLT

gmm-acc-mllt
est-mllt

说话人相关特征

CMLLR／fMLLR

Constrained Maximum Likelihood Linear Regression (CMLLR), also known as feature-space MLLR (fMLLR)
fmllr变换得到trans.JOB文件，每个speaker对应一个变换矩阵。相当于去除speaker的信息

gmm-est-fmllr

linear VTLN

没有收益

ET

另外一种VTLN变换的方法

cmvn

compute-cmvn-stats 如果提供spk2utt，以speaker为单位；如果没有，以utterance为单位
apply-cmvn 同样如果提供utt2spk，以speaker为单位；否则，以utterance为单位

特征变换相关的recipe

train_delta

train_delta.sh：使用mfcc+cmvn+delta特征

train_lda_mllt

train_lda_mllt.sh：使用mfcc+cmvn+splice+LDA特征，获得final.mat（LDA和MLLT变换合在一起）
主要是特征做LDA/MLLT变换，转换以后的特征重新训练GMM模型，具体步骤：

估计出LDA变换， $M$ ，特征经过LDA转换
转换后的特征重新训练GMM，在指定的迭代更新MLLT矩阵
- 计算MLLT统计量
- 更新MLLT矩阵 $T$
- 更新模型的均值 $\mu_{jm} \leftarrow T\mu_{jm}$
- 更新转换矩阵 $M\leftarrow TM$

train_sat

train_sat.sh：使用mfcc+cmvn+splice+LDA+fmllr特征，获得trans.JOB
主要是特征做fmllr变换，转换以后的特征重新训练GMM模型

train

dnn训练：将mfcc（没有cmvn和lda）特征和ivector特征拼在一起

后面的技术分享转移到微信公众号上面更新了，【欢迎扫码关注交流】

在这里插入图片描述

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。