lattice对齐ctm到phone

之前是lattice预测对齐到词,经过理解,也是可以到phone(音素的),之前一直用这,这里做一个总结和笔记。


1 lattice-align-phones结合lattice-to-ctm-conf

其实就是lattice-align-phones的用法,到音素(phone)上的对齐

lattice-push ark:"gunzip -c 20200921.lat.bin.prune.gz|" ark:-|\
lattice-align-phones --replace-output-symbols=true exp/chain/tdnn_1a_sp/final.mdl ark:- ark:-|\
lattice-to-ctm-conf --acoustic-scale=1.0 --frame-shift=0.03 --print-silence=true ark:- -|\
int2sym.pl -f 5 data/lang/phones.txt > 1.phones.txt.ctm

2 gunzip直接解压

或:

gunzip -c 20200921.lat.bin.gz |\
lattice-align-phones --replace-output-symbols=true exp/chain/tdnn_1a_sp/final.mdl ark:- ark:-|\
lattice-to-ctm-conf --acoustic-scale=1.0 --frame-shift=0.03 --print-silence=true ark:- -|\
int2sym.pl -f 5 data/lang/phones.txt > 1.phones.txt.ctm

【注意】

  • 【1】输出的内容解释:[音频id 通道(1或2) 开始时间位置秒 持续时间秒 音素(phone) 置信度]
  • 【2】这里就不演示lattice-1best上的了,和上面一样,没有置信度输出而已。这里为了节省篇幅把–print-silence=false了。
HAO0007501-000000 1 0.00 1.05 sil 1.00
HAO0007501-000000 1 1.05 0.12 ii 1.00
HAO0007501-000000 1 1.17 0.06 iu3 1.00
HAO0007501-000000 1 1.23 0.15 r 1.00
HAO0007501-000000 1 1.38 0.06 en2 1.00
HAO0007501-000000 1 1.44 0.09 q 1.00
HAO0007501-000000 1 1.53 0.12 iang1 1.00
HAO0007501-000000 1 1.65 0.06 j 1.00
HAO0007501-000000 1 1.71 0.09 ie2 1.00
HAO0007501-000000 1 1.80 0.06 g 1.00
HAO0007501-000000 1 1.86 0.06 an3 1.00
HAO0007501-000000 1 1.92 0.03 j 1.00
HAO0007501-000000 1 1.95 0.09 in3 1.00
HAO0007501-000000 1 2.04 0.03 d 1.00
HAO0007501-000000 1 2.07 0.09 a3 1.00
HAO0007501-000000 1 2.16 0.06 d 1.00
HAO0007501-000000 1 2.22 0.06 ian4 1.00
HAO0007501-000000 1 2.28 0.12 h 1.00
HAO0007501-000000 1 2.40 0.46 ua4 1.00
HAO0007501-000000 1 2.88 0.87 sil 1.00

3 lattice结合命令lattice-scale、lattice-add-penalty、lattice-prune、lattice-to-nbest

在lattice之前也可以用以下命令去组合使用:

# 给lattice的两个weight加权重
lattice-scale --inv-acoustic-scale=$LMWT ark:- ark:- |\
# 增加词插入惩罚(值一般为0 0.5 1.0)
lattice-add-penalty --word-ins-penalty=$word_ins_penalty ark:- ark:- \| 
# lattice 剪枝
lattice-prune --acoustic-scale=0.1 --beam=5.0 ark:- ark:-|\
lattice-to-nbest --n=10 ark:- ark:- |\

Reference

lattice-to-ctm-conf输出字段解释About confidence score issue
Different results from lattice-align-words and lattice-mbr-decode
kaldi语音识别算法chain model的标注分析
alignment to word_level/phone_level with ctm

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值