kaldi和cvte开源模型

❤ CVTE

CVTE公司开源其训练好的TDNN模型,我们可以使用该模型来进行在线识别。模型下载
http://kaldi-asr.org/models/0002_cvte_chain_model.tar.gz

1. 运行模型

参考[1]
把0002_cvte_chain_model.tar.gz解压到egs目录下,可以把egs目录下的一个个文件夹理解成一个个数据集

egs/wsj/s5中的steps和utils拷贝到egs/cvte/s5目录下

egs/hkust/s5/local/score.sh拷贝到egs/cvte/s5/local目录下

注释掉utils/lang/check_phones_compatible.sh中if语句中的exit 1
在这里插入图片描述
cvte的文件结构:
在这里插入图片描述

运行s5下的run.sh
会报error:CVTE作者没有提供phones.txt, 不影响结果,忽略就好了
预测结果保存在exp/chain/tdnn/decode_test/scoring_kaldi/*路径下

2. 运行自己的语音文件

参考[3]
在src/online2bin输入以下命令:

./online2-wav-nnet3-latgen-faster --do-endpointing=false --online=false --feature-type=fbank --fbank-config=../../egs/cvte/s5/conf/fbank.conf --max-active=7000 --beam=15.0 --lattice-beam=6.0 --acoustic-scale=1.0 --word-symbol-table=../../egs/cvte/s5/exp/chain/tdnn/graph/words.txt ../../egs/cvte/s5/exp/chain/tdnn/final.mdl ../../egs/cvte/s5/exp/chain/tdnn/graph/HCLG.fst 'ark:echo utter1 utter1|' 'scp:echo utter1 ../../egs/cvte/s5/data/wav/00030/D32_953.wav|' ark:/dev/null

想测自己的语音的同学,把…/…/egs/cvte/s5/data/wav/00030/改成自己语音文件的路径就可以了。注意WAV文件要16KHz,16bit

运行结果:
在这里插入图片描述

❤ 致谢

【1】基于kaldi和CVTE开源模型的中文识别
【2】Kaldi安装
【3】Kaldi中利用CVTE运行自己的语音文件

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值