❤ CVTE
CVTE公司开源其训练好的TDNN模型,我们可以使用该模型来进行在线识别。模型下载
http://kaldi-asr.org/models/0002_cvte_chain_model.tar.gz
1. 运行模型
参考[1]
把0002_cvte_chain_model.tar.gz解压到egs目录下,可以把egs目录下的一个个文件夹理解成一个个数据集
将egs/wsj/s5
中的steps和utils拷贝到egs/cvte/s5
目录下
将egs/hkust/s5/local/score.sh
拷贝到egs/cvte/s5/local
目录下
注释掉utils/lang/check_phones_compatible.sh
中if语句中的exit 1
cvte的文件结构:
运行s5下的run.sh
会报error:CVTE作者没有提供phones.txt, 不影响结果,忽略就好了
预测结果保存在exp/chain/tdnn/decode_test/scoring_kaldi/*路径下
2. 运行自己的语音文件
参考[3]
在src/online2bin输入以下命令:
./online2-wav-nnet3-latgen-faster --do-endpointing=false --online=false --feature-type=fbank --fbank-config=../../egs/cvte/s5/conf/fbank.conf --max-active=7000 --beam=15.0 --lattice-beam=6.0 --acoustic-scale=1.0 --word-symbol-table=../../egs/cvte/s5/exp/chain/tdnn/graph/words.txt ../../egs/cvte/s5/exp/chain/tdnn/final.mdl ../../egs/cvte/s5/exp/chain/tdnn/graph/HCLG.fst 'ark:echo utter1 utter1|' 'scp:echo utter1 ../../egs/cvte/s5/data/wav/00030/D32_953.wav|' ark:/dev/null
想测自己的语音的同学,把…/…/egs/cvte/s5/data/wav/00030/改成自己语音文件的路径就可以了。注意WAV文件要16KHz,16bit。
运行结果:
❤ 致谢
【1】基于kaldi和CVTE开源模型的中文识别
【2】Kaldi安装
【3】Kaldi中利用CVTE运行自己的语音文件