首先非常感谢david-ryan-snyder 提供的帮助,非常耐心的给出问题的解答。
经过一个周的调试修改,终于在timit数据集上跑通了sre10中的v1 demo, 特来总结一下,重新理顺一下思路,把其中的各个步骤的算法大体的捋一遍。
最重要的还是数据准备阶段,由于没有原始的数据,整个过程进行的比较困难,花了差不多一个周的时间来各种改,之前第一次跑wsj那个demo的时候才花了不到一个周,现在对kaldi还算比较熟悉,对数据处理的脚本也都写出来了,只需要稍微改一下就好,总之还是对说话人识别的技术不太了解. 回归正题,我们看到sre10/v1的run.sh中有四个data set: sre train sre10_train sre10_test. 根据后边的的script我们可以得知这四个集合的数据集有哪些以及分别的作用是什么:
一、 SRE:
SRE2004 LDC2006S44
SRE2005 Train LDC2011S01
SRE2005 Test LDC2011S04
SRE2006 Train LDC2011S09
SRE2006 Test 1 LDC2011S10
SRE2006 Test 2 LDC2012S01
SRE2008 Train LDC2011S05
SRE2008 Test LDC2011S08
1. prepare sre data: local/make_sre.sh data
2. make mfcc features: steps/make_mfcc.sh –mfcc-config conf/mfcc.conf –nj 40 –cmd “ traincmd"data/sreexp/makemfcc mfccdir
3. computer VAD sid/compute_vad_decision.sh –nj 40 –cmd “