kaldi中改写sre10/v1用timit dataset做说话人识别总结

本文链接：https://blog.csdn.net/zjm750617105/article/details/52421814

本文介绍了如何利用TIMIT数据集在Kaldi中复现SRE10/v1的说话人识别流程，包括数据准备、特征提取、VAD计算、iVector提取及PLDA模型训练等步骤，并分享了在缺少原始数据时如何自动生成trials文件的技巧。最终实验结果显示，使用300个说话人数据，80%为非目标样本时，性别无关的EER降低至6.349%。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

首先非常感谢david-ryan-snyder 提供的帮助，非常耐心的给出问题的解答。
经过一个周的调试修改，终于在timit数据集上跑通了sre10中的v1 demo, 特来总结一下，重新理顺一下思路，把其中的各个步骤的算法大体的捋一遍。
最重要的还是数据准备阶段，由于没有原始的数据，整个过程进行的比较困难，花了差不多一个周的时间来各种改，之前第一次跑wsj那个demo的时候才花了不到一个周，现在对kaldi还算比较熟悉，对数据处理的脚本也都写出来了，只需要稍微改一下就好，总之还是对说话人识别的技术不太了解. 回归正题，我们看到sre10/v1的run.sh中有四个data set: sre train sre10_train sre10_test. 根据后边的的script我们可以得知这四个集合的数据集有哪些以及分别的作用是什么：
一、 SRE:
SRE2004 LDC2006S44
SRE2005 Train LDC2011S01
SRE2005 Test LDC2011S04
SRE2006 Train LDC2011S09
SRE2006 Test 1 LDC2011S10
SRE2006 Test 2 LDC2012S01
SRE2008 Train LDC2011S05
SRE2008 Test LDC2011S08
1. prepare sre data: local/make_sre.sh data
2. make mfcc features: steps/make_mfcc.sh –mfcc-config conf/mfcc.conf –nj 40 –cmd “ $train_cmd" data/sre exp/make_mfcc \$ mfccdir
3. computer VAD sid/compute_vad_decision.sh –nj 40 –cmd “