NIST评测(SRE19)获胜团队声纹识别技术分析
近日,NIST说话人识别技术评测 (Speaker Recognition Evaluation,SRE)正式公布榜单,芯片初创公司清微智能和清华大学等机构组成的联队,在Conversational Telephone Speech (CTS)和Multimedia两个任务上均取得全球前十,亚洲地区第一的好成绩。
NIST SRE是由美国国家标准与技术研究院主办的国际上最权威、规模最大的声纹识别技术评测和多媒体评测,为全球的研究机构提供了一个统一的测试平台。竞赛包含两个任务,分别考验电话信道语料(CTS)和音视频语料(Audio-visual)上声纹识别的性能,目的在于通过比这样的形式探索说话人识别的新技术、新方法,提升说话人识别系统的性能。从1996年举办至今,参加NIST SRE评测的研究机构逐年增加,今年有包括MIT,JHU,NEC等各国顶尖学术科研机构和公司参加。
从1995年开始,混合高斯模型的统计模式识别技术被引入说话人识别,2000年Reynolds提出的GMM-UBM模型成为声纹识别领域最重要的基石。2008年kenny提出联合因子分析(JFA)将GMM均值超矢量空间划分为本征空间,信道空间,残差空间,分别对说话人和信道空间建模。由于JFA进行信道补偿时不可避免的包含说话人信息,并且存在空间掩盖和空间重叠的问题,因此不能对说话人和信道进行准确建模和区分,于是在2010年Najim Dehak等人提出使用全局差异空间代替本征空间和信道空间,即I-vector对说话人进行建模。随着数据和计算资源的丰富,基于深度学习的声纹识别带来了性能的进一步提升。2018年X-vector在D-vector的基础进行改进&#x