干货:NIST评测(SRE19)获胜团队声纹识别技术分析

清微智能和清华大学组成的联队在NIST SRE19评测中取得优异成绩,文章深入分析了他们的关键技术,包括改进的X-vector框架(FTDNN、EFTDNN)、多任务学习融合语音文本信息、语音适应以及启发式后端信道补偿策略,展示了深度学习在声纹识别领域的最新进展。
摘要由CSDN通过智能技术生成

NIST评测(SRE19)获胜团队声纹识别技术分析

近日,NIST说话人识别技术评测 (Speaker Recognition Evaluation,SRE)正式公布榜单,芯片初创公司清微智能和清华大学等机构组成的联队,在Conversational Telephone Speech (CTS)和Multimedia两个任务上均取得全球前十,亚洲地区第一的好成绩。

NIST SRE是由美国国家标准与技术研究院主办的国际上最权威、规模最大的声纹识别技术评测和多媒体评测,为全球的研究机构提供了一个统一的测试平台。竞赛包含两个任务,分别考验电话信道语料(CTS)和音视频语料(Audio-visual)上声纹识别的性能,目的在于通过比这样的形式探索说话人识别的新技术、新方法,提升说话人识别系统的性能。从1996年举办至今,参加NIST SRE评测的研究机构逐年增加,今年有包括MIT,JHU,NEC等各国顶尖学术科研机构和公司参加。

从1995年开始,混合高斯模型的统计模式识别技术被引入说话人识别,2000年Reynolds提出的GMM-UBM模型成为声纹识别领域最重要的基石。2008年kenny提出联合因子分析(JFA)将GMM均值超矢量空间划分为本征空间,信道空间,残差空间,分别对说话人和信道空间建模。由于JFA进行信道补偿时不可避免的包含说话人信息,并且存在空间掩盖和空间重叠的问题,因此不能对说话人和信道进行准确建模和区分,于是在2010年Najim Dehak等人提出使用全局差异空间代替本征空间和信道空间,即I-vector对说话人进行建模。随着数据和计算资源的丰富,基于深度学习的声纹识别带来了性能的进一步提升。2018年X-vector在D-vector的基础进行改进&#x

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值