干货：NIST评测（SRE19）获胜团队声纹识别技术分析

最新推荐文章于 2024-07-14 23:13:01 发布

清微智能

最新推荐文章于 2024-07-14 23:13:01 发布

阅读量2.8k

点赞数

文章标签：深度学习语音识别数据挖掘

本文链接：https://blog.csdn.net/weixin_44298602/article/details/103857016

版权

清微智能和清华大学组成的联队在NIST SRE19评测中取得优异成绩，文章深入分析了他们的关键技术，包括改进的X-vector框架（FTDNN、EFTDNN）、多任务学习融合语音文本信息、语音适应以及启发式后端信道补偿策略，展示了深度学习在声纹识别领域的最新进展。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

NIST评测（SRE19）获胜团队声纹识别技术分析

近日，NIST说话人识别技术评测 (Speaker Recognition Evaluation，SRE）正式公布榜单，芯片初创公司清微智能和清华大学等机构组成的联队，在Conversational Telephone Speech (CTS)和Multimedia两个任务上均取得全球前十，亚洲地区第一的好成绩。

NIST SRE是由美国国家标准与技术研究院主办的国际上最权威、规模最大的声纹识别技术评测和多媒体评测，为全球的研究机构提供了一个统一的测试平台。竞赛包含两个任务，分别考验电话信道语料（CTS）和音视频语料（Audio-visual）上声纹识别的性能，目的在于通过比这样的形式探索说话人识别的新技术、新方法，提升说话人识别系统的性能。从1996年举办至今，参加NIST SRE评测的研究机构逐年增加，今年有包括MIT，JHU，NEC等各国顶尖学术科研机构和公司参加。

从1995年开始，混合高斯模型的统计模式识别技术被引入说话人识别，2000年Reynolds提出的GMM-UBM模型成为声纹识别领域最重要的基石。2008年kenny提出联合因子分析（JFA）将GMM均值超矢量空间划分为本征空间，信道空间，残差空间，分别对说话人和信道空间建模。由于JFA进行信道补偿时不可避免的包含说话人信息，并且存在空间掩盖和空间重叠的问题，因此不能对说话人和信道进行准确建模和区分，于是在2010年Najim Dehak等人提出使用全局差异空间代替本征空间和信道空间，即I-vector对说话人进行建模。随着数据和计算资源的丰富，基于深度学习的声纹识别带来了性能的进一步提升。2018年X-vector在D-vector的基础进行改进&#x

最低0.47元/天解锁文章