SH-SSS丨跨年龄声纹识别：学习年龄不变的说话人特征

语音之家

已于 2022-08-26 18:13:15 修改

阅读量1.1k

点赞数 1

分类专栏： SH Symposium Series on Speech 文章标签：学习语音识别人工智能

于 2022-08-11 17:04:29 首次发布

本文链接：https://blog.csdn.net/weixin_48827824/article/details/126289075

版权

SH Symposium Series on Speech 专栏收录该内容

8 篇文章

订阅专栏

针对跨年龄声纹识别难题，本文提出一种年龄解耦对抗学习方法(ADAL)，旨在学习年龄不变的说话人特征，有效提高了跨年龄场景下的声纹识别准确率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

SH Symposium Series on Speech (SH SSS 2022)

SH SSS 是由语音之家打造的AI语音技术相关的前沿论文成果分享平台。

来自AI语音技术领域的优秀论文作者、专家学者，用最精炼的表达来解读最新的高质量论文。

分享的论文成果来自国内外顶级会议收录的优秀文章、前沿学术报告。

主题 Tittle

跨年龄声纹识别：学习年龄不变的说话人特征

嘉宾 Author

覃晓逸，武汉大学博士生，主要研究方向为声纹识别、语音鉴伪，已发表十余篇国际会议论文。全球语音大赛经验丰富，并获顶级赛事多项奖牌，参与组织举办INTERSPEECH2022、INTERSPEECH FFSVC2020和HI-MIA数据库的开源，曾获SASV2022 第二名，M2MET2022 第一名，VOXSRC2020 TRACK2 第三名，VOXSRC2019 TRACK2第三名，VOICES2019 SV 第三名，ASVSPOOF2021 PA 第一名。掌握语音处理算法和机器学习流行工具，有丰富的语音识别实战经验。

概述 Abstract

近些年说话人识别取得了巨大的发展，但是由于相关数据的缺乏，很少有人关注跨年龄声纹识别。本篇文章基于VoxCeleb数据集挖掘跨年龄测试集并提出一种学习年龄不变的说话人表征(Age-invariant speaker representation, AISR)方法。由于VoxCeleb数据是从YoutuBe平台上采集下来，因此这个数据天然的就是跨年龄数据的场景。然而数据集提供的原始信息并不包含说话人的年龄信息。因此，我们采用一种人脸估计年龄的方法，通过识别视频数据来预测估计每个音频段的说话人年龄。由此，我们构建了基于VoxCeleb的跨年龄测试集（Vox-CA），其中正样本对有意选择较大年龄跨度的数据。此外，在选择负样本对时参照Vox-H集，考虑国籍和性别的影响。经过测试发现，基线系统性能从Vox-H集上的1.939%EER下降到Vox-CA20集的10.419%，这一结果表明跨年龄场景的困难程度。因此，我们提出了一种年龄解耦对抗学习（ADAL）方法，以缓解年龄差距的负面影响，减少类内方差。我们的方法在Vox-CA20测试集上的相关EER降低超过10%，优于基线系统。相关资源已经在Github上开源。