SH-SSS丨跨年龄声纹识别:学习年龄不变的说话人特征

SH Symposium Series on Speech (SH SSS 2022) 

SH SSS 是由语音之家打造的AI语音技术相关的前沿论文成果分享平台。 

来自AI语音技术领域的优秀论文作者、专家学者,用最精炼的表达来解读最新的高质量论文。

 分享的论文成果来自国内外顶级会议收录的优秀文章、前沿学术报告。

主题 Tittle

跨年龄声纹识别:学习年龄不变的说话人特征

嘉宾 Author

覃晓逸,武汉大学博士生,主要研究方向为声纹识别、语音鉴伪,已发表十余篇国际会议论文。全球语音大赛经验丰富,并获顶级赛事多项奖牌,参与组织举办INTERSPEECH2022、INTERSPEECH FFSVC2020和HI-MIA数据库的开源,曾获SASV2022 第二名,M2MET2022 第一名,VOXSRC2020 TRACK2 第三名,VOXSRC2019 TRACK2第三名,VOICES2019 SV 第三名,ASVSPOOF2021 PA 第一名。掌握语音处理算法和机器学习流行工具,有丰富的语音识别实战经验。

概述 Abstract

近些年说话人识别取得了巨大的发展,但是由于相关数据的缺乏,很少有人关注跨年龄声纹识别。本篇文章基于VoxCeleb数据集挖掘跨年龄测试集并提出一种学习年龄不变的说话人表征(Age-invariant speaker representation, AISR)方法。由于VoxCeleb数据是从YoutuBe平台上采集下来,因此这个数据天然的就是跨年龄数据的场景。然而数据集提供的原始信息并不包含说话人的年龄信息。因此,我们采用一种人脸估计年龄的方法,通过识别视频数据来预测估计每个音频段的说话人年龄。由此,我们构建了基于VoxCeleb的跨年龄测试集(Vox-CA),其中正样本对有意选择较大年龄跨度的数据。此外,在选择负样本对时参照Vox-H集,考虑国籍和性别的影响。经过测试发现,基线系统性能从Vox-H集上的1.939%EER下降到Vox-CA20集的10.419%,这一结果表明跨年龄场景的困难程度。因此,我们提出了一种年龄解耦对抗学习(ADAL)方法,以缓解年龄差距的负面影响,减少类内方差。我们的方法在Vox-CA20测试集上的相关EER降低超过10%,优于基线系统。相关资源已经在Github上开源。

题 目 Tittle

Cross-Age Speaker Verification: Learning Age-Invariant Speaker Embeddings

期 刊 Journal & Comments

InterSpeech2022

作 者 Authors

覃晓逸,李娜,翁超,苏丹,李明

论文地址 Url

https://arxiv.org/abs/2207.05929

论文代码 Code

https://github.com/qinxiaoyi/Cross-Age_Speaker_Verification

议程

Program Overview

时间主题嘉宾
19:00-19:40跨年龄声纹识别:
学习年龄不变的说话人特征
覃晓逸
19:40-19:45Q&A

参与方式

SH-SSS丨跨年龄声纹识别:学习年龄不变的说话人特征

投稿 Call For Papers

在语音领域,您的文章内容具有技术创意性重要性论文解读清晰均可投稿!

投稿方式

投稿邮箱

jack@speechhome.com

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值