SH Symposium Series on Speech (SH SSS 2022)
SH SSS 是由语音之家打造的AI语音技术相关的前沿论文成果分享平台。
来自AI语音技术领域的优秀论文作者、专家学者,用最精炼的表达来解读最新的高质量论文。
分享的论文成果来自国内外顶级会议收录的优秀文章、前沿学术报告。
主题 Tittle
跨年龄声纹识别:学习年龄不变的说话人特征
嘉宾 Author
覃晓逸,武汉大学博士生,主要研究方向为声纹识别、语音鉴伪,已发表十余篇国际会议论文。全球语音大赛经验丰富,并获顶级赛事多项奖牌,参与组织举办INTERSPEECH2022、INTERSPEECH FFSVC2020和HI-MIA数据库的开源,曾获SASV2022 第二名,M2MET2022 第一名,VOXSRC2020 TRACK2 第三名,VOXSRC2019 TRACK2第三名,VOICES2019 SV 第三名,ASVSPOOF2021 PA 第一名。掌握语音处理算法和机器学习流行工具,有丰富的语音识别实战经验。
概述 Abstract
近些年说话人识别取得了巨大的发展,但是由于相关数据的缺乏,很少有人关注跨年龄声纹识别。本篇文章基于VoxCeleb数据集挖掘跨年龄测试集并提出一种学习年龄不变的说话人表征(Age-invariant speaker representation, AISR)方法。由于VoxCeleb数据是从YoutuBe平台上采集下来,因此这个数据天然的就是跨年龄数据的场景。然而数据集提供的原始信息并不包含说话人的年龄信息。因此,我们采用一种人脸估计年龄的方法,通过识别视频数据来预测估计每个音频段的说话人年龄。由此,我们构建了基于VoxCeleb的跨年龄测试集(Vox-CA),其中正样本对有意选择较大年龄跨度的数据。此外,在选择负样本对时参照Vox-H集,考虑国籍和性别的影响。经过测试发现,基线系统性能从Vox-H集上的1.939%EER下降到Vox-CA20集的10.419%,这一结果表明跨年龄场景的困难程度。因此,我们提出了一种年龄解耦对抗学习(ADAL)方法,以缓解年龄差距的负面影响,减少类内方差。我们的方法在Vox-CA20测试集上的相关EER降低超过10%,优于基线系统。相关资源已经在Github上开源。
题 目 Tittle
Cross-Age Speaker Verification: Learning Age-Invariant Speaker Embeddings
期 刊 Journal & Comments
InterSpeech2022
作 者 Authors
覃晓逸,李娜,翁超,苏丹,李明
论文地址 Url
https://arxiv.org/abs/2207.05929
论文代码 Code
https://github.com/qinxiaoyi/Cross-Age_Speaker_Verification
议程
Program Overview
时间 | 主题 | 嘉宾 |
19:00-19:40 | 跨年龄声纹识别: 学习年龄不变的说话人特征 | 覃晓逸 |
19:40-19:45 | Q&A |
参与方式
投稿 Call For Papers
在语音领域,您的文章内容具有技术创意性、重要性、论文解读清晰均可投稿!
投稿方式
投稿邮箱
jack@speechhome.com