2019--Voxsrc 2019: The First Voxceleb Speaker Recognition Challenge

Voxsrc 2019: The First Voxceleb Speaker Recognition Challenge

Joon Son Chung1,2, Arsha Nagrani1, Ernesto Coto1, Weidi Xie1, Mitchell McLaren3,
Douglas A Reynolds4and Andrew Zisserman1
1Visual Geometry Group, Department of Engineering Science, University of Oxford, UK
2Naver Corporation, South Korea
3Speech Technology and Research Laboratory, SRI International, Menlo Park, CA, USA
4MIT Lincoln Laboratory, Lexington, MA, USA
http://www.robots.ox.ac.uk/˜vgg/data/voxceleb/competition.html

ABSTRACT
2019年V oxCeleb Speaker Recognition Challenge旨在评估当前的Speaker Recognition技术在无约束或“野生”数据中识别说话人的能力。它包括:(i)一个来自Y ouTube视频的公开的说话人识别数据集,以及地面真相注释和标准化评估软件;(ii)一个在奥地利格拉茨举行的2019年Interspeech公共挑战和研讨会。本文概述了这一挑战,并提供了其基线、结果和讨论。

  1. INTRODUCTION
    2019年V oxCeleb Speaker Recognition Challenge(V oxSRC)是一系列新的Speaker Recognition challenges中的第一个,计划每年举办一次。VoxSRC 2019包括:(i)一个公开可用的说话人识别数据集,其中包含“野生”的语音片段,以及地面真相注释和标准化评估软件;(ii)在奥地利格拉茨举行的Interspeech 2019公共挑战和研讨会。VoxSRC挑战系列旨在:(i)探索和促进在野外说话人识别方面的新研究;(ii)通过公共评估工具测量和校准当前技术状态的性能;以及(iii)提供一个所有人都可以访问的开源免费数据集。虽然语音技术在过去几十年里发展迅速(主要集中在说话人验证上),但在噪声和无约束条件下的说话人识别仍然是一个极具挑战性的课题。说话人识别的应用是多种多样的,从高安全系统中的身份认证和法医检测,到在大量语音数据中对人进行高保真搜索。为了在现实世界中部署这样的系统,它们必须在无约束的条件下工作,有噪声、变化、有时非常短和短暂的语音片段。第一届VoxCeleb说话人识别挑战赛,(V oxSRC 2019)旨在评估当前的语音验证技术在这些具有挑战性的条件下识别相似说话人的能力,并探索在固定的实验条件和训练数据下完成这项任务的新方法。VoxSRC挑战赛的灵感来自于野外演讲(SITW)挑战赛[1],是对其他挑战系列的补充,如国家技术标准研究所(NIST)[2]和ASVspoof[3]。VoxSRC和最新的NIST说话人识别评估[2](SRE)有两个主要区别:(i)VoxSRC固定条件(详见第2.1节)。2.1),在开发和评估数据之间没有明显的诱导域转移;和(i i)在V-oxSRC中参与成对说话人比较(即试验)的音频片段具有更短的平均持续时间,使得任务更具挑战性。此外,所有的培训和验证数据都是免费的(并将继续免费)提供给研究人员,无论他们是否参加了挑战。讲习班也供与会者免费参加。本文详细介绍了评估任务、提供的数据集、挑战性评估结果及后续讨论。更多详情请访问challenge网站1。

  2. TASK DESCRIPTION
    任务是说话人验证,在给定的音频段对中,目标是简单地说明它们是来自同一个说话人还是来自不同的说话人。

2.1. Tracks
The challenge consisted of the following two tracks:

  1. Speaker V erification – fixed training condition
  2. Speaker V erification – open training condition

固定的训练条件要求参与者只在VoxCeleb2 dev数据集[4]上进行训练,该数据集包含5994个演讲者的1092009个话语。对于开放式训练条件,参与者可以使用VoxCeleb数据集和除挑战测试数据外的任何其他数据(包括未公开发布的数据)。下一节将更详细地描述这些数据。

2.2. Data
V-oxCeleb数据集[4-6]由数千个人的无约束Y-ouTube视频的语音片段组成。这些视频包括干净的工作室采访,红地毯采访,户外和嘈杂的环境和多演讲者的场景。虽然有些视频是专业录制的,但有些则是使用手持式或其他不经编辑的原始录制设备录制的。采用基于计算机视觉技术的自动流水线采集V-oxCeleb数据集。有关管道的完整描述和数据集的概述,请参见[5]。语料库中的所有噪声、混响、压缩等伪影都是原始音频的自然特征,没有被去除。由于语音是会话性的,因此片段很短且很快,可能会受到来自其他身份的背景语音的影响。每个语音段的持续时间是不受限制的,每个发言者的语音总量也是不受限制的。我们认为,在如此不同的条件下识别同一个说话人,代表了说话人验证技术将不得不在现实世界中使用的许多挑战。

Training data:固定的培训条件要求参与者只在VoxCeleb2 dev数据集[4]上进行培训,该数据集包含来自5994个演讲者的1092009条话语。对于开放式训练条件,参与者可以使用VoxCeleb数据集和除挑战测试数据之外的任何其他数据。为了鼓励行业参与,并以绝对最佳业绩为基准,对本可用于开放条件的数据没有任何限制,特别是不必向研究界公开这些数据。

Validation data: 我们鼓励参与者使用V oxCeleb1公开发布的硬而简单的测试列表来验证他们的模型:V oxCeleb1、V oxCeleb1-E和V oxCeleb1-H。每个测试列表都提供了一个干净的版本,其中使用[5]中描述的相同过程手动检查数据是否有任何错误(下面简要介绍)。这些列表可以在以下网址上找到:http://www.robots.ox.ac.uk/?vgg/data/voxceleb/vox2.html。

Test data:测试数据是以与训练和验证集相同的方式从Y ouTube视频中创建的,但是与训练数据不同,测试数据要经过额外的手动验证步骤。我们在挑战结果公布前一个月公布了测试数据,但这是blind,也就是说,演讲片段已经发布,但没有标记。测试数据的发布仅仅是为了报告结果,参与者不允许以任何方式使用这些数据来训练或调整系统。测试集的统计数据见表1。使用[5]中描述的相同程序手动检查测试数据是否有任何错误。这是使用一个简单的基于web的工具完成的,该工具显示每个身份的所有视频片段。为了突出更有可能包含错误的部分,分别从SphereFace[7]和我们自己的VoxCeleb2模型生成人脸和语音嵌入,并用不同的颜色突出置信度较低的部分,以帮助手动检查。由于测试对是随机采样的,VoxCeleb测试集包含一定比例(约10%)的采样测试;也就是说,对从同一原始视频的不同部分提取的音频样本进行比较。这类试验比不同阶段的试验更容易,因为内在的说话人特征没有随着时间的推移而发生变化。未来的挑战实例在测试和验证集中不会有相同的会话测试。

  1. CHALLENGE MECHANICS
    3.1. Evaluation and scoring
    评估数据协议由一系列试验组成,每个试验对应一对音频段。参与者被要求给每个试验分配一个实值的、有限的、浮点的相似度分数。所有的分数都要求在封闭区间内[0,1],其中相似性分数为1表示一对段对应于一个说话人和一个说话人,而这对段对应于不同的说话人。使用等错误率(EER)评估系统输出。
    3.1.1. Metric - Equal Error Rate

3.2. Baseline
我们提供了一个简单的基于CNN的基线,它是基于输入谱图的训练。基线在[6]中有详细描述,并在V oxCeleb2开发集上进行了训练。在测试集上,获得的基线EER为0.1140

3.3. Challenge and Permanent Phase
比赛服务器使用CodaLab2托管。公众排行榜分两个阶段在线展示:(i)挑战阶段,于2019年8月30日结束,包括挑战所需考虑的提交材料;(ii)永久阶段,允许参与者在挑战结束后测量其在测试集上的表现。事实上,在编写本报告时,自挑战阶段结束以来,共有11份关于公开训练条件的新报告和20份关于固定训练条件的新报告。再次,为了防止测试集过拟合,在永久阶段,参与者每天只允许提交一次,总共最多10次。

  1. METHODS AND RESULTS
    虽然今年是挑战赛的第一年,但共有来自17个国家的50多支队伍参加,其中50支队伍参加了固定赛道,35支队伍参加了公开赛道。两条赛道的获胜者如表2和表3所示。我们惊喜地发现,90%的投稿超过了我们在固定条件下提供的基线,85%的投稿超过了开放条件下提供的基线(实际上我们的基线在挑战中表现很差)。有关结果的完整排行榜,请参阅挑战网站。获胜的方法使用了基于深度神经网络(DNN)的系统,系统分为前端和后端两部分。前端系统由一个嵌入抽取网络组成,将可变长度的语音段映射成固定长度的嵌入。后端系统由一个分类头和一个评分程序组成。然后使用一些不同的dnn作为特征提取器,包括基于一维卷积的TDNNs[12]的变化(包括不同大小和添加残余连接的变化)或具有二维卷积的ResNets[13]。在这两种情况下,用于前端系统的输入是mfcc或替代声学特性,例如短期2D频谱图(与原始音频信号相反)。获奖者提交的资料发现,很容易在训练集上过度拟合,因此使用了诸如大量增加训练数据,特别是由Kaldi recipe3提供的增强策略(即房间脉冲响应(RIR)和Musan[14]噪声数据集)以及网络正则化等技术。边际惩罚也被认为是一种有效的训练策略,通常选择的损失是附加角边际(AAM)损失[15]和附加边际softmax损失[16]。嵌入向量的话语级聚合使用特征的均值和方差,流行的后端评分系统是G-PLDA[17]或余弦,距离评分,采用自适应对称评分标准化。几乎所有的顶级投稿都是通过加权平均将多个网络融合在一起的。有趣的发现是:TDNN和ResNets是互补的[8];融合较小的异构系统的性能优于具有相似参数数量的大型DNN[9]。另一个重要的想法是语音注意,它可以根据语音内容不强调帧的重要性,例如将非语音段的权重降低[10];尽管这对VoxSRC的影响有限,因为几乎所有的话语都很少包含沉默。出于同样的原因,语音活动检测(SAD)也没有什么影响[9]。有趣的是,在开放条件下(EER=0.0126)的最佳性能仅略优于在固定条件下(EER=0.0142)的性能,这表明由于域传输问题,附加的训练数据可能没有用处。获胜团队使用的其他培训数据包括VoxCeleb-1的开发部分(1152个说话人)、LibriSpeech数据集的2338个说话人[18]和Deep Mine数据集的1735个说话人[19]。我们还注意到,许多参与者使用VoxCeleb1测试集作为验证集来校准系统性能。图1分析了VoxCeleb1测试集和隐藏的VoxSRC测试集的性能之间的相关性。给定11个数据点,我们发现验证集上的性能很好地指示了最终隐藏测试集的性能。

  2. WORKSHOP
    V oxSRC 2019研讨会与Interspeech 2019一起在奥地利格拉茨举行,与会者超过100人。研讨会上的演讲包括米切尔·麦克拉伦的主题演讲,总结了演讲者验证方法和基准的历史,以及两个轨道的获胜者的简短演讲,总结了他们的方法。研讨会结束时举行了富有成效的讨论会,关于改进V-oxSRC未来版本的方法,将在第6节中总结。所有的演示幻灯片都可以在http://www.robots.ox.ac.uk/˜vgg/data/voxceleb/interspeech2019.html上找到。研讨会由Naver Corpororation和牛津波浪研究所善意赞助。

  3. DISCUSSION
    在本节中,我们将讨论第一次VoxSRC挑战的一些局限性和未来的计划。首先,我们只使用一个指标——EER来评估性能。进一步的挑战将包括其他指标,例如在两个操作点的最小标准化检测成本(DCF),PT arget=10-3(DCF1)和PT arget=10-2(DCF2)。这是为了使系统的校准能够影响性能,因为校准是说话人验证技术的许多实际部署的一个重要方面。第二,考虑到这是第一次挑战,我们只专注于一个单一的任务-仅音频说话人验证。鉴于最近学术界对视听多模态和跨模态人识别的兴趣[20–22],在未来的挑战版本中,我们计划包括一项视听任务,其中演讲者的面孔也将参与挑战。在未来的挑战中可以加入的其他仅音频任务包括说话人检测(从多峰值语音段临时定位单个说话人)和说话人二值化(根据身份将多峰值语音段分割成时间边界,即解决谁说“when”)。然而,这两项额外的任务都需要昂贵的人工标注语音片段。我们还注意到,在第一次挑战之后,由于来自50多个团队的优秀提交,我们的测试集的性能几乎饱和(EER=0.0126),因此在未来的挑战中,我们将努力拥有更具挑战性的测试集。

Acknowledgements
这项工作是由EPSRC项目拨款资助的,见BIBYTE EP/M013774/1。Arsha是由Google博士奖学金资助的。本材料基于空军合同FA8702-15-D-0001项下空军研究实验室支持的工作。本材料中表达的任何意见、发现和结论或建议均为作者的意见、发现和结论或建议,并不一定反映美国国防部的意见。我们要感谢丹尼尔·加西亚·罗梅罗的评论,也感谢特里安塔菲洛斯·阿富拉斯、汉娜·柳、汉索尔·金和杨在金对研讨会的后勤和组织工作的帮助。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值