VoxCeleb2: Deep Speaker Recognition

最新推荐文章于 2025-03-05 12:27:44 发布

44070509

最新推荐文章于 2025-03-05 12:27:44 发布

阅读量3.7k

点赞数 2

本文链接：https://blog.csdn.net/weixin_44070509/article/details/119741874

版权

本文介绍了VoxCeleb2，一个远超公开数据集规模的说话人识别数据集，文中详细阐述了CNN模型VGGVox的设计与训练策略，以及其在VoxCeleb2和VoxCeleb1上超越现有方法的性能。研究涉及大规模数据采集、深度CNN架构和训练步骤，以及新验证基准的建立。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

之前介绍了数据集VoxCeleb1的论文：上一篇链接
本文介绍数据集VoxCeleb2论文。

Abstract

本文创建了VoxCeleb2数据集，它比任何公开的说话人识别数据集都要大好几倍，还开发并比较了CNN模型和训练策略，在VoxCeleb2数据集上的效果性能超过了以前的方法。

1 Introduction

本文创建了一个新的大规模数据集Voxceleb2，是由超过6k个说话人的100多万条utts组成。在本文中，我们提出了一个CNN说话人识别网络，名为VGGVox，训练该系统将语音频谱图映射到一个紧凑的欧氏空间，其中距离直接对应于说话人相似性的度量。
我们在数据集Voxceleb2上训练VGGVox，以便学习Speaker embeddings。我们的系统由三个主要的可变部分组成：
（1）一个底层的深度CNN主干结构，用于提取特征；
（2）一种池化方法，用于聚合给定的每条utts的特征，聚合成一个embedding；
（3）一种基于特征的loss训练方法，以便直接优化映射。
本文使用基于深度CNN主干网络的VGG-M和ResNet两种结构进行了训练。
本文做出了四个贡献：
（1）发布了一个比任何说话人识别数据集规模都要大的Voxceleb2；（第三部分）
（2）提出了输入为频谱图的基于ResNet网络结构；（第四部分）
（3）在数据集VoxCeleb1上的性能比以往任何方法效果都好；（第五部分）
（4）提出并评估了一个新的验证基准测试集；

2 The VoxCeleb2 Dataset

2.1 Description
VoxCeleb2和VoxCeleb1是没有重复交集的两个说话人识别数据集，并且比VoxCeleb1规模更大，详细统计数据如下；
在这里插入图片描述
下图Figure 1第一行显示的是视频中的每段音频均有对应的说话人，下面一行是数据集的utts长度、性别以及国家信息：

2.2 Collection Pipeline
用于产生VoxCeleb2的流程方法在VoxCeleb1方法的基础上作了一些细节修改，并提高了效率。
Stage 1. Candidate list of Persons of Interest (POIs)
从VGGFace2数据集中的人员列表中来选取，该列表满足种族多样性和职业多样性，包含了9000多个身份（如演员、运动员、政治家等），其中与数据集VoxCeleb1和SITW重叠的人员也被从列表中删除，以避免重复。
Stage 2. Downloading videos
使用YouTube搜索并自动下载每个POIs的前100个视频。在搜索查询中，单词“interview”也被附加到POI的名称后面，以增加视频包含POI说话的可能性（过滤掉体育或者音乐视频）。
Stage 3. Face tracking
采用基于单镜头多盒检测器(SSD)的CNN人脸检测器来检测每帧视频中的人脸外观。与VoxCeleb1数据集所使用的检测器相比有明显的改进，可以检测侧面和极端姿势中的人脸。
Stage 4. Face verification
目标是验证人脸跟踪的结果是否属于POI名单，使用的网络是基于VGG Face2数据集上训练的ResNet-50。
Stage 5. Active speaker verification
这一阶段的目标是确定视频中的嘴部运动和语音之间的音视频同步，以确定哪张（如果有）可见的脸是说话人。这是通过使用“SyncNet"来实现的，这是一种双流CNN，它估计音频轨迹和视频的嘴部运动之间的相关性来确定主动说话者。这种方法能够避免视频剪辑中的配音或者画外音。
Stage 6. Duplicate removal
使用YouTube作为视频来源通常会遇到相同的视频（或视频的一部分）被上传多次的情形。因此，文章设计了重复视频的识别和删除算法，其过程如下：计算同一说话人的所有特征对之间的距离，如果任何两个语音段之间的距离小于一个非常保守的阈值，则认为这两个语音段是相同的，并删除其中一个。这种方法能精确识别所有的重复。（本段参考链接）
Stage 7. Obtaining nationality labels
从维基百科中检索数据集中所有名人的国籍标签。除了428名被贴上“未知”标签的发言者外，所有人都获得了国籍标签。研究发现，数据集中的发言者来自145个国家（而Voxceleb1为36个），从而形成了一个更具种族多样性的数据集。并且美国人的百分比是Voxceleb2（29%），比Voxceleb1（64%）相比更小。

3 VGGVox

3.1 Evaluation
使用的训练集是VoxCeleb2数据集，其在训练阶段生成配对；使用的测试集是VoxCeleb1数据集，其本身就含有配对信息。
两个性能指标为：
（1）等错误率EER；
（2）损失函数：在这里插入图片描述

其中 $P_{tar}$ 代表先验概率，值设置为0.01， $C_{miss}$ 和 $C_{fa}$ 的权重都设为1.0。

3.2 Trunk architectures
VGG-M： 基于VGG-M的基本结构进行改进，将其fc6的全连接层替换成了两层：一个全连接层（维度9x1）和一个全局平均池化层（1xn），经过这样修改之后的网络与时间位置无关，而与频率有关，这里也是处理语音信号和图像的区别。同时还大大减少了网络参数的数量。
ResNets： 采用了ResNet-34和ResNet-50两种网络架构，为了适应输入层的频谱图对各层稍微做了修改，网络的结构如下表Table 3所示：
在这里插入图片描述

3.3 Training Loss strategies（训练损失策略）
由于对比损失非常难以训练，因此，为了避免在训练早期出现次优局部极小值，本文分为两步进行训练：首先使用softmax损失进行预识别训练，然后使用对比损失进行微调。
预识别训练：
通过SoftMax训练初始化网络的权重。为了评估识别性能，文章从每个人物的单个视频中抽取所有语音片段组成了held-out测试集。
使用对比损失进行微调：
本阶段将预识别训练网络的分类层（5994个分类标签）替换成输出维度为512的全连接层，使用对比损失再次训练该网络。

3.4 Test time augmentation
在测试阶段使用三种方式来评估模型性能：
（1）Baseline：不同的平均池化层；
（2）从每个测试样本抽取10个3秒时长的语音片段，计算其特征的均值；
（3）从每个测试样本抽取10个3秒时长的语音片段，计算两个语音段中可能配对（10x10=100）的距离，使用这100个距离值的均值。该方法稍微提升了性能，如后面的Table 4所示。

3.5 Implementation Details
输入特征： 对输入音频以滑动窗口的形式进行切片，使用宽度为25ms、步长为10ms的汉明窗口，将为3s的语音提供大小为512x300的频谱图，之后对频谱图的每个频率进行均值和方差归一化，用作CNN的输入。（与VoxCeleb 1中的论文一样）
训练： 在训练时，从每个语句随机抽出3秒的语音片段。网络的实现基于深度学习工具MatConvNet。每个网络都在三台Titan X GPUs上迭代30次或直到验证集误差停止减少为止。

4 Results

在三种不同的测试集上测试了说话人识别网络的性能：
（1）Original VoxCeleb1 test set
从下表中可以看出，随着网络深度的增加以及数据集的增大（VoxCeleb1到VoxCeleb2），网络性能逐渐变好。
在这里插入图片描述
（2）从整个VoxCeleb1数据集抽取的581,480个配对（涵盖1251个人物），从而组成了扩展的VoxCeleb1测试集VoxCeleb1-E。
（3）从整个VoxCeleb1数据集中抽取具有相同国籍和性别的数据集作为VoxCeleb1-H数据集。
以上数据集中的实验效果如下表Table 5所示：
在这里插入图片描述