X-Vector 数据增益方法

X-Vector 数据增益方法

论文:Snyder D, Garcia-Romero D, Sell G et al. X-Vectors: Robust DNN Embeddings for Speaker Recognition. 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)[C]. 2018: 5329–5333.

摘要

在说话人识别中,DNN 投影可变长度的语音段为固定维度的说话人嵌入,被称之为 x-vector。在已有的研究中,x-vector 比 i-vector 能更好地利用大规模地数据集。然而,收集如此大规模数据是非常困难的。D. Snyder 提出了一种高效的数据增益的方法,该方法包含增加噪声和混响的技术,以增加训练数据和改善系统鲁棒性。实验表明:以 SITW 和 SRE16 Cantonese (广东话) 为评测数据集,1)数据增益对 i-vector 提取器无收益,2)数据增益 x-vector (TDNN) 收益显著,3)x-vector 提取器的数据增益的改善效果优于 PLDA 的数据增益,4)VoxCeleb 1 数据集 (除去SITW重叠的说话人) 对 x-vector 改善效果最明显。

方法

论文中提及了三种说话人识别系统:acoustic i-vector、i-vector (BNF) 和 x-vector。

  1. acoustic i-vector
    • 模型:输入 ↦ \mapsto UBM ↦ \mapsto T ↦ \mapsto PLDA
    • 输入:共 60 维度,帧长 25 ms 的均值归一化 20 MFCC + Δ \Delta Δ + Δ Δ \Delta\Delta ΔΔ,在此基础上,基于能量的语音活动检测(VAD)选择对应语音帧,语音最长 3 s
    • UBM:2048 分量全协方差高斯混合模型
    • T:提取 600 维 i-vector
    • PLDA:用于得分计算,具体过程为:中心化 ↦ \mapsto LDA ↦ \mapsto L-norm ↦ \mapsto PLDA ↦ \mapsto 自适应 s-norm,其中 LDA 采用 SITW 的开发数据进行训练,将 i-vector 降为 200 维度,将 x-vector 降维 150 维度
  2. i-vector
    • 模型:与 acoustic i-vector 相同,但输入不同
    • 输入:共 100 维度,60 维语音瓶颈特征 (BNF) + 与 acoustic i-vector 相同的 MFCC 与 Δ \Delta Δ,进行与 acoustic i-vector 相同的特征处理
  3. X-vector
    • 模型:输入 ↦ \mapsto TDNN ↦ \mapsto PLDA
    • 输入:共 24 维度,帧长 25 ms 的均值归一化 24 滤波器组,在此基础上,基于能量的语音活动检测(VAD)过滤非语音帧,语音最长 3 s
    • TDNN:一种特殊结构的卷积神经网络,见参考文献,激活参数都采用 ReLU,temporal pooling layer 之后的第一层 segment6,非线性化之前,作为说话人嵌入
    • PLDA:与 acoustic i-vector 相同

数据集

训练数据集由电话语音和麦克风语音组成,大部分是英语,都采用 8kHz 采样。语料包含 4 类:

  1. SWBD:包含 Switchboard 2 Phases 1, 2, 3 与 Switchboard Cellular,约 28,000 记录,2,600 人
  2. SRE:包含 SRE04-10 与 Mixer 6,约 63,000 记录,4,400 人。
  3. VoxCeleb:除去与 SITW 重叠的 60 人,约 20,000 记录,1,191 人。
  4. Fisher English

这四个语料用于训练上述的模型,

表1. 模型训练的数据集
模型/语料SWBDSREVoxCelebFisher English
UBM/TYesYesAdd in "Including VoxCeleb" setting
TDNNYesYesAdd in "Including VoxCeleb" setting
PLDA YesAdd in "Including VoxCeleb" setting
BNF Yes

数据增益系统及其结论

数据增益能够增加数据的丰富性,采用加噪声和加混响的方式来实现该过程,具体地说,1 份干净的数据 + 2 份增益的副本。语料分别采用 RIRs 与 MUSAN,实现方法是在原有的语音段上随机选择一种增益方式,可选的增益方法为:babble、music、noise、reverb。

数据增益方法的基础上,评估以下五种系统性能(提取器是 UBM/T 和 TDNN 嵌入的统称,即 i-vector 和 x-vector 的统称):

表2. 各种系统在不同数据增益条件下的等错误率(EER/%)
系统模型SITW coreSRE16 Cantonese
原始系统i-vector (acoustic)9.299.23
i-vector (BNF)9.109.68
x-vector9.408.00
PLDA增益i-vector (acoustic)8.648.92
i-vector (BNF)8.008.82
x-vector7.567.45
提取器增益i-vector (acoustic)8.899.20
i-vector (BNF)7.278.89
x-vector7.196.29
PLDA与提取器增益i-vector (acoustic)8.048.95
i-vector (BNF)6.498.29
x-vector6.005.86
Including VoxCelebi-vector (acoustic)7.459.23
i-vector (BNF)6.098.12
x-vector4.165.71

结论:

  1. 原始系统:BNF在英语语音上的收益不一定能转化到非语音语音上。
  2. PLDA 增益:x-vector收益最明显。
  3. 提取器增益:i-vector的收益不一致;DNN训练的收益明显,且比PLDA增益更明显。
  4. PLDA与提取器增益:x-vector整体最优。
  5. Including VoxCeleb:测试加入大规模麦克风语音的效果,VoxCeleb相对于SITW属于同领域数据(in-domain),通过检测错误折中曲线(DET)看整体(不同错误报警概率和误检测概率)的效果,x-vector 在大规模域内数据集上的收益最为明显。

参考文献

[1] Snyder D, Garcia-Romero D, Sell G et al. X-Vectors: Robust DNN Embeddings for Speaker Recognition. 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)[C]. 2018: 5329–5333.
[2] D. Sturim and D. Reynolds, “Speaker adaptive cohort selection for tnorm in text-independent speaker verification,” in Acoustics, Speech, and Signal Processing, 2005. Proceedings.(ICASSP’05). IEEE International Conference on. IEEE, 2005, vol. 1, pp. I–741.
[3] Snyder D, Garcia-Romero D, Povey D, et al. Deep Neural Network Embeddings for Text-Independent Speaker Verification. 18th Annual Conference of the International Speech Communication Association[C]. 2017: 999–1003.


作者信息:

CSDN:https://blog.csdn.net/i_love_home?viewmode=contents

Github:https://github.com/mechanicalsea

2019级同济大学博士研究生 王瑞 rwang@tongji.edu.cn

研究方向:说话人识别、说话人分离

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值