端到端的文本无关说话人确认的深度神经网络嵌入

端到端的文本无关说话人确认的深度神经网络嵌入

论文:Snyder D, Ghahremani P, Povey D, et al. Deep neural network-based speaker embeddings for end-to-end speaker verification. 2016 IEEE Workshop on Spoken Language Technology, SLT 2016 - Proceedings[C]. 2017: 165–170.

摘要

在文本无关的说话人确认中,D. Snyder 研究了一种深度神经网络(Deep Neural Network, DNN)的端到端系统。该系统由一个 DNN 组成,该模型将长度可变的语音投影为说话人嵌入,进而进行相似度计算。端到端系统的最大特点是相似度计算公式整合在优化目标中。结果表明:1)大量的说话人的训练数据集显著提升文本无关的说话人确认系统;2)DNN 嵌入对时长鲁棒,适用于短时语音段的说话人特征提取;3)DNN 嵌入与 i-vector 在得分上是互补的。

方法

论文介绍了两种文本无关的说话人确认方法,其中 i-vector 系统作为基准系统,端到端系统是提出的方法:

  1. i-vector 系统:

    • 模型:输入(60-d) ↦ \mapsto UBM(4096-c) ↦ \mapsto i-vector 提取器(600-d) ↦ \mapsto PLDA
    • 输入:共 60 维,20 MFCC + Delta + Acceleration,25 ms 帧长,平均归一化,3s滑窗,基于GMM的VAD
    • UBM:4096个全方差 GMM 成分
    • i-vector:600 维,中心化,长度归一化
    • PLDA:剪切的训练数据,开始的1-20s,短时语音训练(1-20s)或者混合时长(增加 full)的训练
  2. 端到端系统

    • 模型:输入(180-d) ↦ \mapsto 端到端 DNN

      image-20200311190941519
    • 输入:共 180 维,20 MFCC,25 ms 帧长,滑窗 3s 平均归一化,9 帧被拼接在一起,拼接后,执行与 i-vector 系统相同的 VAD

    • 端到端 DNN

      • 结构:4 隐藏层 + 时间池化层 + 线性层,输出嵌入 x;激活函数采用 network-in-network (NIN),共6,700,000 变量

      • 独立变量:对称矩阵 S、补偿 b,与输入无关

      • 优化目标:

        E = − ∑ x,y ∈ P same ln ⁡ ( P r ( x,y ) ) − K ∑ x,y ∈ P diff ln ⁡ ( 1 − P r ( x,y ) ) E=-\sum_{\textbf{x,y}\in P_{\text{same}}}\ln(Pr(\textbf{x,y}))-K\sum_{\textbf{x,y}\in P_{\text{diff}}}\ln(1-Pr(\textbf{x,y})) E=x,yPsameln(Pr(x,y))Kx,yPdiffln(1Pr(x,y))

        P r ( x,y ) = 1 1 + e − L ( x,y ) Pr(\textbf{x,y})=\frac{1}{1+e^{-L(\textbf{x,y})}} Pr(x,y)=1+eL(x,y)1

        L ( x,y ) = x T y − x T Sx − y T Sy + b L(\textbf{x,y})=\textbf{x}^T\textbf{y}-\textbf{x}^T\textbf{S}\textbf{x}-\textbf{y}^T\textbf{S}\textbf{y}+b L(x,y)=xTyxTSxyTSy+b

        其中 xy 是说话人嵌入, P same P_{\text{same}} Psame P diff P_{\text{diff}} Pdiff 分别表示成对的相同说话人和成对的不同说话人的数据集, K K K 用来权衡 P same P_{\text{same}} Psame P diff P_{\text{diff}} Pdiff 比重,因为 P same P_{\text{same}} Psame 一般少于 P diff P_{\text{diff}} Pdiff

      • 相似度计算: L ( x,y ) L(\textbf{x,y}) L(x,y),该公式是类似 PLDA 量化方法

      • 训练策略:训练策略包含 xy 配对的方法和训练步骤,训练步骤分两部:

        1. 2 epochs 长时语音(10-30 s),
        2. 2 epochs 短时(1-20 s)或长时(1-30 s)语音。

        备注:xy 配对的方法有些复杂,不太懂。

      • 说话人嵌入:30s 以内语音段,注册嵌入采用平均多个语音段的嵌入

数据集

论文采用的数据集是 8kHz 的美式英语电话语音,其中训练集的说话人与评测集的说话人之间没有重叠的,而且测试语音段通过截断前 T 秒,并经过了基于GMM的VAD来判断是否是语音。数据集的设计主要是针对说话人规模和语音时长。

表1. 数据统计结果
数据集/统计信息说话人数量记录数人均记录数平均时长(s)
5,000 人的训练集(train5k)5,00025,0004.9381
15,000 人的训练集(train15k)15,00053,0003.5384
102,000 人的训练集(train102k)102,000226,0002.2291
注册集2,4192,9151.2191
测试集2,4192,41911-92

系统及其结果

论文三种了三种场景:时长鲁棒性、训练数据规模和系统融合,评测指标采用了等误差率(EER/%),其中 ivec 表示 i-vector 系统,dnn 表示端到端 DNN 系统,1-20s 表示训练集的时长不低于 20s,1-30s 表示语音时长不低于 30s,full 表示全长的时长,pool 表示汇总分析(pooled results),即将所有的结果放在一起进行评估,fusion 表示得分融合,即利用均值和方差进行归一化,并叠加在一起。

结果:

  1. 1-20s 的训练效果比较好。
  2. 少量的训练集,i-vector 优于 DNN 系统,尤其是在长时语音。
  3. 大量的说话人有利于文本无关的说话人确认系统。
  4. DNN嵌入对时长变化更加鲁棒,适用于短时语音的说话人特征提取。
表2. 时长鲁棒性与训练数据的关系
1s2s3s5s10s20sfullpool
ivec102k1-20s14.18.76.74.93.73.22.88.5
1-20s+full15.09.47.05.13.83.12.610.0
full16.49.97.35.23.82.82.410.6
dnn102k1-20s12.67.56.04.23.42.62.56.0
1-30s13.88.76.24.63.42.62.46.6
表3. 不同训练数据规模与不同时长的关系
训练集嵌入1s2s3s5s10s20sfullpool
train5kivec14.811.49.07.05.44.43.58.6
dnn17.512.610.78.77.26.46.210.6
train15kivec13.89.07.05.13.93.02.78.0
dnn14.210.78.06.55.44.94.98.3
train105kivec14.18.76.74.93.73.22.88.5
dnn12.67.56.04.23.42.62.56.0
表4. 不同系统与不同时长的关系
系统/时长1s2s3s5s10s20sfullpool
ivec102k14.18.76.74.93.73.22.88.5
dnn102k12.67.56.04.23.42.62.56.0
fusion10.26.14.33.42.41.91.65.3

参考文献

[1] Snyder D, Ghahremani P, Povey D, et al. Deep neural network-based speaker embeddings for end-to-end speaker verification. 2016 IEEE Workshop on Spoken Language Technology, SLT 2016 - Proceedings[C]. 2017: 165–170.
[2] Ghahremani P, Manohar V, Povey D, et al. Acoustic modelling from the signal domain using CNNs. Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH, 2016, 08-12-September-2016(2012): 3434–3438.


作者信息:

CSDN:https://blog.csdn.net/i_love_home?viewmode=contents

Github:https://github.com/mechanicalsea

2019级同济大学博士研究生 王瑞 rwang@tongji.edu.cn

研究方向:说话人识别、说话人分离

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值