D-Vector 小型的文本相关说话人确认系统的深度神经网络

D-Vector 小型的文本相关说话人确认系统的深度神经网络

论文:Variani E, Lei X, McDermott E, et al. Deep neural networks for small footprint text-dependent speaker verification. ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings[C]. 2014.

D-Vector 基于的猜想(hypothesis):训练之后的 DNN,它的最后的隐藏层输出已经学到了紧凑的说话人表示,能够表示未见的说话人。

D-Vector 使用最后的隐藏层的原因:

  1. 相对于输出层的规模小,减少运算时间;

  2. 对未见的说话人有更好的泛化能力。

摘要

文本无关的说话人确认系统是使用固定文本或者提示词的声纹验证系统。小型(Small Footpring)系统意味着系统的计算量与规模是相对较小的,例如 600,000 参数的深度神经网络(Deep Neural Network, DNN)。E. Variani 提出了一种 DNN 嵌入的方法——d-vector。D-Vector 来自 DNN 最后的隐藏层,表示特定语音段上的说话人特性。结果表明:在无噪声和有噪声的场景中,1)d-vector 与 i-vector 性能相当,2)d-vector 与 i-vector 的融合系统优于 i-vector,3)d-vector 对噪声更加鲁棒,4)低错误拒绝下,d-vector 优于 i-vector。

方法

论文中对比了 i-vector 系统与 d-vector 系统在无噪声场景和有噪声场景的性能,两个系统如下:

  1. i-vector 系统

    • 模型:输入 ↦ \mapsto UBM ↦ \mapsto T ↦ \mapsto PLDA
    • 输入:共 39 维,13 感知线性预测系数(PLP) + Δ \Delta Δ + Δ Δ \Delta\Delta ΔΔ
    • UBM:三种高斯成分数量的 GMM,分别是 1024、256 与 128,训练过程使用 7 次 EM 迭代
    • T:三种维度 i-vector,分别是 300、200 与 100,训练过程采用 PCA 初始化,10 次 EM 迭代
    • PLDA: LDA ↦ \mapsto PLDA ↦ \mapsto t-norm,其中 LDA 两种维度,分别是 200 与 100
  2. d-vector 系统

    • 模型:输入 ↦ \mapsto Maxout DNN ↦ \mapsto Cosine

      d-vector
    • 输入:共 40 维,共 40 帧,具体地,40 维对数滤波器池能量特征(log filterbank energy features),左侧 30 帧,右侧 10 帧,

    • Maxout DNN:共约 600K 参数,4 个隐藏层,256 ↦ \mapsto 256 ↦ \mapsto 256(dropout, 0.5) ↦ \mapsto 256(dropout, 0.5),使用 ReLU 激活函数,池化单元 2,输出单元 496(即开发数据的说话人数)

      • 训练策略:DistBelief 框架,学习率 1e-3 以 5M 步进行 0.1 指数衰减
      • d-vector:DNN 最后的隐藏层的输出,进行 L2 归一化,在对该语音段( O s j O_{s_j} Osj)下的所有观测( o J o_J oJ)的进行累加
    • Cosine:余弦函数 ↦ \mapsto t-norm

数据集

论文使用 646 人的 “ok google” 用于训练和测试:

  • 训练集是随机选择的 496 人,每个人拥有约 60 -130 语音段。
  • 评测集是其余 150 人,每个人前 20 段语音用作注册,其余用作测试,默认情况下前 4 段注册语音用于提取说话人模型。评测数据的 1/150 是 target trials,共 12750 trials。
  • 噪声数据:10 dB 咖啡厅噪声仅加入注册数据与测试数据。

数据的描述:

  • 特定说话人 s s s 的一系列语音段 X s = { O s 1 , O s 2 , … , O s n } X_s=\{O_{s_1},O_{s_2},\dots,O_{s_n}\} Xs={Os1,Os2,,Osn}
  • 语音段由一系列观测组成 O s i = { o 1 , o 2 , … , o m } O_{s_i}=\{o_1,o_2,\dots,o_m\} Osi={o1,o2,,om},每个观测是指某一帧信号。

系统及其结果

论文主要讨论了 i-vector 系统、d-vector 系统与两者的融合,实验包含四方面:

  1. i-vector 系统的参数量与性能的关系(表1):减少参数量对 i-vector 系统的影响并不显著,最小的 i-vector 是 100 维 i-vector + 100 维 LDA,540K 参数。
  2. d-vector 系统性能:d-vector柱状图分析表明该系统原始的得分是 heavy-tailed 分布的,这意味着需要设计适用于 d-vector 得分的归一化方法。
  3. 注册语音段数量与性能的关系(表2):注册语音量的增加提高 i-vector 系统与 d-vector 系统的性能,提高的趋势相似。
  4. 噪声鲁棒性:噪声场景下,2% 或者更低错误拒绝概率,d-vector 的性能优于 i-vector。
  5. 系统融合:是指 i-vector 系统与 d-vector 系统的得分相加,其性能优于 i-vector 与 d-vector。
表1. i-vector 系统的参数量与性能的关系
高斯成分数i-vector 维度LDA 维度参数数量原始 EERt-norm EER
102430020012,2M2.92%2.29%
2562001002.1M3.11%2.92%
128100100540K3.50%2.83%
表2. 不同注册语音数量与系统性能的关系
系统注册语音的数量
481220
i-vector2.83%2.06%1.64%1.21%
d-vector4.54%3.21%2.64%2.00%

参考文献

[1] Auckenthaler R, Carey M, Lloyd-Thomas H. Score Normalization for Text-Independent Speaker Verification Systems. Digital Signal Processing, 2000, 10(1): 42–54.
[2] Goodfellow I J, Warde-Farley D, Mirza M, et al. Maxout networks. 30th International Conference on Machine Learning, ICML 2013, 2013(PART 3): 2356–2364.
[3] Variani E, Lei X, McDermott E, et al. Deep neural networks for small footprint text-dependent speaker verification. ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. 2014.


作者信息:

CSDN:https://blog.csdn.net/i_love_home?viewmode=contents

Github:https://github.com/mechanicalsea

2019级同济大学博士研究生 王瑞 rwang@tongji.edu.cn

研究方向:说话人识别、说话人分离

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值