![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
说话人识别
海上机械师
同济大学计算机系在读博士研究生,研究兴趣是说话人识别及其相关应用。
博客主要涉及机器学习与深度学习方面的算法介绍,Python、Java 与 Matlab 的编程实现。
展开
-
VoxSRC 2020 基准模型和开发工具
VoxSRC 2020 说话人识别挑战赛1. 固定训练集的说话人识别2. 开放数据集的说话人识别3. 自监督的说话人识别4. 语音分离任务原创 2020-07-30 20:26:11 · 1499 阅读 · 0 评论 -
可解释的卷积滤波器 SincNet
2018 年以后,SincNet 具有更快的收敛速度、更佳的表示能力和更好的可解释性,但也暴露出其对抗攻击的脆弱性。笔者详细分析 SincNet 四部分:设计原理、可解释性、无监督学习应用和对抗攻击。考虑到 SincNet 在频域方面的物理意义,它将为语音处理应用的研发提供极大的便利,例如说话人识别与语音识别。原创 2020-05-22 22:35:02 · 4730 阅读 · 10 评论 -
VoxCeleb 说话人识别挑战
VoxCeleb 说话人识别挑战“Speaker recognition in the wild” 是一项非常具有挑战性的任务,需要面对语音中各种不确定性,例如复杂的噪声、不同程度的背景音、短促的笑声等情况。针对这一问题,可以在 VoxSRC 提供的语料及其各种模型的实验结果,寻找合适的语音段编码器,设计合理的度量学习模型,分析造成性能降低的数据因素,都将成为提升识别性能的潜在解决方案。本文就 VoxSRC 提供的实验结果和相关的论文进行归纳、总结与展望。原创 2020-05-11 22:48:39 · 3350 阅读 · 4 评论 -
跨信道文本无关说话人识别的信道对抗训练
目的:研究跨信道的文本无关说话人识别,换句话说,cross-channel speaker recognition。数据与方法:提出了信道对抗训练的方法,CAT,一种领域对抗训练。语料包含 2 个训练集、1 个验证集和 1 个评估数据,涉及两种信道,即 Speex 与 SILK 软件,测试数据的人数超过 5 万。结果:相比较 CNN 方法,CAT 提升了 22.6 % Top 1 召回率;CAT 在 Top 10 召回率上高达 85 %。结论:领域判别子网络为 CAT 贡献显著的性能提升效果。原创 2020-04-07 22:15:29 · 1658 阅读 · 4 评论 -
SincNet 原始波形的说话人识别
说话人识别任务中,MFCC、FBANK、PLP 等频谱特征需要设定多个超参,例如帧长、帧间距、帧窗口类型和频谱个数。从原始模型直接学习说话人嵌入的方法采用数据驱动的方式直接学习滤波器参数。M. Ravanelli 提出 SincNet,该网络的第一层卷积层的参数化带通滤波器引入了数字信号的特定波形约束,例如 Hamming 窗。SincNet 能够很好地学到窄带说话人特性,例如音调和共振峰。实验表明:在 TIMIT 和 Librispeech 语料上,SincNet 收敛速度更快、计算量更好。原创 2020-03-19 23:09:55 · 3874 阅读 · 3 评论 -
端到端的文本相关说话人确认
在大数据的文本相关说话人确认中,G. Heigold 提出了一种端到端的系统,该系统将一段测试语音和一组注册语音进行匹配,直接投影为确认的得分。该方法由单个神经网络结构组成,采用联合优化的方式训练系统各个组成部分,包括确认评估的过程。在 "OK Google" 的测试场景中,提出的端到端方法优于 i-vector 系统和 d-vector,并实现了 EER 从 3% 到 2% 的提升。结果还表明:1)在说话人确认任务中,段层次的特征优于帧层次的特征;2)RNN 结构能够进一步达到 1.5% EER。原创 2020-03-16 16:10:35 · 894 阅读 · 0 评论 -
开集文本无关的说话人识别
开集文本无关的说话人识别开集文本无关的说话人识别旨在利用语音技术来检测某一语音是否来自系统中的已注册人员,并确定是来自其中的哪一名说话人。该任务也可以称之为多目标说话人检测。相应的解决方法包含两个步骤:闭集鉴别与检测。该文章总结了现阶段该任务的 3 类方法和最新的相关数据集 MCE 2018。结果表明:1)随着已注册数量的增加,Top-1 性能下降的程度高于 Top-K 性能下降的程度;2)系统容易出现过拟合训练集与验证集的现象;3)基于 i-vector 的系统能够通过嵌入增强/补偿方法改善 40 %原创 2020-03-13 22:14:46 · 922 阅读 · 0 评论 -
D-Vector 小型的文本相关说话人确认系统的深度神经网络
D-Vector 小型的文本相关说话人确认系统的深度神经网络文本无关的说话人确认系统是使用固定文本或者提示词的声纹验证系统。小型(Small Footpring)系统意味着系统的计算量与规模是相对较小的,例如 600,000 参数的深度神经网络(Deep Neural Network, DNN)。E. Variani 提出了一种 DNN 嵌入的方法——d-vector。D-Vector 来自 DNN 最后的隐藏层,表示特定语音段上的说话人特性。原创 2020-03-12 15:27:21 · 1844 阅读 · 2 评论 -
端到端的文本无关说话人确认的深度神经网络嵌入
端到端的文本无关说话人确认的深度神经网络嵌入在文本无关的说话人确认中,D. Snyder 研究了一种深度神经网络(Deep Neural Network, DNN)的端到端系统。该系统由一个 DNN 组成,该模型将长度可变的语音投影为说话人嵌入,进而进行相似度计算。端到端系统的最大特点是相似度计算公式整合在优化目标中。结果表明:1)大量的说话人的训练数据集显著提升文本无关的说话人确认系统;2)DNN 嵌入对时长鲁棒,适用于短时语音段的说话人特征提取;3)DNN 嵌入与 i-vector 在得分上是互补的。原创 2020-03-11 21:23:00 · 1634 阅读 · 1 评论 -
文本无关说话人确认的深度神经网络嵌入
在说话人无关的说话人确认系统中,可以通过神经网络的时间池化层(Temporal Pooling Layer)来聚合说话人语音,以捕获长期的的说话人特征,从而实现长度变化的语音转化为固定维度的说话人嵌入。D. Snyder 提出了一种新的前端-后端说话人确认框架,其中前端模型采用深度神经网络(Deep Neural Network, DNN)提取说话人嵌入,后端模型采用概率判别分析对注册语音和测试语音进行评分计算。原创 2020-03-11 14:35:28 · 753 阅读 · 2 评论 -
X-Vector 数据增益方法
X-Vector 数据增益方法在说话人识别中,DNN 投影可变长度的语音段为固定维度的说话人嵌入,被称之为 x-vector。在已有的研究中,x-vector 比 i-vector 能更好地利用大规模地数据集。然而,收集如此大规模数据是非常困难的。D. Snyder 提出了一种高效的数据增益的方法,该方法包含增加噪声和混响的技术,以增加训练数据和改善系统鲁棒性。实验表明:以 SITW 和 SRE16 Cantonese (广东话) 为评测数据集,1)数据增益对 i-vector 提取器无收益,2)数据增原创 2020-03-09 18:43:58 · 1399 阅读 · 0 评论 -
PyTorch频谱特征工具 spectra_torch
spectra_torch 提供了 PyTorch 版本的语音频谱特征提取方法,例如 MFCC、滤波器组和基于能量的 VAD。测试表明:PyTorch 版本的 MFCC 提取效率优于 Numpy 版本的 MFCC,具体地说,MacOS CPU 计算机上快 0.1s/MFCC。原创 2020-03-06 21:51:32 · 2641 阅读 · 2 评论 -
CN-Celeb 无约束条件说话人识别的中文语音数据集
CN-Celeb 无约束条件说话人识别的中文语音数据集目的:研究无约束条件下的自动说话人识别,换句话说,speaker recognition in the wild。数据与方法:建立了CN-Celeb数据集,该数据集包含130,000条语音段,1000位中国名人,11种语音体裁,短时语音段,共计274小时。CN-Celeb在i-vector/PLDA与x-vector/PLDA进行评测,并与VoxCeleb数据对比。原创 2020-02-24 22:59:34 · 9115 阅读 · 6 评论