深度学习_海上机械师的博客-CSDN博客

深度学习

关注

关注数：文章数：6 文章阅读量：29527 文章收藏量：124

作者: 海上机械师

同济大学计算机系在读博士研究生，研究兴趣是说话人识别及其相关应用。博客主要涉及机器学习与深度学习方面的算法介绍，Python、Java 与 Matlab 的编程实现。

展开

专栏收录文章

可解释的卷积滤波器 SincNet

2018 年以后，SincNet 具有更快的收敛速度、更佳的表示能力和更好的可解释性，但也暴露出其对抗攻击的脆弱性。笔者详细分析 SincNet 四部分：设计原理、可解释性、无监督学习应用和对抗攻击。考虑到 SincNet 在频域方面的物理意义，它将为语音处理应用的研发提供极大的便利，例如说话人识别与语音识别。

原创 2020-05-22 22:35:02 · 6150 阅读 · 10 评论
对抗判别式领域自适应

领域自适应技术在不匹配说话人识别的问题中非常有效。这篇文章是图像领域的判别式对抗自适应方法，也同样可以迁移至说话人识别领域。作者提出了对抗自适应方法的广义框架，进而在此基础上，提出了对抗判别式领域自适应方法 (ADDA)，该方法涉及判别式模型、无共享权重和 GAN 损失。提出的方法在三个任务上进行测试：无监督领域自适应基准任务 - 数字(MNIST、USPS 和 SVHN)、跨模态的自适应学习任务(NYUD)和跨视觉域的自适应学习任务(标准 Office - amazon, webcam, dslr)。

原创 2020-04-20 17:04:05 · 3391 阅读 · 0 评论
SincNet 原始波形的说话人识别

说话人识别任务中，MFCC、FBANK、PLP 等频谱特征需要设定多个超参，例如帧长、帧间距、帧窗口类型和频谱个数。从原始模型直接学习说话人嵌入的方法采用数据驱动的方式直接学习滤波器参数。M. Ravanelli 提出 SincNet，该网络的第一层卷积层的参数化带通滤波器引入了数字信号的特定波形约束，例如 Hamming 窗。SincNet 能够很好地学到窄带说话人特性，例如音调和共振峰。实验表明：在 TIMIT 和 Librispeech 语料上，SincNet 收敛速度更快、计算量更好。

原创 2020-03-19 23:09:55 · 4593 阅读 · 3 评论
PyTorch-Kaldi 深度学习语音识别开源软件

Kaldi 是 C++ 实现的语音识别软件，缺少像 Python 的简单与灵活。PyTorch-Kaldi 旨在构建 Kaldi 与 PyTorch 之间的联系，充分利用 Kaldi 高效性与 PyTorch 灵活性。PyTorch-Kaldi 除了建立 Kaldi 与 PyTorch 之间的联系，还嵌入了非常有用的功能，用于开发最新的语音识别器。程序易于加入自定义的声学模型，包含初始化方法和预执行的模型。PyTorch-Kaldi 支持多个特征和标签流、神经网络组合的建模。程序已公开发布在 Github。

原创 2020-03-18 14:46:36 · 2986 阅读 · 2 评论
端到端的文本相关说话人确认

在大数据的文本相关说话人确认中，G. Heigold 提出了一种端到端的系统，该系统将一段测试语音和一组注册语音进行匹配，直接投影为确认的得分。该方法由单个神经网络结构组成，采用联合优化的方式训练系统各个组成部分，包括确认评估的过程。在 "OK Google" 的测试场景中，提出的端到端方法优于 i-vector 系统和 d-vector，并实现了 EER 从 3% 到 2% 的提升。结果还表明：1）在说话人确认任务中，段层次的特征优于帧层次的特征；2）RNN 结构能够进一步达到 1.5% EER。

原创 2020-03-16 16:10:35 · 1119 阅读 · 0 评论
CN-Celeb 无约束条件说话人识别的中文语音数据集

CN-Celeb 无约束条件说话人识别的中文语音数据集目的：研究无约束条件下的自动说话人识别，换句话说，speaker recognition in the wild。数据与方法：建立了CN-Celeb数据集，该数据集包含130,000条语音段，1000位中国名人，11种语音体裁，短时语音段，共计274小时。CN-Celeb在i-vector/PLDA与x-vector/PLDA进行评测，并与VoxCeleb数据对比。

原创 2020-02-24 22:59:34 · 11289 阅读 · 6 评论

深度学习

作者: 海上机械师

可解释的卷积滤波器 SincNet

对抗判别式领域自适应

SincNet 原始波形的说话人识别

PyTorch-Kaldi 深度学习语音识别开源软件

端到端的文本相关说话人确认

CN-Celeb 无约束条件说话人识别的中文语音数据集