海上机械师-CSDN博客

原创 VoxSRC 2020 基准模型和开发工具

VoxSRC 2020 说话人识别挑战赛1. 固定训练集的说话人识别2. 开放数据集的说话人识别3. 自监督的说话人识别4. 语音分离任务

2020-07-30 20:26:11 1519

原创可解释的卷积滤波器 SincNet

2018 年以后，SincNet 具有更快的收敛速度、更佳的表示能力和更好的可解释性，但也暴露出其对抗攻击的脆弱性。笔者详细分析 SincNet 四部分：设计原理、可解释性、无监督学习应用和对抗攻击。考虑到 SincNet 在频域方面的物理意义，它将为语音处理应用的研发提供极大的便利，例如说话人识别与语音识别。

2020-05-22 22:35:02 4822 10

VoxCeleb 说话人识别挑战“Speaker recognition in the wild” 是一项非常具有挑战性的任务，需要面对语音中各种不确定性，例如复杂的噪声、不同程度的背景音、短促的笑声等情况。针对这一问题，可以在 VoxSRC 提供的语料及其各种模型的实验结果，寻找合适的语音段编码器，设计合理的度量学习模型，分析造成性能降低的数据因素，都将成为提升识别性能的潜在解决方案。本文就 VoxSRC 提供的实验结果和相关的论文进行归纳、总结与展望。

2020-05-11 22:48:39 3376 4

原创 Chapter 9. Simulink系统仿真

《MATLAB程序设计与应用》第二版刘卫国习题解答Chapter 9. Simulink系统仿真1. Simulink仿真基础课堂讨论利用Simulink对函数曲线进行仿真2. 子系统的创建与封装课堂讨论画波形图3. S 函数的设计与应用课堂讨论设计 S 函数4. Simulink 仿真应用举例课堂讨论二阶微分方程建模与仿真

2020-05-04 14:47:01 3513

原创 Chapter 8. MATLAB图形用户界面设计

《MATLAB程序设计与应用》第二版刘卫国 Chapter 8. MATLAB图形用户界面设计1. 图形窗口与坐标轴2. 曲线与曲面对象3. 图形用户界面设计方法4. 用户界面设计工具5. APP设计工具6. 图形用户界面应用举例

2020-05-04 14:14:49 2813

原创对抗判别式领域自适应

领域自适应技术在不匹配说话人识别的问题中非常有效。这篇文章是图像领域的判别式对抗自适应方法，也同样可以迁移至说话人识别领域。作者提出了对抗自适应方法的广义框架，进而在此基础上，提出了对抗判别式领域自适应方法 (ADDA)，该方法涉及判别式模型、无共享权重和 GAN 损失。提出的方法在三个任务上进行测试：无监督领域自适应基准任务 - 数字(MNIST、USPS 和 SVHN)、跨模态的自适应学习任务(NYUD)和跨视觉域的自适应学习任务(标准 Office - amazon, webcam, dslr)。

2020-04-20 17:04:05 2790

原创跨信道文本无关说话人识别的信道对抗训练

目的：研究跨信道的文本无关说话人识别，换句话说，cross-channel speaker recognition。数据与方法：提出了信道对抗训练的方法，CAT，一种领域对抗训练。语料包含 2 个训练集、1 个验证集和 1 个评估数据，涉及两种信道，即 Speex 与 SILK 软件，测试数据的人数超过 5 万。结果：相比较 CNN 方法，CAT 提升了 22.6 % Top 1 召回率；CAT 在 Top 10 召回率上高达 85 %。结论：领域判别子网络为 CAT 贡献显著的性能提升效果。

2020-04-07 22:15:29 1670 4

原创 SincNet 原始波形的说话人识别

说话人识别任务中，MFCC、FBANK、PLP 等频谱特征需要设定多个超参，例如帧长、帧间距、帧窗口类型和频谱个数。从原始模型直接学习说话人嵌入的方法采用数据驱动的方式直接学习滤波器参数。M. Ravanelli 提出 SincNet，该网络的第一层卷积层的参数化带通滤波器引入了数字信号的特定波形约束，例如 Hamming 窗。SincNet 能够很好地学到窄带说话人特性，例如音调和共振峰。实验表明：在 TIMIT 和 Librispeech 语料上，SincNet 收敛速度更快、计算量更好。

2020-03-19 23:09:55 3918 3

原创 PyTorch-Kaldi 深度学习语音识别开源软件

Kaldi 是 C++ 实现的语音识别软件，缺少像 Python 的简单与灵活。PyTorch-Kaldi 旨在构建 Kaldi 与 PyTorch 之间的联系，充分利用 Kaldi 高效性与 PyTorch 灵活性。PyTorch-Kaldi 除了建立 Kaldi 与 PyTorch 之间的联系，还嵌入了非常有用的功能，用于开发最新的语音识别器。程序易于加入自定义的声学模型，包含初始化方法和预执行的模型。PyTorch-Kaldi 支持多个特征和标签流、神经网络组合的建模。程序已公开发布在 Github。

2020-03-18 14:46:36 2707 2

原创端到端的文本相关说话人确认

在大数据的文本相关说话人确认中，G. Heigold 提出了一种端到端的系统，该系统将一段测试语音和一组注册语音进行匹配，直接投影为确认的得分。该方法由单个神经网络结构组成，采用联合优化的方式训练系统各个组成部分，包括确认评估的过程。在 "OK Google" 的测试场景中，提出的端到端方法优于 i-vector 系统和 d-vector，并实现了 EER 从 3% 到 2% 的提升。结果还表明：1）在说话人确认任务中，段层次的特征优于帧层次的特征；2）RNN 结构能够进一步达到 1.5% EER。

2020-03-16 16:10:35 906

原创开集文本无关的说话人识别

开集文本无关的说话人识别开集文本无关的说话人识别旨在利用语音技术来检测某一语音是否来自系统中的已注册人员，并确定是来自其中的哪一名说话人。该任务也可以称之为多目标说话人检测。相应的解决方法包含两个步骤：闭集鉴别与检测。该文章总结了现阶段该任务的 3 类方法和最新的相关数据集 MCE 2018。结果表明：1）随着已注册数量的增加，Top-1 性能下降的程度高于 Top-K 性能下降的程度；2）系统容易出现过拟合训练集与验证集的现象；3）基于 i-vector 的系统能够通过嵌入增强/补偿方法改善 40 %

2020-03-13 22:14:46 931

原创 D-Vector 小型的文本相关说话人确认系统的深度神经网络

D-Vector 小型的文本相关说话人确认系统的深度神经网络文本无关的说话人确认系统是使用固定文本或者提示词的声纹验证系统。小型(Small Footpring)系统意味着系统的计算量与规模是相对较小的，例如 600,000 参数的深度神经网络(Deep Neural Network, DNN)。E. Variani 提出了一种 DNN 嵌入的方法——d-vector。D-Vector 来自 DNN 最后的隐藏层，表示特定语音段上的说话人特性。

2020-03-12 15:27:21 1859 2

原创端到端的文本无关说话人确认的深度神经网络嵌入

端到端的文本无关说话人确认的深度神经网络嵌入在文本无关的说话人确认中，D. Snyder 研究了一种深度神经网络(Deep Neural Network, DNN)的端到端系统。该系统由一个 DNN 组成，该模型将长度可变的语音投影为说话人嵌入，进而进行相似度计算。端到端系统的最大特点是相似度计算公式整合在优化目标中。结果表明：1）大量的说话人的训练数据集显著提升文本无关的说话人确认系统；2）DNN 嵌入对时长鲁棒，适用于短时语音段的说话人特征提取；3）DNN 嵌入与 i-vector 在得分上是互补的。

2020-03-11 21:23:00 1663 1

原创文本无关说话人确认的深度神经网络嵌入

在说话人无关的说话人确认系统中，可以通过神经网络的时间池化层(Temporal Pooling Layer)来聚合说话人语音，以捕获长期的的说话人特征，从而实现长度变化的语音转化为固定维度的说话人嵌入。D. Snyder 提出了一种新的前端-后端说话人确认框架，其中前端模型采用深度神经网络(Deep Neural Network, DNN)提取说话人嵌入，后端模型采用概率判别分析对注册语音和测试语音进行评分计算。

2020-03-11 14:35:28 760 2

原创 X-Vector 数据增益方法

X-Vector 数据增益方法在说话人识别中，DNN 投影可变长度的语音段为固定维度的说话人嵌入，被称之为 x-vector。在已有的研究中，x-vector 比 i-vector 能更好地利用大规模地数据集。然而，收集如此大规模数据是非常困难的。D. Snyder 提出了一种高效的数据增益的方法，该方法包含增加噪声和混响的技术，以增加训练数据和改善系统鲁棒性。实验表明：以 SITW 和 SRE16 Cantonese (广东话) 为评测数据集，1）数据增益对 i-vector 提取器无收益，2）数据增

2020-03-09 18:43:58 1410

原创 PyTorch频谱特征工具 spectra_torch

spectra_torch 提供了 PyTorch 版本的语音频谱特征提取方法，例如 MFCC、滤波器组和基于能量的 VAD。测试表明：PyTorch 版本的 MFCC 提取效率优于 Numpy 版本的 MFCC，具体地说，MacOS CPU 计算机上快 0.1s/MFCC。

2020-03-06 21:51:32 2663 2

原创 CN-Celeb 无约束条件说话人识别的中文语音数据集

CN-Celeb 无约束条件说话人识别的中文语音数据集目的：研究无约束条件下的自动说话人识别，换句话说，speaker recognition in the wild。数据与方法：建立了CN-Celeb数据集，该数据集包含130,000条语音段，1000位中国名人，11种语音体裁，短时语音段，共计274小时。CN-Celeb在i-vector/PLDA与x-vector/PLDA进行评测，并与VoxCeleb数据对比。

2020-02-24 22:59:34 9249 6

原创 2019 年中国研究生数学建模竞赛 F 题

2019 年中国研究生数学建模竞赛 F 题题目：多约束条件下飞行器航迹快速规划摘要：针对飞行器航迹规划问题，考虑误差校正点约束与飞行转弯半径约束，设计满足飞行规则与约束的航迹规划路径，优化航迹长度最与经过的校正点次数。该问题属于多目标优化问题，将经过的校正点次数转化为约束，从而求解航迹长度的单目标优化问题。问题中的累积误差与飞行器前一位置有关，问题中的转弯半径与进入校正点的航向角有关，且这两...

2019-09-23 12:04:40 6769 2

原创 Foundations : Machine Learning Specialization of University of Washington

Congratulation for completing my course, Machine Learning Specialization of University of Washington.

2016-05-21 22:30:15 1063

原创 Facial keypoints detection Kaggle 竞赛系列

Facial keypoints detection该题主要任务是检测面部关键点位置， Detect the location of keypoints on face images问题表述在本问题中，要求计算面部关键点的位置，即关键点在图片中的百分比坐标。因此该问题的机理就是 [0, 1] 范围内的数值拟合，当然了，这也是一个多输出的拟合和你问题。

2016-04-03 20:38:55 4177 11

原创 Titanic Kaggle 竞赛系列

Titanic: Machine Learning from DisasterKaggle 竞赛中的练习题Accuracy: 0.779900-1 分类：根据乘客类型，姓名，性别，年龄，兄弟个数，父子个数，船票，票价，船舱，港口判定乘客是船难中存活下来。数据处理可采用 pandas 工具包，分类器可采用 scikit-learn 工具包。

2016-03-09 17:23:28 1548 1

原创 Digit Recognizer Kaggle 竞赛系列

手写数字识别1. KNN 准确率 0.83886，KNN 算法预测花费时间很长2. IPCA + KNN 准确率 0.84614，IPCA 降维可能会超内存3. IPCA + RandomForest 准确率 0.84614，RandomForest 随机森林的效率比 KNN 高4. RandomForest，准确率 0.96443，深度学习中的卷积神经网络能达到 0.99+ 准确率的效果

2016-03-05 11:02:08 1335

原创机器学习之初生牛犊

多元线性回归 + 逻辑回归 + 神经网络的表达式 + 神经网络的学习 + 机器学习系统设计与应用机器学习的建议 + 支持向量机 SVM + 无监督学习与维度约减 + 异常检测与推荐系统 + 大规模机器学习 + 应用实例：照片识别

2016-03-04 22:04:50 815

原创应用实例：照片识别机器学习基础(10)

应用实例本文主要讲了有关图像识别项目相关的介绍，仅仅设计简单的机器学习系统设计，包含系统流水线、上限分析、人工数据合成。当然，文字识别与人脸识别的简单系统由详细的介绍，可以用以初步的了解。Python, Java, MATLAB 都有机器学习的工具箱。

2016-03-04 21:42:49 1739

原创大规模机器学习机器学习基础(9)

大规模机器学习大规模机器学习面上海量数据的要求，其方法是类似映射化简(SOM)的思路。目前已有的平台有 Hodoop。本文介绍了一些大规模机器学习中会遇到的随机梯度下降法、映射化简的概念，同时在线学习也是一种在海量数据中应运而生的学习模式。

2016-03-04 20:41:37 692

原创异常检测与推荐系统机器学习基础(8)

异常检测异常检测被广泛应用于欺诈检测（例如信用卡被偷事件）。给定大量数据，指出与均值有巨大差异的点。例如，在制造业中检测缺陷与异常。高斯分布对数据建模往往会很有用。本模块涉及“推荐系统”（Amazon, Netflix, Apple 等公司用它来向用户推荐产品）。推荐系统（Recommender systems）寻找用户与产品间的交互模式从而生成推荐建议。该课程介绍了推荐算法，例如

2016-03-01 14:51:35 2184

原创无监督学习与维度约减机器学习基础(7)

这里介绍了无监督学习与纬度约减的基础知识。无监督学习部分：1 数据类型：无标签2 K-means 以及代价函数与算法3 K-means 中参数 K 的选择维度约减（降维）部分：1 主成分分析的概念、数学表达与求解方法2 SVD 的降维应用

2016-02-28 11:51:37 1661

原创支持向量机 SVM 机器学习基础(6)

支持向量机 Support vector machines SVM介绍了支持向量机的代价函数、核函数与求解算法。同时，不同的监督学习算法的使用场合，也做了初步的介绍。同时着重介绍了高斯核函数的计算方法。在本文，我提供了 SVM 导论的下载链接与 svm 软件包的下载链接。希望大家的一起交流，一起成长。

2016-02-27 20:47:09 1343

原创机器学习系统设计与应用机器学习的建议机器学习基础(5)

关于应用机器学习的建议与设计机器学习系统。提高机器学习系统的性能，学习评估方法是一种有效的解决方案，其中包含统计、分析错误分类数据，学习曲线讨论偏差与方差，讨论正则化参数和偏差与方差的关系等。构建一个优秀的机器学习系统，必须能够处理有偏斜的数据，以增加系统的有效性与鲁棒性，而数值评估的误差分析，查准率与召回率的评估是有效的办法。大数据是目前热议的话题，的确大数据在某些机器学习系统中有显著的作用。

2016-02-23 20:38:49 1257

原创神经网络的学习机器学习基础(4)

神经网络包含前向传播与反向传播。1. 神经网络的代价函数2. 神经网络的反向传播表达与算法3. 神经网络的应用

2016-02-19 20:38:45 1304

原创神经网络的表达式机器学习基础(3)

神经网络可应对复杂的非线性分类。非线性假设当特征量多大时，特征的非线性组合方法种类的数量会非常庞大，可能对造成过拟合与极大的计算复杂度的问题。

2016-02-19 19:45:08 3315

原创逻辑回归机器学习基础(2)

主要任务：逻辑回归（logistic regression）分类正则化（regularization），避免过拟合（over fitting）1. 逻辑回归的表达式与求解方法2. 应用逻辑回归到多类分类上3. 应用正则化的方法避免过拟合

2016-01-29 17:35:55 902

原创多元线性回归机器学习基础(1)

机器学习基础之多元线性回归描述了假设函数、求解方法（梯度法和正规方程）、基于Octave/MATLAB的向量化表达方法。

2016-01-25 15:23:16 1346

原创数值积分

基于 MATLAB 平台采用复化梯形公式和复化辛普森 Simpson 公式，已经龙贝格 Romberg 法求解数值积分。熟悉掌握复化梯形公式和复化Simpson公式，应用这两个公式求定积分的近似解；会编写用龙贝格算法求定积分的程序。

2015-12-10 11:09:02 1512 1

原创最小二乘法及其应用

基于 MATLAB 实验平台的正规方程最小二乘问题求解了解最小二乘法的基本原理；了解超定方程组的最小二乘解法；使用最小二乘法解决实际问题；

2015-12-10 10:47:35 3588

原创基于有限元方法的弹簧系统位移求解

文本研究了弹簧系统位移的有限元方法求解流程。本文严格按照有限元方法中单元离散化、单元刚度方程构建、刚度方程组装、边界条件处理、求解和后处理 6 个步骤，最终得出了各弹簧位移的解析解和数值解。

2015-12-05 20:38:51 4188

原创双弹簧系统中最小势能问题的基础优化算法研究

本文针对双弹簧系统中最小势能问题，通过数值实验的方法，研究了随机搜索、Powell法、共轭梯度法和牛顿法对非约束优化问题的求解效果，得出了牛顿法具有较少的计算复杂度，Powell法具有最小的迭代次数的结论。在研究中，总结了四种算法的计算特性，为无约束优化问题求的算法选择提供了一定的指导方案。 5 结论

2015-12-05 20:23:47 1105

原创圆柱形管道流量的多元线性回归分析

本文采用多元线性回归求解圆柱形管道流量的非线性模型。首先，本文将圆柱形管道流量的非线性模型通过取对数的方法线性化，然后基于多元线性回归方法建立代价函数，并采用正规方程推导了参数的解析解，同时，我们还利用梯度下降法迭代求解参数，两种方法都获得了较好的结果。此外，我们尝试了实验数据的均值归一化，并讨论了步长对梯度下降法迭代求解的影响。

2015-12-05 20:00:03 772

原创管道摩擦系数数值求解的基础算法研究

本文基于二分法、牛顿法、割线法和抛物线法四种数值方程求根方法，求解管道摩擦系数，结果为2.89678E-2，并通过对比各算法的实际误差、迭代次数和计算复杂度，分析了各算法在管道摩擦系数求解中的算法特性，得出牛顿迭代法是相对有效高效的算法，同时验证了迭代初始值对算法收敛性的影响。

2015-12-05 19:42:15 1482 1

原创 2015年研究生数模[D]的后记

昨天 2015.11.21 九点多的时候，讨论组的小伙伴们又活跃起来了，小岳岳同学突然告诉我数模的成绩出来了，然后表情是这样的，然后表情又是这样的，说成绩的时候居然是这样的，我的反应也变成了这样把（公示）成绩贴出来之后，他居然是这样的，然后我的感觉也变成了这样，之后小伙伴们都冒出来了——__--~~---`-`--_`--__``___`___`````

2015-11-22 09:29:52 918