![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
语音识别
海上机械师
同济大学计算机系在读博士研究生,研究兴趣是说话人识别及其相关应用。
博客主要涉及机器学习与深度学习方面的算法介绍,Python、Java 与 Matlab 的编程实现。
展开
-
可解释的卷积滤波器 SincNet
2018 年以后,SincNet 具有更快的收敛速度、更佳的表示能力和更好的可解释性,但也暴露出其对抗攻击的脆弱性。笔者详细分析 SincNet 四部分:设计原理、可解释性、无监督学习应用和对抗攻击。考虑到 SincNet 在频域方面的物理意义,它将为语音处理应用的研发提供极大的便利,例如说话人识别与语音识别。原创 2020-05-22 22:35:02 · 4778 阅读 · 10 评论 -
SincNet 原始波形的说话人识别
说话人识别任务中,MFCC、FBANK、PLP 等频谱特征需要设定多个超参,例如帧长、帧间距、帧窗口类型和频谱个数。从原始模型直接学习说话人嵌入的方法采用数据驱动的方式直接学习滤波器参数。M. Ravanelli 提出 SincNet,该网络的第一层卷积层的参数化带通滤波器引入了数字信号的特定波形约束,例如 Hamming 窗。SincNet 能够很好地学到窄带说话人特性,例如音调和共振峰。实验表明:在 TIMIT 和 Librispeech 语料上,SincNet 收敛速度更快、计算量更好。原创 2020-03-19 23:09:55 · 3896 阅读 · 3 评论 -
PyTorch-Kaldi 深度学习语音识别开源软件
Kaldi 是 C++ 实现的语音识别软件,缺少像 Python 的简单与灵活。PyTorch-Kaldi 旨在构建 Kaldi 与 PyTorch 之间的联系,充分利用 Kaldi 高效性与 PyTorch 灵活性。PyTorch-Kaldi 除了建立 Kaldi 与 PyTorch 之间的联系,还嵌入了非常有用的功能,用于开发最新的语音识别器。程序易于加入自定义的声学模型,包含初始化方法和预执行的模型。PyTorch-Kaldi 支持多个特征和标签流、神经网络组合的建模。程序已公开发布在 Github。原创 2020-03-18 14:46:36 · 2701 阅读 · 2 评论