PyTorch频谱特征工具 spectra_torch

最新推荐文章于 2024-07-16 16:44:27 发布

海上机械师

最新推荐文章于 2024-07-16 16:44:27 发布

阅读量2.6k

点赞数 1

分类专栏：说话人识别 Python 文章标签： mfcc vad pytorch 语音识别说话人识别

本文链接：https://blog.csdn.net/i_love_home/article/details/104704815

版权

说话人识别同时被 2 个专栏收录

13 篇文章 7 订阅

订阅专栏

Python

7 篇文章 0 订阅

订阅专栏

spectra_torch

链接：https://github.com/mechanicalsea/spectra

摘要

Github 提供了 C++ 版本和 Python Numpy 版本的语音频谱特征提取工具，给深度模型设计的复现提出了挑战。深度学习给语音识别提供的最新的解决方案，建立一个深度学习框架的语音频谱特征提取工具能够提供更加高效的模型构建与开发策略。spectra_torch 提供了 PyTorch 版本的语音频谱特征提取方法，例如 MFCC、滤波器组和基于能量的 VAD。测试表明：PyTorch 版本的 MFCC 提取效率优于 Numpy 版本的 MFCC，具体地说，MacOS CPU 计算机上快 0.1s/MFCC。

安装方法

spectra_torch 提供了 Pypi 安装方法：pip install --upgrade spectra-torch
必需的工具包：torch 和 torchaudio

功能

梅尔频谱倒谱系数 Mel Frequency Cepstral Coefficients (MFCC)
滤波器组 Filterbank Energies
指数滤波器组 Log Filterbank Energies
声音动态检测 Voice Activity Detection (VAD)

使用方法

import spectra_torch.base as mm
import torchaudio as ta

sig, sr = ta.load_wav('singing-01-003.wav')
sig = sig[0]
mfcc = mm.mfcc(sig, sr) # MFCC
starts, detection = mm.is_speech(sig, sr, speechlen=1) # VAD

欢迎大家的讨论，欢迎大家的建议。

参考

[1] spectra_torch:https://github.com/marsbroshok/VAD-python
[2] James Lyons et al. (2020, January 14). jameslyons/python_speech_features: release v0.6.1 (Version 0.6.1). Zenodo. http://doi.org/10.5281/zenodo.3607820
[3] VAD-python: https://github.com/jameslyons/python_speech_features

海上机械师

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
PyTorch频谱特征工具 spectra_torch

spectra_torch 提供了 PyTorch 版本的语音频谱特征提取方法，例如 MFCC、滤波器组和基于能量的 VAD。测试表明：PyTorch 版本的 MFCC 提取效率优于 Numpy 版本的 MFCC，具体地说，MacOS CPU 计算机上快 0.1s/MFCC。
复制链接

扫一扫

专栏目录