用python_speech_features提取MFCC的一阶导数和二阶导数的注意事项

最新推荐文章于 2023-08-04 19:24:16 发布

置顶晴天吉日

最新推荐文章于 2023-08-04 19:24:16 发布

阅读量3.2k

点赞数 3

文章标签： python 语音识别机器学习

本文链接：https://blog.csdn.net/weixin_46570773/article/details/122706929

版权

用python_speech_features提取MFCC的一阶导数和二阶导数的注意事项

Note 1：

看了很多网上的提取MFCC一阶导数和二阶导数的程序，发现很多是这样的：

import python_speech_features as psf
import scipy.io.wavfile as wf
fs, data = wf.read('filename.wav')
feat = psf.mfcc(data)
d_feat = psf.delta(feat, 1)
dd_feat = psf.delta(feat, 2)

查阅文献和资料¹后，提取MFCC的Delta和Delta-delta的程序应该如下：

import python_speech_features as psf
import scipy.io.wavfile as wf
fs, data = wf.read('filename.wav')
feat = psf.mfcc(data)
d_feat = psf.delta(feat, 2)  # MFCC一阶导数
dd_feat = psf.delta(d_feat, 2)  # MFCC二阶导数

Note 2：

用python_speech_features提取logfbank时没有传入窗，如下：

import python_speech_features as psf
import scipy.io.wavfile as wf
fs, data = wf.read('filename.wav')
feat = psf.logfbank(data, samplerate=fs, winlen=0.025, winstep=0.01,
                    nfilt=26, nfft=512, lowfreq=0, highfreq=None, preemph=0.97)  # 没有传入窗

可以使用如下过程计算logfbank

import python_speech_features as psf
import scipy.io.wavfile as wf
import numpy as np
fs, data = wf.read('filename.wav')
feat, _ = psf.fbank(data, samplerate=fs, winlen=0.025, winstep=0.01,
                    nfilt=26, nfft=512, lowfreq=0, highfreq=None, preemph=0.97,
                    winfunc=lambda x: np.hamming(x))
logfbankfeat = np.log(feat)