语音特征提取（语谱图Spectrogram，Fbank, MFCC, 及其delta-一阶差分）——python代码

飞呀飞呀飞呀

已于 2022-04-26 18:21:29 修改

阅读量5.1k

点赞数 3

文章标签： python 语音识别深度学习

于 2021-11-14 11:04:51 首次发布

本文链接：https://blog.csdn.net/yin_fei_0825/article/details/121315156

版权

本文介绍了如何使用Python进行语音特征提取，包括语谱图、Fbank、MFCC以及它们的一阶差分。首先导入所需包，然后读取语音数据并定义主函数。接着对语音数据进行分帧处理，并选择合适的窗函数。通过计算Log对数据进行预处理。接着，详细展示了两种不同的梅尔滤波器的实现。最后，这些特征可以被保存为txt格式，为进一步使用如Opensmile进行语音特征分析做准备。

摘要由CSDN通过智能技术生成

导入相关包

import os
import wavio
import numpy as np
import math
from matplotlib import pyplot as plt
from scipy.fftpack import dct
from python_speech_features import mfcc, delta, logfbank

读取语音数据及主函数


for wav in wavs:
	wav_dir = os.path.join(data_dir, wav)
	wav_data = wavio.read(wav_dir)
	data = wav_data.data
	sample_rate = wav_data.rate	#16k
	sampwidth = wav_data.sampwidth
	
	#normalization
	norm_data = data/max(abs(data))
	
	#frames
	frames = frames_crop(norm_data,sample_rate)
	
	#add window
	win = 160
	windows = choose_windows(name = "Hamming",N = win)
	
	#parameters
	N = 2048 #NFFT
	M = 40 #filters number
	num_ceps = 24
	
	#fft
	spe_freqs = np.zeros((frames.shape[0],int(N/2)))	#spectrogram
	fbank_feature = np.zeros((frames.shape[0],M))	#Fbank
	fbank_feature_2 = np.zeros((frames.shape[0],M))	#Fbank second version
	
	mfcc_dct = np.zeros((frames.shape[0],num_ceps))	#dct
	
	
	for i in range(frames.shape[0]):
		frames_fft = np.fft.fft(windows * frames[i],N)
		spe_freqs[i][:] = log_data(np.abs(frames_fft[:int(N/2)]))
		
		filter_banks = mel_filters(sample_rate = sample_rate, NFFT = N, pow_frames = np.abs(frames_fft[:int(N/2

最低0.47元/天解锁文章

飞呀飞呀飞呀

关注

3
点赞
踩
32

收藏

觉得还不错? 一键收藏
3
评论
语音特征提取（语谱图Spectrogram，Fbank, MFCC, 及其delta-一阶差分）——python代码

导入相关包import osimport wavioimport numpy as npimport mathfrom matplotlib import pyplot as pltfrom scipy.fftpack import dct读取语音数据及主函数for wav in wavs: wav_dir = os.path.join(data_dir, wav) wav_data = wavio.read(wav_dir) data = wav_data.data sampl
复制链接

扫一扫