语音特征提取—MFCC(理论篇)
本文为语音特征提取—MFCC理论部分,参考哥伦比亚大学语音识别代码进行提取,其具体流程如下:
(1)预加重、分帧以及加窗
语音识别中特征提取过程首先进行预加重、分帧以及加窗操作,其具体理论如下:
1.1 预加重
语音信号的预加重,目的是为了对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨率,其定义如下:
一阶FIR高通数字滤波器来实现预加重,其中a为预加重系数,0.9<a<1.0。设n时刻的语音采样值为x(n),经过预加重处理后的结果为y(n))=x(n)-ax(n-1),这里取a=0.98。
1.2 分帧
1.3 加窗
(2)傅里叶变换
语音中傅里叶变换主要是将时域语音信号转化到频率中,其理论部分可以参考:https://blog.csdn.net/manmanxiaowugu-n/article/details/84590396
(3)Mel滤波
首先给出Mel滤波理论部分,主要是将经过FFT后的语音数据点通过Mel滤波器组进而可以达到更好的效果,其定义如下:
先将频率域f转移至Mel域,再对Mel域进行语音信号处理,最后与语音功率进行乘积累加得到一帧语音经过Mel滤波结果,其中Mel滤波器组定义如下:
笔者为进一步阐述上述理论,对FFT于Mel域信号进行进一步阐述,并给出了具体推导方法:
大家不要把Mel滤波器组想的很多是,实际上就是一个分段函数,对FFT后语音信号提取其中H值,最后与对应FFT信号的功率谱进行乘积,最后累加得到。
(4)DCT变换
所谓DCT即是对经过Mel滤波器组的语音信号进行再变化,上式为具体计算流程。
至此,语音特征—MFCC 理论推导完毕!