语音识别特征—MFCC(理论篇)

                                                                        语音特征提取—MFCC(理论篇)

  本文为语音特征提取—MFCC理论部分,参考哥伦比亚大学语音识别代码进行提取,其具体流程如下:

  (1)预加重、分帧以及加窗

      语音识别中特征提取过程首先进行预加重、分帧以及加窗操作,其具体理论如下:

      1.1 预加重

       语音信号的预加重,目的是为了对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨率,其定义如下:

       一阶FIR高通数字滤波器来实现预加重,其中a为预加重系数,0.9<a<1.0。设n时刻的语音采样值为x(n),经过预加重处理后的结果为y(n))=x(n)-ax(n-1),这里取a=0.98。

      1.2 分帧   

      1.3 加窗

  (2)傅里叶变换

      语音中傅里叶变换主要是将时域语音信号转化到频率中,其理论部分可以参考:https://blog.csdn.net/manmanxiaowugu-n/article/details/84590396

  (3)Mel滤波

      首先给出Mel滤波理论部分,主要是将经过FFT后的语音数据点通过Mel滤波器组进而可以达到更好的效果,其定义如下:

   

      先将频率域f转移至Mel域,再对Mel域进行语音信号处理,最后与语音功率进行乘积累加得到一帧语音经过Mel滤波结果,其中Mel滤波器组定义如下:

      笔者为进一步阐述上述理论,对FFT于Mel域信号进行进一步阐述,并给出了具体推导方法:

      大家不要把Mel滤波器组想的很多是,实际上就是一个分段函数,对FFT后语音信号提取其中H值,最后与对应FFT信号的功率谱进行乘积,最后累加得到。

  (4)DCT变换

    所谓DCT即是对经过Mel滤波器组的语音信号进行再变化,上式为具体计算流程。

至此,语音特征—MFCC 理论推导完毕!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值