MFCC倒谱系数

1.       什么是MFCC?

MFCC是Mel频率倒谱系数(melfrequency cepstrum,MFCC)的缩写,Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。MFCC则是利用它们之间的这种关系计算得到频率特征,MFCC已经广泛应用在语音识别领域。由于Mel频率与Hz频率之间非线性的对应关系,使得MFCC随着频率的提高,其计算精度随之下降。因此,在应用中常常只使用低频MFCC,而丢弃中高频MFCC。

2.       MFCC提取流程

MFCC参数的提取包括一下几个步骤:

1)        预滤波:CODEC前端带宽为300-3400Hz的抗混叠滤波器。

2)        A/D变换:8kHz的采样频率,12bit的线性量化精度。

3)        预加重:通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响。

4)        分帧:根据语音的短时平稳特性,语音可以以帧为单位进行处理,实验中选取的语音帧长为32ms,帧叠为16ms。

5)        加窗:采用哈明窗对一帧语音加窗,以减小吉布斯效应的影响。

6)        快速傅立叶变换:将时域信号变换成为信号的功率谱。

7)        三角窗滤波器:用一组Mel频标上线性分布的三角窗滤波器(共24个三角窗滤波器),对信号的功率谱滤波,每一个三角波滤波器覆盖的范围都近似于人耳的一个临界带宽,以此模拟人耳的掩蔽效应。

8)        求对数:三角窗滤波器组的输出求取对数,可以得到近似于同态变换的结果。

9)        离散余弦变换(DCT):去除各维信号之间的相关性,将信号映射到低微空间。

10)    谱加权:由于倒谱的低阶参数易受说话人特性、信道特性等的影响,而高阶参数的分辨能力比较低,所以需要进行谱加权,抑制其低阶和高阶参数。

11)    倒谱均值减(CMS):CMS可以有效地减小语音输入信道对特征参数的影响。

12)    差分参数:大量实验表明,在语音特征中加入表征语音动态特性的差分参数,能够提高系统的识别性能,在本系统中,也用到了MFCC参数的一阶差分参数和二阶差分参数。

13)    短时能量:语音的短时能量也是重要的特征参数,在本系统中我们采用了语音的短时归一化对数能量及其一阶差分、二阶差分参数。


3.       MFCC特征提取流程图


  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值