在语音辨识(Speech Recognition)和语者辨识(Speaker Recognition)方面,最常用到的语音特征就是「梅尔倒频谱系数」(Mel-scale Frequency Cepstral Coefficients,简称MFCC),此参数考虑到人耳对不同频率的感受程度,因此特别适合用在语音辨识。下面简单的介绍一下求解MFCC的过程。
1.预强调(Pre-emphasis):将语音讯号 s(n) 通过一个高通滤波器。
H(z)=1-a*(z-1)
系数其中 a 介于 0.9 和 1.0 之间。若以时域的表达式来表示,预强调后的讯号 s2(n) 为
s2(n) = s(n) - a*s(n-1)
这个目的就是为了消除发声过程中声带和嘴唇的效应,来补偿语音信号受到发音系统所压抑的高频部分。(另一种说法则是要突显在高频的共振峰。)
2.音框化(Frame blocking):先将 N 个取样点集合成一个观测单位,称为音框(Frame),通常 N 的值是 256 或 512,涵盖的时间约为 20~30 ms 左右。为了避免相邻两音框的变化过大,所以我们会让两相邻因框之间有一段重迭区域,此重迭区域包含了 M 个取样点,通常 M 的值约是 N 的一半或 1/3。通常语音辨识所用的音讯的取样频率为 8 KHz或 16 KHz,以 8 KHz 来说,若音框长度为 256 个取样点,则
语音特征MFCC的求解过程
最新推荐文章于 2023-03-08 18:00:14 发布
![](https://img-home.csdnimg.cn/images/20240711042549.png)