语音特征MFCC的求解过程

最新推荐文章于 2023-03-08 18:00:14 发布

sxzhengbeijing

最新推荐文章于 2023-03-08 18:00:14 发布

阅读量2.5k

点赞数

本文链接：https://blog.csdn.net/zhengshangxin/article/details/19032893

版权

摘要由CSDN通过智能技术生成

    在语音辨识（Speech Recognition）和语者辨识（Speaker Recognition）方面，最常用到的语音特征就是「梅尔倒频谱系数」（Mel-scale Frequency Cepstral Coefficients，简称MFCC），此参数考虑到人耳对不同频率的感受程度，因此特别适合用在语音辨识。下面简单的介绍一下求解MFCC的过程。

1.预强调（Pre-emphasis）：将语音讯号 s(n) 通过一个高通滤波器。
                                 H(z)=1-a*（z-1）
系数其中 a 介于 0.9 和 1.0 之间。若以时域的表达式来表示，预强调后的讯号 s2(n) 为
                                 s2(n) = s(n) - a*s(n-1)
这个目的就是为了消除发声过程中声带和嘴唇的效应，来补偿语音信号受到发音系统所压抑的高频部分。（另一种说法则是要突显在高频的共振峰。）

2.音框化（Frame blocking）：先将 N 个取样点集合成一个观测单位，称为音框（Frame），通常 N 的值是 256 或 512，涵盖的时间约为 20~30 ms 左右。为了避免相邻两音框的变化过大，所以我们会让两相邻因框之间有一段重迭区域，此重迭区域包含了 M 个取样点，通常 M 的值约是 N 的一半或 1/3。通常语音辨识所用的音讯的取样频率为 8 KHz或 16 KHz，以 8 KHz 来说，若音框长度为 256 个取样点，则

最低0.47元/天解锁文章

sxzhengbeijing

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
语音特征MFCC的求解过程

在语音辨识（Speech Recognition）和语者辨识（Speaker Recognition）方面，最常用到的语音特征就是「梅尔倒频谱系数」（Mel-scale Frequency Cepstral Coefficients，简称MFCC），此参数考虑到人耳对不同频率的感受程度，因此特别适合用在语音辨识。下面简单的介绍一下求解MFCC的过程。1.预强调（Pre-emphasis）：将语音讯
复制链接

扫一扫