语音特征参数MFCC提取过程详解

最新推荐文章于 2024-06-22 11:54:12 发布

ziyuzhao123

最新推荐文章于 2024-06-22 11:54:12 发布

阅读量2.6w

点赞数 16

分类专栏：语音识别文章标签：语音识别

本文链接：https://blog.csdn.net/ziyuzhao123/article/details/20629323

版权

本文详细介绍了语音处理中MFCC（梅尔频率倒谱系数）的提取过程，包括预加重、分帧、加窗、快速傅立叶变换、滤波器组、离散余弦变换及动态差分参数的计算。MFCC因其符合人耳听觉特性，常用于语音识别等领域。

摘要由CSDN通过智能技术生成

一、MFCC概述

在语音处理领域里，梅尔频率倒谱(mel-frequency cepstrum简称MFC)表示一个语音的短时功率谱，是一个语音的对数功率谱在频率的一个非线性梅尔刻度上进行线性余弦转换所得。

所有的梅尔频率倒谱系数(Mel-frequency cepstral coefficients 简称MFCC)共同的组成一个MFC。MFCCs在Mel标度频率域提取出来的倒谱参数。倒谱和梅尔频率倒谱之间的差别是在MFC中，频带在梅尔刻度上是等间隔的，这比利用线性间隔频带的倒谱更接近于人类的听觉特性。

梅尔倒谱系数（Mel-scale Frequency Cepstral Coefficients，简称MFCC）。根据人耳听觉机理的研究发现，人耳对不同频率的声波有不同的听觉敏感度。从200Hz到5000Hz的语音信号对语音的清晰度影响对大。两个响度不等的声音作用于人耳时，则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受，使其变得不易察觉，这种现象称为掩蔽效应。由于频率较低的声音在内耳蜗基底膜上行波传递的距离大于频率较高的声音，故一般来说，低音容易掩蔽高音，而高音掩蔽低音较困难。在低频处的声音掩蔽的临界带宽较高频要小。所以，人们从低频到高频这一段频带内按临界带宽的大小由密到疏安排一组带通滤波器，对输入信号进行滤波。将每个带通滤波器输出的信号能量作为信号的基本特征，对此特征经过进一步处理后就可以作为语音的输入特征。由于这种特征不依赖于信号的性质，对输入信号不做任何的假设和限制，又利用了听觉模型的研究成果。因此，这种参数比基于声道模型的LPCC相比具有更好的鲁邦性，更符合人耳的听觉特性，而且当信噪比降低时仍然具有较好的识别性能。

梅尔倒谱系数（Mel-scale Frequency Cepstral Coefficients，简称MFCC）是在Mel标度频率域提取出来的倒谱参数，Mel标度描述了人耳频率的非线性特性，它与频率的关系可用下式近似表示：