音频入门: 最全面详细的Mel频谱和MFCC讲解

最新推荐文章于 2025-02-18 17:37:30 发布

最好的教育

最新推荐文章于 2025-02-18 17:37:30 发布

阅读量2.7k

点赞数 6

文章标签：音视频人工智能机器学习

本文链接：https://blog.csdn.net/woaicplusplus/article/details/129964826

版权

本文详细介绍了音频处理中Mel频谱和MFCC的算法流程，包括预加重、分帧、加窗、短时傅里叶变换、滤波器组、非线性校正、离散余弦变换等步骤，并探讨了预加重的weight-A计权、帧重叠、窗函数选择、非线性校正的激活函数等细节。此外，还讨论了不同刻度如mel、bark、ERB的频谱特征以及滤波器组的概念、归一化和窗函数选择。最后，文章提到了倒谱系数的应用及其在音频领域的相关延展，如分数傅里叶变换。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

在音频领域，mel频谱和mfcc是非常重要的特征数据，在深度学习领域通常用此特征数据作为网络的输入训练模型，来解决音频领域的各种分类、分离等业务，如端点侦测、节奏识别、和弦识别、音高追踪、乐器分类、音源分离、回声消除等相关业务。

当然，针对深度学习音频领域的业务，不是用下这两个特征、选几个网络、打个标签，放数据训练就完事了，仅仅基于mel频谱和mfcc这两个特征，解决好上述业务某些情况下还是远远不够的，熟悉这些特征的内在逻辑性、衍生细节和延展，才能更好的结合深度学习解决业务问题。

下面讲解mel频谱和mfcc特征的算法流程和一些细节、延展，这些细节从局部角度来看，都会影响到最终特征呈现的细节差异，这些差异放大到模型训练结果的准确性、鲁棒性上怎么样是非常值得研究的，某些情况下可能会有质的变化，质的变化无论正向还是负向都是值得关注的，最怕的是没变化；同时，一些问题的延展从广义角度来看，带来不同的特征组合、网络结构设计思考等也是解决业务问题非常重要的思想源泉。

注：文中一些图例来自开源项目audioFlux: https://github.com/libAudioFlux/audioFlux

算法流程

设 sr 为采样率，fftLength 为帧长度，slideLength 为滑动长度

下面是一张mel频谱和mfcc的大概算法流程图。

请添加图片描述

1. 预加重（Pre-emphasis）

如流程图所示的第1步，属于信号的预处理，补偿高频分量损失，提升高频分量，一般情况下可以忽略此步骤，属于信号的简单增强，对特征有一定的提升效果。公式如下

$x[n]=x[n]-\alpha x[n-1]$

$\alpha$ 一般取0.97
公式属于差分一阶即高通滤波器。

2. 分帧（Frame）

现实中大多数信号都是非平稳的，但大多数短时间内可以近似看做是平稳的，可以用短时傅里叶变换表现非平稳信号频域特征。一般语音中采用10ms~30ms左右，乐音中可以更长一些64ms~256ms。

分帧涉及到前后重叠（overlap），一般情况下以滑动帧长的1/4或1/2（前后重叠3/4或1/2）进行，即 $slideLength=\cfrac{fftLength}4或\cfrac{fftLength}2$ 。

3. 加窗（Window）

加窗目的是减少频谱泄露，降低泄漏频率干扰，提升频谱效果，默认不处理即加矩形窗（Rect），干扰泄漏较严重，一般情况下加Hann窗，针对大多数信号都有不错的效果。公式如下
$w(n)=0.5\left( 1-\cos \left(2\pi \cfrac n{N} \right)\right) , 0 \le n \le N$

Hann为余弦窗，N表示阶数。

4. 短时傅里叶变换（STFT）

分帧加窗傅里叶变换即短时傅里叶变换。公示如下
$X(\tau,f)=\int_{-\infty}^\infty x(t)w(t-\tau)e^{-j2\pi f t}dt$
$X(m,k)=\sum_{n=0}^{N-1} x[n]W[n-m]e^{\frac{-j2\pi kn}{N} }$

设数据长度为 dataLength，
$t=\begin{cases} \cfrac{(dataLength-fftLength)}{slideLength}+1, &无填充 \\ \cfrac{dataLength}{slideLength}+1 , &填充fftLength\end{cases}$