MFCC（梅尔频率倒谱系数）

weixin_52734695

于 2024-07-27 20:37:11 发布

阅读量318

点赞数 2

分类专栏：音频基础文章标签：音视频音频人工智能算法

本文链接：https://blog.csdn.net/weixin_52734695/article/details/140740785

版权

音频基础专栏收录该内容

15 篇文章 0 订阅

订阅专栏

MFCC（Mel-Frequency Cepstral Coefficients，梅尔频率倒谱系数）是音频信号处理中的一种重要特征，用于捕捉音频信号的频谱特征。MFCC广泛应用于语音识别、音乐信息检索、声纹识别等领域。以下是MFCC的详细讲解：

1. 背景
人耳对不同频率的声音感知是非线性的，特别是对高频声音的敏感度较低。梅尔频率标度（Mel scale）是一种模拟人耳感知的频率标度。MFCC正是基于这种标度来进行音频信号的特征提取。

2. 计算步骤
预加重 (Pre-emphasis):

通过一个高通滤波器增加高频部分的能量，通常使用以下滤波器：

y[n]=x[n]−αx[n−1]

其中，

α 通常取值为0.97。
分帧 (Framing):

将音频信号分成多个小段（帧），每帧通常包含20到40毫秒的数据。相邻帧之间通常有一定的重叠（通常为50%）。
加窗 (Windowing):

对每一帧信号应用一个窗函数（通常是Hamming窗）以减少频谱泄露。

y[n]=x[n]⋅w[n]

其中，

w[n] 是窗函数。
快速傅里叶变换 (FFT):

对加窗后的信号进行FFT，得到每一帧的频谱。
功率谱 (Power Spectrum):

计算每一帧的功率谱：

其中，

X[k] 是FFT的结果，
N 是FFT的点数。
梅尔滤波器组 (Mel Filter Bank):

将频谱映射到梅尔频率标度，并通过一组三角形滤波器对频谱进行加权平均。梅尔频率和普通频率 f 的关系为：

对数压缩 (Log Compression):

对滤波器组输出的每个值取对数，以模拟人耳对声音强度的感知。
离散余弦变换 (DCT):

对对数梅尔频谱进行DCT，得到梅尔频率倒谱系数（MFCC）。DCT的目的是将频谱压缩到更少的系数，并去除相关性。
保留低阶系数:

通常保留前12到13个系数，因为低阶系数包含了主要的频谱信息，高阶系数往往与噪声有关。
3. 应用
语音识别：MFCC是语音识别系统中的常用特征，因为它能够有效捕捉语音信号中的重要信息。
音乐信息检索：MFCC可以用于音乐分类、情感识别等任务。
声纹识别：MFCC可用于用户身份验证和安全系统中。
4. 优点与缺点
优点:

模拟人耳的听觉特性，使得特征更具代表性。
计算过程高效，能够实时应用。
缺点:

对噪声较为敏感，需要额外的预处理步骤。
对非语音信号（如背景音乐）的处理效果较差。
5. 代码示例 (Python)
使用库librosa来计算MFCC：

import librosa
import numpy as np

# 加载音频文件
y, sr = librosa.load('audio.wav', sr=None)

# 计算MFCC
mfccs = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=13)

# 打印MFCC的形状
print(mfccs.shape)

# 可视化MFCC
import matplotlib.pyplot as plt
import librosa.display

plt.figure(figsize=(10, 6))
librosa.display.specshow(mfccs, x_axis='time')
plt.colorbar()
plt.title('MFCC')
plt.tight_layout()
plt.show()

总结
MFCC是音频信号处理中的一种关键特征，能够有效捕捉频谱信息并模拟人耳的听觉特性。通过一系列的信号处理步骤，MFCC可以将复杂的音频信号转换为易于处理的特征向量，在语音识别、音乐信息检索等领域具有广泛的应用。

weixin_52734695

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
MFCC（梅尔频率倒谱系数）

MFCC（Mel-Frequency Cepstral Coefficients，梅尔频率倒谱系数）是音频信号处理中的一种重要特征，用于捕捉音频信号的频谱特征。通过一系列的信号处理步骤，MFCC可以将复杂的音频信号转换为易于处理的特征向量，在语音识别、音乐信息检索等领域具有广泛的应用。人耳对不同频率的声音感知是非线性的，特别是对高频声音的敏感度较低。语音识别：MFCC是语音识别系统中的常用特征，因为它能够有效捕捉语音信号中的重要信息。对滤波器组输出的每个值取对数，以模拟人耳对声音强度的感知。
复制链接

扫一扫