深入了解音频特征提取：使用Librosa库提取常用音频特征

最新推荐文章于 2025-02-19 02:00:00 发布

Crazy learner

最新推荐文章于 2025-02-19 02:00:00 发布

阅读量3.1k

点赞数 34

分类专栏：音频基础文章标签：音视频音频

本文链接：https://blog.csdn.net/weixin_52734695/article/details/141432765

版权

音频基础专栏收录该内容

73 篇文章

订阅专栏

音频信号处理是许多机器学习和数据分析应用的重要组成部分，尤其是在语音识别、音乐分类和环境音识别等领域。要对音频数据进行有效分类或识别，首先需要从音频信号中提取有用的特征。这篇博文将详细介绍如何使用Python的Librosa库提取音频特征，并结合大量代码示例进行深入讲解。

Librosa库简介

Librosa是一个强大的Python库，专为音频处理而设计。它提供了丰富的功能，涵盖了音频加载、特征提取、信号处理等方面。通过Librosa，我们可以轻松地从音频文件中提取出各类特征，为后续的分析和分类任务打下坚实的基础。

音频特征分类

在音频信号处理中，常用的特征主要分为三类：

时域特征：直接从时间信号中提取的特征，如RMS能量和零交叉率。
频域特征：通过傅里叶变换等方法，从频谱中提取的特征，如频谱质心和频谱带宽。
统计特征：对上述特征进行统计分析后的结果，如最大值、最小值、均值和标准差等。
1. 时域特征
1.1 RMS能量
RMS（Root Mean Square）能量表示信号的平均功率，是音频信号强度的一个重要指标。RMS能量通常用于区分音量大小。

import librosa
import numpy as np

def extract_rms_energy(y):
    """
    提取音频信号的RMS能量特征
    参数：
    - y: 音频时间序列

    返回：
    - rms_mean: RMS能量的平均值
    """
    # 计算RMS能量
    rms = librosa.feature.rms(y=y)
    # 计算RMS能量的平均值
    rms_mean = np.mean(rms)
    return rms_mean

# 示例：加载音频并提取RMS能量
file_path = 'your_audio_file.wav'
y, sr = librosa.load(file_path, sr=44100)
rms_energy = extract_rms_energy(y)
print(f"RMS能量的平均值: {rms_energy}")

1.2 零交叉率
零交叉率是指信号通过零点的次数，它反映了信号的频率特征。高零交叉率通常表示高频成分多，低零交叉率则可能表示信号较平稳。

def extract_zero_crossing_rate(y):
    """
    提取音频信号的零交叉率特征
    参数：
    - y: 音频时间序列

    返回：
    - zcr_mean: 零交叉率的平均值
    """
    # 计算零交叉率
    zcr = librosa.feature.zero_crossing_rate(y)
    # 计算零交叉率的平均值
    zcr_mean = np.mean(zcr)
    return zcr_mean

# 示例：加载音频并提取零交叉率
zcr = extract_zero_crossing_rate(y)
print(f"零交叉率的平均值: {zcr}")

2. 频域特征
2.1 频谱质心
频谱质心表示频率分布的“重心”，通常用来描述音频信号的频率特性。高频谱质心表示信号中高频成分占主导，低频谱质心则表示信号以低频成分为主。

def extract_spectral_centroid(y, sr):
    """
    提取音频信号的频谱质心特征
    参数：
    - y: 音频时间序列
    - sr: 采样率

    返回：
    - spec_centroid_mean: 频谱质心的平均值
    """
    # 计算频谱质心
    spec_centroid = librosa.feature.spectral_centroid(y=y, sr=sr)
    # 计算频谱质心的平均值
    spec_centroid_mean = np.mean(spec_centroid)
    return spec_centroid_mean

# 示例：提取频谱质心
spec_centroid = extract_spectral_centroid(y, sr)
print(f"频谱质心的平均值: {spec_centroid}")

2.2 频谱带宽
频谱带宽表示信号频谱的宽度，描述了频谱中高频和低频分量的扩展程度。较宽的频谱带宽表示信号中包含更多的高频成分。

def extract_spectral_bandwidth(y, sr):
    """
    提取音频信号的频谱带宽特征
    参数：
    - y: 音频时间序列
    - sr: 采样率

    返回：
    - spec_bandwidth_mean: 频谱带宽的平均值
    """
    # 计算频谱带宽
    spec_bandwidth = librosa.feature.spectral_bandwidth(y=y, sr=sr)
    # 计算频谱带宽的平均值
    spec_bandwidth_mean = np.mean(spec_bandwidth)
    return spec_bandwidth_mean

# 示例：提取频谱带宽
spec_bandwidth = extract_spectral_bandwidth(y, sr)
print(f"频谱带宽的平均值: {spec_bandwidth}")

2.3 MFCC（Mel-Frequency Cepstral Coefficients）
MFCC（梅尔频率倒谱系数）是音频特征提取中最常用的特征之一，尤其在语音识别中。它通过将音频信号映射到梅尔频率标度，捕捉了音频的频谱包络。

def extract_mfcc(y, sr, n_mfcc=13):
    """
    提取音频信号的MFCC特征
    参数：
    - y: 音频时间序列
    - sr: 采样率
    - n_mfcc: 提取的MFCC数量

    返回：
    - mfccs_mean: MFCC特征的平均值
    """
    # 计算MFCC
    mfccs = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=n_mfcc)
    # 计算每个MFCC系数的平均值
    mfccs_mean = np.mean(mfccs, axis=1)
    return mfccs_mean

# 示例：提取MFCC特征
mfccs = extract_mfcc(y, sr)
print(f"MFCC特征的平均值: {mfccs}")

3. 统计特征
在提取了上述时域和频域特征后，我们可以进一步计算这些特征的统计量，例如最大值、最小值、均值和标准差。这些统计特征可以帮助我们更好地理解音频信号的整体特性。

def extract_statistical_features(feature):
    """
    计算音频特征的统计量
    参数：
    - feature: 已提取的音频特征（如RMS、ZCR等）

    返回：
    - stat_features: 包含最大值、最小值、均值和标准差的特征向量
    """
    max_value = np.max(feature)
    min_value = np.min(feature)
    mean_value = np.mean(feature)
    std_value = np.std(feature)
    stat_features = [max_value, min_value, mean_value, std_value]
    return stat_features

# 示例：计算RMS能量的统计量
rms_stat_features = extract_statistical_features(rms)
print(f"RMS能量的统计特征: {rms_stat_features}")

4. 综合特征提取
我们可以将以上所有特征提取步骤整合到一个函数中，从音频文件中提取所有必要的特征。这些特征将形成一个特征向量，用于后续的机器学习模型训练和分类。

def extract_all_features(file_path):
    """
    从音频文件中提取所有主要特征
    参数：
    - file_path: 音频文件路径

    返回：
    - features: 包含所有提取特征的特征向量
    """
    y, sr = librosa.load(file_path, sr=44100)
    features = []

    # 提取RMS能量
    features.append(extract_rms_energy(y))

    # 提取零交叉率
    features.append(extract_zero_crossing_rate(y))

    # 提取频谱质心
    features.append(extract_spectral_centroid(y, sr))

    # 提取频谱带宽
    features.append(extract_spectral_bandwidth(y, sr))

    # 提取MFCC特征
    mfccs = extract_mfcc(y, sr)
    features.extend(mfccs)

    return np.array(features)

# 示例：从音频文件中提取所有特征
all_features = extract_all_features(file_path)
print(f"提取的所有特征: {all_features}")