7. 声音数据增强

最新推荐文章于 2024-07-30 14:24:53 发布

z小白

最新推荐文章于 2024-07-30 14:24:53 发布

阅读量1.5w

点赞数 17

分类专栏：声音识别声音识别教程文章标签：声音数据增强 pitch shift time stretch librosa

本文链接：https://blog.csdn.net/zzc15806/article/details/90510292

版权

这篇博客介绍了音频信号处理中的数据增强技术，包括Time Stretch和Pitch Shift。通过librosa库，展示了如何实现这两种方法，并提供了GitHub链接供读者下载代码。文章附有转换前后波形图的对比，详细解释了每种操作对声音的影响。

摘要由CSDN通过智能技术生成

数据集和代码均已上传到Github中，欢迎大家下载使用。

Github地址：https://github.com/JasonZhang156/Sound-Recognition-Tutorial

如果这个教程对您有所帮助，请不吝贡献您的小星星Q^Q.

数据增强

这篇博客主要在音频信号处理领域两个基础的数据增强方法：Time Stretch 和 Pitch Shift。顾名思义，Time Stretch是在时间维度上的一个尺度变换，Pitch Shift是对音调的一个调整，而音调的高低取决于频率，频率越高音调越高，因此Pitch Shift可以看做是对频率的一个尺度变换。Time Stretch 和 Pitch Shift可以通过librosa库中的effects模块来实现，来实现下面给出librosa库的实现方法：

def demo_plot():
    audio = './data/esc10/audio/Dog/1-30226-A.ogg'
    y, sr = librosa.load(audio, sr=44100)
    y_ps = librosa.effects.pitch_shift(y, sr, n_steps=3)
    y_ts = librosa.effects.time_stretch(y, rate=1.2)
    plt.subplot(311)
    plt.plot(y)
    plt.title('O