数据集和代码均已上传到Github中,欢迎大家下载使用。
Github地址:https://github.com/JasonZhang156/Sound-Recognition-Tutorial
如果这个教程对您有所帮助,请不吝贡献您的小星星Q^Q.
数据增强
这篇博客主要在音频信号处理领域两个基础的数据增强方法:Time Stretch 和 Pitch Shift。顾名思义,Time Stretch是在时间维度上的一个尺度变换,Pitch Shift是对音调的一个调整,而音调的高低取决于频率,频率越高音调越高,因此Pitch Shift可以看做是对频率的一个尺度变换。Time Stretch 和 Pitch Shift可以通过librosa库中的effects模块来实现,来实现下面给出librosa库的实现方法:
def demo_plot():
audio = './data/esc10/audio/Dog/1-30226-A.ogg'
y, sr = librosa.load(audio, sr=44100)
y_ps = librosa.effects.pitch_shift(y, sr, n_steps=3)
y_ts = librosa.effects.time_stretch(y, rate=1.2)
plt.subplot(311)
plt.plot(y)
plt.title('O