零基础入门语音学习之CNN-baseline——Task2打卡

最新推荐文章于 2024-06-26 16:44:37 发布

weixin_44286290

最新推荐文章于 2024-06-26 16:44:37 发布

阅读量156

点赞数

文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_44286290/article/details/115718678

版权

零基础入门语音学习之CNN-baseline——Task2打卡

音频特征
- 包络图
- 声谱图

由开源学习组织Datawhale提供
https://github.com/datawhalechina/team-learning

音频特征

提示：在Task2打卡的中，主要是对声音有个初步认识。运动的库主要是librosa，在.py文件中可以用playsound对声音进行播放，在jupyter notebook选择IPython.display.ipd去播放声音。音频信号是模拟量，输入到计算机中需要将模拟量转化为数字量，涉及到A/D转换。通过librosa库中的librosa.load()函数对.wav的音频文件进行读取。该函数的默认采样率为22050。也可以认为的指定采样率，采样率设置越高，采样点越多。librosa.load()函数会返回两个参数。第一个返回值是音频信号，它是一个一维向量，元素值为音频信号震动幅值。第二个返回值是采样率，是一个标量。通常将这两个返回值利用librosa库中其他API进行处理，获得特征。
读取音频数据： x, sr = librosa.load('test.wav', sr = 22050)

包络图

所谓包络图，其实是对提取的采样点x的可视化展示。
查看方法1：librosa自带的包络图展示接口：

plt.figure(figsize=(14, 5))
librosa.display.waveplot(x1,sr=sr1)

查看方法2：用matplotlib查看：

plt.figure(figsize=(14, 5))
plt.plot(x1)

结果（以查看方法2为例）：在这里插入图片描述

声谱图

声谱图展示的是获得的音频的频率变化信息。
查看方式：

plt.figure(figsize=(20, 10))
D = librosa.amplitude_to_db(np.abs(librosa.stft(data1)), ref=np.max)
plt.subplot(4, 2, 1)
librosa.display.specshow(D, y_axis='linear')
plt.colorbar(format='%+2.0f dB')
plt.title('Linear-frequency power spectrogram of aloe')

在这里插入图片描述

weixin_44286290

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
零基础入门语音学习之CNN-baseline——Task2打卡

零基础入门语音学习之CNN-baseline——Task2打卡音频特征包络图声谱图由开源学习组织Datawhale提供https://github.com/datawhalechina/team-learning音频特征提示：在Task2打卡的中，主要是对声音有个初步认识。运动的库主要是librosa，在.py文件中可以用playsound对声音进行播放，在jupyter notebook选择IPython.display.ipd去播放声音。音频信号是模拟量，输入到计算机中需要将模拟量转化为数
复制链接

扫一扫