零基础入门语音识别-食物声音识别
对声音识别数据的理解
Task2 食物声音识别-赛题数据介绍分析打卡
本次新人赛是Datawhale与天池联合发起的零基础入门系列赛事第八场 —— 零零基础入门语音识别-食物声音识别挑战赛。
baseline由开源学习组织Datawhale提供
https://github.com/datawhalechina/team-learning
在Task2的学习里, 我试着理解加载音频库与处理音频数据的基本代码。
实现音频信息的有效识别我觉得离不开对傅里叶变换的理解
在导入来自Kaggle的“Eating Sound Collection”包括20种不同食物的咀嚼声音的数据集后,导入进python的音频处理库Librosa1提取音频的mfcc特征,查看对应音频的波形幅度包络图及声谱图。
此外我们可以使用IPython.display.Audio模块播放音频查看音频的数据。
Task2中,我学习最大的收获就是Librosa对音频特征的提取功能,在任务外我也去学习相关的处理原理。
还有还有,我的西瓜书和南瓜书也成功到了手上,看见南瓜书封面右上角的Datawhale小图标对Datawhale的小伙伴超级膜拜有木有!!!作为小白的我很高兴可以在里面学习,明天继续坚持!
1块学习,1块分享,1块成长。
Librosa:它通常用于分析音频信号,但更倾向于音乐,它包括用于构建MIR(音乐信息检索)系统的nuts 和 bolts。 ↩︎