Task2 食物声音识别-赛题数据介绍与分析

最新推荐文章于 2022-05-18 23:34:59 发布

林中.

最新推荐文章于 2022-05-18 23:34:59 发布

阅读量142

点赞数

文章标签： python

原文链接：https://dsw-dev.data.aliyun.com/?notebookLabId=188477&dataIds=&tianchiFileUrl=https%3A%2F%2Fjupter-oss.oss-cn-hangzhou.aliyuncs.com%2F1095279749066%2F188477%2Fedit.ipynb%3FExpires%3D1618517679%26OSSAccessKeyId%3DLTAI4GGBCQcb7KD7NwKinA3D%26Signature%3DI1SB

版权

食物声音识别的音频处理中使用了python的librosa进行音频的分析和处理，Librosa是一个用于音频、音乐分析、处理的python工具包，一些常见的时频处理、特征提取、绘制声音图形等功能应有尽有，功能十分强大。
还使用了IPython.display.Audio模块能使得音频直接在jupyter笔记本中播放

数据集

wget http://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531887/train_sample.zip
wget http://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531887/test_a.zip

0. 查看音频数据

voice_path = './train_sample'#文件目录，可更改为自己的目录


def look_data():
    # 音频类别文件夹个数
    print(f'音频文件夹的个数: {len(os.listdir(voice_path))}')

    voice_total = 0
    single_label = {}
    for ind, label_name in enumerate(os.listdir(voice_path)):
        file_path = voice_path + '/' + label_name
        single_num = len(os.listdir(file_path))
        single_label[label_name] = single_num
        voice_total += single_num

    print(f'音频文件总量： {voice_total}')
    print(f'{"序号":<5}{"类别":<15}{"数量":<10}{"占比"}')
    for ind, (key, value) in enumerate(single_label.items()):
        print(f'{ind:<5}{key:<20}{value:<10}{value / voice_total:.2%}')


look_data()

1.查看音频特征

# 加载音频处理库
import os
import matplotlib.pyplot as plt
import librosa
import librosa.display
import glob
import IPython.display as ipd

播放音频

ipd.Audio(‘文件路径’)

# 播放芦荟的声音
ipd.Audio('./train_sample/aloe/24EJ22XBZ5.wav')

加载音频文件

y,sr=librosa.load(path)
使用librosa模块加载音频文件，librosa.load()加载的音频文件，默认采样率（sr）为22050HZ mono。我们可以通过librosa.load(path,sr=44100)来更改采样频率
返回值：
y : 音频的信号值，类型是ndarray
sr : 采样率

data1, sampling_rate1 = librosa.load('./train_sample/aloe/24EJ22XBZ5.wav')
data2, sampling_rate2 = librosa.load('./train_sample/burger/0WF1KDZVPZ.wav')

查看波形幅度包络图

plt.figure(figsize=（，)绘制图像
librosa.display.waveplot(data1,sr=sampling_rate1)
绘制波形的幅度包络线

# 芦荟的波形幅度包络
plt.figure(figsize=(14, 5))
librosa.display.waveplot(data1,sr=sampling_rate1)

figure语法说明

figure(num=None, figsize=None, dpi=None, facecolor=None, edgecolor=None, frameon=True)
num:图像编号或名称，数字为编号，字符串为名称
figsize:指定figure的宽和高，单位为英寸；
dpi参数指定绘图对象的分辨率，即每英寸多少个像素，缺省值为80
facecolor:背景颜色
edgecolor:边框颜色
frameon:是否显示边框

查看声谱图

声谱图（spectrogram）是声音或其他信号的频率随时间变化时的频谱（spectrum）的一种直观表示。声谱图有时也称sonographs,voiceprints,或者voicegrams。当数据以三维图形表示时，可称其为瀑布图（waterfalls）。在二维数组中，第一个轴是频率，第二个轴是时间。我们使用librosa.display.specshow来显示声谱图

librosa.amplitude_to_db() 将振幅谱图转换为db _scale谱图

# 芦荟的声谱图
plt.figure(figsize=(20, 10))
D = librosa.amplitude_to_db(np.abs(librosa.stft(data1)), ref=np.max)
plt.subplot(4, 2, 1)
librosa.display.specshow(D, y_axis='linear')
plt.colorbar(format='%+2.0f dB')
plt.title('Linear-frequency power spectrogram of aloe')

林中.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Task2 食物声音识别-赛题数据介绍与分析

食物声音识别的音频处理中使用了python的librosa进行音频的分析和处理，Librosa是一个用于音频、音乐分析、处理的python工具包，一些常见的时频处理、特征提取、绘制声音图形等功能应有尽有，功能十分强大。还使用了IPython.display.Audio模块能使得音频直接在jupyter笔记本中播放数据集wget http://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531887/train_sample.zipwget htt
复制链接

扫一扫