1. 数据集准备和工具安装

版权声明:本文为博主原创文章,请尊重原创,转载请注明原文地址和作者信息! https://blog.csdn.net/zzc15806/article/details/84972108

数据集和代码均已上传到Github中,欢迎大家下载使用。

Github地址:https://github.com/JasonZhang156/Sound-Recognition-Tutorial

如果这个教程对您有所帮助,请不吝贡献您的小星星Q^Q. 


简介

声音识别指的是将声波转化为某种特定描述的一种技术,通常包括语音识别、声纹识别、声音场景识别等。目前的声音识别技术主要是机器学习、深度学习中的一些方法,比如GMM、CNN、RNN等。这个系列的教程主要是带大家了解一下声音识别的整个流程,包括数据分析、特征提取、模型构建、模型训练、模型测试等。


数据集准备

声音识别的各个领域都有很多公开数据集供研究者使用,因为博主本人是做声音场景识别的,所以本次准备的数据集是有关环境声的数据集。在环境声方面,比较常用的几个公共数据集整理如下:

环境声数据集统计
数据集 样本数 类别数 总时长 链接
ESC-10 400 10 33分钟 点击
ESC-50 2000 50 2.8小时 点击
UrbanSound8K 8732 10 9.7小时 点击
DCASE2016 1560 15 13小时 点击
DCASE2017 4680 15 17.5小时 点击
DCASE2018 8640 10 24小时 点击

这个系列的教程只是初步让大家了解一下声音识别的整个过程和中间需要用到的方法。为了大家代码跑起来更快,能够更快的得到结果,所以本次教程选用的是相对较小的数据集ESC-10。这个数据集包含10个类别,每个类别40个样本,共400个样本,每个样本5秒,总时长33分钟。其中,10类声音信息如下:

  • dog bark
  • rain
  • sea waves
  • baby cry
  • clock tick
  • person sneeze
  • helicopter
  • chainsaw
  • rooster
  • fire crackling

有小伙伴评论问有没有其他的环境声开源数据集,这里分享给大家一个链接,基本涵盖了目前所有的环境声数据集:

http://www.cs.tut.fi/~heittolt/datasets


 工具安装

本次主要使用的工具有librosa, ,Tensorflow, Keras和其他相关python包(只需安装Anaconda),下面介绍Ubuntu16.04下的具体安装方法:

1. librosa

使用pip安装,命令如下:

pip install librosa

librosa的其他安装方法,以及librosa的介绍、使用等可参考博主另外一篇文章音频处理库—librosa的安装与使用

2. Anaconda

下载:

从Anaconda官网(https://www.continuum.io/downloads)上下载Linux版本,博主选择的是3.5版本的。

安装:

cd ~/Downloads
bash Anaconda-4.2.0-Linux-x86_64.sh

询问是否把anaconda的bin添加到用户的环境变量中,选择yes!等待安装完成。

3. Tensorflow

Tensorflow的安装细节较多,大家可以去自行百度或Google,也可以参照博主的安装方法(推荐GPU):

GPU:https://blog.csdn.net/zzc15806/article/details/80652749

CPU:https://blog.csdn.net/zzc15806/article/details/73662491

4. Keras

需要先安装好Tensorflow,然后使用pip安装:

pip install keras

 

展开阅读全文

没有更多推荐了,返回首页