【学习笔记】Task1零基础入门语音识别

这篇学习笔记介绍了基于CNN的语音识别方法,包括下载数据、导入相关库、特征提取、构建CNN网络和预测测试集的步骤。重点讲解了TensorFlow、Keras、librosa等工具的使用,以及卷积神经网络在语音识别中的应用。
摘要由CSDN通过智能技术生成

本次学习,基于CNN的分类模型,参考图片分类的形式,将不同声音的频谱做分类,利用天池平台经行运行。

代码

代码来源:https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.3.750a204aZZZHfu&postId=198902

下载数据

使用wget函数下载数据

#训练集
wget http://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531887/train_sample.zip
#测试集
wget http://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531887/test_a.zip

使用unzip函数解压缩,通过\rm将压缩包删除

unzip -qq train_sample.zip
\rm train_sample.zip
unzip -qq test_a.zip
\rm test_a.zip

导入库

环境要求:
TensorFlow(2.0 +)、keras、sklearn、librosa(音频处理库)

# 基本库
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.model_selection import GridSearchCV
from sklearn.preprocessing import MinMaxScaler

1、train_test_split返回切分的数据集train/test。
2、sklearn中的classification_report函数用于显示主要分类指标的文本报告.在报告中显示每个类的精确度,召回率,F1值等信息。
3、GridSearchCV,它存在的意义就是自动调参,只要把参数输进去,就能给出最优化的结果和参数。
4、MinMaxScaler的功能是将每个元素(特征,feature)转换成给定范围的值。

# 加载深度学习框架(搭建分类模型所需要的库)
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, Flatten, Dense, MaxPool2D, Dropout
from tensorflow.keras.utils 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值