基于Matconvnet深度学习框架的方言分类（1）

最新推荐文章于 2022-11-17 11:22:29 发布

wlm_suzhou

最新推荐文章于 2022-11-17 11:22:29 发布

阅读量658

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wlm_suzhou/article/details/78110299

版权

本文介绍了如何使用Matconvnet框架对方言音频进行分类。首先，通过specgram函数将音频转化为声谱图，然后进行边缘裁剪和尺寸调整。实验中对比了不同参数对声谱图的影响，并探讨了尺寸变化对结果的潜在影响。接着，详细阐述了Matconvnet的下载、编译和验证过程，包括运行cnn_mnist_experiments.m演示实验。

摘要由CSDN通过智能技术生成

背景

本文是基于Matconvnet深度学习框架对方言音频文件进行分类，介绍如下：

预处理数据

声谱图

预处理数据都是对音频文件进行处理，我们都知道 CNN 主要是针对二维数据做分类等，因此我们第一步需要做的是将一维的音频信号，通过调用specgram函数将音频文件转换成声谱图，我在实验中的采用过两种参数，分别如下：

[b,f,t] = specgram(x,512,fs,512,256);
[b,f,t] = specgram(x,1024,fs,1024,512);

两种参数生成的声谱图 [频谱图]虽然从肉眼的角度可以看出区别，但是从最后的实验结果上来看，可能对分类的结果影响不大。在下面的实验中我会以实验结果作说明。

改变尺寸

上述中提到的声谱图只是由 Matlab 自带函数生成的图片，生成的声谱图片中，存在边缘空白信息，为了提高我们最终的实验结果，我们首先要先将空白边缘信息使用 imcrop 函数进行裁剪，然后使用 imresize 函数对裁剪过的图片进行尺寸的缩放，通常我们需要将图片缩放成经典网络模型需要的尺寸，如：cifar经典数据集、vggnet、alexnet、imagenet等。本文中，我也是采用如下所述的4种尺寸，分别为：32*32、224*224、227*227、256*256.

实验准备

下载编译代码<

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
基于Matconvnet深度学习框架的方言分类（1）

背景本文是基于Matconvnet深度学习框架对方言音频文件进行分类，介绍如下：预处理数据声谱图预处理数据都是对音频文件进行处理，我们都知道 CNN 主要是针对二维数据做分类等，因此我们第一步需要做的是将一维的音频信号，通过调用specgram函数将音频文件转换成声谱图，我在实验中的采用过两种参数，分别如下：[b,f,t] = specgram(x,512,fs,512,
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。