Task1 食物声音识别之Baseline学习

最新推荐文章于 2024-10-19 11:27:13 发布

数据铁人

最新推荐文章于 2024-10-19 11:27:13 发布

阅读量84

点赞数

分类专栏：声音识别文章标签：神经网络人工智能深度学习

本文链接：https://blog.csdn.net/weixin_46714700/article/details/115673125

版权

声音识别专栏收录该内容

7 篇文章 1 订阅

订阅专栏

环境配置

由于环境配置上碰到了很多坑，配置思路是
1、先安装anaconda，配置好环境，清华源
2、根据电脑配置装需要的包
3、运行试错，根据问题查找资料解决，一直到解决问题，因为安装相关的包，网络环境问题，需要提前配置好镜像源，提高效率。碰到相关问题比较多后，我会用pip list先看安装了什么包和电脑匹不匹配再进行解决

anaconda卡在loading applications 进不去，大神的评论解决了这个问题
anaconda3\Lib\site-packages\anaconda_navigator\api\conda_api.py 行1364 把 data = yaml.load(f) 改为 data = yaml.safeload(f)

配置环境同时用DWS，colab运行代码。

Baseline运行

这个运行途中感觉很顺利，了解了大概的原理
1、声音分析是可以将声音的波普变成图像再进行分析
2、了解到分析的过程是先用各个工具包，训练出模型，然后在测试集上进行测试，进行准确率分析
3、可以简单调整epochs , batch_size看训练的变化

epochs , batch_size的相关介绍
当一个完整的数据集通过了神经网络一次并且返回了一次，这个过程称为一个 epoch
在不能将数据一次性通过神经网络的时候，就需要将数据集分成几个 batch_size,每一个batch_size都相当于一个新的小数据集，即batch_size为新的小数据集的大小

Baseline调整

1、运用数据进行分析，对数据是越多越好，但不能用其它的数据集，我提前看了后面的介绍，可以扩增数据集进行分析，可是音频数据扩增和图像扩增不一样。
通过查看相关资料，我采用了增噪，Shifting, Stretching，这三种进行运行，最后的结果略有提升
2、后续研究LSTM（长短时记忆单元）进行提升