自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 Datawhale 组队学习 Task6

因为研究方向为音乐信息检索(MIR)方向,这里介绍一下MIR的相关知识。本次学习主要知识来源于《计算机音乐信息与交融》的书。音乐人工智能:以数字对象为研究对象,以AI为主要技术手段的计算机软硬件系统研发。早期的MIR以符号音乐如MIDI为研究对象,由于其有准确的音高和时间等信息,很快就发展的比较成熟。后续研究转为以音频信号为研究对象,具有一定难度。声音与音乐的信号处理:用于声音与音乐的信号分析、变换以及合成。包括频谱分析、调幅、调频、滤波、转码、压缩、重采样、回声、混音、去噪、变调、保持音高不变的时间

2021-04-22 23:17:32 130

原创 Datawhale组队学习活动 Task5

我认为修改基于LSTM的baseline的优化方法,有如下3种情况:可以和其他模型的融合增加其他特征,以提高模型的识别率修改LSTM的隐含层数或者修改循环层数。零基础入门,我的代码能力较弱,所以具体实验还要再看看。...

2021-04-21 20:32:24 83

原创 Datawhale组队学习活动 Task4

因为本次组队学习,两个baseline选择的是LSTM的模型,所以这里说一下LSTM的原理。本次学习内容的来源为邱锡鹏老师的《神经网络与深度学习》的这本书。了解LSTM的前提先了解一下循环神经网络(Recurrent Neural Network,RNN)是一类具有短期记忆能力的神经网络。在循环神经网络中,神经元不但可以接受其他神经元的信息,也可以接受自身的信息,形成具有环路的网络结构。但当输入序列比较长的时,回存在梯度爆炸和消失的问题。为了解决这个问题,人们对循环神经网络做了很多的改进,其中最有效的改进

2021-04-19 19:53:27 74

原创 Datawhale组队学习活动 Task 3

MFCC提取特征,具体已经在task1说了。其它的音频特征可以分为时域和频域。例如Bark谱,短时过零率,基频,共振峰,能量等。由于人在车上,后续会继续补充的详细音频特征的知识。

2021-04-17 22:55:43 111

原创 Datawhale学习组队活动 Task2

本赛季的数据位食物的声音识别,主要根据咀嚼食物时候发出的声音从而识别出相应的食物。主要分为20类,具体已经在task 1中写道。官方提供数据集为训练集和测试集。官方的baseline 主要使用的方法为cnn。因为baseline的特征提取主要用的MFCC,所以查了一下MFCC的相关概念MFCC特征:基于人耳听觉特性提出来的,符 合人类的听觉特性,不仅能很好地度量语音频谱的 能量包络,同时倒谱运算具有良好的解卷性能,因此MFCC特征广泛地应用于情感语音识别、说话人识别、音频和音乐分类方面。因为第一次以

2021-04-15 19:53:11 70

原创 Datawhale学习组队活动 Task1

本次参加Datawhale学习组队活动,以天池比赛的“食物语音识别”为学习任务,Datawhale提供了两个baseline,一个是基于CNN的模型,另外一个是基于LSTM的模型。由于个人兴趣所致,本文选择基于LSTM模型进行学习。运行环境为:win10+python(3.8)+cuda(10.2)+torch(1.8.1)+torchvision(0.9.1)以下为查看方法:cuda:进入cmd下运行nvcc --version命令torch和torchvision:进入Anaconda Pr

2021-04-13 21:04:06 136

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除