组队学习
zhongzhipp
这个作者很懒,什么都没留下…
展开
-
Datawhale 组队学习 Task6
因为研究方向为音乐信息检索(MIR)方向,这里介绍一下MIR的相关知识。本次学习主要知识来源于《计算机音乐信息与交融》的书。音乐人工智能:以数字对象为研究对象,以AI为主要技术手段的计算机软硬件系统研发。早期的MIR以符号音乐如MIDI为研究对象,由于其有准确的音高和时间等信息,很快就发展的比较成熟。后续研究转为以音频信号为研究对象,具有一定难度。声音与音乐的信号处理:用于声音与音乐的信号分析、变换以及合成。包括频谱分析、调幅、调频、滤波、转码、压缩、重采样、回声、混音、去噪、变调、保持音高不变的时间原创 2021-04-22 23:17:32 · 130 阅读 · 0 评论 -
Datawhale组队学习活动 Task5
我认为修改基于LSTM的baseline的优化方法,有如下3种情况:可以和其他模型的融合增加其他特征,以提高模型的识别率修改LSTM的隐含层数或者修改循环层数。零基础入门,我的代码能力较弱,所以具体实验还要再看看。...原创 2021-04-21 20:32:24 · 83 阅读 · 0 评论 -
Datawhale组队学习活动 Task4
因为本次组队学习,两个baseline选择的是LSTM的模型,所以这里说一下LSTM的原理。本次学习内容的来源为邱锡鹏老师的《神经网络与深度学习》的这本书。了解LSTM的前提先了解一下循环神经网络(Recurrent Neural Network,RNN)是一类具有短期记忆能力的神经网络。在循环神经网络中,神经元不但可以接受其他神经元的信息,也可以接受自身的信息,形成具有环路的网络结构。但当输入序列比较长的时,回存在梯度爆炸和消失的问题。为了解决这个问题,人们对循环神经网络做了很多的改进,其中最有效的改进原创 2021-04-19 19:53:27 · 74 阅读 · 0 评论 -
Datawhale学习组队活动 Task2
本赛季的数据位食物的声音识别,主要根据咀嚼食物时候发出的声音从而识别出相应的食物。主要分为20类,具体已经在task 1中写道。官方提供数据集为训练集和测试集。官方的baseline 主要使用的方法为cnn。因为baseline的特征提取主要用的MFCC,所以查了一下MFCC的相关概念MFCC特征:基于人耳听觉特性提出来的,符 合人类的听觉特性,不仅能很好地度量语音频谱的 能量包络,同时倒谱运算具有良好的解卷性能,因此MFCC特征广泛地应用于情感语音识别、说话人识别、音频和音乐分类方面。因为第一次以原创 2021-04-15 19:53:11 · 70 阅读 · 0 评论 -
Datawhale学习组队活动 Task1
本次参加Datawhale学习组队活动,以天池比赛的“食物语音识别”为学习任务,Datawhale提供了两个baseline,一个是基于CNN的模型,另外一个是基于LSTM的模型。由于个人兴趣所致,本文选择基于LSTM模型进行学习。运行环境为:win10+python(3.8)+cuda(10.2)+torch(1.8.1)+torchvision(0.9.1)以下为查看方法:cuda:进入cmd下运行nvcc --version命令torch和torchvision:进入Anaconda Pr原创 2021-04-13 21:04:06 · 136 阅读 · 0 评论