最近在arXiv上看到一篇关于深度学习在音频信号处理中的进展的文章,感觉写的不错,所以根据自己的理解和大家分享一下。如果有些地方博主理解的不对,或者解释不清,可以在下面评论,博主会一一回复。
论文链接:Deep Learning for Audio Signal Processing
摘要
这篇文章是奥尔堡大学,Google等几个研究机构的一篇关于深度学习在音频信号处理中的进展的综述。这篇文章主要从语音(Speech)、音乐(Music)和环境声(Environmental Sounds)三个领域出发,分析它们之间的相似点和不同点,以及一些跨领域的通用方法描述。具体而言,作者在音频特征表示(log-mel spectra, raw waveforms)和网络模型(CNN, RNN, CRNN)进行了详细的分析,对每个领域的技术演进以及深度学习应用场景进行了大概的描述。最后,作者总结了深度学习在音频信号处理领域一些关键问题和未来的研究方向。
综述
目前为止,深度学习一共经历了三次浪潮:1)1957年的感知算法的提出;2)1986年反向传播算法的提出;3)2012年深度学习在图像识别领域上的成功突破,使得深度学习的发展呈现的蓬勃的景象,并广泛应用在其他领域,比如基因组学、量子化学、自然语言处理,推荐系统等。相比于图像处理领域,声音信号处理领域是深度学习成功应用的又一个大方向,尤其是语音识别,很多大公司都在做这个方向。和图像不同,声音信号是一维的序列数据,尽管可以通过像FFT这样的频域转换算法转换为二维频谱,但是它的两个维度也是有特定的含义(纵轴表示频率,横轴表示时间帧),不能直接采用图像的形式进行处理,需要有领域内特定的处理方法。
问题描述
根据任务目标的类型可以划分为不同的任务类型,图一所示。首先,目标可以是一个全局的单标签,可以每个时间帧都有一个标签,也可以是一个自有长度的序列。其次,每个标签可以为一个单一的类别,可以为多个类别,也可以是一个数值。
![](https://i-blog.csdnimg.cn/blog_migrate/a4520f761892ef77ce2e2ae442f8afe2.png)
预测一个全局的单标签的任务称为序列分类(Sequence Classification),这个标签可以为一个语言,说话人,音乐键或者声音场景等。当目标为多个类别的集合时,称为多标签序列分类(Multi-label Sequence Classification)。当目标是一个连续的数值时,称为序列回归(sequence regression)。实际上,回归任务通常是可以离散化并且转化为分类任务,比如,连续坐标的定位任务是一个回归任务&#