深度学习在音频信号处理领域中的进展（截止至2019年5月）

最新推荐文章于 2024-07-05 04:00:00 发布

z小白

最新推荐文章于 2024-07-05 04:00:00 发布

阅读量3.3w

点赞数 68

分类专栏：声音识别声音识别教程文章标签：声音信号处理深度学习 Audio signal processing Deep learning 语音识别

本文链接：https://blog.csdn.net/zzc15806/article/details/90376023

版权

本文综述了深度学习在音频信号处理领域的进展，涵盖了语音、音乐和环境声三个方面，分析了声音特征、模型和应用。深度学习已广泛应用于语音识别，音乐信息检索和环境声识别，但挑战依然存在，包括数据需求和模型优化。

摘要由CSDN通过智能技术生成

最近在arXiv上看到一篇关于深度学习在音频信号处理中的进展的文章，感觉写的不错，所以根据自己的理解和大家分享一下。如果有些地方博主理解的不对，或者解释不清，可以在下面评论，博主会一一回复。

论文链接：Deep Learning for Audio Signal Processing

摘要

这篇文章是奥尔堡大学，Google等几个研究机构的一篇关于深度学习在音频信号处理中的进展的综述。这篇文章主要从语音（Speech）、音乐（Music）和环境声（Environmental Sounds）三个领域出发，分析它们之间的相似点和不同点，以及一些跨领域的通用方法描述。具体而言，作者在音频特征表示（log-mel spectra, raw waveforms）和网络模型（CNN, RNN, CRNN）进行了详细的分析，对每个领域的技术演进以及深度学习应用场景进行了大概的描述。最后，作者总结了深度学习在音频信号处理领域一些关键问题和未来的研究方向。

综述

目前为止，深度学习一共经历了三次浪潮：1）1957年的感知算法的提出；2）1986年反向传播算法的提出；3）2012年深度学习在图像识别领域上的成功突破，使得深度学习的发展呈现的蓬勃的景象，并广泛应用在其他领域，比如基因组学、量子化学、自然语言处理，推荐系统等。相比于图像处理领域，声音信号处理领域是深度学习成功应用的又一个大方向，尤其是语音识别，很多大公司都在做这个方向。和图像不同，声音信号是一维的序列数据，尽管可以通过像FFT这样的频域转换算法转换为二维频谱，但是它的两个维度也是有特定的含义（纵轴表示频率，横轴表示时间帧），不能直接采用图像的形式进行处理，需要有领域内特定的处理方法。

问题描述

根据任务目标的类型可以划分为不同的任务类型，图一所示。首先，目标可以是一个全局的单标签，可以每个时间帧都有一个标签，也可以是一个自有长度的序列。其次，每个标签可以为一个单一的类别，可以为多个类别，也可以是一个数值。

预测一个全局的单标签的任务称为序列分类（Sequence Classification），这个标签可以为一个语言，说话人，音乐键或者声音场景等。当目标为多个类别的集合时，称为多标签序列分类（Multi-label Sequence Classification）。当目标是一个连续的数值时，称为序列回归（sequence regression）。实际上，回归任务通常是可以离散化并且转化为分类任务，比如，连续坐标的定位任务是一个回归任务&#

最低0.47元/天解锁文章

z小白

关注

68
点赞
踩
329

收藏

觉得还不错? 一键收藏
17
评论
深度学习在音频信号处理领域中的进展（截止至2019年5月）

最近在arXiv上看到一篇关于深度学习在音频信号处理中的进展的文章，感觉写的不错，所以根据自己的理解和大家分享一下。如果有些地方博主理解的不对，或者解释不清，可以在下面评论，博主会一一回复。论文链接：Deep Learning for Audio Signal Processing摘要这篇文章是奥尔堡大学，Google等几个研究机构的一篇关于深度学习在音频信号处理中的进展的综述。这篇文...
复制链接

扫一扫

专栏目录