文献翻译6_Audio Cover Song Identification using ConvolutionalNeural Network

椰椰拿铁不加糖

已于 2024-07-06 13:41:36 修改

阅读量802

点赞数 22

分类专栏：文献翻译文章标签：机器学习

于 2024-02-20 10:27:16 首次发布

本文链接：https://blog.csdn.net/weixin_51556688/article/details/136181618

版权

文献翻译专栏收录该内容

9 篇文章 0 订阅

订阅专栏

文章介绍了一种使用卷积神经网络(CNN)对音频进行翻唱歌曲识别的新方法，通过分析歌曲间的交叉相似度矩阵来捕捉有意义的模式。实验结果显示，该算法在识别性能上超越或与现有技术相当，特别是在前10个识别出的翻唱歌曲数量(MNIT10)和平均精度(MAP)上表现优异。

摘要由CSDN通过智能技术生成

原文链接：[PDF] Audio Cover Song Identification using Convolutional Neural Network | Semantic Scholar

Abstract

本文提出了一种使用卷积神经网络（CNN）进行歌曲识别的新方法。先前的研究大多是从一对歌曲中提取表征其相似关系的特征向量，并用于计算两首歌曲之间的（不）相似度。基于观察到存在着有意义的模式，而且这些模式是可以被学习到的，我们将歌曲识别问题重新定义为机器学习框架下的问题。为此，我们首先构建了一个CNN，将一对歌曲生成的交叉相似度矩阵作为输入。然后构建了由包含正样本（即覆盖歌曲对）和负样本（即非覆盖歌曲对）组成的数据集，用作训练样本。经过训练后，CNN可以根据任意两首音乐生成的交叉相似度矩阵输出处于翻唱歌曲关系中的概率，并通过概率排名来识别覆盖歌曲。实验结果表明，该算法的性能优于或与最先进技术相媲美。

1 Introduction

（背景）在流行音乐中，一首翻唱歌曲或翻唱版本是指由原创作曲家或原唱歌手之外的人制作的新录音。翻唱歌曲与原歌共享关键的音乐元素，如旋律轮廓、基本和弦进行和歌词。然而，它们在其他方面可能与原歌有所不同，例如乐器编排、节奏、速度、调性、和声和编曲等。翻唱歌曲识别的应用包括基于内容的音乐推荐、检测音乐抄袭和音乐采样等。

（研究现状）传统的翻唱歌曲识别方法通常结合了特征提取和距离度量。对于特征提取，色度特征（Serra等人，2009）及其变体（Müller和Kurth，2006；Müller和Ewert，2010）被广泛用于表征旋律和和弦进行。然后，距离度量用于衡量两首音乐中特征空间内子序列的相似性。为此提出了各种距离度量方法，包括动态时间规整（DTW；Serra等人，2008a）成本、互相关（Ellis和Cotton，2007）以及最近的相似性矩阵概要（SimPLe；Silva等人，2016）和结构相似性（Cai等人，2017）等方法。

到目前为止，已经有一些尝试利用机器学习进行翻唱歌曲识别的研究。Humphrey等人（2013）使用了从色度中导出的二维傅里叶幅度系数的稀疏编码。最近，Heo等人（2017）尝试将度量学习（Davis等人，2007）应用于SimPLe的结果。这些工作都基于现有的确定性翻唱歌曲识别算法，并主要集中在通过提出新的嵌入技术或度量子空间学习来改进翻唱歌曲发现的可扩展性。

（本文方法）在本研究中，我们提出了一个基于卷积神经网络的音频翻唱歌曲识别系统。我们使用从一对歌曲生成的交叉相似度矩阵作为输入特征。这个想法基于这样一个观察：在翻唱歌曲中，相似的子序列在交叉相似度矩阵中通常呈现出有意义的模式。基于这种假设，我们将音频翻唱歌曲识别问题重新定义为图像分类的问题框架中。

2 Basic Idea

（预处理，音频信号转换为色度特征）在先前的音频匹配工作中，通过移动时间窗口的局部色度能量分布被广泛用作音高内容（包括旋律轮廓和和弦进行）的表示。基于Hu等人（2003）的工作，我们首先将每首歌的音频信号转换为一个12维的色度特征，使用1秒的无重叠窗口。（计算相似度特征）然后，我们可以针对两个色度特征{A，B}定义一个交叉相似度矩阵S，如下所示：

这里δ表示距离函数，{L，M}分别是色度序列{A ∈ R12×L，B ∈ R12×M}的所有时间索引。对于δ，我们计算了欧氏距离，并应用了Serra等人（2008b）提出的关键对齐算法。这也被称为最佳变调指数。

图1显示了从（a）四个翻唱对和（b）四个非翻唱对生成的8个S示例。左边两个图像（a）是从包含几乎相同伴奏的翻唱对生成的，我们可以观察到连贯的带状斜线和块状模式。第三个和第四个最左边的图像（a）是从以不同速度和乐器演奏的翻唱对生成的。尽管块状模式消失了，但与非翻唱对（b）相比，我们仍然可以观察到连贯的带状斜线。根据这个观察，（用CNN度量计算出的相似性矩阵）我们假设卷积神经网络模型可以从交叉相似度矩阵中识别相关模式。更具体地说，卷积层的块可以按顺序进行子采样和交叉相关（或卷积），以区分在许多不同尺度下的图像中的有意义的模式。目前，我们只比较每首歌的前180秒：我们观察到大多数流行音乐录音的持续时间为三到五分钟，前三分钟主要包含主旋律。因此，我们假设每首歌的前180秒提供了相关信息来识别一首翻唱歌曲。如果歌曲的持续时间少于180秒，歌曲的持续时间将通过填充零进行标准化。

需要注意的是，方程1等效于Silva等人（2016）提出的SimPLe的中间过程。另一个密切相关的工作是Sakoe和Chiba（1978），它在语音对齐的早期过程中利用了交叉相似度矩阵。此外，在各种音频音乐分割的工作中，还提出了利用自相似矩阵中的带状或块状模式的类似想法（Paulus等人，2010）。所有这些发现都激发了我们使用卷积神经网络与交叉相似度矩阵的想法。

3 Proposed System

卷积神经网络的规范：括号内是单位卷积块，括号外是堆叠的块数。Conv代表具有stride = 1的相同卷积层，其括号内为（通道×宽度×高度）。Maxpool代表具有stride = 1的最大池化层，其括号内为（池化大小）。BN和FC分别代表批标准化和全连接层。

（系统结构）所提出的系统如图2所示，由三个阶段组成。在预处理阶段，我们将音频信号转换为每首歌的色度特征。然后，我们通过采用一对色度特征生成交叉相似度矩阵，如第2节所述。

下一个阶段是基于卷积神经网络（以下简称CNN），具体规格如表1所示。我们的CNN是一个比传统的ImageNet卷积神经网络（例如AlexNet [Krizhevsky等人，2012]，具有5个卷积层和6000万个参数）更窄更深的网络（1000万个参数，具有10个卷积层）。对于输入交叉相似度矩阵的大小，我们目前将其固定为180×180（剪切或零填充），对应于比较前3分钟的音乐。对于第一个卷积层的滤波器大小，第一层的感受野对应于5秒的音频（乐谱中的2-4小节）。实际上，使用5×5的第一个卷积滤波器大小比使用3×3或7×7的性能提高了约4%。至于第2-4块，第2节的基本思想是在这些块中运行一个由子采样和交叉相关（或卷积）组成的处理模式链。为此，CNN的第2-4块使用一个输出一半下采样尺寸的模板卷积块进行构建。在每个卷积块中，我们应用批归一化（Ioffe和Szegedy，2015）。

我们系统的最后一个阶段对训练过的CNN的softmax输出进行排序。我们首先获得所有翻唱候选人的翻唱可能性向量。然后，我们对此向量进行降序排序，以对最有可能的前N个翻唱进行排名。

4 Experimental Results

4.1 Data set

我们使用Heo等人（2017）提供的评估数据集。该数据集类似于用于MIREX1翻唱歌曲识别任务的数据集。它包含了330首作为查询集的翻唱歌曲和670首不被翻唱的虚拟歌曲。在这330首查询歌曲中，有30种不同类型的翻唱歌曲，每种歌曲都有11个不同的翻唱版本（每首查询歌曲必须有10个地面真实的翻唱版本）。因此，它可以生成3,300个翻唱对和496,200个非翻唱对的测试样例。

训练集由2,113个翻唱对和2,113个非翻唱对组成。留出验证集由322个翻唱对和322个非翻唱对组成。这些数据集是不相交的。音频文件包含了从1980年到2016年发布的流行韩国音乐。它们以44,100 Hz的采样率立体声录制。

4.2 Training

在训练之前，我们对输入的相似性矩阵进行了零均值单位标准化，以进行特征缩放。我们使用了共计4,226个相似性矩阵（覆盖和非覆盖类别平衡）对CNN进行训练。CNN是基于Keras框架实现的，并在单个GPU云服务器上运行。使用Adam优化器（Kingma和Ba [2014]），当交叉熵损失函数达到收敛且小于10的负4次方时，训练停止。通过嵌套网格搜索，我们尝试优化两个dropout超参数，分别表示为表1中的dropoutp和dropoutq。通过不查看测试集准确率，我们最终实现了dropoutp（0.5）和dropoutq（0.5）的验证准确率为83.4%。

4.3 Results

我们按照MIREX中音频覆盖歌曲识别任务提出的指标来评估所提出的系统：
• MNIT10：前十个识别出的覆盖歌曲的平均数量。
• MAP：平均精确率。
• MR1：第一个正确识别的覆盖歌曲的平均排名。
其中，MNIT10被计算为“在前十个中正确识别的覆盖歌曲的总数”除以“地面真实覆盖歌曲的总数（= 3,300）”。在表2中，我们将我们的系统与两个基线算法进行了比较：Silva等人[2016]是一种确定性算法，Heo等人[2017]是一种基于度量学习的算法。所提出的CNN实现了最大的MNIT10。这意味着所提出系统的搜索结果中，平均有8.04个正确的覆盖歌曲位于前十个中。就MNIT10和MAP（较大值表示更好）而言，目前的CNN在与这两个比较算法相比时展现出了竞争力。就MR1（较小值表示更好）而言，所提出的CNN性能比SimPLe这个第二好的算法提高了80.10%。较小的MR1表明地面真实覆盖歌曲更多地出现在搜索结果的前列。尚未考虑比较每首歌曲的不同输入长度的影响。然而，与所有将整个歌曲长度作为输入进行比较的系统相比，仅比较前180秒的所提出系统获得了更好的性能。

5 Conclusions and Future Work

我们提出了一种基于卷积神经网络的音频覆盖歌曲识别方法。我们的假设是，来自一对两首歌曲的交叉相似性矩阵可能呈现出有意义的模式。基于此，我们使用与图像二元分类器相同的方式训练了CNN，使用交叉相似性矩阵作为训练数据。通过对训练后的CNN的softmax输出进行排名，所提出的系统能够预测最有可能的一组固定数量的覆盖歌曲对。我们将所提出系统的性能与一种确定性方法和另一种基于机器学习的方法进行了比较。尽管当前的研究显示了有希望的结果，但仍有很大的改进空间，特别是通过寻找更适合的CNN设计、超参数调整，并增加具有灵活输入特征长度的训练数据集的大小。此外，我们没有应用任何嵌入技术，这在进行大规模的覆盖歌曲搜索中是必要的。因此，对这些技术的探索留待未来工作。

椰椰拿铁不加糖

关注

22
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
文献翻译6_Audio Cover Song Identification using ConvolutionalNeural Network

Audio Cover Song Identification using ConvolutionalNeural Network
复制链接

扫一扫

专栏目录