文献翻译9_A PROTOTYPICAL TRIPLET LOSS FOR COVER DETECTION

椰椰拿铁不加糖

已于 2024-07-06 13:41:17 修改

阅读量858

点赞数 19

分类专栏：文献翻译文章标签：机器学习

于 2024-02-27 19:53:56 首次发布

本文链接：https://blog.csdn.net/weixin_51556688/article/details/136329029

版权

文献翻译专栏收录该内容

9 篇文章 0 订阅

订阅专栏

原文链接：[PDF] A Prototypical Triplet Loss for Cover Detection | Semantic Scholar

ABSTRACT

自动封面检测是音乐信息检索(MIR)领域中一个长期存在的具有挑战性的理论问题，也成为音乐创作社团在自动检测音频片段是否包含其目录中的音乐内容时的实际需求。

在最近的一项工作中，我们通过使用卷积神经网络将每个音轨的主旋律映射到一个嵌入向量，使用卷积神经网络将每个音轨的主导旋律作为输入，经过模型的处理后，得到一个具有较低维度的嵌入向量来代表这段主导旋律。并训练网络来最小化嵌入空间中封面对之间的距离，同时将非封面对之间的距离最大化，来解决这个问题。我们特别表明，通过使用具有五个或更多封面的作品进行模型训练可以得到最先进的结果。

然而，这并不符合实际使用情况，因为音乐目录通常只包含零个或最多一个或两个封面。因此，我们在这里引入了一个考虑这些限制的新测试集，并提出了两个改进我们模型在这些严格条件下准确性的方法：我们将主旋律替换为多音高表示作为输入数据，并描述了一种新颖的原型三元组损失函数，旨在提高封面聚类效果。我们展示了这些变化在两个具体的应用场景，即大型数据集查找和现场歌曲识别中显著改善了结果。传统的三元损失函数用于学习嵌入向量，在比较不同音乐片段时可以考虑它们之间的相似性关系。而"prototypical triplet loss" 在损失计算中引入了原型样本的概念，通过构建每个类别的原型向量，可以更好地刻画音乐片段之间的相似性和差异性，从而提高音乐封面的聚类效果。

1. INTRODUCTION

（背景）封面曲本质上是对同一原始音乐作品的不同解释。它们通常共享相似的旋律线，但在结构、速度、调性、器乐编配、风格等多个维度上通常有很大的差异。自动封面检测是在音乐信息检索(MIR)领域中长期以来被视为一个具有挑战性的理论问题。对于面临用户生成的在线内容不断扩展的音乐创作者社团，这也成为了一个迫切的实际问题，其中包括受版权保护的音乐片段。

（研究现状）封面检测并不是严格意义上的分类问题：由于音乐作品数量不断增长（即类别）和每个作品中封面数量相对较少（即样本），实际上的问题不是“这个音轨属于哪个作品？”而更多地是“这个音轨与哪些其他音轨最相似？”因此，封面检测需要建立查询音轨和参考音轨之间的相似关系。它需要通过保留同一作品不同封面之间的共同音乐特征的特征提取功能，然后使用简单的成对比较功能在大型音乐库中进行快速查找。

在最近的一项工作中，我们提出了一种基于卷积神经网络的解决方案，该方案设计为将每个音轨的主旋律表示映射到一个嵌入向量。我们训练这个网络，使封面对之间的嵌入向量的欧氏距离最小化，而非封面对之间的距离最大化。我们展示了使用具有足够多封面的作品来训练这样的模型可以学习到主旋律之间的相似性度量。特别是，我们表明在至少有五到十个封面的作品上训练这个模型可以在小规模和大规模数据集上实现最先进的准确性。

然而，这并不符合实际使用情况：实际上，参考数据集通常是一个包含每个作品一个原始解释以及通常为零或极少数一个或两个封面的音乐目录。此外，查询音轨没有特定的理由成为训练过程中任何作品的封面。

（本文方法）因此，我们在这里对我们之前的工作进行扩展：首先，我们构建了一个反映实际条件的新测试集，即与原始训练集不重叠，并且仅包含具有非常少封面的作品。为了改进我们的模型在这些更严格条件下的泛化能力，我们提出以下两个主要贡献：我们将多音高表示作为输入数据，取代了主旋律，并引入了一种新颖的原型三元组损失函数，旨在改善封面聚类效果。最后，我们展示了这些改变在行业中的两个常见任务（大型数据集查找和现场歌曲识别）上显著改善了结果。

在本文的其余部分，我们在第2节中回顾了本工作中使用的主要概念。我们在第3节中详细描述了我们提出的改进方法，即多音高表示和原型三元组损失。我们在第4节中详细说明了我们的大规模数据集查找实验及其结果，以及第5节中的现场歌曲识别实验及其结果。最后，我们对我们的方法未来的改进进行了总结。

2. RELATED WORK

2.1. Multi-pitch estimation

主导旋律（左）和多音高（右）由我们的UNet [6]估计的前30秒。艾拉·菲茨杰拉德对夏季生活的解释。

在音乐信息检索（MIR）社区中，主旋律和多音高估计一直是另一个具有挑战性的问题[2, 3]。最近，随着引入一种卷积网络，可以从音频谐波CQT中学习提取出主旋律，这方面取得了重大突破[4]。对于主旋律，我们可以利用信号处理和机器学习技术来提取和分析音频信号中的音高、音符持续时间、音符间距等信息，从而实现自动音乐转录、旋律相似度比较和音乐风格分类等任务。而多音高估计可以应用于音乐合成、音乐降噪和音乐自动分谱等领域，对于理解和处理复杂的音乐信号非常有帮助。

我们在最近的一项工作中基于这个思想，并针对这个任务提出了U-Net的改进版本——这是最初用于医学图像分割的模型[5, 6]，它取得了最先进的结果。多音高表示通常包含主旋律，通常还包括低音线和一些额外的孤立旋律线，如图1所示，显示了通过我们为每个任务训练的U-Net的两个版本获得的同一音轨的两种表示。在接下来的内容中，我们提出比较使用主旋律和多音高作为输入数据时的封面检测结果。

我们提出这个建议的假设是，多音高嵌入了封面之间共享的有用信息，而这些信息在主旋律中并不存在。

2.2. Cover detection

在封面检测中，成功的方法通常首先提取一个输入表示，保留不同版本之间的共同音乐要素，特别是主旋律[7，8，9]或和谐/音调进程[10，11，12，13，14]，然后计算旋律和/或和声序列之间的相似度得分，通常使用交叉相关性[10，15]或对齐评分算法[16，11]。

为了减轻比较函数的成本，各种作者提出将每个音频表示编码为单个标量或向量——嵌入，并将相似度计算简化为嵌入之间的简单欧式距离。这种方法将计算负担转移到音频特征提取函数上，该函数可以离线完成并存储，并且允许快速查找大型数据集。最初，嵌入是原始表示的哈希函数[17，8]，但正如其他许多MIR应用程序一样，临时和有些随意的手工特征提取逐渐被数据驱动的自动度量学习所取代[18，19，20，21]。

在接下来的内容中，我们特别扩展了我们早期的工作，描述了一个模型学习主旋律表示之间的相似性度量[1]。

2.3. Similarity metric learning

在机器学习中，学习一个能够泛化到未见样本的相似性度量是一个常见的任务[22]。与我们的问题特别相关的是开创性的最近成分分析[23]，它学习了一个马氏距离度量，用于改进k最近邻分类。它直接启发了最近类均值算法，该算法根据类别均值的距离进行分类，而不是根据类别中每个样本之间的距离[24]。类似地，大边界最近邻[25]通过三元组样本学习了一种度量方式，以使得同一类别的每个样本都比任何其他类别的样本更接近其类别成员。

这些想法被推广到不仅学习马氏距离的参数部分，而是将输入数据完全转化为嵌入空间中的表示。特别地，[26]提出了中心损失，以减小类内变异并最大化不同类别之间的分离，同时[27]提出了三元组挖掘来改进原始的三元组损失。在相关的少样本学习领域也提出了类似的方法，模型需要对潜在未知类别的样本进行泛化[28, 29]。特别地，原型网络计算每个查询样本的类别概率分布，基于其与每个类别的中心或原型之间的距离，并通过训练来最大化正确类别的概率[30]。三元组挖掘是一种用于度量学习模型训练的技术，通过选择锚样本、正样本和负样本的三元组样本，帮助模型学习到更好的特征表示能力。这种技术在大边界最近邻等基于距离度量的算法中发挥着重要作用，可以提高分类准确性和鲁棒性。三元组挖掘是一种数据挖掘技术，用于从大规模数据集中发现具有特定关系的三元组（由三个实体组成的数据）。而大边界最近邻是一种基于距离度量的分类算法，用于根据样本之间的距离将其分配给不同的类别。

接下来，我们基于这些先前的工作，引入了原型三元组损失，它通过其原型而不是其样本集合来表示一个类别。

3. PROPOSED METHOD

我们现在扩展了我们之前的工作，用多音高替代了主旋律作为输入数据，并且改进了传统的三元组损失函数，设计了一种新的训练损失函数，旨在提高对封面版本的聚类效果。

3.1. Realistic test set

我们为之前的工作构建了一个由SecondHandSong网站API提供的封面数据集SHS5+。这个初始数据集包含大约7.5k个作品，每个作品至少有五个封面版本，总共有62k个曲目，平均每个作品有8.2个封面版本。这么多的数据是为了有效训练我们的模型，但并不能模拟真实的音乐目录。

因此，我们为本文另外构建了一个完全不重叠的数据集SHS4–，仅包含SecondHandSong提供的每个作品恰好有两个、三个或四个封面版本的作品。这个新数据集包含大约49k首歌曲和约20k个作品，平均每个作品有2.5个封面版本。它更贴近真实的音乐目录，并且意味着更困难的测试条件：每个查询对应的非封面混淆曲目更多。因此，在后续的实验中，我们使用了SHS4–作为我们的新测试集。

3.2. Multi-pitch as input data

从音频HCQT中提取出占主导地位的旋律和多音高表示，跨越6个八度并且每个半音具有5个bin的频率分辨率，就像[4, 6]中所描述的那样。一个占主导地位的旋律通常不会展示重要的变化，并且其频率范围可以修剪到以其平均音高值为中心的3个八度范围内，而不会丢失信息，正如[1]中所观察到的那样。相反，多音高值分布在数个八度之间，其中有两个主要模式对应于低音和占主导地位的旋律，如图2所示。在这项工作中，我们将每个多音高表示修剪为以其平均音高值为中心的5个八度范围。与[1]中所做的一样，只考虑前180秒，并且将结果矩阵缩小了5倍，以实现每个半音分辨率一个bin的最终形状为1024×60个bin。

3.3. Prototypical triplet loss

黑色箭头边缘点与其自身簇中的某些点相比更接近彼此，但相对于其他类别的质心而言，它们更接近其所属簇的质心。

我们用C = {Ci}i∈1..|C|表示类别的集合，用SCi = {sji }ji∈1..|SCi|表示类别Ci的样本集合。在这里，类别是音乐作品，样本是该作品的覆盖版本。

三元组损失用于训练模型，将每个样本映射到一个嵌入，使得该嵌入与所有正例比较时更接近，而与所有负例比较时更远。形式化地说，对于所有的三元组{a, p, n}，其中a是锚定样本，p或n是它的正例或负例之一，要最小化的损失表达式为其中α是一个边界，dap和dan分别是每个锚定样本a与p或n之间的距离[25, 27]。

在我们以前的工作中，我们使用了带有半硬负例挖掘的三元组损失来将同一作品的覆盖版本聚类在一起。我们发现，在测试集上错误匹配为覆盖版本的曲目通常位于其群集的边缘，可能与属于其他类别的样本更接近，而不是自身类别的某些样本，如图3所示。

为了改进样本围绕其类别中心的聚类效果，[26, 30]在不同的背景下提出，通过其样本的质心而不是样本集合来表示一个类别。我们在三元组损失的背景下提出遵循这个想法，并引入原型三元组损失。

考虑一个锚定样本以及三元组，其中是所属群集的质心，是另一个群集的质心。我们用来表示与之间的欧氏距离，来表示s与之间的欧氏距离，并将原型三元组损失定义为

在实践中，原型嵌入是在线计算的，每个训练步骤都会计算：令为大小为B的批次中属于类别的样本的嵌入矩阵。则原型嵌入矩阵可以简单地表示为：

其中如果，则，否则为0。

然后，在每个批次中的每个锚定样本中，在可用的三元组中进行半硬负例挖掘，就像[27]中一样。在嵌入空间中，学习将每个样本在类别中的位置和该类别的质心的距离最小化，同时最大化与所有其他群集质心的距离。

训练完成后，可以将覆盖版本的嵌入质心视为作品本身的嵌入，这实际上体现了音乐作品的概念。

4. LARGE DATASET LOOKUP EXPERIMENT

本实验对应于应在参考音乐语料库中找到查询轨道的工作和/或封面的用例。

4.1. Description

计算查询与样本之间的距离（左边）或查询与类别原型之间的距离（右边）对应于按样本或按类别进行评分的方案。

我们将SHS4-数据集拆分为查询集和参考集。查询集随机选择每个作品的一个封面（即20k个查询），而参考集则包含了整个SHS4-数据集。我们使用在SHS5+上训练的模型提取了所有嵌入向量。然后我们计算了查询和参考之间的距离矩阵，大小为20k×49k，同时排除了自身匹配。

我们报告了标准的信息检索度量标准，这些度量标准在MIREX的封面识别任务中经常使用。平均精确率（MAP）可以反映出正确样本的排序情况，而前十个位置上的平均真阳性数（MT@10）则指示了排序的相关性。

在此，我们考虑了两种评分方案，如图4所示：按样本比较将每个查询与每个参考进行比较，而按类别比较则将每个查询与每个类别的原型进行比较。按样本比较适用于寻找一首歌曲的不同版本，而按类别比较适用于寻找一首歌曲的原作。我们期望按类别比较的结果会更好，因为类别原型的数量比样本要少。为了公平比较，我们还报告了归一化的MT@10∗，即每个查询返回的正确样本数除以其最大可能的正确样本数。

4.2. Results

对于一个以主旋律为主的模型和多音高训练，并使用标准（粉色）和原型（紫色）三元组损失的模型，对于20k个查询和49k个参考数据，计算MAP（左）和MT@10（右）进行评估。

MAP（左）和10∗标准化MT（右）获得20k查询的49k参考，用标准（粉色）和原型（紫色）三联体损失训练，并在样本和类模式下得分。

在使用主旋律和多音高表示进行十次随机拆分后，按样本平均的得分如图5所示。无论是标准还是原型三元组损失，多音高表示相比主旋律表示都提高了所有得分。这表明，仅仅使用主旋律并不能嵌入所有相关的封面检测信息，而多音高的额外信息（主要是低音线）有助于进一步改善结果。

按多音高方案获得的平均分数（两种评分方式）如图6所示，该图基于使用标准三元组损失和原型三元组损失进行的十次随机拆分。当模型使用原型三元组损失进行训练时，所有得分都显著提高了5%到6%。这在使用类别模式进行评分时是预期的，因为模型专门为此任务进行了训练。但更有意思的是，当模型使用原型三元组损失进行训练，并在样本模式下用于查找给定查询的所有封面时，结果也显著提高。

换句话说，使用原型三元组损失训练模型可以改善对未见示例的泛化能力，不论是按样本还是按类别进行查询。

5. LIVE SONG IDENTIFICATION EXPERIMENT

本实验对应于应在参考音乐目录中找到在现场音乐会中播放的歌曲的用例。

5.1. Description

在这个实验中，我们使用了法国音乐作曲家协会（Sacem）的专有音乐收藏中的五场音乐会录音。每个录音持续时间为一到三个小时，包含10到30首歌曲。由于录音是从观众席进行的，因此音频质量通常较差。

我们将每场音乐会录音分割成180秒的重叠帧，每30秒提取一个帧的特征向量，并使用我们训练好的模型对每个帧的特征进行嵌入提取。音乐会帧的特征嵌入用作查询集。类似地，我们还提取了每场音乐会上播放的N首歌曲的录音室版本的特征嵌入，并将它们添加到SHS4-的49,000个特征嵌入中。然后，我们计算查询集（音乐会重叠帧）与参考集（原始版本音轨+49k混淆音轨）之间的距离矩阵。在每个时间帧上，只考虑最佳的参考音轨，并只保留在至少连续三个时间帧 ** 现的参考音轨。

我们在这里报告了候选列表上的R-precision，即在排名为N时找到的正确音轨数除以N。