文献翻译7_COVER DETECTION USING DOMINANT MELODY EMBEDDINGS

本文链接：https://blog.csdn.net/weixin_51556688/article/details/136262641

本文提出一种用于自动封面检测的神经网络架构，将音轨表示为单个嵌入向量，从主导旋律表示中提取嵌入。该方法在小型和大型数据集上均改善了准确性，能扩展到包含成千上万个音轨的查询数据库，且计算时间短，还优于其他现有方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原文链接：[PDF] Cover Detection Using Dominant Melody Embeddings | Semantic Scholar

ABSTRACT

自动封面检测是在音频数据库中查找与一个或多个查询音轨相匹配的封面的任务，长期以来一直被音乐信息检索（MIR）社区视为具有挑战性的理论问题，并且对于作者和作曲家协会而言也是一个迫切的实际问题。最初为该任务提出的算法在小型数据集上证明了其准确性，但无法扩展到现代实际音频库。另一方面，为处理成千上万个成对比较而设计的更快的方法导致准确性较低，使其不适合实际应用。

在这项工作中，我们提出了一个神经网络架构，该架构经过训练可以将每个音轨表示为单个嵌入向量。将每个音轨表示为单个嵌入向量的目的是为了将复杂的音轨数据映射到一个更简洁、有效的表示形式。因此，计算负担落在了嵌入提取上，可以离线进行并存储，而成对比较任务则简化为简单的欧氏距离计算。我们进一步提出从主导旋律表示中提取每个音轨的嵌入，该主导旋律表示是通过另一个针对此任务进行训练的神经网络获得的。然后，我们展示了这种架构在小型和大型数据集上均改善了最先进的准确性，并能在几秒钟内扩展到包含成千上万个音轨的查询数据库。

1. INTRODUCTION

（需要解决的主要问题）封面检测并不严格意义上是一个分类问题：由于音乐作品（类别）数量不断增加，每个作品的封面数量相对较少，实际问题更多的是“这个音轨属于哪个作品？”而是“这个音轨与哪些其他音轨最相似？”形式上，封面检测要求建立一个查询音轨Ai和参考音轨Bj之间的相似关系Sij。这需要使用特征提取函数f和成对比较函数g的组合，表示为Sij = g(f(Ai), f(Bj))。如果f和g是独立的，那么参考音轨Bj的特征提取可以脱机进行并存储。在线特征提取的成本随查询数呈线性增长，而成对比较的成本在没有优化的情况下随音轨数呈二次方增长。因此，高效的封面检测算法需要一个快速的成对比较函数g。DTW等对整个序列进行比较的方法随着序列长度的增加而呈二次方增长，从而变得不可行。相反，将g简化为在音轨嵌入之间进行简单的欧氏距离计算与序列长度无关。在这种情况下，检测的准确性完全依赖于f提取不同封面之间的共同音乐特征的能力。

在这项工作中，我们描述了一个神经网络架构，将每个音轨映射到一个单独的嵌入向量，并通过训练来最小化嵌入空间中封面对的欧氏距离，同时最大化非封面对的距离。我们利用最近在主导旋律提取方面取得的突破，并展示了使用主导旋律嵌入在准确性和可扩展性方面具有良好的性能。

本文的其余部分安排如下：在第2节中回顾了本文中使用的主要概念。我们在第3节中详细介绍了我们的方法，并在第4节和第5节中描述和讨论了进行的不同实验及其结果。最后，我们在第6节中与现有方法进行了比较。我们总结了对我们的方法进行未来改进的展望。

2. RELATED WORK

2.1 Cover detection

封面检测中成功的方法采用了一种输入表示方法，保留了不同版本之间的共同音乐特征，特别是主导旋律[19, 27, 40]、调性进展（通常是一系列色度[10, 12, 33, 39]或和弦[2]）或两者的融合[11, 29]。大多数这些方法计算了音乐和/或和声序列对之间的相似度得分，通常是交叉相关性[10]、DTW算法的变体[12, 20, 33, 39]或两者的组合[25]。这些方法在小数据集上评估时取得了良好的结果，最多只有几百个音轨，但由于它们昂贵的比较函数，在更大规模的现代音频数据库中无法扩展。

最近有提出了其他更快的方法，基于有效比较色度表示之间所有可能的子序列对[34]，或者从CQT重叠窗口派生的2D-DFT序列之间的相似性搜索[31]，但由于其成本较高，无法扩展到查询大型现代音频数据库。

为了减少比较函数的成本，并将负担转移到可以脱机进行的音频特征提取函数上，还提出了另一种类型的方法。一般原则是将每个音频轨道编码为单个标量或向量-其嵌入-并将相似性计算简化为嵌入之间的简单欧氏距离。最初，嵌入例如可以计算为连续音高里程碑的哈希编码[3]，或者通过PCA降维从色度图的2D-DFT[4]得到的向量，或者用于表示局部敏感哈希的旋律片段[19]。

对于许多其他音乐信息检索的应用程序，最初的特征提取往往是临时的，并且有些是任意的，并逐渐转为使用数据驱动的自动特征学习[15]。已经提出了不同的尝试来学习封面之间的共同特征。特别是，训练k-means算法以学习从色度图的2D-DFT中提取嵌入的方法在大型数据集上显著改进了结果[16]。类似的方法，通常被称为度量学习方法，已经在不同的音乐信息检索方面使用，例如音乐推荐[21, 41]、现场歌曲识别[38]、音乐相似性搜索[24]，最近还应用于封面检测[23]。它旨在通过学习适应性的距离度量，使得具有相似特征的样本在特征空间中更加接近，而不同类别的样本则更加分散。其核心目标是通过优化学习一个合适的距离或相似性度量函数，使得在高维特征空间中的样本能够在度量空间更好地刻画出类别间的关系。

2.2 Metric learning

尽管这个概念可以追溯到较早的作品[1, 8]，但"度量学习"一词可能最早在[43]中被提出，用来解决这种类型的聚类任务，其目标仅仅是评估不同样本是否相似或不相似。此后，在图像识别领域，尤其是在[14, 36, 37]中，广泛使用了这个方法。

其基本原理是学习一个映射，将输入空间映射到一个潜在的流形空间，在这个空间中，简单的距离度量（如欧氏距离）应该近似于输入空间中的邻近关系。然而，问题存在一个平凡解决方案，即函数将所有示例都映射到同一点。为了解决这个问题，引入了对比损失函数，旨在同时将相似的样本对拉近，并将不相似的样本对推开[13]。

然而，当标签数量增加时，不相似样本对的数量迅速变得难以处理。实践中还观察到，一旦网络达到了相当不错的效果，负样本对相对容易区分，这会导致判别性模型的训练停滞不前。对模型进行硬样本对挖掘是一种策略，即只用具有大距离（小距离）的正样本（负样本）对训练模型[35]。随后，引入了三元组损失，用于训练模型将每个样本映射到一个嵌入空间，其中该嵌入空间与所有正样本的距离都比与所有负样本的距离更近[30]。形式上，对于所有的三元组{a, p, n}，其中a是锚点，p或n分别是其正样本或负样本示例，要最小化的损失函数表达式为，其中α是一个边界值，dap和dan分别是每个锚点a与p或n之间的距离。

2.3 Dominant melody extraction

在音乐信息检索（MIR）领域，主旋律提取一直是一个具有挑战性的问题[18, 28, 42]。最近，通过引入一个卷积神经网络来学习从音频谐波CQT中提取主旋律，取得了重大突破[7]。HCQT是音频信号的一个优雅而巧妙的表示，具有三个维度（时间、频率、谐波），第三个维度上堆叠了在不同最小倍频频率上计算的几个标准CQT。因此，音频信号的谐波分量将沿着第三个维度表示，并且在第一和第二维度上的相同位置进行定位。这种表示对于旋律检测特别合适，因为它可以直接由卷积神经网络处理，该网络的3D滤波器可以被训练成在时间和频率平面上定位谐波分量。

在最近的一项工作中[9]，我们提出了一个类比于图像处理的观点，认为主旋律提取可以看作是一种图像分割，其中需要将旋律的轮廓从周围的背景中隔离出来。因此，我们提出了对U-Net的改进，它是一个最初用于医学图像分割的模型，对[7]进行了轻微改进，用于主旋律估计。

3. PROPOSED METHOD

3.1 Input data

我们在[9]中提出的网络所提取的主旋律2D表示（F0-CQT）是作为输入数据使用的。对于主旋律提取而言，频率和时间的分辨率要求（每个八度60个频率区间，每帧11毫秒）不需要用于Cover检测。此外，有效的三元组损失训练需要大批量的训练数据，稍后会看到，因此我们降低了数据的维度，如图2所示。

F0-CQT经过以下处理：
a) 裁剪保留围绕其平均音高的3个八度（频率轴上的180个区间），并仅保留曲目的前3分钟（15500个时间帧） - 如果曲目较短，则时长不变。
结果矩阵然后通过双线性2D插值进行b) 下采样，缩小5倍。在频率轴上，半音的分辨率从5个区间减少到1个区间，我们认为这对于Cover检测是足够的。在时间轴上，这相当于常规的下采样。

最后，由于在训练期间可能需要将具有不同持续时间的不同曲目的表示进行批处理，因此通过另一次双线性插值将下采样的F0-CQT沿着时间轴c) 收缩或拉伸到固定数量的区间（1024个）。该操作相当于改变速度：对于裁剪的3分钟，收缩等效于将速度乘以3倍。

我们在这里提出，原曲的加速或减速版本仍然是原曲的一种演绎。

3.2 Model

所提出的模型是一个简单的卷积网络，如图1所示。由于输入数据的形状限制，其时间维度远大于频率维度，因此只需要五个层块。每个层块由批量归一化层、3×3卷积层和3×2核心、3×2步幅的均值池化层组成，以便比频率维度更快地降低时间维度。分别对于块2、块3、块4和块5应用了0.1、0.1、0.2和0.3的dropout率。

第一个卷积层具有K个核心，而每个层级的核心数量加倍（即深层输出2^4K深度的张量）。倒数第二层沿着频率和时间轴进行平均，得到一个向量。最后一个密集层输出并对尺寸为E的最终嵌入向量进行L2归一化。

我们选择这种卷积架构的假设是，我们希望它能够学习到主旋律的相似模式，具备不同尺度（速度不变性）和位置（键和结构不变性）的特征。

3.3 Objective loss

我们使用了在线半硬负样本挖掘的三元组损失，类似于[30]中的方法。实际上，三元组挖掘是在每个训练批次内进行的：不是使用所有可能的三元组，而是将批次中的每个音轨依次视为锚点，并与批次中的所有相关音轨进行比较。对于每个正样本对，如果存在dan < dap的负样本，则只保留dan最高的一个。如果不存在这样的负样本，则只保留dan最低的一个。其他负样本不予考虑。

模型使用Adam优化器[17]进行拟合，初始学习率为1e-4，在评估集上的损失经过5k次训练步骤后不再下降时，学习率减半。训练在100k步骤后停止，或者学习率降至1e-7以下。三元组损失使用欧氏距离的平方计算（即距离在[0, 4]范围内），并且边界被设置为α = 1。

3.4 Dataset

由于度量学习通常需要大量的数据，我们从互联网上获取了由SecondHandSongs网站API 1提供的翻唱音轨的音频。仅使用包含5至15首翻唱版本的歌曲，并且只考虑持续时间在60至300秒之间的音轨，总共有W = 7460个作品和T = 62310个音轨。

对这62310个音轨进行了HCQT（Harmonic CQT）计算，具体方法如[7]中所述，即使用fmin = 32.7 Hz和6个谐波。每个CQT跨越6个八度，每个半音有5个频带的分辨率，帧持续时间约为11毫秒。实现是通过Librosa库[22]完成的。

对这62310个HCQT音轨提取了主旋律，使用了我们在[9]中描述的网络，并按照第3.1节中的描述对输出进行了修剪、下采样和调整大小处理。

4. PRELIMINARY EXPERIMENTS

我们在这里介绍了一些用于开发系统的实验。7460个作品被分成了不相交的训练集和评估集，分别包含6216个和1244个作品，每个作品有五个翻唱版本。评估集占据了训练集的大约20%，考虑到翻唱版本的总量，我们认为这是相当合理的。对于所有的初步实验，都使用了相同的数据分割方式。

4.1 Metrics

理想情况下，我们希望模型生成的嵌入向量能够使翻唱对之间的距离较小，非翻唱对之间的距离较大，并且这两个分布之间有明显的差异。在初步实验中，我们使用了两个指标来评估翻唱对距离分布pc(d)和非翻唱对距离分布pnc(d)之间的分离程度：

- ROC曲线绘制了不同距离d阈值下的真正例率（翻唱对，TPR）和假正例率（非翻唱对，FPR）。我们报告ROC曲线下的面积（AuC），这可以很好地表明分布的分离程度。我们还报告了在FPR为5%时对应的TPR（TPR@5%），因为这可以提供模型判别能力的操作性指标。

- 我们还报告了Bhattacharyya系数（BC），表示为它直接衡量了这两个分布之间的分离程度（数值越小越好）[6]。

4.2 Influence of input data

首先，我们对不同的输入数据进行了比较：使用Librosa [22]计算得到的色度图和CQT以及根据3.1节描述的方法计算得到的主旋律。如图3（左）所示，主旋律给出了最好的结果。这并不意味着主旋律特征比音调特征更适合于翻唱检测，而是表明当输入数据稀疏时，卷积核在学习不同轨道上不同尺度和位置处的相似模式时更为有效，而色度图和CQT则不具备这种效果。图3还展示了在不同八度和时间跨度下修剪F0-CQT所获得的结果。结果表明，保留主旋律平均音高周围的3个八度和2到3分钟的持续时间会得到最佳结果。较小的跨度不包含足够的信息，而较大的跨度会导致混淆。

因此，下面所呈现的所有其他结果都是使用主旋律的2D表示作为输入数据，并对每个音轨使用3个八度和180秒的跨度进行计算的。

4.3 Influence of model and training parameters

接下来，我们对于第一层中不同数量的卷积核(K)和相应的嵌入大小(E)进行了比较。如图4（左）所示，当K增加时，结果会有所改善，这是可以预料的。然而，当K增加到一定程度时，进一步增加并不会进一步改善结果，因为模型可能已经具有足够的自由度来编码常见的音乐要素。然后，我们比较了不同训练批次大小（B）所得到的结果。如图4（右）所示，结果随着较大的B而改善：在较大的批次中，每个音轨将与更多的非翻唱作品进行比较，从而改善了作品群之间的区分度。对距离的更详细观察确实显示出，针对较大批次的负样本对距离分布pnc(d)变窄（这里未呈现）。由于GPU内存限制，我们没有探索超过B=100的值。

因此，下面所呈现的所有其他结果都是使用K=64、E=512和B=100进行计算得到的。

5. LARGE SCALE LOOKUP EXPERIMENTS

我们现在介绍研究实际使用情况（即大规模音频 ** 查询）的实验。在查询音频 ** 时，每个查询音轨可以分为三种情况：a）它已经存在于数据库中，b）它是数据库中某些其他音轨的翻唱版本，或c）它是数据库中没有翻唱版本的音轨。情况a）对应于一个简单的情况，当与自身比较时，查询将产生距离为零；而情况c）对应于一个困难的情况，在训练期间既未见过查询音轨，也未见过任何关于查询音轨的翻唱版本。在这里，我们研究情况b），即查询音轨本身在训练期间从未出现过，但至少有一个翻唱版本在训练期间出现过。

5.1 Metrics

在这些实验中，我们对我们的方法在查询不同未知音轨时在参考集中找到翻唱版本的能力感兴趣。通常可以使用MIREX提出的指标来解决这个问题，用于翻唱歌曲识别任务：第一个正确结果的平均排名（MR1），前十个位置的真正阳性数量的平均值（MT10）和平均精确度均值（MAP）。我们建议读者参考[32]，了解这些标准指标的详细评估。我们在这里还报告了TPR@5%，这在初步实验中已经使用过了。

5.2 Structuring the embeddings space

我们在这里研究了训练集在嵌入空间结构化中的作用，尤其是每个作品的翻唱数量的作用。更具体地说，我们试图展示推动效应（当查询被推离其非翻唱簇时）和吸引效应（当查询被拉向其唯一的翻唱簇）的证据。为此，我们从我们的数据集中构建了一个查询集和一个参考集。查询集包括1244个作品，每个作品有五个翻唱版本。参考集为每个1244个查询作品选择P个剩余的翻唱版本，并且对于未包含在查询集中的其他作品选择N个翻唱版本（图5）。推动翻唱我们首先使用固定的P=5在参考集上训练我们的模型。然后使用训练好的模型计算查询音轨的嵌入，计算查询和参考嵌入之间的成对距离，以及其他的指标。我们将这个操作在N∈[2, ..., 10]的不同值上重复进行，并在图6（左侧）上报告结果。我们报告MR1的百分位数（在这里定义为MR1除以参考音轨的总数，以百分比表示），而不是MR1，因为参考音轨的数量随着N的变化而变化。MAP只在N增加时略微下降，这表明精确度保持稳定，尽管需要排序和排名的示例数量在增加。此外，MR1的百分位数和TPR@5%随着N的增加明显改善。由于P是固定的，这意味着随着非查询簇被巩固，翻唱和非翻唱簇之间的排名和分离正在改善，这说明了预期的推动效应。吸引翻唱我们再次重复相同的协议，但现在将N= 5固定，并对P∈[2, ..., 10]的不同值进行测试。我们在图6（右侧）上报告结果。清楚地显示所有指标随着P的增加而稳步改善，即使在训练过程中从未见过实际查询本身。由于N是固定的，这证实了一个直观的观点，即如果使用更多的该作品的翻唱版本进行训练，模型将能够更好地将未见过的音轨定位到其所属作品的簇附近，这展示了预期的吸引效应。

5.3 Operational meaning of pc(d) and pnc(d)

我们现在进一步研究覆盖和非覆盖对的距离分布。为此，我们将整个数据集随机分成查询集和参考集，比例为1:5（分别是10385和51925个音轨）。查询音轨在训练过程中是不可见的，但参考集中可能有零个或多个覆盖音轨。

通过计算查询与参考之间的两两距离，我们得到了图7（左侧）所示的pc(d)和pnc(d)的分布。利用贝叶斯定理，可以直接从pc(d)和pnc(d)推导出给定距离d的一对音轨为覆盖音轨的概率（图7，右侧）。这条曲线在操作上具有意义，它将一对音轨的距离与其为覆盖音轨的概率进行映射，而无需将其在整个数据集中进行排名。

易于和困难的覆盖音轨
我们使用随机分割重复了前面的实验五次，并在表1中报告了度量结果。乍一看，MR1和MT@10可能看起来不一致，但仔细观察结果会有解释。为了说明发生了什么，想象一组共有五个查询，在这个查询集中，第一个查询在前十个位置上正确地排列了十个覆盖音轨，例如因为它们都非常相似，而其他四个查询的第一个正确答案出现在100的排名上。这将导致MT@10=2.0，MR1=80.2。

MR1和MT@10之间这种差异反映了我们数据集中的一些作品具有相似的易于聚类的封面，而其他作品则更难以区分。这可以从图7（左侧）的正样本对分布pc(d)中观察到，它在一段较大的距离范围内分布。

6. COMPARISON WITH OTHER METHODS

6.1 Comparison on small dataset

首先，我们与最近的两种方法[31, 34]进行了比较，它们针对一个包含50个作品，每个作品有7个封面的小型数据集报告了结果。查询集包括每个作品的五个封面（250个音轨），而参考集包括每个作品的另外两个封面（100个音轨）。由于该数据集不再公开可用，我们从自己的数据集中随机提取了350个音轨来模拟这个数据集。

然而，我们的数据驱动模型不能仅仅通过参考集中的100个音轨进行训练，因为这样会立即导致过拟合。因此，我们使用完整的数据集进行了两种不同的设置训练：a) 排除了保留给查询和参考集的350个音轨；b) 排除了查询集的250个音轨，但包括参考集的100个音轨。我们对每种设置重复了十次，并在表2中报告了与[31, 34]中使用的相同度量标准的均值、标准差，以及通过对结果系列进行的统计显著性t检验获得的p值。我们的方法显著改善了先前的结果：对于最困难的情况a)，即模型在训练过程中没有见过任何查询作品，嵌入空间已经被充分结构化以将未见过的作品与其他训练聚类进行区分（推动效应）。对于较容易的情况b)，来自已知查询封面的拉动效应进一步提升了性能。

6.2 Comparison on large dataset

我们还与[16]进行了比较，据我们所知，这是最后一次尝试报告数千个查询和参考的结果，这是一个更加现实的使用案例。该论文在MillionSong数据集（MSD）[5]的SecondHandSong（SHS）子集上报告了两个实验的结果：a) 只使用了12960个作品的4128个封面作为查询集和参考集。b) 使用了5236个作品的1726个封面作为查询集，对整个MSD进行参考。

SHS MSD不再可用。然而，由于我们的数据集也是从SHS封面列表构建的，我们认为可以进行比较。因此，我们从我们的数据集中随机生成了一个训练集和一个测试集，以模拟原始数据。我们在训练集上训练我们的模型，并在查询集和参考集之间执行成对距离计算（由于查询集包含在参考集中，我们排除了相同音轨的配对进行比较）。对于实验b)，由于我们没有一百万首歌曲，我们将整个数据集用作参考集。我们重复了此操作五次，并在表3中报告了与[16]中使用的相同度量标准的均值和标准差，以及MR1、MT@10和进行的t检验的p值。我们的方法显著改善了先前的结果。对于情况a)，结果显著良好，这并不令人意外，因为模型已经在训练过程中看到了所有的查询。另一方面，情况b)是最困难的配置，模型在训练过程中没有见过任何查询作品的封面，对未见过的音轨的聚类完全依赖于推动效应。

至于我们方法的计算时间，在单个Nvidia GPU Titan XP上，对于大约3分钟的音频轨道：F0提取大约需要10秒，嵌入计算约需1秒，使用完整数据集嵌入进行距离计算的时间小于0.2秒（之前线下计算）。

7. CONCLUSION

在这项工作中，我们提出了一种用于封面检测的方法，使用卷积网络将每个音轨编码为一个单一向量，并通过最小化嵌入空间中的封面对欧氏距离进行训练，同时对非封面音轨进行最大化。我们证明了相比其他频谱表示方法，在主旋律二维表示中提取嵌入显著地产生更好的结果：卷积模型学习识别主旋律中不同尺度和位置（速度、调号和结构不变性）的相似模式。

我们还展示了我们的方法可以扩展到包含数千个音轨的音频数据库。一旦针对给定的数据库进行了训练，就可以使用该方法来评估未见过的音轨成为任何已知音轨的封面的概率，而无需与整个数据库进行比较。最后，我们证明了我们的方法在小型和大型数据集上都改进了以前的方法。

未来，我们计划扩大我们的训练数据集，以解决查询数百万音轨的现实使用案例：对于许多其他数据驱动的问题来说，如果嵌入空间足够结构化，封面检测问题是否能够得到解决？