文献翻译3_ACCURATE AND SCALABLE VERSION IDENTIFICATION USINGMUSICALLY-MOTIVATED EMBEDDINGS

椰椰拿铁不加糖

已于 2024-07-06 13:38:38 修改

阅读量854

点赞数 17

分类专栏：文献翻译文章标签： linux 运维服务器

于 2024-02-18 05:38:11 首次发布

本文链接：https://blog.csdn.net/weixin_51556688/article/details/136144595

版权

文献翻译专栏收录该内容

9 篇文章 0 订阅

订阅专栏

原文链接：[PDF] Accurate and Scalable Version Identification Using Musically-Motivated Embeddings | Semantic Scholar

ABSTRACT

版本识别（VI）任务涉及自动检测与同一音乐作品相对应的录音。尽管已经做出了许多努力，但VI仍然是一个有待解决的问题，特别是在准确性和可扩展性方面还有很大的改进空间。在本文中，我们提出了MOVE这个以音乐为动机的方法，用于准确且可扩展的版本识别。MOVE通过在欧氏距离空间中学习可扩展的嵌入，使用三元组损失和硬三元组挖掘策略，在两个公开可用的基准数据集上实现了最先进的性能。它通过采用替代输入表示方法，引入一种用于时间内容摘要的新技术，一个标准化的潜在空间和专门为VI设计的数据增强策略，对先前的工作进行了改进。除了主要结果外，我们进行了一项消融研究来突出我们设计选择的重要性，并研究了嵌入维度和模型性能之间的关系。

三元组损失（Triplet Loss）：三元组损失是一种用于训练嵌入向量的损失函数。它通过确保同一音乐作品的不同版本之间的嵌入距离小于不同音乐作品之间的距离来促进版本识别的准确性。

硬三元组挖掘策略（Hard Triplet Mining Strategy）：硬三元组挖掘策略是一种用于选择最难的三元组样本的方法。它通过选择使得损失函数值最大化的三元组样本来提高版本识别的效果

输入表示法（Input Representation）：这里提到了一种替代的输入表示法，该表示法可能是与音乐内容相关的特征提取或处理方法，用于将音乐作品转换为计算机可处理的形式。

时间内容摘要（Temporal Content Summarization）：这是一种对音乐时间序列数据进行整合和概括的技术。它可能涉及提取关键帧、重要音符或其他音乐特征，以便在版本识别任务中提供更高效的表示

潜空间（Latent Space）：在这篇论文中，引入了一个标准化的潜空间，用于在欧氏距离空间中学习可扩展的嵌入。潜空间是指在降维或学习过程中，将复杂的原始数据映射到更简洁和有意义的表示空间。

消融研究：是一种通过逐步去除模型的某些组件或设计选择，并观察其对结果的影响来评估模型设计的重要性的方法。

嵌入维度（Embedding Dimensionality）：嵌入维度是指将高维数据映射到低维空间时所选择的目标维度。

1. INTRODUCTION

（背景）版本识别（VI）通常是指通过计算手段确定两个音频演奏是否对应于同一首音乐作品[1]。与传统的音频指纹识别相比，VI更具挑战性，它不仅要检测近乎完全相同的重复片段，还要涵盖其他在信号中表现出截然不同印记但传达相同音乐实体的感知差异[3]。比如，乐器、音乐调式、速度、节奏、结构或歌词的变化等[1]。除了数字版权管理，VI在音乐组织、检索、导航和理解方面也有应用。

（研究现状）传统的VI系统通常采用三个主要阶段的流水线方法来处理任务[4]。首先，像许多其他基于内容的检索方法一样，VI系统使用特征提取来从音频信号中获取相关信息。在此初始步骤中，主旋律、音高类别分析（PCP）或常数-Q变换（CQT）等表示方法已被证明对于此步骤很有用[5-7]。其次，传统的VI系统使用各种后处理策略来实现移调、速度、时间或结构的不变性[8-10]。第三，为了估算一对歌曲之间的相似性，VI系统使用分割策略或局部对齐方法，这也引入了对音乐作品结构的不变性[10-12]。其他方法探索了将从不同特征和/或不同对齐方案获得的信息与早期或晚期融合技术相结合的方法[12-14]。它们与一些先前的解决方案在不同评估环境下表现出良好性能，但很难扩展到包含数以万计歌曲的数据集[15]。随着SHS数据集的发布[16]，研究人员探索了基于音频哈希特征、二维傅里叶变换或模式发现策略的可扩展方法[9, 17, 18]，但与先前的方法相比，取得的成功有限。

最近的深度学习方法致力于提供准确且可扩展的VI系统。一般而言，它们专注于学习高准确性、低维度的音频嵌入，以后使用基本距离度量来估算相似性，以利用现有的可扩展最近邻库。Xu等人[19]和Yu等人[20]以多类分类的方式训练卷积网络，其中每个版本组（或团体）被视为一个唯一的类，分别使用PCP和CQT作为输入。对于评估，他们使用从网络的倒数第二层获得的表示作为嵌入。在基于分类的策略之外，基于深度度量学习的对比损失和三元组损失的方法在VI中变得流行起来。Qi等人[21]使用以PCPs为输入的卷积网络，并使用三元组损失作为目标函数。作为使用PCP变体的替代方法，Doras和Peeters[22]使用二维主要旋律表示作为输入到卷积网络中，该网络同样使用三元组损失但采用在线半硬三元组挖掘策略。（本文方法）在本文中，我们提出了一种音乐嵌入方法，既准确又可扩展，称之为MOVE：以音乐为动机的版本嵌入。MOVE在两个公开可用的基准数据集上实现了最先进的结果，并且由于基于欧氏距离，可以利用现有库进行高效的检索和索引。MOVE的架构引入了许多改进，包括（1）相对新颖的输入表示，在深度度量学习中尚未在VI的上下文中被探索使用，（2）一种多通道自适应注意机制，作为对先前使用的时间聚合策略的替代方案，以及（3）在最后一层进行非参数批归一化，以产生标准化的嵌入空间。MOVE的训练与其他最近的VI系统一样，采用三元组损失进行。然而，与这些方法不同的是，它采用了在线硬三元组挖掘策略。为了学习与可修改的音乐特征相关的不变性，MOVE使用了一种专门针对VI设计的数据增强策略进行训练。为了深入研究，我们进行了消融研究，并调查了嵌入的维度的作用。为了促进进一步的研究，我们在公开可用的数据集上评估了我们的方法，并将代码放在https://github.com/furkanyesiler/move上供大家使用。

2. MUSICALLY-MOTIVATED VERSION EMBEDDINGS

2.1. Input

（crema-PCP输入）我们使用了一个相对新颖的PCP变体作为输入：crema-PCP。该表示是通过使用crema和弦估计模型[23]中的一个中间步骤的输出构建的。对于每一帧，crema模型估计根音、低音和音高类，然后将它们组合起来输出一个单一的和弦。具体而言，crema-PCP是通过取每一帧中音高类的sigmoid激活值，并将其视为每个音高类的能量值来构建的[23]。将每个音高类别在每个帧上的激活程度作为能量值来表示。尽管是一个相当新的方法，但在一些基准实验中已经显示出crema-PCP优于精心设计的PCP表示[15]。我们使用在https://github.com/bmcfee/crema（版本0.1.0）上提供的预训练模型，并用X ∈ [0, 1]12×T表示获得的输出，其中T是使用非重叠窗口的93毫秒进行划分的帧数。在训练时，我们从完整的歌曲中随机选择T = 1800帧的片段，并应用数据增强（见下文）。在推理时，我们将整个音轨直接提供给模型，而不是选择特定长度的随机片段（初步实验表明下文提出的时间汇聚策略在推理时也是有效的）。

2.2. Network architecture

MOVE由5个带有PReLU激活函数和无填充的卷积块组成，两个不同的池化层交错排列（图1）。线性层后面是非参数批归一化操作，生成最终的嵌入表示。按照当前最佳设置，总参数数量为630万。接下来，我们解释和介绍MOVE的关键组成部分。

变调不变的架构——遵循Xu等人提出的策略[19]，我们通过在音高维度上连接两个X的副本，并删除最后一个音高类，将crema-PCP的输入X的维度从12×T增加到23×T。第一个卷积层使用大小为12×180的卷积核遍历输入，在音高维度上经过所有可能的变调，并且随后的最大池化层使用大小为12×1的卷积核保留具有最高激活值的变调（MOVE中的卷积没有填充）。

扩展感受野——在最大池化之后的4个卷积块旨在编码更高级的信息并增加模型的感受野（图1）。一方面，我们通过没有扩张率的层来编码更高级的非线性特征，而不扩展时间上下文。另一方面，通过具有扩张率20和13的层，我们增加了感受野，将最大池化之后的感受野从不到17秒增加到约30秒。需要注意的是，这种时间跨度已经足以从人类的角度检测到音乐曲目的版本差异。然而，为了处理更大的时间跨度，并能够处理测试时不同长度的T，我们仍然执行额外的步骤。

总结时间内容——我们将网络的卷积部分视为特征提取器，用于处理输入并得到对可修改的音乐特征不变的表示，如第1节所述。为了在时间维度上总结每个特征的值，与先前使用平均值或最大值池化变体[20, 22]不同，我们提出了一个多通道自适应注意力机制，将多通道时间注意力[24]与自动池化[25]相结合。注意力机制是用于模拟人类对信息的关注和集中注意力的能力。它通过对输入数据中不同部分的加权处理，将重点放在对解决特定任务有意义或相关的信息上。多通道自适应注意力机制是一种在深度学习模型中使用的注意力机制。它通过对输入的多个不同通道进行并行处理，以获得更全面和准确的注意力表示。第一个思路是让网络通过注意力机制[24]计算（并学习）每个特征的每个时间步骤的重要性。第二个思路是在softmax函数之前应用一个非线性的、可学习的缩放参数的池化函数[25]，根据该参数的值，函数在平均池化和最大池化之间切换。实际上，通过使用自动池化函数计算通道注意力权重，这些权重对应于最后一个卷积层的前半部分滤波器，并利用结果对同一层的后半部分滤波器进行加权。将隐藏表示按通道分成两半，H = [Ha Hb]，其计算公式为：
H0 = Σ{t=1~T} (σ(αHa) Hb)，其中Σ是对时间维度求和，σ是softmax函数，α是一个可学习的参数，我们将其初始化为0（相当于平均池化），表示逐元素乘积。

标准化嵌入组件——对于使用三元组损失的深度度量学习方法，在考虑嵌入所在的高维空间的体积时非常重要，特别是在训练过程中。例如，如果距离值和间隔值的大小不成比例，训练过程可能无法有效地构建潜在空间的结构。考虑到这些动机，我们建议在完成编码过程的线性层之后使用非参数批归一化。通过这样做，我们的目标是在嵌入中获得零均值和单位方差的组件，从而得到一个经过统计标准化的潜在空间体积。这个标准化过程，再加上维度归一化的欧几里得距离，也可以让我们对损失值和相应的间隔值产生一定的直觉。

我在上文中已经大致解释了MOVE的关键组成部分。

2.3. Training strategy

MOVE是通过最小化三元组损失函数进行训练的。该损失函数定义如下：

其中，D(Xi, Xj)表示模型输出的嵌入向量经过欧氏距离计算后的结果，d表示嵌入向量的维度，f(X)表示模型生成的大小为d的嵌入向量。公式（1）的目标是使得锚点A与正例P之间的距离小于锚点A与负例N之间的距离，且差值至少为m。以下是关于训练数据、数据增强、三元组挖掘和超参数的决策说明：

1. 训练数据：我们使用一私人收藏的97,905首歌曲，这些歌曲被划分为17,999个团体。歌曲的注释在Creative Commons BY-NC 3.0许可下获得，并通过secondhandsongs.com的API获取。相关的元数据可以在我们的代码库中找到。为了训练和验证，我们创建了两个不相交的团体集，一个包含14,499个团体，共83,905首歌曲，另一个包含3,500个团体，共14,000首歌曲。所有的音频文件都采用MP3格式编码，采样率为44.1 kHz。

2. 数据增强：为了增强MOVE的学习能力，我们为每个样本应用了一种专门针对可视化功能的数据增强函数。该函数按照第1节和其他地方指定的可修改的音乐特征，依次 ** 地应用音高上的移调、时间拉伸和时间扭曲，其中移调的概率为1，时间拉伸的概率为0.3，时间扭曲的概率为0.3。移调使用PCP表示的八度等效特性，在音高维度上将X随机滚动在0到11个bin之间。时间拉伸使用在时间域进行的一维插值，随机因子在0.7到1.5之间。时间扭曲包括三个互斥的函数：静音、重复和删除帧，它们的概率分别为0.3、0.4和0.3，其中静音表示将整个帧置零。一旦选择了这些函数，它们就会以概率0.1、0.15和0.1分别在每帧上应用。所有的随机数都是从均匀分布中采样得到的。

3. 三元组挖掘：根据之前采用三元组损失函数的研究工作指出，每个小批量中的三元组特征对学习性能可能产生巨大影响。针对我们的模型，我们采用在线硬三元组挖掘策略。在我们的实现中，我们选择16个不重复的团体和每个团体中的4首歌曲，形成一个小批量大小为64。对于包含少于4首歌曲的团体，我们从同一团体中已经选择的歌曲中进行选择。在一个小批量中，我们将所有的样本都视为锚点（A），并选择与锚点距离最大/最小的正例/负例（分别是P和N，参考公式1）。尽管Schroff等人指出最难的例子可能导致训练早期出现局部最小值，但我们的三元组可以被认为是“适度”的，因为它们仅从当前小批量中选择，因此不严格对应于数据集中最难的三元组。这样做可以避免前述的局部最小值问题。

4. 超参数和优化：我们使用纯随机梯度下降进行网络训练，共进行120个epochs。初始学习率为0.1，在第80和100个epoch时按照因子5进行衰减。一个epoch完成后，我们的数据加载器会遍历所有可能的团体。然而，一个重要的细节需要注意的是，我们将包含6到9个样本的团体选择两次，包含10到13个样本的团体选择三次，而包含14个或更多样本的团体选择四次。这是为了增加每首歌曲至少在一个epoch中被引入到网络的概率。三元组损失函数的边界值m为1。正如提到的，我们在训练中使用了包含T = 1800帧的补丁，并且初始自动池化参数α = 0。如未在图1中明确定义，其余的超参数和实现细节可以在我们的GitHub代码库中找到。我们将在下一节中研究嵌入维度d的影响。

3. RESULTS

3.1. Evaluation methodology

为了研究嵌入维度的影响并进行割除研究，我们使用训练集的一个子集进行训练，该子集包含8,817个社交圈和总共44,909首歌曲，并在验证集上报告性能得分。为了与之前的工作进行比较，我们使用了整个训练集。我们使用平均精确度（MAP）和第一个相关结果的平均排名（MR1）来报告性能。在本节中进行的所有实验中，我们使用在最后一个epoch之后获得的模型。

为了将MOVE的性能与最先进方法进行比较，我们使用了两个额外的数据集。第一个数据集是Da-TACOS [15]的基准子集，总共包含15,000首歌曲，其中包括1,000个由13首歌曲组成的社交圈，以及2,000首不属于任何社交圈的歌曲（作为噪声而不查询）。第二个数据集是YouTubeCovers (YTC) [28]，包含50个由7首歌曲组成的社交圈，并将其分为一个训练集和一个测试集，分别包含250首和100首歌曲。为了与之前的工作比较我们的模型在YTC上的性能，我们采用了他们的方法，只查询测试集以检索参考集中的版本 [18-20, 29]。此外，在这种情况下，我们从我们的训练数据中删除了与YTC重叠的17个社交圈。这样一来，无论是Da-TACOS还是YTC都不包含与我们的训练/验证数据重叠的社交圈。

3.2. Effect of the embedding dimension

对于任何嵌入系统来说，嵌入维度d的大小是一个关键的超参数，它可以对模型的性能产生重要影响。因此，我们决定根据验证集来研究模型在不同嵌入维度下的性能（图2）。在这组实验中，我们考虑了d = {128, 256, 512, 1 k, 2 k, 4 k, 8 k, 16 k, 32 k}。我们观察到性能随着嵌入维度的增加而持续提高，直到在d = 16 k时达到饱和。我们可以观察到曲线在d = 512和d = 2 k之间出现一个拐点。

3.3. Ablation study

我们通过与潜在替代方案的比较，分析了网络的主要组件的性能（表格1），旨在量化每个决策的重要性。我们首先评估的是提出的数据增强策略的影响（1）。我们发现去除数据增强会导致MAP相对下降6%。我们评估的第二个方面是在2.2节中解释的具有转置不变性的架构的重要性（2）。作为替代方案，我们考虑了不对输入进行预处理（改变其形状），并移除第一个卷积之后的最大池化层。尽管使用了更小的学习率（10−4）和Adam优化器进行训练，但该模型无 ** 确学习到有效的表示，即使在数据增强函数中存在多个转置操作。我们考虑的第三个方面是时间汇总（3-6）。我们观察到引入auto-pool参数到多通道注意力中并不真正改变结果（3）。相反，将所提出的多通道注意力替换为自动池化、最大池化或平均池化明显产生影响（4-6）。我们分析的最后一个方面是三元组挖掘策略（7-8）。为此，我们使用在线半硬（semi-hard）（7）和随机（random）（8）的挖掘策略训练我们的网络。对于半硬挖掘，我们为每个锚点选择一个随机正例，然后选择一个满足条件 D (XA, XN ) ≤ D (XA, XP ) 的负例。如果不存在这样的负例，则选择一个随机负例。对于随机挖掘，我们随机选择一个正例和一个负例作为每个锚点。我们可以看到，半硬挖掘和随机挖掘分别导致MAP相对下降5%和26%。总体而言，我们的消融研究表明，所有引入的变化都对性能有积极影响。唯一的例外是将auto-pool参数与多通道注意力混合，尽管这并不会对性能产生实质性的影响。

3.4. Comparison with the state-of-the-art

最后，我们将MOVE与最先进的系统进行了性能比较（表2）。在Da-TACOS上的结果表明，MOVE明显优于所有考虑的视觉音频（VI）系统。重要的是，这不仅适用于像MOVE一样使用单一输入表示和对齐的系统，还适用于采用早期或后期融合策略的复杂系统。相对于最有竞争力的系统LateFusion [14]，MOVE的MAP差异超过10%。我们还注意到，尽管使用相对较大的嵌入维度16k可以达到最佳性能，但更小的嵌入维度4k仍然可以胜过现有技术。在YTC上的结果支持MOVE达到了最新的最先进性能（表2）。然而，我们对使用YTC报告VI性能表示谨慎，因为由于相对较少的查询和参考音轨数量（参考文献[1]），使用该数据集测得的差异可能不具备显著性。例如，MOVE在d = 4k的设置下在YTC上展现出与d = 16k时类似的结果，而在更大的数据集中，后者明显优于前者。

4. CONCLUSION

在这项工作中，我们提出了MOVE，一种使用音乐动机的嵌入方法进行准确和可扩展的版本识别。MOVE在两个公开可用的VI基准数据集上实现了最先进的性能。在介绍其架构和训练策略的基础上，我们还进行了割裂研究来证明我们的决策的合理性。我们还研究了嵌入维度与模型性能之间的关系。作为未来的工作，我们计划探索不同的输入表示方法。由于一些早期和后期融合方法将几个音乐维度结合起来以超越它们的 ** 组件，我们打算探索类似的思路，以改进MOVE的性能。此外，考虑到我们的方法优于传统的VI系统，这些系统建立在某种相似性概念上（例如，音调特征之间的局部对齐），未来的研究可以调查我们的模型所学习的相似性概念，从而提供有关同一音乐作品产生的不同版本之间联系的有意义见解。

椰椰拿铁不加糖

关注

17
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
文献翻译3_ACCURATE AND SCALABLE VERSION IDENTIFICATION USINGMUSICALLY-MOTIVATED EMBEDDINGS

ACCURATE AND SCALABLE VERSION IDENTIFICATION USINGMUSICALLY-MOTIVATED EMBEDDINGS
复制链接

扫一扫

专栏目录