文献翻译8_BYTECOVER2: TOWARDS DIMENSIONALITY REDUCTION OF LATENT EMBEDDINGFOR EFFICIENT COVER SONG ...

本文提出了一种名为ByteCover2的改进版CSI系统,通过PCA-FC模块降低音频嵌入维度,提升了识别性能和效率。实验结果显示,即使在低维度情况下,ByteCover2也能超越其他方法,如ByteCover和Re-MOVE,同时在大规模数据库的CSI应用中表现出更高的效率。
摘要由CSDN通过智能技术生成
BYTECOVER2: TOWARDS DIMENSIONALITY REDUCTION OF LATENT EMBEDDING
FOR EFFICIENT COVER SONG IDENTIFICATION

ABSTRACT

    基于卷积神经网络(CNN)的方法主导了最近封面歌曲识别(CSI)的研究。我们提出的典型例子是ByteCover系统,它在所有主流CSI数据集上取得了最先进的结果。在本文中,我们提出了ByteCover的升级版本,称为ByteCover2,它在识别性能和效率方面进一步改进了ByteCover。与ByteCover相比,ByteCover2设计了一个额外的PCA-FC模块,它将主成分分析(PCA)和全连接(FC)神经网络的能力结合起来,用于音频嵌入的维度降低,使ByteCover2能够以更精确和高效的方式进行CSI。我们在不同维度大小和训练设置下对ByteCover2进行了多个数据集的评估,其中ByteCover2击败了包括ByteCover在内的所有比较方法,即使维度大小只有128,比ByteCover小15倍。主成分分析(PCA)是一种常用的统计方法,用于降低数据集的维度并提取最重要的特征。全连接层通常位于神经网络的最后几层,用于将网络中学到的抽象特征映射到具体的类别或预测目标。它可以将之前层次化的特征表示转换为最终的输出,例如分类概率或回归值。

1. INTRODUCTION

    (背景)封面歌曲识别(CSI)是音乐信息检索(MIR)领域中的一项重要任务,旨在识别给定音乐表演的另类版本。CSI有一系列的下游应用,如音乐推荐、音乐版权保护和音乐焦点检测。然而,尽管在MIR中具有重要性,但封面版本与原始音乐的不同音乐元素(如节奏、调式、乐器)使得CSI问题非常具有挑战性。

(研究现状)最近,随着人工智能的发展,基于神经网络的CSI模型(例如[1-3])相较于传统方法(例如[4-7])取得了更优异的识别性能。卷积神经网络(CNN)在这些模型中被广泛使用,因为其感受野设计可以以较低成本捕获音频样本的判别特征。同时,来自计算机视觉领域的预训练模型(例如在ImageNet上预训练的模型)为建立和训练基于CNN的音频模型提供了强大的识别先验知识[8]。在文献中,基于CNN的CSI模型通常可以分为两类。第一类方法(例如[1,2,9])将CSI视为多类分类问题,其中每个封面组被视为一个类别。另一类方法(例如[3])将CSI视为度量学习问题,并使用三元组损失训练CNN模型,以最小化封面对之间的距离并最大化不同封面之间的距离。

在[10]中,我们提出了一种基于CNN的CSI系统,即ByteCover,在实验中使用的所有数据集上都取得了新的最先进性能(SOTA)。然而,尽管其高效性,我们发现仍有改进ByteCover性能的空间,特别是考虑到ByteCover在包含数百万甚至数千万音乐曲目的工业场景中的使用。

与大多数基于CNN的方法相似,ByteCover利用训练后的倒数第二层的输出,即固定长度的潜在嵌入来表征每个音频。在使用ByteCover期间,提前提取、索引和存储了库 ** 音频曲目的嵌入。给定一个音乐查询,提取查询的嵌入并与参考值进行匹配,找到最近邻作为封面版本。在这个过程中,嵌入的维度在权衡CSI的有效性和效率方面起着重要作用。具体而言,缩短嵌入可以减少用于维护库 ** 的存储空间,并降低用于特征索引和检索的计算成本。然而,以一种蛮力方式减少嵌入长度,例如直接减少网络中使用的单元数,将减少嵌入的表征能力,从而导致CSI性能下降。在CSI的文献中,也提出了一些工作以找到更小尺寸的更好音频嵌入,例如通过知识蒸馏的ReMOVE [11]方法。

(本文方法)在本文中,我们还关注CSI中的嵌入维度问题,并从ByteCover进一步提出了更高效的CSI模型ByteCover2,通过潜在嵌入的维度降低来实现。ByteCover2的贡献如下:首先,我们在ByteCover的架构中引入了一个名为PCA-FC的新模块。PCA-FC模块包含一个单独的全连接(FC)层,其权重由主成分分析(PCA)进行初始化,而PCA是一种经典的降维方法。PCA-FC不仅对原始音频嵌入进行降维,还提供一个可训练的场景,用于冻结微调模型以实现更好的性能,即使嵌入尺寸较小。其次,我们在包括SHS100K [9]、Covers80 [5]和Da-TACOS [12]在内的多个CSI数据集上评估了ByteCover2,并实验证明,即使嵌入尺寸显著较小,ByteCover2也能击败包括以往的最先进模型(即ByteCover)在内的所有竞争对手。特别是在使用1536维度大小时,ByteCover2在所有数据集上实现了新的CSI最先进性能,其中平均平均精度(mAP)比ByteCover分别高出2.8%、2.2%和7.7%。

2. BYTECOVER2 APPROACH

    图1显示了ByteCover2的整体模型架构。继承自ByteCover,ByteCover2遵循数据驱动方法,并采用多损失学习范式在音频查询和库集之间执行CSI。在本节中,我们首先简要介绍ByteCover中的现有组件:用于提取嵌入的ResNet50-IBN和用于模型收敛的多目标损失函数。然后,我们介绍了我们的主要贡献:PCA-FC模块作为上述两个组件之间的附加组件。

2.1. Embedding Extractor and Loss Design

    (CQT提取)如图1左侧所示,音频录音的CQT(常量-Q变换)谱图[13]被作为输入馈送到模型中。为了计算CQT,我们将每个八度的频带数设置为12,跳跃大小设置为512,并且汉宁窗口函数作为窗口函数。在处理成CQT之前,所有音频轨道都被重新采样为22050 Hz,以确保一致的采样率。随后,CQT沿着时间轴进行平均因子为100的降采样,以初步减少模型工作流程的延迟并提高训练效率。因此,输入音频被处理成一个压缩的CQT谱图S ∈ R84×T,其中T与输入音乐曲目的持续时间有关。

嵌入提取器包含一个ResNet-IBN主干和一个广义均值(GeM)池化层[10]。ResNet-IBN通过将ResNet50 [14]的残差连接块替换为实例批归一化(IBN)块来构建。在ByteCover2的实现中,ResNet-IBN遵循原始的ByteCover设置,其中包含三个IBN组,分别包含3、4和6个IBN块,以及一个最后的组包含3个残余块。在GeM池化层之前,ResNet-IBN的输出是一个3-D嵌入X ∈ RK×H×W,其中K是输出通道数,H和W分别是频率和时间轴上的空间大小。在实际使用中,我们设置K = 2048,H = 6,W = T/8,因此得到X ∈ R2048×6×T/8。随后,GeM池化层将输出X压缩为一个固定长度的嵌入向量f,其维度大小在实际使用中为2048。

在损失的设计中,原始的ByteCover通过使用BNNeck方法[15]结合了softmax分类损失Lcls和三元组损失Ltri进行多损失训练,以充分利用这两类CSI方法的优势,即

其中L是最终的损失,CE表示交叉熵,dp和dn分别是三元组设置中正样本对和负样本对的特征距离,f是通过BNNeck进行归一化的嵌入向量,α = 0.3是三元组损失的间隔,而[z]+等于max(z, 0)。

2.2. PCA-FC Module

    主成分分析(PCA)[16]是一种线性代数方法,可以将一组潜在向量转化为另一组维度较低的向量,同时尽可能地保持信息。形式上,令X ∈ Rc×n是一个矩阵,表示通过CSI模型对n个音频样本的c维嵌入。通过以下方式获得X的协方差矩阵Σ ∈ Rc×c:

其中μ = 1/n X · 1是X的均值,1是全为1的列向量, > 0是一个小的正数,用于数值稳定性[17]。获得Σ后,我们计算Σ的特征值λ1,λ2,...,λc和它们对应的特征向量p1,p2,...,pc。然后我们选择前k个(k<c)特征值,并使用它们对应的k个特征向量构建矩阵U ∈ Rc×k。应用降维操作如下:

R(X) = UT X, (4)

其中R(X) ∈ Rk×n表示经过PCA降维后的嵌入矩阵,k是从c降低的维度大小。

尽管PCA可以对音频嵌入进行降维,但是这种降维可能会因为两个原因降低CSI的性能。一个潜在的原因是移除的冗余维度可能仍然包含用于区分歌曲的有用信息。另一个原因是PCA和CSI模型之间的解耦,在固定计算方法基础上,PCA只能执行固定维度的降维。

在神经网络的设计中,全连接(FC)层也可以用于调整嵌入的维度大小。给定一个嵌入矩阵X ∈ Rc×n,FC将X转换为一个新的嵌入矩阵F(X) ∈ Rk×n:

F(X) = WT X + b, (5)

其中W ∈ Rc×k是权重矩阵,b ∈ R1×k是偏置向量。与PCA相反,神经网络提供了较高的调整和更新效率。然而,当FC层从随机或零初始化开始时,通常难以很好地保持从高维到低维的信息。原因是该层缺乏强约束作为降维模块,模型收敛的路径有很多。

在本文中,我们试图将PCA和FC的能力结合起来进行更强大的降维。具体而言,由于矩阵U ∈ Rc×k与神经网络中的FC权重矩阵W ∈ Rc×k具有相同的格式,我们利用PCA转换矩阵来初始化FC层的权重,其中PCA转换矩阵作为神经网络的降维先验。我们将这个初始化了PCA的FC层称为PCA-FC。当我们对该网络进行微调时,CSI模型和PCA-FC的参数可以使用随机梯度下降方法进行联合优化。这有助于找到更优化的FC层权重,以进行降维操作。

3. EXPERIMENTS

3.1. Training Details and Evaluation Settings

    为了评估ByteCover2,我们在三个公共数据集上进行了多个实验:(1)SHS100K [9],从Second Hand Songs网站收集而来,包括8858个cover组和108523个音频录音。在使用SHS100K数据集时,我们按照[2]的设置将数据集划分为训练集、验证集和测试集,比例为8:1:1。(2)Covers80 [5]是一个包含160个音频录音的数据集,由80首歌曲组成,每首歌曲有2个cover版本。我们通过将这160个音频录音与整个数据集进行匹配,找到对应的cover版本。(3)Da-TACOS [12]包含15000个音乐演奏,其中13000个属于1000个团体,每个团体包含13个样本。剩余的2000个样本不属于任何团体。

我们的ByteCover2模型在SHS100K的训练集上进行了训练,在SHS100K的验证集上进行了验证,并使用SHS100K的测试集以及Covers80和Da-TACOS进行了测试。请注意,Da-TACOS数据集中有8373个样本与SHS100K的训练子集中的样本重复。我们从SHS100K的训练集中移除了这些样本,并使用重新训练后的模型进行评估。与ByteCover类似,我们使用Pytorch框架实现了ByteCover2,并使用默认设置的Adam Optimizer [18]进行训练。学习率为0.0001,批量大小为64,在NVIDIA Tesla V100 GPUs上进行训练。

在检索阶段,使用余弦距离度量来估算两个音乐演奏之间的相似度。遵循MIREX音频cover歌曲识别比赛的评估协议[1],平均准确率(mAP)和第一个正确识别的cover的平均排名(MR1)被用作评估指标。

3.2. Comparison on Performance and Efficiency

    在下面的分析中,我们用{方法}-{嵌入维度}的形式来表示使用不同嵌入维度的方法。图2展示了在CSI性能上嵌入维度的影响,使用MOVE [3]、Re-MOVE [11]、ByteCover [10]和ByteCover2作为比较的方法,以及Da-TACOS作为测试集。如图所示,对于所有方法,在Da-TACOS上的mAP结果随着嵌入维度的增加而增加,因为更大的嵌入维度通常可以容纳更多的信息。关于不同方法之间的比较,我们的ByteCover2模型在所有维度大小上都取得了最佳的mAP结果,这清楚地证明了我们提出的PCA-FC在降维方面的有效性。一个与直觉相反的发现是,ByteCover2-128的性能优于ByteCover-2048。文献中的一些研究工作已经对此进行了解释。神经网络嵌入空间往往是各向异性的,这降低了检索的性能[19]。PCA作为白化变换的一部分,有助于缓解这个问题[20]。

表格1展示了使用嵌入尺寸为128和1536的ByteCover2在三个测试集上的CSI结果。为了比较,表格中还列出了一些现有模型的识别结果,包括Qmax [7]、CQT-Net [2]、MOVE [3]、Re-MOVE [11]、TPPNet [1]、ByteCover [10],以及ByteCover2的两个消融版本,即ByteCoverFC和ByteCoverPCA,它们分别使用FC和PCA对ByteCover的嵌入进行直接的和分离的降维。这些模型的嵌入维度也呈现在表格中。

从表格1可以看出,我们的ByteCover2模型在嵌入维度为128和1536的情况下,在所有三个数据集上都优于所有对比方法。特别是,ByteCover2-1536在Da-TACOS上的mAP比ByteCover高出7.7%。即使在最小的嵌入维度128下,ByteCover2-128也比ByteCover具有更高的mAP和较低的MR1。然而,当只使用FC层或PCA作为ByteCoverFC和ByteCoverPCA时,性能低于原始的ByteCover。这些观察结果再次显示了PCA-FC的有效性。

提出PCA-FC的一个重要动机是利用降维的能力来提高CSI的效率。为了证明这一点,我们进行了一组实验,分别为ByteCover2和Re-MOVE构建了基于Faiss的[21] CSI系统,并比较了数据预处理时间、模型推理时间和向量检索时间。这些实验中使用的数据库包含100万首音乐曲目,查询音频为以44.1 kHz采样的1000个45秒音乐片段。对于每个查询音频,返回数据集中与之最接近的前5个邻居。所有实验都是在Intel(R) Xeon(R) Platinum 8260 CPU的单个逻辑核心上完成的。

表格2展示了以上实验的结果,我们可以看到,与Re-MOVE相比,两个ByteCover2模型在数据预处理方面消耗的时间明显较少,并在推理方面略微多一些时间。原因是Re-MOVE使用cremaPCP [22]作为模型输入,其计算复杂度比CQT要高,但Re-MOVE使用的模型较为浅层。至于检索时间,嵌入维度显然对最近邻搜索的速度有很大影响,最小嵌入尺寸的ByteCover2-128在三种方法中的检索速度最快。最后,考虑到整个CSI过程的总时间,ByteCover2-128显示出最佳的效率,其时间消耗约为ByteCover2-1536的1/6,Re-MOVE的1/10。

4. CONCLUSION

    在本文中,我们提出了一种简单而高效的降维方法PCA-FC用于CSI。结果表明,我们基于PCA-FC的ByteCover2在三个公共数据集上优于所有CSI基准模型,同时在嵌入提取和检索方面具有高效性。至于未来的工作,我们目前正在研究将ByteCover2应用于实际的工业应用中,其中查询音频可能会受到各种扭曲和干扰。此外,分析我们模型的可解释性也是我们感兴趣的课题。

  • 18
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值