[ByteCover]-音频翻唱检索论文笔记

论文名称:BYTECOVER: COVER SONG IDENTIFICATION VIA MULTI-LOSS TRAINING(ICASSP2021)

论文地址:https://arxiv.org/pdf/2010.14022v2.pdf

代码地址:暂无

背景

        研究Music Information Retrieval (MIR)方向中的Cover song identification任务,减少人工特征和对齐算法的使用,本文提出ByteCover网络来检索相同的音乐。

模型流程        

  •  模型输入:
    • 采用CQT频谱特征,每个octave的bin个数设置为12,hann window大小设置为512,采样率为22050Hz,CQT特征average下采样倍率为100,最终得到的音频特征维度为[84, T],其中T为时间维度,与音频时长挂钩。
  • 模型结构:
  1. ResNet-IBN模块:为了将ResNet转换为带有IBN模块的模型来学习不变嵌入,将模型的基本元素残差块替换为IBN块(IN有助于模型学习音调、节奏、音色等不变性特征)。
    1. 每个残差block的第一个conv添加IBN模块,BN处理一半通道,IN处理另外一半通道。
    2. 输入特征1x84xT,最终模型输出的形状为2048x6xT/8。

    3. 为保证输出feature map的大小,ResNet50最后一组block的stride设为1。

    4. 为防止过多IN层降低模型能力,ResNet50最后一组block保持不变。

  2. GemPool池化模块:将X映射成定长vector,参数p设置为可学习。

  3. BNNeck Loss函数:

    1. 结合分类loss和triplet loss对模型进行训练,其中插入BN Layer协调,原因在于分类loss主要优化cosine距离,triplet loss主要优化欧式距离,如果同时对一个FC使用两个Loss,triplet loss会影响到分类的决策面而分类loss会影响到类内紧凑性。
    2. GeM模块产生的vector用表示,通过BN Layer表示为,训练阶段前者用于计算triplet loss,后者用于计算分类loss。

模型实验结果

模型整体实验结果

 模型消融实验

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值