[MOVE]-音频翻唱检索论文笔记

论文名称:ACCURATE AND SCALABLE VERSION IDENTIFICATION USING MUSICALLY-MOTIVATED EMBEDDINGS(2020ICASSP)

论文地址:https://arxiv.org/abs/1910.12551

论文代码:https://github.com/furkanyesiler/move

背景

        研究Music Information Retrieval (MIR)方向中的Cover song identification任务,减少人工特征和对齐算法的使用,本文提出MOVE网络来检索相同的音乐。

模型流程

  • 模型输入:采用的crema-PCP特征(实验不采用该特征,所以没仔细看)。
  • 模型结构:
    • Expanding the receptive field:max-pool层之后的conv用于抽取高层音频特征,无dilation的conv层=>在没有扩展时序上下文的情况下编码高层非线性特征;有dilation的conv层=>增加感受野,20、13是在人类能接受范围内(挺牵强)
    • Summarizing temporal content:提出multi-channel adaptive attention mechanism,将channel分成两部分,一部分采用类attention机制,用auto-pool(介于max、averag pool,是一个非线性、可学习的pool层)让模型学会时序上每个step的重要性,结果经过softmax与另外一部分对位乘得到最终的音频特征。
    • Standardizing embedding components:采用triplet loss训练,需要注意音频特征所在高维空间的体积,如向量distance的大小跟margin不成比例,会极大影响模型性能,因此在模型的输出特征上增加一层非参数的bn层,从而得到一个零均值、单位方差的音频特征。
  • 模型训练方法:采用triplet loss训练,在线hard triplet mining,例如batch=64,则分配16个类别的音频,每个类别4首歌,每首歌作为anchor 挑选最大distance为pos,挑选最小distance为neg。(尽管挑选hard会让模型陷于局部最小值,但是在batch里面挑选hard,可视为"moderate",不是全局性的hard选择)

模型效果

消融实验

 模型效果

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值