论文名称:ACCURATE AND SCALABLE VERSION IDENTIFICATION USING MUSICALLY-MOTIVATED EMBEDDINGS(2020ICASSP)
论文地址:https://arxiv.org/abs/1910.12551
论文代码:https://github.com/furkanyesiler/move
背景
研究Music Information Retrieval (MIR)方向中的Cover song identification任务,减少人工特征和对齐算法的使用,本文提出MOVE网络来检索相同的音乐。
模型流程
- 模型输入:采用的crema-PCP特征(实验不采用该特征,所以没仔细看)。
- 模型结构:
- Expanding the receptive field:max-pool层之后的conv用于抽取高层音频特征,无dilation的conv层=>在没有扩展时序上下文的情况下编码高层非线性特征;有dilation的conv层=>增加感受野,20、13是在人类能接受范围内(挺牵强)
- Summarizing temporal content:提出multi-channel adaptive attention mechanism,将channel分成两部分,一部分采用类attention机制,用auto-pool(介于max、averag pool,是一个非线性、可学习的pool层)让模型学会时序上每个step的重要性,结果经过softmax与另外一部分对位乘得到最终的音频特征。
- Standardizing embedding components:采用triplet loss训练,需要注意音频特征所在高维空间的体积,如向量distance的大小跟margin不成比例,会极大影响模型性能,因此在模型的输出特征上增加一层非参数的bn层,从而得到一个零均值、单位方差的音频特征。
- 模型训练方法:采用triplet loss训练,在线hard triplet mining,例如batch=64,则分配16个类别的音频,每个类别4首歌,每首歌作为anchor 挑选最大distance为pos,挑选最小distance为neg。(尽管挑选hard会让模型陷于局部最小值,但是在batch里面挑选hard,可视为"moderate",不是全局性的hard选择)
模型效果
消融实验
模型效果