[MOVE]-音频翻唱检索论文笔记

will-wil

已于 2022-08-03 17:28:22 修改

阅读量168

点赞数

分类专栏： audio方向文章标签：深度学习人工智能

于 2022-08-03 17:27:27 首次发布

本文链接：https://blog.csdn.net/yangyanbao8389/article/details/126144388

版权

4 篇文章 0 订阅

订阅专栏

论文名称：ACCURATE AND SCALABLE VERSION IDENTIFICATION USING MUSICALLY-MOTIVATED EMBEDDINGS（2020ICASSP）

研究Music Information Retrieval (MIR)方向中的Cover song identification任务，减少人工特征和对齐算法的使用，本文提出MOVE网络来检索相同的音乐。

模型输入：采用的crema-PCP特征（实验不采用该特征，所以没仔细看）。
模型结构：
- Expanding the receptive field：max-pool层之后的conv用于抽取高层音频特征，无dilation的conv层=>在没有扩展时序上下文的情况下编码高层非线性特征；有dilation的conv层=>增加感受野，20、13是在人类能接受范围内（挺牵强）
- Summarizing temporal content：提出multi-channel adaptive attention mechanism，将channel分成两部分，一部分采用类attention机制，用auto-pool（介于max、averag pool，是一个非线性、可学习的pool层）让模型学会时序上每个step的重要性，结果经过softmax与另外一部分对位乘得到最终的音频特征。
- Standardizing embedding components：采用triplet loss训练，需要注意音频特征所在高维空间的体积，如向量distance的大小跟margin不成比例，会极大影响模型性能，因此在模型的输出特征上增加一层非参数的bn层，从而得到一个零均值、单位方差的音频特征。
模型训练方法：采用triplet loss训练，在线hard triplet mining，例如batch=64，则分配16个类别的音频，每个类别4首歌，每首歌作为anchor 挑选最大distance为pos，挑选最小distance为neg。（尽管挑选hard会让模型陷于局部最小值，但是在batch里面挑选hard，可视为"moderate"，不是全局性的hard选择）

消融实验

模型效果

关注

专栏目录