[CQTNet]-音频翻唱检索论文笔记

will-wil

已于 2022-08-23 20:42:54 修改

阅读量932

点赞数 1

分类专栏： audio方向文章标签：人工智能

于 2022-07-22 15:02:58 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yangyanbao8389/article/details/125931773

版权

audio方向专栏收录该内容

4 篇文章

订阅专栏

论文名称：Learning a Representation for Cover Song Identification Using Convolutional Neural Network（ICASSP2020）

论文地址：https://arxiv.org/abs/1911.00334

代码地址：https://github.com/yzspku/CQTNet

背景

研究Music Information Retrieval (MIR)方向中的Cover song identification任务，减少人工特征和对齐算法的使用，本文提出CNN网络来检索相同的音乐。

模型总览

模型训练流程：

预处理：Librosa抽取音频的CQT特征，采样率默认22050Hz，音频八度的bin个数为12，音频特征下采样倍率20，最终得到84*T维特征，T由音频的时长决定。
模型处理：模型比较简单，就是几层conv和pool的堆叠，有几点注意的地方。
- 前几层conv的height维度kenel为12、13，主要是因为CQT特征音频八度的bin个数为12，使得前三个conv层的感受野为3个八度。
- 采用膨胀卷积，不过是在时序维度上，因为翻唱歌曲的识别侧重于音乐的长期旋律。
- 频域维度上的步长始终为1，音频的关键变化可能发生在一或两个半音。
- 输出层采用adaptive global pool，将不同的音频压缩成固定长度特征。

模型结果

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。