[ByteCover2]-音频翻唱检索论文笔记

最新推荐文章于 2024-07-25 23:06:58 发布

will-wil

最新推荐文章于 2024-07-25 23:06:58 发布

阅读量624

点赞数

分类专栏： audio方向文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yangyanbao8389/article/details/126492633

版权

audio方向专栏收录该内容

4 篇文章 0 订阅

订阅专栏

论文名称：BYTECOVER2: TOWARDS DIMENSIONALITY REDUCTION OF LATENT EMBEDDING FOR EFFICIENT COVER SONG IDENTIFICATION（ICASSP2022）

论文地址Bytecover2: Towards Dimensionality Reduction of Latent Embedding for Efficient Cover Song Identification | IEEE Conference Publication | IEEE Xplore

代码地址：暂无

模型结构

ResNet-IBN模块：沿用bytecover的ResNet-IBN作为backbone，IBN block的stride调整为1，添加max pool池化层。
PCA-FC模块：假设输入特征为X=CxN
- PCA降维：（学习链接【机器学习】降维——PCA（非常详细） - 知乎）
  - PCA降维目标：
    - 要准确描述向量，首先要确定一组基，然后给出在基所在的各个直线上的投影值，就可以转换到新的特征空间，同时希望投影后的投影值尽可能分散，因为如果重叠就会有样本消失。
    - 将一组 N 维向量降为 K 维，其目标是选择 K 个单位正交基，使得原始数据变换到这组基上后，各变量两两间协方差为 0，而变量方差则尽可能大（在正交的约束下，取最大的 K 个方差）。
  - PCA降维步骤：X为输入音频特征CxN，公式3求协方差矩阵，挑选协方差矩阵top-k个最大的特征值对应的特征向量组成U，R(X)表示降维后的音频特征
  - PCA降维可能带来的问题：1.去除冗余信息时会丢弃一些有用的可区分音频的特2.PCA降维与CSI特征抽取模型的解耦。
- FC降维：
  - FC降维步骤：简单粗暴
  - FC降维问题：随机初始化的FC层降维效果差，FC层作为降维模块来说缺乏了限制，不能在降维后很好的保留重要信息。
PCA-FC降维：将PCA的特征矩阵作为FC层W权重的初始化参数，从而引入先验知识和限制，而后该层参数随着抽特征模块一同优化。

模型实验结果

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[ByteCover2]-音频翻唱检索论文笔记

BYTECOVER2: TOWARDS DIMENSIONALITY REDUCTION OF LATENT EMBEDDING FOR EFFICIENT COVER SONG IDENTIFICATION（ICASSP2022）
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。