[ByteCover2]-音频翻唱检索论文笔记

论文名称:BYTECOVER2: TOWARDS DIMENSIONALITY REDUCTION OF LATENT EMBEDDING FOR EFFICIENT COVER SONG IDENTIFICATION(ICASSP2022)

论文地址Bytecover2: Towards Dimensionality Reduction of Latent Embedding for Efficient Cover Song Identification | IEEE Conference Publication | IEEE Xplore

代码地址:暂无

模型结构

  • ResNet-IBN模块:沿用bytecover的ResNet-IBN作为backbone,IBN block的stride调整为1,添加max pool池化层。

  • PCA-FC模块:假设输入特征为X=CxN

    • PCA降维:(学习链接【机器学习】降维——PCA(非常详细) - 知乎

      • PCA降维目标:

        • 要准确描述向量,首先要确定一组基,然后给出在基所在的各个直线上的投影值,就可以转换到新的特征空间,同时希望投影后的投影值尽可能分散,因为如果重叠就会有样本消失。

        • 将一组 N 维向量降为 K 维,其目标是选择 K 个单位正交基,使得原始数据变换到这组基上后,各变量两两间协方差为 0,而变量方差则尽可能大(在正交的约束下,取最大的 K 个方差)。

      • PCA降维步骤:X为输入音频特征CxN,公式3求协方差矩阵,挑选协方差矩阵top-k个最大的特征值对应的特征向量组成U,R(X)表示降维后的音频特征

      • PCA降维可能带来的问题:1.去除冗余信息时会丢弃一些有用的可区分音频的特2.PCA降维与CSI特征抽取模型的解耦。
    • FC降维:

      • FC降维步骤:简单粗暴

         

      • FC降维问题:随机初始化的FC层降维效果差,FC层作为降维模块来说缺乏了限制,不能在降维后很好的保留重要信息。 

  • PCA-FC降维:将PCA的特征矩阵作为FC层W权重的初始化参数,从而引入先验知识和限制,而后该层参数随着抽特征模块一同优化。

模型实验结果

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值