歌曲版本识别或者歌曲检索(总结)

歌曲版本识别,或者称之为歌曲检索,是目前音乐信息检索一个领域重要分支。虽然国家叫停关于音乐独立版权垄断,但是对于音乐所属权仍然具有版权的重要性。

今天对歌曲检索做一个简要的总结。

歌曲检索目前常熟知一个应用就是,某讯音乐旗下某Q音乐中的听歌识曲功能,当然北京字某因为其短视频龙头,对于视频背景音乐也容易造成版权问题,这里就不多说了。

歌曲检索方法主要有两大分类,分别是基于音频指纹识别的shazam算法(某Q音乐上称之为landmark算法),以及基于构建embedding向量的特征向量检索方法。

基于音频指纹的shazam算法或者landmark算法

传统的歌曲检索方法——shazam算法

shazam公司提出的基于音频指纹的shazam算法,这种方法关键点就是音频构建指纹信息,然后通过指纹信息进行歌曲的检索。

shazam算法核心,首先将一维的语音向量转换为声谱图特征,对于每一帧的众多频率中选择最具有区分度,直观上说就是选择具有最大复制的频率(即峰值)最靠谱。对于每一帧的所有频率,通过构建频谱带,然后选择每一个频谱带中峰值信号作为该频谱带的指纹信息。然后剩下就是基于音乐检索的哈希表进行保存和查找。

基于深度学习的音频指纹的歌曲检索方法

则是神经网络,对每一帧信息进行构建其指纹特征,然后再进行检索。
大家可自行在网上找到对应论文。。。

基于构建embedding向量的特征向量检索方法

具体大致做法,就是对每一条歌曲信息通过特征提取,生成一条其对应的特征向量,称之为embedding。类似于人脸识别做法一样。

代表的网络框架有,move, re-move, TPPnet, CQTnet, PickNet, Bytecover, Bytecover2, 以及最新的由某Q音下的某琴实验室发表在Interspeech 2022的论文。

具体大家可以看对应论文

注:欢迎指正,欢迎搬砖。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值