歌曲版本识别或者歌曲检索（总结）

飞呀飞呀飞呀

于 2022-07-24 16:43:37 发布

阅读量1.8k

点赞数

文章标签：人工智能 python 深度学习语音识别全文检索

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yin_fei_0825/article/details/125960751

版权

歌曲版本识别，或者称之为歌曲检索，是目前音乐信息检索一个领域重要分支。虽然国家叫停关于音乐独立版权垄断，但是对于音乐所属权仍然具有版权的重要性。

今天对歌曲检索做一个简要的总结。

歌曲检索目前常熟知一个应用就是，某讯音乐旗下某Q音乐中的听歌识曲功能，当然北京字某因为其短视频龙头，对于视频背景音乐也容易造成版权问题，这里就不多说了。

歌曲检索方法主要有两大分类，分别是基于音频指纹识别的shazam算法（某Q音乐上称之为landmark算法），以及基于构建embedding向量的特征向量检索方法。

基于音频指纹的shazam算法或者landmark算法

传统的歌曲检索方法——shazam算法

shazam公司提出的基于音频指纹的shazam算法，这种方法关键点就是音频构建指纹信息，然后通过指纹信息进行歌曲的检索。

shazam算法核心，首先将一维的语音向量转换为声谱图特征，对于每一帧的众多频率中选择最具有区分度，直观上说就是选择具有最大复制的频率（即峰值）最靠谱。对于每一帧的所有频率，通过构建频谱带，然后选择每一个频谱带中峰值信号作为该频谱带的指纹信息。然后剩下就是基于音乐检索的哈希表进行保存和查找。

基于深度学习的音频指纹的歌曲检索方法

则是神经网络，对每一帧信息进行构建其指纹特征，然后再进行检索。
大家可自行在网上找到对应论文。。。

基于构建embedding向量的特征向量检索方法

具体大致做法，就是对每一条歌曲信息通过特征提取，生成一条其对应的特征向量，称之为embedding。类似于人脸识别做法一样。

代表的网络框架有，move, re-move, TPPnet, CQTnet, PickNet, Bytecover, Bytecover2, 以及最新的由某Q音下的某琴实验室发表在Interspeech 2022的论文。

具体大家可以看对应论文

注：欢迎指正，欢迎搬砖。

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。