歌曲版本识别,或者称之为歌曲检索,是目前音乐信息检索一个领域重要分支。虽然国家叫停关于音乐独立版权垄断,但是对于音乐所属权仍然具有版权的重要性。
今天对歌曲检索做一个简要的总结。
歌曲检索目前常熟知一个应用就是,某讯音乐旗下某Q音乐中的听歌识曲功能,当然北京字某因为其短视频龙头,对于视频背景音乐也容易造成版权问题,这里就不多说了。
歌曲检索方法主要有两大分类,分别是基于音频指纹识别的shazam算法(某Q音乐上称之为landmark算法),以及基于构建embedding向量的特征向量检索方法。
基于音频指纹的shazam算法或者landmark算法
传统的歌曲检索方法——shazam算法
shazam公司提出的基于音频指纹的shazam算法,这种方法关键点就是音频构建指纹信息,然后通过指纹信息进行歌曲的检索。
shazam算法核心,首先将一维的语音向量转换为声谱图特征,对于每一帧的众多频率中选择最具有区分度,直观上说就是选择具有最大复制的频率(即峰值)最靠谱。对于每一帧的所有频率,通过构建频谱带,然后选择每一个频谱带中峰值信号作为该频谱带的指纹信息。然后剩下就是基于音乐检索的哈希表进行保存和查找。
基于深度学习的音频指纹的歌曲检索方法
则是神经网络,对每一帧信息进行构建其指纹特征,然后再进行检索。
大家可自行在网上找到对应论文。。。
基于构建embedding向量的特征向量检索方法
具体大致做法,就是对每一条歌曲信息通过特征提取,生成一条其对应的特征向量,称之为embedding。类似于人脸识别做法一样。
代表的网络框架有,move, re-move, TPPnet, CQTnet, PickNet, Bytecover, Bytecover2, 以及最新的由某Q音下的某琴实验室发表在Interspeech 2022的论文。
具体大家可以看对应论文
注:欢迎指正,欢迎搬砖。
5160

被折叠的 条评论
为什么被折叠?



