音乐检索简介

1 基于文本的检索

音乐检索从方式上来分主要有两种:基于文本的检索和基于内容的检索。基于文本的检索是通过输入歌曲名、歌手名或者歌词来检索歌曲,此方式是目前最通用的方式。它通过对音乐库中的音乐进行特征标记完成,每首音乐都有歌名、歌手和歌词信息;用户检索时往往利用倒排索引进行关键词检索。基于文本检索的前提是用户知道歌曲的一些信息,这种方式在大多数情况下可以满足用户需求。但是这个限制在某些情况下是一个缺陷。很多时候,用户想检索的音乐是在路上行走时无意中听到的歌曲。片段可能是流行音乐,但是让用户记住歌词是不现实的;也可能是纯音乐,此时基于文本的检索就无能为力。此外,对上千万首音乐的标记会是一个非常耗时的任务。

为了应对用户随时随地检索的需求,基于内容的音乐检索应运而生。基于内容的音乐检索无需用户提供关键词,而是通过原始的音频去检索。它具体又可以分为两种形式:哼唱检索和录音检索。

2 哼唱检索

哼唱检索是目前音乐检索研究的热点,它是通过用户哼唱音乐片段的方式进行检索。具体工作原理是:用户哼唱期望检索音乐的一个片段,片段长度通常在10到15秒之间,然后上传片段到服务器,服务器通过相似度匹配返回和用户哼唱片段最相似的音乐。服务器不是通过将原始音乐直接进行匹配的方式检索,而是首先从音乐片段中提取特征,然后利用特征进行检索,最常用的特征是音乐的基频序列。哼唱检索的核心即是基频序列之间的相似度匹配。由于用户哼唱的片段和库中实际音乐的片段不可能完全相似,所以哼唱检索是一种模糊匹配。针对模糊匹配,方法很多,最常用的例如字符串编辑距离,复杂的有DTW动态时间规整算法等。出于准确率的目的,哼唱检索中往往采用DTW动态时间规整算法,该算法是动态规划算法,复杂度较高,但是非常适合于时间序列之间的模糊匹配,因而在哼唱检索中具有最高的准确率。DTW算法虽然是动态规划算法,但是可以通过GPU、FPGA等硬件进行加速,因而检索速度目前还不是瓶颈。


哼唱检索目前面临的最大问题是准确率的问题。虽然有DTW算法可以采用,但是如何提取准确的基频序列是最大的难题。目前从多声部音乐中提取基频序列的准确率很低,大约只有75%左右。利用错误的特征进行匹配,DTW也无济于事。强调从多声部音乐中提取基频特征是因为目前大量存在的音乐都是多声部音乐,因而从多声部音乐中提取特征就可以自然地构造一个非常大的特征库。多声部音乐的特点就是伴随有大量的乐器背景音,这些背景音在提取声乐的过程中就是噪音。如何提升多声部音乐基频特征提取的准确率是哼唱检索能否实用的关键。当提取的准确率达到95%以上时,哼唱检索将会发挥更大的价值。目前商用的哼唱检索软件主要是MIDOMI。关于哼唱检索及DTW算法加速的更多知识可以参考本人的硕士论文《哼唱检索的并行化方法研究与实现》。

3 录音检索

       名字可能取得不好,在QQ音乐中该应用叫做“听歌识曲”。就如字面所描述,录音检索通过录制一段音乐上传服务器进行检索。它和哼唱检索的区别就是录音检索不用用户哼唱,而是录制一段正在播放的音乐。在使用方式上,这种方式更为简单方便。由于录制的就是原始播放的音乐,所以录音检索不是模糊检索,而是一种精确匹配,采用的技术也和哼唱检索不同。不过庆幸的是,录音检索已经有十年的历史,准确率也非常高。最出名的应用可能就是Shazam,当然QQ音乐的“听歌识曲”也很好。

       录音检索匹配过程中也不是在原始音乐上进行匹配,而是首先从原始音频中提取指纹(fingerprint)来进行匹配。目前提取音乐指纹的算法非常多,主要有:echoprint,chromaprint和landmark等,具体可参考论文《Evaluatingmusical fingerprinting systems》。目前最常用的指纹提取算法是shazam公司03发表的论文《AnIndustrial-Strength Audio Search Algorithm》提出的landmark算法。


       该算法的基本原理是从音乐的频域特征中选择一些能量极大值点作为landmark,然后将两个landmark组合成指纹存入数据库。匹配的原理是:检索的片段提取的指纹会在原始音乐中复现。所以检索的过程就是寻找录制片段在原始音乐中哪个时刻会出现指纹的大量重合。可以形象地理解匹配为:原始音乐提取的指纹散布在一个长条上,录制片段是一个短条,从长条的开始移动短条直到指纹大量重合。具体的实现今后会详细介绍。

  • 6
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 12
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值