Multimodal music information processing and retrieval: survey and future challenges
一、这篇文章的研究目的是什么?
这篇文章属于综述性论文,主要是对于多模式音乐信息处理与检索的一个相关调查。目的是通过利用音乐各个方面的不同模态,来提高音乐信息处理与检索的性能。这篇文章对于主要做了三方面的研究:1.对其相关文献做了分类。2.分析了现有的多模态融合方法。3.未来几年领域内的挑战。
二、作者的主要发现是什么?
1.关于模态没有明确的定义,在音乐计算文献中使用的模态主要属于两个方面:
a:在计算心理学中,模态指的是人类感官渠道;
b:在音乐信息中检索,其中模态通常是指音乐信息的来源;
本文中所指的模态是音乐信息进行数字化的特定方法,通过不同的换能器,在不同的地方或时间,和属于不同媒体,获得不同的模态。
2.将多模态融合分为两类:
首先多模态融合的目的是有效的结合不同模态传达的信息,几乎处理多模态信息融合的作者只谈论一下两种途径:
a:早期融合:特征融合(融合的是数据)
b:晚期融合:决策融合(融合的是输出)
混合融合(音乐领域内没有实例)
3.多模态音乐处理任务的分类
a:Synchronization任务:在时间或空间上对其不同音乐的模态
b:Similarity任务:多为检索任务
c:Classification任务:分类、识别
d:Time-dependent representation任务:
4.数据预处理
数据预处理是将数据表示转换为更适合的格式以进行后续步骤。
5.在多模态中的特征提取
a. Audio features:分为物理特征(可以直接在各种域中进行计算,如时间、频率、小波、音量
等)与感知特征(尝试在特征提取阶段或在制定物理音频特征中整合人类声音感知处理)。
b. Video and image features
c. text
d. Symbolic score features