Multimodal music information processing and retrieval: survey and future challenges

Multimodal music information processing and retrieval: survey and future challenges

一、这篇文章的研究目的是什么?

这篇文章属于综述性论文,主要是对于多模式音乐信息处理与检索的一个相关调查。目的是通过利用音乐各个方面的不同模态,来提高音乐信息处理与检索的性能。这篇文章对于主要做了三方面的研究:1.对其相关文献做了分类。2.分析了现有的多模态融合方法。3.未来几年领域内的挑战。

二、作者的主要发现是什么?
1.关于模态没有明确的定义,在音乐计算文献中使用的模态主要属于两个方面:
a:在计算心理学中,模态指的是人类感官渠道;
b:在音乐信息中检索,其中模态通常是指音乐信息的来源;

本文中所指的模态是音乐信息进行数字化的特定方法,通过不同的换能器,在不同的地方或时间,和属于不同媒体,获得不同的模态。

2.将多模态融合分为两类:

首先多模态融合的目的是有效的结合不同模态传达的信息,几乎处理多模态信息融合的作者只谈论一下两种途径:

a:早期融合:特征融合(融合的是数据)
b:晚期融合:决策融合(融合的是输出)
混合融合(音乐领域内没有实例)

在这里插入图片描述

3.多模态音乐处理任务的分类

在这里插入图片描述

	a:Synchronization任务:在时间或空间上对其不同音乐的模态
	b:Similarity任务:多为检索任务
	c:Classification任务:分类、识别
	d:Time-dependent representation任务:
4.数据预处理

数据预处理是将数据表示转换为更适合的格式以进行后续步骤。

5.在多模态中的特征提取
a. Audio features:分为物理特征(可以直接在各种域中进行计算,如时间、频率、小波、音量
   等)与感知特征(尝试在特征提取阶段或在制定物理音频特征中整合人类声音感知处理)。
b. Video and image features
c. text
d. Symbolic score features
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值