多模态机器学习

最新推荐文章于 2024-01-21 03:37:10 发布

XiWenjuan086

最新推荐文章于 2024-01-21 03:37:10 发布

阅读量1k

点赞数

分类专栏：论文阅读文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_43871207/article/details/121664864

版权

论文阅读专栏收录该内容

1 篇文章 0 订阅

订阅专栏

~~研狗生活开始了~~

汇报时间：2021.10.14

文献：

1、杨杨,詹德川,姜远,熊辉.可靠多模态学习综述.软件学报,2021,32(4):1067-1081

2、T. Baltrušaitis, C. Ahuja and L. Morency, "Multimodal Machine Learning: A Survey and Taxonomy," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 41, no. 2, pp. 423-443, 1 Feb. 2019, doi: 10.1109/TPAMI.2018.2798607.

一、多模态基本准则

1、传统多模态学习的精髓在于如何有效地考虑模态间的关联性，通常要求服从两个基本准则：互补性和一致性。

2、互补性准则描述每个模态的数据可能包含其他模态所欠缺的信息，因此综合考虑多模态信息可以更全面地描述数据并提升任务性能。多模态融合。

基于互补性准则的方法：协同训练（Co-training）、Deep Co-trade、多模态聚类方法（ECMSC）

3、一致性准则旨在最大化两个不同模态的一致性。对齐、映射。

基于一致性准则的方法（可以分为约束模态预测一致性和约束模态特征表示的一致性）：半监督学习方法协同正则化（Co-regularization）、典型性相关分析 CCA（Canonical Correlation Analysis）、多模态深度网络 MDL（Multi-modal Deep Learning）

4、这两类多模态学习方法都利用了模态间的强相关性：

（1）标记预测的强相关性。

（2）特征表示的强相关性。

二、多模态技术分类

2.1 模态表示学习

1、多模态表示是利用多种模式的互补性和冗余性的方式表示和总结多模式数据。多模态数据的异质性使得构造这样的表示具有学习是学习如何以一种利用多种模式的互补性挑战性。

2、《Multimodal Machine Learning: A Survey and Taxonomy》文中将多模态表示分为两类：联合表示和协调表示。

3、联合表示将单模信号合并到同一个表示空间中，最简单示例是单个模态特征的串联，高级的有神经网络、图模型、递归神经网络等，已被广泛应用于视听语音识别(AVSR) 、情感和多模态手势识别。

4、协调表示将每个模态投射到单独但协调的空间中，使它们适合于在测试时只有一种模态的应用，如：多模态检索和翻译和零机会学习。

2.2 模态映射学习

1、多模态映射表示将一种模态映射到另一种模态。给定一个形式中的实体，任务是在不同的形式中生成相同的实体。早期的工作包括语音合成、可视语音生成、视频描述和跨模态检索。

2、《Multimodal Machine Learning: A Survey and Taxonomy》文中将多模态映射分为两类：基于实例的映射和基于生成的映射。

3、基于实例的模型在模式之间进行转换时使用字典，分为两种类型的算法：基于检索的和基于组合的。基于检索的模型直接使用检索到的翻译，不修改；基于组合的模型依赖复杂的规则，根据大量检索到的实例创建翻译。

4、生成模型构建了一个能够产生映射的模型，可以在给定单模态源实例的情况下执行多模态映射。分为三大类：基于语法的、编码器-解码器、连续生成模型。

2.3 模态对齐学习

1、多模态对齐定义为查找来自两个或多个模式的实例的子组件之间的关系和对应关系。例如，给定一幅图像和一个标题，希望找到与标题中的单词或短语相对应的图像面积。

2、《Multimodal Machine Learning: A Survey and Taxonomy》文中将多模态对齐分为两类：隐式对齐和显式对齐。

3、显式对齐注重对齐模式之间的子组件，显示对齐一个非常重要的部分是相似性度量。处理显式对齐的算法有两种：无监督和(弱)监督。无监督在不同模式的实例之间没有直接的对齐标签(即有标记的对应)。（弱）监督可以访问这样的(有时是弱的)标签。

4、隐式对齐被用作另一个任务的中间(潜在的)步骤。在语音识别、机器翻译、媒体描述和视觉问答等任务上的表现更出色。隐式对齐不显式地对齐数据，也不依赖于有监督的对齐示例，而是学习如何在模型训练期间隐式对齐数据。隐式对齐模型分为两种:（早期）图形模型、（现代）神经网络。

2.4 模态融合学习

1、多模态融合将来自多种模态的信息整合在一起，以预测结果度量为目标，通过分类来预测一个类别(例如快乐vs.悲伤)，或通过回归来预测一个连续值(例如情绪的积极性)。多模态融合的应用包括视听语音识别、多模态情感识别、医学图像分析和多媒体事件检测等。

2、《Multimodal Machine Learning: A Survey and Taxonomy》文中将多模态融合分为两类：不直接依赖于特定机器学习方法的模型未知方法、基于模型的方法。

3、绝大多数多模态融合都是使用与模型无关的方法完成的。这种方法可以分为早期(即基于特征)、晚期(即基于决策)和混合融合。

4、虽然使用单模态机器学习方法很容易实现模型无关的方法，但它们最终使用的技术不是为处理多模态数据而设计的。基于模型的多模态融合的三类方法有：基于核的方法、图形模型和神经网络。

2.5 模态协同学习

1、多模态协同学习通过从另一个(资源丰富的)模态中挖掘知识来帮助对一个(资源贫乏的)模态建模，允许一种模式影响另一种模式的训练。对其中一种模式的资源有限时(缺乏注释数据、嘈杂的输入和不可靠的标签)帮助很大。通常只在模型训练期间使用，而在测试期间不使用。在视觉分类、动作识别、视听语音识别和语义相似度估计等方面发现了许多应用。

2、《Multimodal Machine Learning: A Survey and Taxonomy》文中将协同学习分为三种：平行、非平行和混合。

3、平行的协同学习方法需要训练数据集，将来自一个模态的内容与来自其他模态的内容直接相连。

4、非平行的协同学习方法不需要不同模式的观测结果之间的直接联系，通常通过使用类别重叠来实现协同学习。