Multimodal Prompting with Missing Modalities for Visual Recognition( 视觉识别的多模态缺失提示学习)

苗老大

已于 2024-10-24 10:44:44 修改

阅读量1.3k

点赞数 15

CC 4.0 BY-SA版权

分类专栏：模态缺失文章标签：深度学习人工智能神经网络

于 2024-10-24 10:42:31 首次发布

本文链接：https://blog.csdn.net/zhouying_12345/article/details/143192056

论文：https://arxiv.org/abs/2303.03369

代码：https://github.com/YiLunLee/Missing_aware_prompts

摘要

在本文中，解决了视觉识别中多模态学习面临的两大挑战：1) 在现实世界的场景中，模态缺失问题；2) 在计算资源不足时，微调大型Transformer模型的问题。为此，提出利用提示学习（prompt learning）来一并缓解上述两大挑战。具体而言，设计可以嵌入到多模态Transformer中的模态缺失感知提示，与训练整个模型相比，所需的可学习参数不到1%。进一步探索了不同提示的效果，并分析了对模态缺失的鲁棒性。大量实验证明所提出框架的有效性，该框架能在各种模态缺失情况下提高性能，同时减轻对大型模型重新训练的需求。

1. Introduction

在日常生活中观察到的信息通常是多模态的，如视觉、语言和声学信号等，因此，对多模态信息进行建模和协调具有极大的研究价值和广泛的应用潜力。尽管多模态Transformer在各种任务上展现出了卓越的性能和泛化能力，但在实际应用场景中仍面临挑战：1) 如何在不使用大量计算资源对整个模型进行微调的情况下，高效地调整多模态Transformer？2) 当出现模态缺失（例如训练数据不完整或测试时观测数据缺失）时，如何确保模型的鲁棒性？

这段主要讲：1）现实中大多数是不完整的模态。2）微调成本高

然后是现有研究吧啦吧啦

在本文中，研究了一种更普遍的模态不完整场景下的多模态transformer，其中任何数据样本中都可能出现各种模态缺失的情况，例如，在训练或测试过程中，可能会同时存在仅包含text和仅包含image的数据。还重点关注减轻对整个transformer进行微调的需求。为此，提出了一个基于提示学习技术的框架来解决上述挑战。提出将不同的模态缺失情况视为不同类型的输入，并采用可学习的提示来缓解因模态缺失导致的性能下降。因此，可学习提示的大小可以小于整个transformer的1%，与整体微调相比，计算成本更为可接受。我们的工作与现有工作的主要区别如图1所示。

图1. 训练多模态转换器中的缺失模态场景说明。先前的工作研究了多模态Transformer对模态不完整测试数据的鲁棒性，并要求使用模态完整的训练数据对整个模型进行微调。相比之下，本工作研究了一个更一般的场景，其中数据输入和学习阶段（训练、测试或两者）都可能发生不同的模态缺失情况，我们采用提示学习来使预训练的Transformer适应下游任务，而无需对整个模型进行繁重的微调计算。

为进一步探索多模态transformer中的提示设计，以解决一般模态不完整场景的问题，研究了两种将缺失感知提示集成到预训练多模态transformer中的设计：1) 输入级提示学习。 2) 注意力级提示学习。发现，将提示附加到transformer的位置至关重要。

实验中，探索了不同的提示配置，并观察了提示的长度和位置对性能的影响：1）随着提示层数量增加，模型的性能直觉上会更好，但这并不是最重要的因素；2）将提示添加到靠近数据输入的层上可以获得更好的性能；3）对于注意力级提示，提示的长度对模型性能的影响较小，但可能在某些数据集上对输入级提示的影响更大。此外，进行大量实验，以验证采用本文的提示框架在各种情况下缓解缺失模态问题的有效性，同时与整个模型相比，可学习参数减少到不足1%。主要贡献如下：

• 引入了一个多模态学习的一般场景，其中每个数据样本在训练或测试阶段都可能出现不同的模态缺失情况。

• 提出使用缺失感知提示来解决模态缺失，同时仅需要不到1%的参数微调预训练模型，从而避免了微调重型transformer。

• 进一步研究了将提示添加到预训练transformer的不同位置上的两种设计，即输入级提示和注意力级提示。其中，输入级提示通常是一个更好的选择，但注意力级提示对某些数据集设置的敏感性较低。