（ICLR，2024）HarMA：高效的协同迁移学习与模态对齐遥感技术

lalula1999

已于 2024-06-03 21:27:36 修改

阅读量2.1k

点赞数 17

分类专栏： CLIP 文章标签：迁移学习机器学习人工智能

于 2024-06-03 21:24:33 首次发布

本文链接：https://blog.csdn.net/weixin_44386956/article/details/139413770

版权

文章目录

相关资料
摘要
引言
方法
- 多模态门控适配器
- 目标函数
实验

摘要

随着视觉和语言预训练（VLP）的兴起，越来越多的下游任务采用了先预训练后微调的范式。尽管这一范式在各种多模态下游任务中展示了潜力，但在遥感领域的实施遇到了一些障碍。具体来说，同模态嵌入倾向于聚集在一起，阻碍了高效的迁移学习。为了解决这个问题，我们从统一的角度回顾了多模态迁移学习在下游任务中的目标，并基于三个不同的目标重新考虑了优化过程。我们提出了“Harmonized Transfer Learning and Modality Alignment (HarMA)”，一种方法，它同时满足任务约束、模态对齐和单模态统一对齐，同时通过参数高效的微调最小化训练开销。值得注意的是，HarMA无需外部数据进行训练，就在遥感领域的两个流行的多模态检索任务中实现了最先进的性能。我们的实验表明，HarMA仅使用最少的可调参数就能实现与完全微调模型相媲美甚至更优越的性能。由于其简单性，HarMA可以集成到几乎所有现有的多模态预训练模型中。我们希望这种方法能够促进大型模型在广泛的下游任务中的高效应用，同时显著降低资源消耗。

引言

先预训练后全面微调局限性：

全面微调一个大型模型极其昂贵且不可扩展。
预训练模型已经在大型数据集上训练了很长时间，而在小型数据集上进行全面微调可能导致泛化能力降低或过拟合。

参数高效微调局限性：

集中在单模态特征上。
在建模视觉-语言联合空间时忽视了潜在的语义不匹配。

在这里插入图片描述
我们观察到，表现不佳的模型有时在其同模态嵌入内部表现出聚类现象。图1展示了在遥感图像-文本检索领域中两个性能不同的模型的最后一层嵌入的可视化；与左侧图像相比，右侧图像中的聚类现象更为明显。我们假设这可能归因于遥感图像的高类内和类间相似性，导致在建模低秩视觉-语言联合空间时出现语义混淆。
类似于人脑的信息处理方法，我们设计了一个带有迷你适配器的分层多模态适配器。该框架模仿人脑利用共享的小型区域处理来自视觉和语言刺激的神经冲动的策略。它通过分层共享多个迷你适配器，从低到高级别地建模视觉-语言语义空间。最后，我们引入了一个新的目标函数，以缓解同一模态内部特征的严重聚类。由于其简单性，该方法可以轻松集成到几乎所有现有的多模态框架中。

方法

在这里插入图片描述
我们提出的 HarMA 框架首先使用图像和文本编码器提取表示，类似于 CLIP。然后这些特征通过我们独特的多模态门控适配器进行处理以获得精炼的特征表示。与使用的简单线性层交互不同，我们采用了共享的迷你适配器作为整个适配器内的交互层。之后，我们使用对比学习目标和我们的自适应三元损失进行优化。

多模态门控适配器

在这里插入图片描述
在这个模块中，提取的特征 $z^I$ 和 $z^T$ 首先被投影到低维嵌入中。不同的特征 $z^I$ ( $z^T$ ) 在经过非线性激活和随后的 I-MSA 处理后，特征表达得到了进一步增强。I-MSA 及其后的 MM-MSA 共享参数。然后，这些特征被送入我们设计的多模态子适配器 (MMS-Adapter) 进行进一步交互，该模块的结构在图 3 的右侧显示。