# 互信息最大化[视角统一]:Align before Fuse: Vision Language Representation Learning with Momentum Distillation

最新推荐文章于 2024-05-03 11:07:56 发布

Mira-Tableau

最新推荐文章于 2024-05-03 11:07:56 发布

阅读量5.2k

点赞数 6

分类专栏：多模态深度学习文章标签：人工智能深度学习机器学习

本文链接：https://blog.csdn.net/xiaoxiyang1990/article/details/119039898

版权

多模态同时被 2 个专栏收录

4 篇文章 2 订阅

订阅专栏

深度学习

3 篇文章 0 订阅

订阅专栏

互信息最大化[视角统一]:Align before Fuse: Vision and Language Representation Learning with Momentum Distillation

摘要

视觉和语言表示学习已经广泛被应用与各种视觉语言任务。现有方法大多数基于Transformer方法的多模态编码器同时进行视觉特征学习（基于区域的图像特征）和文本特征学习。鉴于视觉特征和文本特征之间的语义空间不一致问题，因此多模态编码器在学习图像-文本交互上具有非常大的挑战性。文章通过引入对比损失，通过跨模态注意将图像和文本表示在融合前对齐(ALBEF)，从而实现更扎实的视觉和文本表示学习，同时本文的方法不要对图像数据进行标注且图像分辨率要求不高。为了更好的对噪声数据进行学习，我们提出了动量蒸馏，这是一种从动量模型产生的伪目标中学习的自我训练方法。同时文章从互信息最大化的角度对文章中提出的方法进行了理论分析，表明不同的训练任务可以理解为从不同视角对图像-文本的描述建模。
ALBEF 在多个下游视觉语言任务上实现了最先进的性能。在图像文本检索方面，ALBEF优于在更大数量级数据集上预训练的方法。在 VQA 和 NLVR2上，ALBEF与最先进的技术相比，实现了 2.37% 和 3.84%的绝对改进，同时享有更快的推理速度。

代码:https://github.com/salesforce/ALBEF/

模型架构

请添加图片描述

它由一个图像编码器、一个文本编码器和一个多模态编码器组成。文章提出了一种图像文本对比损失，在图像文本融合之前对图像文本进行统一表示建模。
图像文本匹配损失和掩码语言建模损失被应用于学习图像和文本之间的多模态交互。为了改进噪声数据的学习，我们使用动量模型生成伪目标来作为训练期间的额外监督。

预训练任务

作者认为，图文对比学习，掩码语言建模，图文匹配任务都是追求互信息最大话方式的一种视角，将基于三种预训练任务进行了统一建模（笔者认为这个地方是最为出彩的地方）

图文对比学习

请添加图片描述
这里笔者任务主要的思路启发来源于CLIP和MOCO这两篇文章感兴趣的小伙伴可以深入下；简单来讲，采用CLIP文章中的INfoNCE Loss追求Image和Text之间的互信息最大化；同时采用MOCO方法扩充负样本的数量。

掩码语言建模

掩码语言建模利用图像和上下文文本来预测掩码单词。请添加图片描述

图文匹配任务

请添加图片描述

实验结果

请添加图片描述
与现有方法相比，ALBEF 在多个下游 V+L任务上提供了更好的性能和更快的推理速度。同时作者建议使用部署是应该进行充分的测试，以及可能在社交媒体上面带来的潜在危害；

Mira-Tableau

关注

6
点赞
踩
11

收藏

觉得还不错? 一键收藏
打赏
2
评论
# 互信息最大化[视角统一]:Align before Fuse: Vision Language Representation Learning with Momentum Distillation

互信息最大化[视角统一]:Align before Fuse: Vision and Language Representation Learning with Momentum Distillation摘要视觉和语言表示学习已经广泛被应用与各种视觉语言任务。现有方法大多数基于Transformer方法的多模态编码器同时进行视觉特征学习（基于区域的图像特征）和文本特征学习。鉴于视觉特征和文本特征之间的语义空间不一致问题，因此多模态编码器在学习图像-文本交互上具有非常大的挑战性。文章通过引入对比损失，通过
复制链接

扫一扫