【论文笔记】VLMO: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts

华农度假村村长

已于 2023-06-25 18:55:15 修改

阅读量1k

点赞数 1

文章标签：论文阅读

于 2023-06-25 18:37:34 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_50862344/article/details/131366319

版权

VLMO是一种新型的预训练模型，它结合了双编码器和单编码器的优点，适用于检索和分类任务。模型采用多模态转换器，通过共享的多头自注意力和独立的FFN来处理不同模态的信息。此外，文章提出了分阶段训练策略和全局hardnegative挖掘，以优化预训练效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.介绍

1.1 视觉语言（VL）预训练的两种主流架构

（1）dual-encoder：分别对图像和文本进行编码

优点：检索任务

缺点：图像和文本之间的浅层交互不足以处理复杂的VL分类任务

（2）单编码器：对模型图像-文本对进行跨模态关注的融合编码器

优点：在VL分类任务上实现了卓越的性能

缺点：需要对所有可能的图像文本进行联合编码，大数据集下的不适合检索任务

1.2 VLMO论文介绍

提出了一种统一的视觉语言预训练模型（VLMO），该模型既可以用作双编码器，对检索任务的图像和文本进行单独编码，也可以用作融合编码器，对分类任务的图像-文本对的深度交互进行建模。

1.3贡献

除了VLMO本身，个人认为本篇论文比较大的两个贡献是：

（1）多模式转换器 SA共享，只依靠FFN调整

（2）分阶段的训练策略:先训练单一模态，最后训练多模态

2. 方法

2.1 输入表示

2.1.1 图像表示

图像表示=补丁嵌入、可学习的1D位置嵌入和图像类型嵌入（其实就是用vit输出的feature表示）

2.1.2 文本表示

增加序列开始标记（[T_CLS]）和特殊边界标记（[T_SEP]）

文本表示=单词嵌入、文本位置嵌入和文本类型嵌入

2.1.3 文本图片表示

将图像和文本输入向量连接起来

2.2 Mixture-of-Modality-Experts Transformer （MOME）

MOME Transformer引入了模态专家的混合，以替代标准Transformer的前馈网络。
每个MOME Transformer块通过切换到不同的模态专家来捕获模态特定信息，并使用模态之间共享的多头自注意（MSA）来对齐视觉和语言内容。

其实看下图就很容易理解了。三个模态共享多头自注意力（MSA），但是使用独立的FFN用来捕获不同模态下的信息。这个思想后面也被许多工作借鉴和学习

2.3 训练目标

经典老三样：①ITC图像-文本对比学习 ②MLM掩蔽语言建模 ③ITM图像-文本匹配。

提出了全局hard negatives挖掘，并从所有GPU收集道德的更多训练示例中的hard negative图像-文本对进行采样。区别于ALBEF的单个gpu

2.4 分阶段预训练

首先对纯图像数据进行视觉预训练，然后对纯文本数据进行语言预训练，以学习一般的图像和文本表示

纯图像数据：预训练视觉专家（V-FFN）和自注意模块
纯文本数据：冻结视觉专家和自注意模块的参数，训练语言专家 (L-FFN)。
图像-文本数据：对整个模型进行了视觉语言预训练。

3.代码

代码上的精髓就在这了哈哈哈哈哈...

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。