摘要
提出Multimodal End-to-end TransformER framework,即METER,通过这个框架研究如何以一个端到端的方式( in an end-to-end manner )设计和预训练一个完全基于transformer的视觉语言模型。
端到端指的是输入是原始数据,输出是最后的结果,整个模型过程相当于黑箱操作;相反,非端到端的方法,数据的预处理部分是单独的模块,需要人工处理(如人工标注数据,人工提取图片特征)(笔者注)
具体地,模型从多个维度被解剖(dissect)为:
视觉编码器/vision encoders;
文本编码器/text encoders;
多模态融合模块/multimodal fusion module;
结构设计/architectural design:encoder-only vs. encoder-decoder;
预训练目标/pre-training objectives。
introduction
- Vision Transformer在VLP(vision-and-language pretrained)中的地位比language transformer更重要
- cross-attention有益于多模态融合,在下游任务上的表现由于self-attention alone
- 在相同的设置下,对于VQA和zero-shot的图文检索任务上,encoder-only的VLP模型比encoder-decoder模型效果更好
- 在我们的设置下,在VLP中add masked image modeling loss并不会提升下游任务的性能
METER框架
overview
给定一个文本I和一张图片V,
一个VLP模型首先通过一个文本编码器和一个图片编码器抽取文本特征和图片特征。
然后将文本特征和图片特征喂入一个多模态融合模块以获取跨模态表示。
在生成最终输出前,跨模态表示选择性地喂入一个解码器。
Model Architecture
Vision Encoder
在ViT(vision transformer)中,一个图片首先被分块,然后这些块被喂入transformer模型。
在这篇文章中,分析并比较了以下ViT:
the original ViT, DeiT, Distilled-DeiT, CaiT, VOLO, BEiT, Swin Transformer 和 CLIP-ViT.
Text Encoder
大部分的VLP模型仍然只使用BERT来初始化语言模型,在这篇文章中,分析并比较了以下BERT:
BER, RoBERTa, ELECTRA, ALBERT, DeBERTa
Multimodal Fusion
研究了两种融合方法:
- merged attention:文本和图片特征简单拼接,然后喂入一个单一的transformer模块
- co-attention:文本特征和图片特征分别喂入不同的transformer模块,并且使用cross-attention等技术实现跨模态交互
architectural design
- encoder-only
- encoder-decoder
Pre-training Objectives
- Masked Language Modeling
- Image-Text Matching
- Masked Image Modeling