论文阅读:An Empirical Study of Training End-to-End Vision-and-Language Transformers

摘要

提出Multimodal End-to-end TransformER framework,即METER,通过这个框架研究如何以一个端到端的方式( in an end-to-end manner )设计和预训练一个完全基于transformer的视觉语言模型。

端到端指的是输入是原始数据,输出是最后的结果,整个模型过程相当于黑箱操作;相反,非端到端的方法,数据的预处理部分是单独的模块,需要人工处理(如人工标注数据,人工提取图片特征)(笔者注)

具体地,模型从多个维度被解剖(dissect)为:
视觉编码器/vision encoders;
文本编码器/text encoders;
多模态融合模块/multimodal fusion module;
结构设计/architectural design:encoder-only vs. encoder-decoder;
预训练目标/pre-training objectives。

introduction

  • Vision Transformer在VLP(vision-and-language pretrained)中的地位比language transformer更重要
  • cross-attention有益于多模态融合,在下游任务上的表现由于self-attention alone
  • 在相同的设置下,对于VQA和zero-shot的图文检索任务上,encoder-only的VLP模型比encoder-decoder模型效果更好
  • 在我们的设置下,在VLP中add masked image modeling loss并不会提升下游任务的性能

METER框架

overview

给定一个文本I和一张图片V,
一个VLP模型首先通过一个文本编码器和一个图片编码器抽取文本特征和图片特征。
然后将文本特征和图片特征喂入一个多模态融合模块以获取跨模态表示。
在生成最终输出前,跨模态表示选择性地喂入一个解码器。

Model Architecture

Vision Encoder

在ViT(vision transformer)中,一个图片首先被分块,然后这些块被喂入transformer模型。
在这篇文章中,分析并比较了以下ViT:
the original ViT, DeiT, Distilled-DeiT, CaiT, VOLO, BEiT, Swin Transformer 和 CLIP-ViT.

Text Encoder

大部分的VLP模型仍然只使用BERT来初始化语言模型,在这篇文章中,分析并比较了以下BERT:
BER, RoBERTa, ELECTRA, ALBERT, DeBERTa

Multimodal Fusion

在这里插入图片描述
研究了两种融合方法:

  • merged attention:文本和图片特征简单拼接,然后喂入一个单一的transformer模块
  • co-attention:文本特征和图片特征分别喂入不同的transformer模块,并且使用cross-attention等技术实现跨模态交互
architectural design

在这里插入图片描述

  • encoder-only
  • encoder-decoder
Pre-training Objectives
  • Masked Language Modeling
  • Image-Text Matching
  • Masked Image Modeling
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值