论文阅读：An Empirical Study of Training End-to-End Vision-and-Language Transformers

最新推荐文章于 2023-04-01 17:04:17 发布

xiyou__

最新推荐文章于 2023-04-01 17:04:17 发布

阅读量2.8k

点赞数 1

分类专栏：论文阅读文章标签： transformer 计算机视觉深度学习自然语言处理 bert

本文链接：https://blog.csdn.net/xiyou__/article/details/123134897

版权

论文阅读专栏收录该内容

5 篇文章 2 订阅

订阅专栏

摘要

提出Multimodal End-to-end TransformER framework，即METER，通过这个框架研究如何以一个端到端的方式( in an end-to-end manner )设计和预训练一个完全基于transformer的视觉语言模型。

端到端指的是输入是原始数据，输出是最后的结果，整个模型过程相当于黑箱操作；相反，非端到端的方法，数据的预处理部分是单独的模块，需要人工处理（如人工标注数据，人工提取图片特征）（笔者注）

具体地，模型从多个维度被解剖(dissect)为：
视觉编码器/vision encoders；
文本编码器/text encoders；
多模态融合模块/multimodal fusion module；
结构设计/architectural design：encoder-only vs. encoder-decoder；
预训练目标/pre-training objectives。

introduction

Vision Transformer在VLP(vision-and-language pretrained)中的地位比language transformer更重要
cross-attention有益于多模态融合，在下游任务上的表现由于self-attention alone
在相同的设置下，对于VQA和zero-shot的图文检索任务上，encoder-only的VLP模型比encoder-decoder模型效果更好
在我们的设置下，在VLP中add masked image modeling loss并不会提升下游任务的性能

METER框架

overview

给定一个文本I和一张图片V，
一个VLP模型首先通过一个文本编码器和一个图片编码器抽取文本特征和图片特征。
然后将文本特征和图片特征喂入一个多模态融合模块以获取跨模态表示。
在生成最终输出前，跨模态表示选择性地喂入一个解码器。

Model Architecture

Vision Encoder

在ViT（vision transformer）中，一个图片首先被分块，然后这些块被喂入transformer模型。
在这篇文章中，分析并比较了以下ViT:
the original ViT, DeiT, Distilled-DeiT, CaiT, VOLO, BEiT, Swin Transformer 和 CLIP-ViT.

Text Encoder

大部分的VLP模型仍然只使用BERT来初始化语言模型，在这篇文章中，分析并比较了以下BERT：
BER, RoBERTa, ELECTRA, ALBERT, DeBERTa

Multimodal Fusion

在这里插入图片描述
研究了两种融合方法：

merged attention：文本和图片特征简单拼接，然后喂入一个单一的transformer模块
co-attention：文本特征和图片特征分别喂入不同的transformer模块，并且使用cross-attention等技术实现跨模态交互

architectural design

在这里插入图片描述

encoder-only
encoder-decoder

Pre-training Objectives

Masked Language Modeling
Image-Text Matching
Masked Image Modeling

xiyou__

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
论文阅读：An Empirical Study of Training End-to-End Vision-and-Language Transformers

摘要提出Multimodal End-to-end TransformER framework，即METER，通过这个框架研究如何以一个端到端的方式( in an end-to-end manner )设计和预训练一个完全基于transformer的视觉语言模型。端到端指的是输入是原始数据，输出是最后的结果，整个模型过程相当于黑箱操作；相反，非端到端的方法，数据的预处理部分是单独的模块，需要人工处理（如人工标注数据，人工提取图片特征）（笔者注）具体地，模型从多个维度被解剖(dissect)为：视
复制链接

扫一扫

专栏目录