VL-BERT：可预训练的通用视觉语言表征模型

最新推荐文章于 2025-02-24 22:32:52 发布

Civisky

最新推荐文章于 2025-02-24 22:32:52 发布

阅读量1.7k

点赞数

原文链接：https://arxiv.org/abs/1908.08530

版权

VL-BERT是一个可预训练的通用视觉语言表征模型，它采用简单而强大的Transformer作为主干，并进行了扩展，将视觉和语言的嵌入特征作为输入。VL-BERT的输入元素要么来自输入句子的单词，要么来自输入图像的Region-of-Interest(RoI，感兴趣区域)。作者利用大规模Conceptual Captions数据集和纯文本语料库对VL-BERT进行了预训练。大量实证分析表明，预训练可以更好地对齐视觉语言线索，有利于下游任务，如视觉常识推理(VCR，Visual Commonsense Reasoning)、视觉问答(VQA，Visual Question Answering)、Referring Expression(根据文本指令定位图像中的相关区域，有时也叫Visual Grounding)。值得注意的是，VL-BERT在VCR基准排行榜上获得了单模型第一名的成绩。

VL-BERT体系架构

VL-BERT在原始BERT的基础上进行了修改，将视觉和语言两种元素作为输入，上图展示了VL-BERT的体系架构。

用于微调下游任务的输入输出格式

视觉常识推理(VCR)实验结果对比

在视觉常识推理(VCR)任务上，与ViLBERT、VisualBERT、B2T2等模型相比，VL-BERT取得了最先进的结果。

视觉问答(VQA)实验结果对比

在视觉问答(VQA)任务上，除LXMERT外，VL-BERT的性能优于ViLBERT、VisualBERT等模型。

Referring Expression实验结果对比

在Referring Expression任务上，与MAttNet模型相比，VL-BERT的体系架构简单得多，但性能更好。在该任务上，VL-BERT的性能与ViLBERT差不多。

视觉语言预训练模型对比

上面表格对比了VL-BERT、VideoBERT、CBT、ViLBERT、B2T2、LXMERT、VisualBERT、Unicoder-VL八种模型的体系架构(Architecture)、Visual Token、预训练数据集(Pre-train Datasets)、预训练任务(Pre-train Tasks)和下游任务(Downstream Tasks)等内容。