VL-BERT是一个可预训练的通用视觉语言表征模型,它采用简单而强大的Transformer作为主干,并进行了扩展,将视觉和语言的嵌入特征作为输入。VL-BERT的输入元素要么来自输入句子的单词,要么来自输入图像的Region-of-Interest(RoI,感兴趣区域)。作者利用大规模Conceptual Captions数据集和纯文本语料库对VL-BERT进行了预训练。大量实证分析表明,预训练可以更好地对齐视觉语言线索,有利于下游任务,如视觉常识推理(VCR,Visual Commonsense Reasoning)、视觉问答(VQA,Visual Question Answering)、Referring Expression(根据文本指令定位图像中的相关区域,有时也叫Visual Grounding)。值得注意的是,VL-BERT在VCR基准排行榜上获得了单模型第一名的成绩。
VL-BERT体系架构
VL-BERT在原始BERT的基础上进行了修改,将视觉和语言两种元素作为输入,上图展示了VL-BERT的体系架构。
用于微调下游任务的输入输出格式
视觉常识推理(VCR)实验结果对比
在视觉常识推理(VCR)任务上,与ViLBERT、VisualBERT、B2T2等模型相比,VL-BERT取得了最先进的结果。
视觉问答(VQA)实验结果对比
在视觉问答(VQA)任务上,除LXMERT外,VL-BERT的性能优于ViLBERT、VisualBERT等模型。
Referring Expression实验结果对比
在Referring Expression任务上,与MAttNet模型相比,VL-BERT的体系架构简单得多,但性能更好。在该任务上,VL-BERT的性能与ViLBERT差不多。
视觉语言预训练模型对比
上面表格对比了VL-BERT、VideoBERT、CBT、ViLBERT、B2T2、LXMERT、VisualBERT、Unicoder-VL八种模型的体系架构(Architecture)、Visual Token、预训练数据集(Pre-train Datasets)、预训练任务(Pre-train Tasks)和下游任务(Downstream Tasks)等内容。
VL-BERT注意力图的可视化
为了更好地理解VL-BERT从预训练中学到了什么,作者对VL-BERT的注意力图进行了可视化,证明了VL-BERT在聚合与对齐视觉语言内容方面的能力。
总结
作者提出了一种可预训练的通用视觉语言表征模型——VL-BERT。VL-BERT采用简单而强大的Transformer作为主干。作者利用大规模Conceptual Captions数据集和纯文本语料库对VL-BERT进行了预训练。大量实证分析表明,预训练可以更好地对齐视觉语言线索,有利于下游任务。