VL-BERT:可预训练的通用视觉语言表征模型

VL-BERT是一个可预训练的通用视觉语言表征模型,它采用简单而强大的Transformer作为主干,并进行了扩展,将视觉和语言的嵌入特征作为输入。VL-BERT的输入元素要么来自输入句子的单词,要么来自输入图像的Region-of-Interest(RoI,感兴趣区域)。作者利用大规模Conceptual Captions数据集和纯文本语料库对VL-BERT进行了预训练。大量实证分析表明,预训练可以更好地对齐视觉语言线索,有利于下游任务,如视觉常识推理(VCR,Visual Commonsense Reasoning)、视觉问答(VQA,Visual Question Answering)、Referring Expression(根据文本指令定位图像中的相关区域,有时也叫Visual Grounding)。值得注意的是,VL-BERT在VCR基准排行榜上获得了单模型第一名的成绩。

图片

VL-BERT体系架构

VL-BERT在原始BERT的基础上进行了修改,将视觉和语言两种元素作为输入,上图展示了VL-BERT的体系架构。

图片

用于微调下游任务的输入输出格式

图片

视觉常识推理(VCR)实验结果对比

在视觉常识推理(VCR)任务上,与ViLBERT、VisualBERT、B2T2等模型相比,VL-BERT取得了最先进的结果。

图片

视觉问答(VQA)实验结果对比

在视觉问答(VQA)任务上,除LXMERT外,VL-BERT的性能优于ViLBERT、VisualBERT等模型。

图片

Referring Expression实验结果对比

在Referring Expression任务上,与MAttNet模型相比,VL-BERT的体系架构简单得多,但性能更好。在该任务上,VL-BERT的性能与ViLBERT差不多。

图片

视觉语言预训练模型对比

上面表格对比了VL-BERT、VideoBERT、CBT、ViLBERT、B2T2、LXMERT、VisualBERT、Unicoder-VL八种模型的体系架构(Architecture)、Visual Token、预训练数据集(Pre-train Datasets)、预训练任务(Pre-train Tasks)和下游任务(Downstream Tasks)等内容。

图片

图片

VL-BERT注意力图的可视化

为了更好地理解VL-BERT从预训练中学到了什么,作者对VL-BERT的注意力图进行了可视化,证明了VL-BERT在聚合与对齐视觉语言内容方面的能力。

总结

作者提出了一种可预训练的通用视觉语言表征模型——VL-BERT。VL-BERT采用简单而强大的Transformer作为主干。作者利用大规模Conceptual Captions数据集和纯文本语料库对VL-BERT进行了预训练。大量实证分析表明,预训练可以更好地对齐视觉语言线索,有利于下游任务。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值