1 简介
本文根据2019年《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》翻译总结的。主要是同时处理视觉和文本输入,多模态模型。
ViLBERT ( Vision-and-Language BERT),我们将流行的BERT模型扩展到多模双流模型,首先以分别独立的流来处理视觉和文本输入,然后通过co-attentional transformer相互作用。
2 ViLBERT
Co-TRM指我们提出的co-attentional transformer。如下图,图片和文本流是分别输入模型,然后通过Co-TRM相互作用。其中文本流在Co-TRM之前有更多的处理(TRM),我们认为视觉特征已经是高水平的了,而文本需要一定的聚合处理。
实际实验中,视觉流上我们使用Faster R-CNN来提取视觉特征,文本流上我们还是使用BERT。
2.1 Co-Attentional Transformer Layers
如下图右图。每种模特是基于另一种模特产生关注特征,在视觉流中产生基于视觉条件下的语言注意力,在语言流中产生语言条件下的视觉注意力。
2.2 训练目标函数
类似于BERT的预训练,有两个预训练任务: masked multi-modal modelling and multi-modal alignment prediction。第一个是mask训练,可以mask图片或者文字;第二个通过视觉输入第一个特殊字符和文本输入第一个特殊字符的点积来预测视觉和文本是不是匹配的。
3 实验结果
3.1 4个任务
我们在下面4个任务进行实验比较。
3.2 实验结果
其中single-stream模型指不改变BERT结构,将视觉输入和文本输入通过相同的transformer。可以看到我们的ViLBERT效果超过single-stream模型。
倒数第2个是没有预训练的,可以看到效果不好于有预训练的。