视觉与文本多模态模型-ViLBERT

33 篇文章 4 订阅
7 篇文章 1 订阅

1 简介

本文根据2019年《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》翻译总结的。主要是同时处理视觉和文本输入,多模态模型。

ViLBERT ( Vision-and-Language BERT),我们将流行的BERT模型扩展到多模双流模型,首先以分别独立的流来处理视觉和文本输入,然后通过co-attentional transformer相互作用。

2 ViLBERT

Co-TRM指我们提出的co-attentional transformer。如下图,图片和文本流是分别输入模型,然后通过Co-TRM相互作用。其中文本流在Co-TRM之前有更多的处理(TRM),我们认为视觉特征已经是高水平的了,而文本需要一定的聚合处理。

实际实验中,视觉流上我们使用Faster R-CNN来提取视觉特征,文本流上我们还是使用BERT。
在这里插入图片描述

2.1 Co-Attentional Transformer Layers

如下图右图。每种模特是基于另一种模特产生关注特征,在视觉流中产生基于视觉条件下的语言注意力,在语言流中产生语言条件下的视觉注意力。

在这里插入图片描述

2.2 训练目标函数

类似于BERT的预训练,有两个预训练任务: masked multi-modal modelling and multi-modal alignment prediction。第一个是mask训练,可以mask图片或者文字;第二个通过视觉输入第一个特殊字符和文本输入第一个特殊字符的点积来预测视觉和文本是不是匹配的。

在这里插入图片描述

3 实验结果

3.1 4个任务

我们在下面4个任务进行实验比较。

在这里插入图片描述

3.2 实验结果

其中single-stream模型指不改变BERT结构,将视觉输入和文本输入通过相同的transformer。可以看到我们的ViLBERT效果超过single-stream模型。

倒数第2个是没有预训练的,可以看到效果不好于有预训练的。
在这里插入图片描述

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值