视觉与文本多模态模型-ViLBERT

最新推荐文章于 2024-08-11 15:54:08 发布

AI强仔

最新推荐文章于 2024-08-11 15:54:08 发布

阅读量1.2k

点赞数 2

分类专栏：人工智能多模态 transformer 文章标签：自然语言处理人工智能

人工智能同时被 3 个专栏收录

150 篇文章 20 订阅

订阅专栏

transformer

33 篇文章 4 订阅

订阅专栏

多模态

7 篇文章 1 订阅

订阅专栏

本文介绍了ViLBERT，一种预训练的多模态模型，能处理视觉和文本输入，通过Co-Attentional Transformer实现跨模态交互。实验对比显示，ViLBERT在4项任务中超越单模模型，并验证了预训练对于性能提升的重要性。

摘要由CSDN通过智能技术生成

1 简介

本文根据2019年《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》翻译总结的。主要是同时处理视觉和文本输入，多模态模型。

ViLBERT ( Vision-and-Language BERT)，我们将流行的BERT模型扩展到多模双流模型，首先以分别独立的流来处理视觉和文本输入，然后通过co-attentional transformer相互作用。

2 ViLBERT

Co-TRM指我们提出的co-attentional transformer。如下图，图片和文本流是分别输入模型，然后通过Co-TRM相互作用。其中文本流在Co-TRM之前有更多的处理（TRM），我们认为视觉特征已经是高水平的了，而文本需要一定的聚合处理。

实际实验中，视觉流上我们使用Faster R-CNN来提取视觉特征，文本流上我们还是使用BERT。
在这里插入图片描述

2.1 Co-Attentional Transformer Layers

如下图右图。每种模特是基于另一种模特产生关注特征，在视觉流中产生基于视觉条件下的语言注意力，在语言流中产生语言条件下的视觉注意力。

在这里插入图片描述

2.2 训练目标函数

类似于BERT的预训练，有两个预训练任务： masked multi-modal modelling and multi-modal alignment prediction。第一个是mask训练，可以mask图片或者文字；第二个通过视觉输入第一个特殊字符和文本输入第一个特殊字符的点积来预测视觉和文本是不是匹配的。

在这里插入图片描述

3 实验结果

3.1 4个任务

我们在下面4个任务进行实验比较。

在这里插入图片描述

3.2 实验结果

其中single-stream模型指不改变BERT结构，将视觉输入和文本输入通过相同的transformer。可以看到我们的ViLBERT效果超过single-stream模型。

倒数第2个是没有预训练的，可以看到效果不好于有预训练的。
在这里插入图片描述

AI强仔

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
视觉与文本多模态模型-ViLBERT

1 简介本文根据2019年《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》翻译总结的。主要是同时处理视觉和文本输入，多模态模型。ViLBERT ( Vision-and-Language BERT)，我们将流行的BERT模型扩展到多模双流模型，首先以分别独立的流来处理视觉和文本输入，然后通过co-attentional transformer相互作用。2
复制链接

扫一扫

专栏目录