论文笔记:Unified Vision-Language Pre-Training for Image Captioning and VQA

论文地址
代码

本文提出了一个统一的视觉语言预训练(VLP)模型。 该模型的统一之处在于:
(1)它可以针对视觉语言生成(例如图像字幕)或理解(例如视觉问答)任务进行微调;
(2)它使用共享的多层Transformer用于编码和解码的网络,这与许多现有使用单独的模型实现编码器和解码器的方法不同。

Unified VLP 模型在大量图像文本对上使用两个无监督学习目标任务进行预训练:双向和序列到序列 (seq2seq) 掩蔽视觉语言预测。通过对共享Transformer网络的特定自注意力掩码进行控制,两个目标之间的唯一区别在于self-attention mask,用于双向目标的掩码允许在视觉模态和语言模态之间无限制地传递消息,而在seq2seq中,将来要预测的单词不能参与该单词,即满足自回归属性,这使得两个任务仅在预测所基于的上下文有所不同。
预训练模型结构在这里插入图片描述
模型使用两阶段训练方案,第一步:称为预训练阶段,学习上下文的视觉语言表示,在预训练期间,我们在两个目标(双向和序列到序列 (seq2seq) 掩蔽视觉语言预测) 之间交替进行批处理,并且seq2seq和双向的比例分别由超参数λ和1-λ确定;第二步,对预训练模型进行了微调以适应下游任务(即VQA,图像描述等)。

本文将transformer网络的编码器和解码器合并为一个模型,模型输入包括类别识别区域嵌入单词嵌入三个特殊标记([cls]指示视觉输入的开始,[sep]标记视觉输入和句子输入之间的边界,[stop]确定句子的结尾) 组成。区域嵌入的定义如下,其中[·| ·]表示对特征维度的串联:
在这里插入图片描述
本模型第一个Transformer block 的输入:
在这里插入图片描述

在模型输出中,将最后一个Transformer块的隐藏状态投影到单词似然性,其中被Mask的token以分类问题的形式进行预测。通过这种重构,模型学习上下文中的依赖关系,形成语言模型。

下游微调任务——Image caption: 本文使用 seq2seq 目标在目标数据集上微调预训练的 VLP 模型。 在推理过程中,首先对图像区域以及特殊的 [CLS] 和 [SEP] 标记进行编码,然后通过输入 [MASK] 标记并从单词似然输出中采样一个单词(例如,贪婪采样)来开始生成。 然后,将之前输入序列中的[MASK]标记替换为采样词,并将新的[MASK]标记附加到输入序列中以触发下一次预测,当采样到[STOP] token时,字幕生成结束。

值得注意的一点: 将区域类别概率 (Ci) 合并到区域特征 (ri) 中比(Lu et al. 2019; Tan and Bansal 2019)中使用的掩码区域分类预测有更好的性能 。因此作者放弃使用现有的掩码区域预测任务来细化视觉表示,而是通过将其(区域类别概率 (Ci) 合并到区域特征 (ri) 中)用于掩码语言重建来间接细化视觉表示。 并且作者没有使用 BERT 中的 Next Sentence Prediction 任务,以及上下文中预测图像和文本之间的对应关系,因为该任务不仅弱于 seq2seq 或双向,而且计算成本高。

原文:It is worth noting that in our experiments we find that incorporating the region class probabilities (Ci) into region feature (ri) leads to better performance than having a masked region classification pretext as in (Lu et al. 2019; Tan and Bansal 2019). Therefore, differing from existing works where masked region prediction tasks are used to refine the visual representation, we indirectly refine the visual representation by utilizing it for masked language reconstruction. We also choose not to use the Next Sentence Prediction task as in BERT, or in our context predicting the correspondence between image and text, because the task is not only weaker than seq2seq or bidirectional but also computationally expensive.

大佬解读:
Unified Vision-Language Pre-Training for Image Captioning and VQA

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>