“VL-BERT PRE-TRAINING OF GENERIC VISUALLINGUISTIC REPRESENTATIONS”阅读笔记

最新推荐文章于 2024-04-13 09:30:36 发布

巍巍微澜

最新推荐文章于 2024-04-13 09:30:36 发布

阅读量295

点赞数

文章标签： bert 深度学习自然语言处理

本文链接：https://blog.csdn.net/weixin_44846680/article/details/122426668

版权

“VL-BERT: PRE-TRAINING OF GENERIC VISUALLINGUISTIC REPRESENTATIONS”阅读笔记

来源：ICLR 2020

单位：中科大，微软亚研院

链接：https://arxiv.org/pdf/1908.08530.pdf

1 Motivation

1）基于MLM方法的BERT预训练模型在NLP领域取得了很好的性能表现；

2）而目前的视觉-语言混合任务，缺乏通用的预训练模型，现有方法通常只针对具体任务进行预训练。

2 Contribution

1）设计了一种视觉-语言混合特征嵌入编码表示；

2）对MLM方法进行改进，提出了一种视觉-语言混合任务通用的预训练框架，并在多种下游任务中取得了良好效果。

3 Approach

3.1 Bert回顾

3.1.1 词嵌入

BERT以句子的原始词向量集合 $x=\{x_1,...,x_N\}$ 作为输入，经过多层双向Transformer（待仔细学习）对句子中每个词向量进行编码，获得融合了全局语义信息的特征嵌入。对于每一个词向量 $x_i$ ，其特征嵌入通过逐层编码的形式产生，具体来说，第 $l + 1$ 层特征嵌入过程可分为以下四步：

1）使用多头注意力计算 $x_i^l$ 与其他词嵌入之间的注意力权重，生成注意力图 $\tilde{h}_i^l$ 并与 $x_i^l$ 相加；

2）使用LayerNorm对第1）步结果进行归一化，获得 ${h}_i^l$ ；

3）经过两层网络进行特征提取，所得结果再与 ${h}_i^l$ 相加；

需要注意，这一步的GELU也是一种激活函数，近似计算公式为（BERT使用的是一种更加简化的近似）：
$\text{GELU}(x)=0.5x(1+\text{Tanh}[\sqrt{2/ \pi}(x+0.044715x^3)])$
4）使用LayerNorm对第3）步结果进行归一化，获得最终输出 $x_i^{l+1}$ ；

笔者画了一个网络结构图便于理解：

3.1.2 BERT预训练

BERT模型将整个应用过程分成多个阶段，第一阶段通过无监督方法进行预训练，第二阶段再根据具体的任务使用监督信息做微调。

BERT的预训练包含两部分，第一部分是通过Masked Language Modeling (MLM)任务，期望模型可以从同一句子中其他所有单词的词嵌入推断出该句子某个单词的词嵌入，这是与其他NLP模型相比较大的一个不同点，通常NLP模型会使用从左到右/从右到左这种单项预测方法对某个位置的词嵌入进行推断，BERT不仅则是使用了整个句子中所有的词嵌入；第二部分任务为Next Sentence Prediction(NSP)任务，期望能够预测文本中不同句子的相对位置，判断输入的两个句子是否相连。

MLM优化：

为了实现MLM的效果，首先随机采样一个句子 $x \sim D$ ，然后，随机采样 $x$ 中的某个位置 $i$ ，将 $x_i$ 用一个特殊的mask替换，替换后的词组为 $x_{\diagdown i}=\{x_1,...x_{i-1}, [mask],x_{i+1},...,x_N\}$ ，在训练时，期望 $x_{\diagdown i}$ 对 $x_i$ 的推断词嵌入与 $x_i$ 具有相似的表示：
$\text{log}{\phi}_i(x|\theta)=x_i^Tf_i(x_{\diagdown i}|\theta)_i$
这部分的损失为：
$L_{\text{MLM}}(\theta)=-\mathbb{E}_{x∼D,i∼\{ 1,...,N \}}\text{log}{\phi}_i(x)$
NSP优化：

NSP优化的目的较为简单，BERT将这一任务转变成了一个分类任务，随机采样两个句子 $x 1$ ， $x 2$ ，在二者的开头分别插入一个标记 $\text{[CLS]}$ 和 $\text{[SEP]}$ ，并且有一个指示 $t$ 来指示 $x 2$ 是否位于 $x 1$ 之后，将插入标记后的 $x 1$ ， $x 2$ 进行拼接，得到一个词向量 $x$ ，使用BERT提取 $x$ 的词嵌入表示，在训练一个二分类器，以 $\text{[CLS]}$ 的词嵌入 $x_0$ 作为类别判断依据， $\text{[SEP]}$ 主要是用来区分两个句子，用交叉熵损失进行训练：
$KaTeX parse error: Undefined control sequence: \ at position 47: …b{E}_{(x,t)∼D} \̲ ̲[t\text{log}(g(…$
NSP损失的目的是期望词嵌入可以学习到不同句子间的词汇的信息，提升BERT的性能，但是目前有些研究” RoBERTa “，”SpanBERT“则认为这个损失没什么用，反而会起负面效果，去掉最好。当然也有人认为NSP起负面作用是因为任务目标和损失函数选择有问题，没有发挥出这个思想的性能。

3.2 VL-BERT架构

3.2.1 表征嵌入

VL-BERT的工作重点是关于文本-视觉混合表征的构造，首先对其进行介绍。其输入由三部分组成，分别是文本元素、视觉元素和标志。其中，文本元素就是句子中具体的单词；视觉元素则只包含感兴趣的图像区域，这些区域或使用目标检测算法标记，或直接使用有标注数据集标注的边界框所涵盖的区域；标志只有三类，分别是 $\text{[CLS]}$ 、 $\text{[SEP]}$ 和 $\text{[END]}$ ，对应类别检测指示、文本与视觉嵌入之间的过渡指示和表征序列结束指示。

在正式使用模型的时候， $\text{[CLS]}$ 指示对应的输出特征会被用来预测文本-图像关系；而每个文本元素和图像元素输出的特征则被用来预测该元素的标签。他们的表征会根据任务的不同进行微调。

对于表征序列里的每一个元素，其嵌入均由四种embedding组成，分别是下图中所展示的标记嵌入(Token Embedding)、视觉特征嵌入(Visual Feature Embedding)、片段嵌入(Segment Embedding)和序列位置嵌入(Sequence Position Embedding)，因此，同一句子中单词位置不同不会影响BERT的输出结果，因为单词的位置信息只由序列位置决定。

下面对四种嵌入分别进行说明：

Token Embedding：

较为常规的嵌入设计方法，单词使用WordPiece embeddings生成嵌入表示，共有30000种；视觉特征和其他特殊标记使用独一无二的标记嵌入表示，如上图所示。

Visual Feature Embedding：

视觉特征嵌入由外观特征(Visual Appearance Feature)和几何特征(Visual Geometry Embedding)两部分组成。其中外观特征是Faster-RCNN对感兴趣图像区域的2048维输出特征，对于视觉信息，感兴趣的图像区域是对应内容边界框划定的区域，对于文本词汇和指示信息，则是整个图像。几何特征则是感兴趣区域边界框左上角和右下角两个坐标值相对图像的位置，一共四维，表示感兴趣区域的相对位置。外观特征和几何特征拼接后经由一个全连接层映射到最终使用的视觉特征嵌入。

Segment Embedding：

片段嵌入其实就是对文本元素和图像元素进行区分，一共只有A，B，C三种。其中，A和B指示文本，C指示图像信息，大部分情况下只有A、C两种表示，只有在视觉问答(VQA)和视觉常识推理(VCR)任务中，文本信息被细分为A，B两类，分别指示问题和答案。

Sequence Position Embedding：

序列位置嵌入用来指示输入特征序列的位置信息，顺序为 $\text{[CLS]}→\text{[WORD]}→\text{[SEP]}→\text{[IMAGE]}→\text{[END]}$ ，其中，文本信息不同元素之间存在位置关系，而不同图像信息的位置不存在差异，具有相同的位置嵌入。

3.2.2 VL-PERT预训练

VL-BERT的预训练包含两个任务，其一是带有视觉线索的MLM任务，其部分目的与BERT相似，但是希望同时能捕捉视觉信息与文本信息之间的相关性。现在对VL-BERT的预训练过程进行细节分析：

数据集：

VL-BERT使用的数据集有三种，分别是有330万个样本的”图像-标题“文本-图像混合数据集Conceptual Captions dataset，其中的每一张图像都有一个简短的文本描述。为了防止过于简单的文本描述导致模型对文本信息过拟合，还引入了两个更加复杂的纯文本数据集BooksCorpus和English Wikipedia datasets。

在训练时，每个Batch中的数据均有一半来自文本-图像混合数据集，一半来自纯文本数据集。

带有视觉线索的MLM任务：

与经典BERT的MLM任务相似，某一个文本元素有15%的几率会被随机替换成 $\text{[MASK]}$ ，然后，首先希望能够从其他未被遮盖的文本元素中推断出被隐藏的元素的信息，比如上面结构图中的示例，希望能够从未被覆盖的文本元素小猫从[mask]中喝水中推断出 $\text{[MASK]}$ 本身是一个容器，然后根据第一个视觉元素瓶子的图像进一步推断出，这个 $\text{[MASK]}$ 对应的是瓶子。

实现这个目标的方法比较简单，使用一个在所有词向量上训练的分类器，期望被遮盖的元素经VL-BERT输出的特征能被分类到正确的词语中。

带有文本线索的MRC任务：

这个任务可以理解成是MLM任务的反面，其遮蔽的是某一个视觉元素，而不是某个文本元素，希望能够从文本元素中推断出被遮蔽的视觉元素的标签。对于被遮蔽的视觉元素，其所在区域将被用0像素值填充，任何元素的图像特征嵌入都无法包含该元素的信息。优化方法与上一方法类似，将被遮蔽的视觉元素经VL-BERT的输出送入分类器，期望能被分类到正确的类别。

假如输入的不是一个文本-图像混合特征，而是纯文本特征，则只使用BERT中的MLM损失进行优化。

4 Experiment

VL-BERT的基本架构与BERT相同，也使用了与BERT相同的参数初始化，根据任务不同增加的参数也用了BERT中用的截断正态分布初始化的方法，标准差为0.02。VL-BERT模型使用了 $\text{BERT}_\text{BASE}$ 和 $\text{BERT}_\text{LARGE}$ 两种架构，参数量分别为110M和340M（兆）。

4.1 视觉常识推理(Visual Commonsense Reasoning, VCR)

VCR任务给定一张标记了感兴趣区域的图像，并提出了一个问题，期望模型能根据问题和图像做出回答，并对回答给出进一步推理和解释。因此大体上可以分为两个子任务，第一个任务是根据问题进行回答 $\text{Q→A}$ ，第二个任务是根据问题和回答进行论证 $\text{QA→R}$ 。

这实际上是一个判别问题，每个任务都会给出一个问题，和四个备选答案与推理，要求模型对于答案的正确性进行判断。模型的输入如上图所示，文本内容被进一步分成了问题和答案两部分，并使用 $\text{[SEP]}$ 标志进行分隔，对于 $\text{Q→A}$ 任务，图中的“Question”就是问题，“Answer”就是答案；对于 $\text{QA→R}$ 任务，图中的“Question”是问题与答案的拼接，“Answer”则是推理。模型训练时有两个优化目标，一个是 $\text{CLS}$ 标志指示的关于回答的正确性，另一个是融合了文本信息的图像嵌入特征分类的正确性。