Show, Attend and Tell: Neural Image Caption Generation with Visual Attention

显示,参加和讲述:具有视觉注意的神经图像字幕生成

摘要:受机器翻译和对象检测领域最新工作的启发,我们引入了一种基于注意力的模型,该模型可以自动学习描述图像的内容。> 我们描述了如何使用标准的反向传播技术,以确定性的方式训练模型,并通过最大化变分下界随机地训练模型。> 我们还通过可视化展示了模型如何能够自动学习将注视固定在显着对象上,同时在输出序列中生成相应的单词。> 我们通过三个基准数据集(Flickr8k,Flickr30k和MS COCO)的最新性能验证了注意力的使用。

1.简介

自动生成图像的字幕是非常接近场景理解核心的任务,这是计算机视觉的主要目标之一。 字幕生成模型不仅必须强大到足以解决确定图像中存在哪些对象的计算机视觉挑战,而且它们还必须能够以自然语言捕获和表达其关系。 由于这个原因,字幕生成长期以来一直被视为一个难题。 对于机器学习算法而言,这是一个非常重要的挑战,因为它相当于模仿人类将大量显着的视觉信息压缩为描述性语言的非凡能力。

尽管此任务具有挑战性,但最近在解决图像字幕生成问题方面的研究兴趣激增。 在训练神经网络(Krizhevsky等人,2012)和大型分类数据集(Russakovsky等人,2014)的进步的帮助下,最近的工作通过使用卷积神经网络的组合显着改善了字幕生成的质量( 卷积)以获取图像的矢量表示,并通过递归神经网络将这些表示解码为自然语言句子(请参见第2节)。
在这里插入图片描述

视觉是人类视觉系统中最令人好奇的方面之一(Rensink,2000; Corbetta&Shulman,2002)。 注意不是将整个图像压缩成静态表示,而是将显着特征根据需要动态地移到最前列。 当图像中有很多混乱时,这一点尤其重要。 使用表示(例如来自卷积网络顶层的表示)将图像中的信息提取到最显着的对象是一种有效的解决方案,在先前的工作中已被广泛采用。 不幸的是,这具有丢失信息的潜在缺陷,这对于更丰富,更具描述性的字幕可能有用。 使用更底层的表示形式可以帮助保留此信息。 但是,使用这些功能需要一种强大的机制来将模型引导到对手头任务很重要的信息。

在本文中,我们描述了字幕生成的方法,这些方法试图将注意力形式与两种变体结合在一起:“硬”注意力机制和“软”注意力机制。 我们还展示了吸引注意力的一个优势是可视化模型“看到”的能力。 受到字幕生成的最新进展的鼓舞,并受近期在机器翻译(Bahdanau等,2014)和对象识别(Ba等,2014; Mnih等,2014)中运用注意力的成功所启发,我们进行了以下研究: 门模型,可以在生成图像标题时关注图像的显着部分。

本文的贡献如下:

  • 我们在一个通用框架(第3.1节)中引入了两种基于注意力的图像字幕生成器:1)一种可通过标准反向传播方法训练的“软”确定性注意力机制,以及2)一种可通过以下方法训练的“硬”随机注意力机制
    用REINFORCE最大化或等效地最大化近似下限(Williams,1992)。
  • 我们展示了如何通过可视化关注的重点在“何处”和“何处”来获得洞察力并解释该框架的结果。 (请参见第5.4节)
  • 最后,我们在以下三个基准数据集上以最先进的性能(第5.3节)定量验证了注意力在字幕生成中的有用性:Flickr8k(Hodosh等人,2013),Flickr30k(Young等人,2014)和 MS COCO数据集(Lin等人,2014)。

2.相关工作

在本节中,我们提供有关图像标题生成和关注的先前工作的相关背景。近来,已经提出了几种用于生成图像描述的方法。这些方法中许多都基于递归神经网络,并受到成功使用序列到神经网络进行机器翻译的序列训练的启发(Cho等人,2014; Bahdanau等人,2014; Sutskever等人)。图像字幕生成非常适合机器翻译的编码器-解码器框架的一个主要原因(Cho等,2014)是因为它类似于将图像“翻译”为句子。
在这里插入图片描述

使用神经网络进行字幕生成的第一种方法是Kiros等。 (2014a),他提出了一种多模式对数双线性模型,该模型受到图像特征的偏颇。 Kiros等人随后进行了这项工作。 (2014b),其方法旨在明确允许采用自然的方式进行排名和生成。 Mao et al。(2014)采取了类似的生成方法,但用递归模型代替了前馈神经语言模型。双方Vinyals等。 (2014)和Donahue等。 (2014年)将LSTM RNN用于其模型。与Kiros等人不同。 (2014a)和Mao等。 (2014年),Vinyals等人的模型在输出单词序列的每个时间步上看到了图像。 (2014)一开始只显示图片给RNN。除了图像,Donahue等。 (2014年)也将LSTM应用于视频,从而允许其模型生成视频描述。
在这里插入图片描述

所有这些作品都将图像表示为来自预训练卷积网络顶层的单个特征矢量。 相反,Karpathy&Li(2014)提议学习一种用于排名和生成的联合嵌入空间,该模型的模型学习根据R-CNN对象检测对句子和图像相似性进行评分的方法,并带有双向RNN的输出。 方等。 (2014)提出了一个三步流水线,通过结合对象检测来生成。 他们的模型首先基于多实例学习框架为几种视觉概念学习检测器。 然后将经过字幕训练的语言模型应用于检测器输出,然后从联合的图像-文本嵌入空间进行记录。 与这些模型不同,我们提出的注意框架没有显式使用对象检测器,而是从头开始学习潜在的对齐方式。 这使我们的模型超越了“客观性”,并学会关注抽象概念。

在使用神经网络生成字幕之前,主要采用两种主要方法。首先涉及生成字幕模板,这些模板根据对象检测和属性发现的结果进行填充(Kulkarni等人(2013),Li等人(2011),Yang等人(2011),Mitchell等人( 2012年),埃利奥特和凯勒(2013年)。第二种方法是基于首先从大型数据库中检索相似的字幕图像,然后修改这些检索到的字幕以适合查询(Kuznetsova等人,2012; 2014)。这些方法通常涉及一个中间的“一般化”步骤,以删除仅与检索到的图像相关的标题的详细信息,例如城市名称。从那以后,这两种方法都不适合现在占主导地位的神经网络方法。

以前有很长的工作将注意力集中到视觉相关任务的神经网络中。与我们的工作精神相同的一些人包括Larochelle&Hinton(2010); Denil等。 (2012); Tang等(2014)。但是,尤其是,我们的工作直接扩展了Bahdanau等人的工作。 (2014); Mnih等。 (2014); Ba等。 (2014)。

3.带有注意机制的图像字幕生成

3.1 模型详情

在本节中,我们将通过首先描述它们的通用框架来描述基于注意力的模型的两个变体。 主要区别在于φ函数的定义,我们将在第4节中详细介绍。我们用加粗字体表示矢量,并用大写字母表示矩阵。 在下面的描述中,为便于阅读,我们消除了偏见。

3.1.1 编码器:卷积功能

我们的模型拍摄单个原始图像,并生成字幕y,该字幕y编码为K个编码字中的1个序列。在这里插入图片描述
其中K是词汇量,C是字幕的长度。
我们使用卷积神经网络来提取一组特征向量,我们将其称为注释向量。 提取器产生L个向量,每个向量为对应于图像一部分的D维表示。在这里插入图片描述
为了获得特征向量和二维图像各部分之间的对应关系,我们从较低的卷积层中提取特征,这与以前的工作不同,后者使用的是全连接层。 这允许解码器通过选择所有特征向量的子集来选择性地聚焦于图像的某些部分。

3.1.2 解码器:长期短时记忆网络

我们使用长短期记忆(LSTM)网络(Hochreiter&Schmidhuber,1997),该网络通过在上下文向量,先前的隐藏状态和先前生成的单词的条件下的每个时间步生成一个单词来产生字幕。 。 我们对LSTM的实现紧随Zaremba等人使用的LSTM。 (2014)(请参阅图4)。 使用Ts,t:Rs→Rt表示具有所学习参数的简单仿射变换
在这里插入图片描述
在这里插入图片描述
在这里,ft,ct,ot,ht分别是LSTM的输入状态,忘记状态,存储状态,输出状态和隐藏状态。 向量zˆ∈RD是上下文向量,捕获与特定输入位置相关的视觉信息,例如在下面抱怨。 E∈Rm×K是一个嵌入矩阵。 令m和n分别表示嵌入和LSTM维度,而σ和log分别表示逻辑S形激活和逐元素乘法。

简而言之,上下文向量zˆt(等式(1)–(3))是在时间t输入的图像相关部分的动态表示。我们定义了一种机制φ,它可以从注释矢量ai,i = 1,来计算zˆt。 。 。 ,L对应于在不同图像位置处提取的特征。对于每个位置i,该机制都会产生正权重αi,它可以解释为位置i是产生下一个单词的正确焦点所在的可能性(“硬”但随机的注意力机制),也可以解释为相对重要性在将ai混合在一起时赋予位置i。每个注释向量ai的权重αi是由注意力模型fatt计算得出的,为此我们使用了基于先前隐藏的多层感知器状态ht-1。这种注意力机制的软版本由Bahdanau等人介绍。 (2014)。为强调起见,我们注意到隐藏状态随输出RNN的输出顺序的前进而变化:网络下一步查找的“位置”取决于已生成的单词的顺序。
在这里插入图片描述
一旦计算了权重(总和为1),就可以通过以下方式计算上下文向量zˆt
在这里插入图片描述
其中,φ是在给定注释矢量及其相应权重的情况下返回单个矢量的函数。 φ函数的详细内容将在第二节中讨论4。

LSTM的初始内存状态和隐藏状态由通过两个单独的MLP(init,c和init,h)馈送的注释向量的平均值来预测:
在这里插入图片描述
在这项工作中,我们使用一个深层输出层(Pascanu等人,2014)在给定LSTM状态,上下文向量和前一个单词的情况下计算输出单词概率:其中Lo∈RK×m,Lh∈Rm×n,Lz∈Rm×D和E是随机初始化的学习参数。
其中Lo∈RK×m,Lh∈Rm×n,Lz∈Rm×D和E是随机初始化的学习参数。

4.学习随机的“困难”与确定性的“软”注意

在本节中,我们讨论了两种替代机制注意模型:随机注意力和确定性注意力。

4.1随机“硬”注意

我们将位置变量st表示为模型在生成第t个字时决定集中注意力的位置。 st,i是指示符一热变量,如果第i个位置(L之外)是用于提取视觉特征的位置,则将其设置为1。 通过将注意力位置视为中间潜变量,我们可以分配一个由{αi}参数化的多无义分布,并将zˆt视为随机变量:在这里插入图片描述
我们定义了一个新的目标函数Ls,该函数是边际对数可能性对数p(y | a)的变化下界,该对数观察给定图像特征a的单词y的序列。 可以通过直接优化Ls得出模型参数W的学习算法:在这里插入图片描述
公式11提出了相对于模型参数的基于蒙特卡洛的近似采样。 这可以通过从方程8定义的多重分布中采样位置st来完成。在这里插入图片描述
在这里插入图片描述
随后,Weaver&Tao(2001)使用移动平均基线来减少梯度的蒙特卡洛估计器中的方差。 Mnih等人先前已使用类似但更复杂的方差减少技术。 (2014)和Ba等。 (2014)。 看到第k个迷你批处理后,将移动平均基线估计为先前对数似然具有指数衰减的累积总和:在这里插入图片描述
为了进一步减少估计量方差,在多重分布H [s]上添加了一个熵项。 同样,对于给定图像,概率为0.5,我们将采样的注意力位置s〜设置为其期望值α。 两种技术都提高了随机注意力学习算法的鲁棒性。 该模型的最终学习规则如下:在这里插入图片描述
其中,λr和λe是通过交叉验证设置的两个超参数。 如Ba等人所指出和使用的。 (2014)和Mnih等。 (2014年),这是等效于REINFORCE学习规则的公式(Williams,1992年),其中注意选择行动序列的奖励是与采样注意轨迹下目标句子的对数似然成正比的实数值。

在对每个点进行艰难选择时,方程式6的φ({ai},{αi})是一个函数,该函数基于由α参数化的多元分布在每个时间点返回采样的ai。

4.2 确定性的“软”注意

学习随机注意力需要每次对关注位置st进行采样,相反,我们可以直接获取上下文向量zˆt的期望值,在这里插入图片描述
并通过计算Bahdanau等人引入的软注意力加权加权注释向量φ({ai},{αi})=αiai来确定确定性注意力模型。 (2014)。 这对应于在柔和的α加权上下文中输入系统。 整个模型在确定性关注下是平滑且可区分的,因此使用标准反向传播对端到端进行学习是微不足道的。

学习确定性注意力也可以理解为在Sec的关注位置随机变量st下近似优化方程10中的边际可能性。 4.1。 LSTM ht的隐藏激活是随机上下文向量zˆt的线性投影,然后是tanh非线性。 对于一阶Tay-lor逼近,期望值Ep(st | a)[ht]等于使用单个正向prop并用预期上下文向量Ep(st | a)[zˆt]。 考虑方程 在图7中,令nt = Lo(Eyt-1 + Lhht + Lzzˆt),nt,i表示通过将随机变量zˆ值设定为ai而计算出的nt。 我们为softmax kth词预测定义归一化的加权几何平均值:
在这里插入图片描述
上面的等式表明,使用预期的上下文向量可以很好地逼近字幕预测的标准化加权几何平均值,其中E [nt] = Lo(Eyt-1 + LhE [ht] + LzE [zˆt])。 它表明softmax单元的NWGM是通过将soft-max应用于基本线性投影的期望值而获得的。 另外,根据(Baldi&Sadowski,2014)的结果,在softmax激活下,NWGM [p(yt = k | a)]≈E [p(yt = k | a)]。 这意味着由随机变量st引起的所有可能的注意力位置上的输出期望值,是通过简单的前馈propa-预期上下文向量E [zˆt]的逻辑门。 换句话说,确定性注意力模型是注意力位置上的边缘可能性的近似值。

4.2.1 双重随机注意

通过构造,αti= 1,因为它们是oftmax的输出。 在训练模型的确定性版本时,我们引入了一种d随机正则化形式,其中我们还鼓励αti≈1。这可以解释为鼓励模型在生成过程中对图像的每个部分给予同等的关注。 在我们的实验中,我们观察到从数量上看,这种惩罚对提高整体BLEU分数很重要,并且从质量上讲,这会导致字幕更加丰富和描述性。 另外,软注意力模型在每个时间步长t处从先前的隐藏状态Lht-1预测门控标量β,使得φ({ai},{αi})=βiαiai,其中βt=σ(fβ (ht-1))。 我们注意到我们的注意力权重通过包含标量β来更加强调图像中的对象。

具体而言,通过最小化以下不利的对数似然性来对模型进行端到端训练:
在这里插入图片描述

4.3 训练程序

我们的注意力模型的两个变体都使用自适应学习率算法进行了随机梯度下降训练。 对于Flickr8k数据集,我们发现RM-SProp(Tieleman&Hinton,2012)效果最佳,而对于Flickr30k / MS COCO数据集,我们使用了最近提出的Adam算法(Kingma&Ba,2014)。

为了创建解码器使用的批注ai,我们使用了在ImageNet上进行预训练的Oxford VGGnet(Simonyan&Zisserman,2014),而没有进行微调。 但是原则上可以使用任何编码功能。 另外,有了足够的数据,我们还可以从零开始(或微调)训练模型的其余部分的编码器。 在我们的实验中,我们在最大池化之前使用第四卷积层的14×14×512特征图。 这意味着我们的解码器可以对196×512(即L×D)扁平化编码进行操作。

由于我们的实现需要的时间与每次更新中最长句子的长度成正比,因此我们发现,对随机字幕组的训练在计算上是浪费的。 为了减轻这个问题,在预处理中,我们构建了一个字典,将句子的长度映射到相应的字幕子集。 然后,在训练过程中,我们随机取样一个长度,并检索该长度的大小为64的微型批次。 我们发现,这大大提高了收敛速度,而性能却没有明显下降。 在我们最大的数据集(MS COCO)上,我们的软注意力模型花费不到3天的时间在NVIDIA Titan Black GPU上进行训练。

除了辍学(Srivastava等,2014),我们使用的唯一其他正则化策略是尽早停止BLEU评分。 在实验的后期训练中,我们观察到验证集对数似然性与BLEU之间的相关性崩溃。 由于BLEU是最常报告的指标,因此我们在验证集上使用了BLEU进行模型选择。

在我们的实验中,我们在Flickr8k实验中还使用了Whet-lab1(Snoek等人,2012; 2014)。 我们从其探索的超参数区域获得的一些直觉在我们的Flickr30k和COCO实验中尤其重要。

我们将基于Theano的这些模型的代码(Bergstra等,2010)公开发布,以鼓励该领域的进一步研究。

5.实验

我们描述了我们的实验方法论和定量结果,它们验证了我们的字幕生成模型的有效性。

5.1 数据

我们报告了流行的Flickr8k和Flickr30k数据集的结果,该数据集分别具有8,000和30,000图像,以及更具挑战性的Microsoft COCO数据集具有82,783图像。 Flickr8k / Flickr30k数据集每个图像都带有5个参考语句,但是对于MS COCO数据集,某些图像的引用量超过5个,以确保我们丢弃的数据集的一致性。 我们仅对MS COCO应用了基本标记,因此它与Flickr8k和Flickr30k中存在的标记一致。 对于我们所有的实验,我们使用的固定词汇量为10,000。
在这里插入图片描述
表4.2.1报告了基于关注的体系结构的结果。 我们使用常用的BLEU metric2报告结果,这是字幕生成文献中的标准。 我们报告BLEU从1到4,但没有简短规定。 但是,有人对BLEU提出了批评,因此我们还报告了另一种常见的METEOR流星(Denkowski&Lavie,2014年),并在可能的情况下进行比较。

5.2 评估程序

存在一些挑战供比较,我们在这里进行解释。 首先是卷积特征提取器选择的差异。 对于相同的解码器架构,请使用最新的架构,例如GoogLeNet或Ox-ford VGG Szegedy等。 (2014),Simonyan&Zisserman(2014)可以比使用AlexNet带来更高的性能(Krizhevsky et al。,2012)。 在我们的评估中,我们仅直接与使用可比的GoogLeNet / Oxford VGG功能的结果进行比较,但是对于METEOR比较,我们注意到一些使用AlexNet的结果。

第二个挑战是单一模型与整体比较。 虽然其他方法通过使用集成报告了性能提升,但在我们的结果中,我们报告了单个模型的性能。

最后,由于数据集拆分之间的差异,存在挑战。 在我们报告的结果中,我们使用Flickr8k的预定义拆分。 但是,Flickr30k和COCO数据集的挑战之一是缺乏标准化的分割。 结果,我们报告了先前工作中使用的公开可用拆分3(Karpathy&Li,2014)。 根据我们的经验,拆分的差异不会对整体性能产生实质性的影响,但是我们注意到存在差异的地方。

5.3 定量分析

在表4.2.1中,我们提供了验证注意力定量有效性的实验总结。 我们在Flickr8k,Flickr30k和MS COCO上获得了最先进的性能。 此外,我们注意到,在我们的实验中,我们能够显着改善MS COCO上最先进的性能流星,我们推测这与我们使用4.2.1和更低层表示的某些正则化技术有关。 最后,我们还注意到,我们可以使用单个模型获得整体的性能。

5.4定性分析:学习参加

通过可视化模型学习到的注意力成分,我们可以在模型的输出中增加一层解释性(见图1)。 其他执行此操作的系统则依赖于对象检测系统来生成候选对齐目标(Karpathy&Li,2014)。 我们的方法更加灵活,因为模型可以处理“非对象”显着区域。

19层的OxfordNet使用3x3过滤器堆栈,这意味着特征图尺寸减小的唯一时间是由于最大池化层。调整输入图像的大小,以使最短的一面为256维,并保留长宽比。卷积网络的输入是中心裁剪的224x224图像。因此,在4个最大池化层的情况下,顶部卷积层的输出尺寸为14x14。因此,为了可视化软模型的注意权重,我们仅将权重上采样24 = 16倍,然后应用高斯滤波器。我们注意到,每个14x14单元的接收场高度重叠。

正如我们在图2和3中看到的那样,该模型学习了与人类直觉非常吻合的对齐方式。尤其是在错误示例中,我们看到可以利用这种可视化效果来直观了解为什么会犯这些错误。我们在附录A中为读者提供了更广泛的可视化列表。

6.结论

我们提出了一种基于关注的方法,该方法使用BLEU和METEOR指标在三个基准数据集上提供最新性能。 我们还展示了如何利用学习到的注意力为模型生成过程提供更多的可解释性,并证明学习到的对齐方式非常符合人类的直觉。 我们希望本文的结果能够鼓励将来使用视觉注意力的工作。 我们还期望将编码器/解码器方法的模块化与关注结合起来,使其在其他领域中有用。

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值