Image Caption:Look Back and Predict Forward in Image Captioning全文翻译加解读

最新推荐文章于 2024-05-13 10:48:35 发布

一念深爱

最新推荐文章于 2024-05-13 10:48:35 发布

阅读量824

点赞数

本文链接：https://blog.csdn.net/weixin_44658024/article/details/104459559

版权

摘要

目前存在的依附注意力模型的图像标注方法大都是专注当前单词和这一步的语义信息来生成下一个单词，没有考虑视觉和语义之间的联系。我们提出了LB来嵌入之前的视觉信息并且采用PF预测将来。LB是通过调整前一单词跳到当前的注意力值变化来使其满足人类的视觉连贯性。PF模型在一个时间步长内预测下两个单词，并联合使用它们的概率进行推理。然后将这两种方法结合为LBPF，进一步整合过去的视觉信息和未来的语言信息，提高图像字幕的性能。这三种方法都应用在一个经典的基本解码器上，并在MSCOCO数据集上显示了显著的改进，参数数值只增加了一点点。在BLEU－４／CIDEr／SPICE的交叉熵损失分别为：37.4／116.4／21.2，经优化后达到：38.3／127.6／22.0。我们提出的三种方法可以很容易地应用于大多数基于注意力的图像编解码器模型。

简介

图像字幕生成目的是生成一个自然语言句子来描述图片中的视觉元素。这项工作结合了图像理解和自然语言处理方法来预测一个信息丰富且流畅的标题。可以在很大程度上帮助视力损害和图像搜索问题,是一项具有挑战性的任务。首先,图像需要很好地被理解,所包含的信息可以被提取并作为特征来生成文本标题。然后,应该有一个语言模型实现从提取特征中分辨出具体信息并生成描述性文本。过去几年,提出了许多神经编码解码模型[27,25,28],编码部分采用CNNs来提取图片语义插入信息,解码部分则采用RNNs预测文本。
[29]首次提出了注意机机制,并且在BLEU[22]，CIDREr[26] ,SPICE[1]表现很好。注意模型是关注编码部分的语义嵌入,专注于与当前描述相关的重要信息。在每个时间步，注意力模块根据给定的单词计算一个相关权重，该权重有助于当前的单词生成。软注意机制[5]将特征向量的平均权重作为结果,而硬注意机制[4]采用相关权重的抽样。尽管注意模型可以在编码部分给标题生成提供精确有效的视觉信息,但只仅仅把当前单词状态ht作为输入并输出一个状态ht+1作为注意力机制作用的结果。这种注意力机制忽略了相邻单词的视觉相关性,比如,"a blue bike"是用三个单词描述一个对象。
我们都知道,图像标注是一个接一个单词预测,下一预测y 't+1很依赖于前一单词y 't。然而,在推理阶段,y 't仅仅代表前面的时间步内容,很容易给最后的语句带来积累性错误。[9]提出了ARnett来提高y 't+1与y 't的相关性。这个方法减弱了ht-1与ht的不同,也嵌入了很多前面状态的信息。然而，使用欧几里德距离的正则化方法可能会直接降低每个隐藏状态的L-2范数，并且几乎没有直观的改进。
为了解决上述问题，我们提出了利用视觉信息和语言建模能力进行回溯预测的方法(LBPF)。如图1所示,我们的LBPF方法引入了两种主要的设计，分别表示为回溯部分(LB)和预测部分(PF)。LB部分将之前的注意向量和当前的隐藏状态ht连接起来作为注意模块的输入,它有助于嵌入前面步骤的视觉信息，符合人类的视觉习惯。PF部分与传统方法不同，在同一时间步内，根据ht连续预测ht+1和ht+2,我们直接将ht+1看作是y 't +1的嵌入，并将其通过与ht相同的参数来预测ht+2,这个过程生成两个序列，分别表示为seq1和seq2，其中seq2从最后序列中的第二个单词开始。在训练阶段，我们根据ground-truth分别对seq1和seq2进行了优化。在推理阶段,我们预测y′t = p1t +λp2t(t≥2),第一个单词y1取决于p11本身(p1表示seq1的预测概率,p2表示seq2)。
在这里插入图片描述

相关工作

基于编解码器框架[19,14,13]提出了大量的图像字幕方法。Oriol Vinyals等人提出了show and tell网络，其中图像被一个预先训练好的CNN编码成一个特征向量，作为语言LSTM的第一个单词嵌入输入。Junhua Mao等人[21]将图像特征向量与每个词的嵌入连接起来，以维护后生成词的视觉信息。Lisa Anne Hendricks等人的[3]将视觉信息从LSTM中分离出来，只在logit层之前使用它。Kelvin Xu等人在[29]中首次将注意力机制引入字幕生成任务，并首次使用视觉特征向量初始化LSTM的隐藏状态。注意模块已被证明在图像字幕生成方面有巨大的改进，因此几乎适用于所有最近的方法[30,8,32,11]。
基于注意力的图像字幕方法通常使用预先训练的CNN模型在额外的数据集上提取特征。像ImageNet[10]这样的著名图像数据集有大量的图像，这些图像带有各种常见对象的标签。来自于预先训练好的CNN模型如VGG[24]和ResNet[12]的Channel-wise特征显示了在对象和场景识别方面的强大代表性能力。随着新发布

最低0.47元/天解锁文章

一念深爱

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Image Caption:Look Back and Predict Forward in Image Captioning全文翻译加解读

#摘要目前存在的依附注意力模型的图像标注方法大都是专注当前单词和这一步的语义信息来生成下一个单词，没有考虑视觉和语义之间的联系。我们提出了LB来嵌入之前的视觉信息并且采用PF预测将来。LB是通过调整前一单词跳到当前的注意力值变化来使其满足人类的视觉连贯性。PF模型在一个时间步长内预测下两个单词，并联合使用它们的概率进行推理。然后将这两种方法结合为LBPF，进一步整合过去的视觉信息和未来的语言信息...
复制链接

扫一扫