Expressing an Image Stream with a Sequence of Natural Sentences

用自然句序列表达图像流

摘要:我们提出了一种检索图像流的自然句子序列的方法。由于普通用户经常在他们的特殊时刻拍摄一系列照片,因此最好考虑整个图像流以产生自然的语言描述。尽管几乎所有以前的研究都涉及单个图像和单个自然句子之间的关系,但我们的工作将输入和输出维度扩展到了图像序列和句子序列。为此,我们设计了一种称为相干递归卷积网络(CRCN)的多模式体系结构,它由卷积神经网络,双向递归神经网络和基于实体的局部相干模型组成。我们的方法直接从大量用户生成的博客文章资源中学习,作为文本图像并行训练数据。我们通过定量测量(例如BLEU和top-K召回)以及通过Amazon Mechanical Turk进行的用户研究,证明了我们的方法优于其他最新的候选方法。

1引言

最近,在计算机视觉,自然语言处理和机器学习的研究中,对自动生成图像的自然语言描述的兴趣不断提高(例如[5、8、9、12、14、15、26、21、30 ])。 虽然大多数现有工作旨在发现单个图像和单个自然句子之间的关系,但我们将输入和输出维度扩展到图像序列和句子序列,这可能是朝着共同理解语言的明显的下一步。 图像的视觉内容和语言描述,尽管在当前文献中并未充分提及。 我们的问题设置的动机是普通用户经常在难忘的时刻拍摄一系列照片。 例如,许多访问纽约市(NYC)的人会使用大图像流来捕捉他们的经历,因此,在翻译成自然语言描述时,最好将整个照片流纳入考虑。
在这里插入图片描述
图1以访问纽约市为例说明了我们的问题陈述的直觉。给定一个照片流,我们的目标是自动生成一系列自然语言语句,以最佳地描述输入图像集的本质。我们提出了一种新颖的多模态架构,称为相干递归卷积网络(CRCN),它集成了用于图像描述的卷积神经网络[13],用于语言模型的双向递归神经网络[20]以及用于平滑流的局部相干模型[1]多个句子。由于我们的问题涉及学习长图像和文本流之间的语义关系,因此与以前的单句生成研究相比,获取合适的文本-图像并行语料库更具挑战性。我们对此问题的想法是直接利用在线自然博客帖子作为文本图像并行训练数据,因为博客通常由一系列内容丰富的文本和多个代表性图像组成,这些图像由作者以讲故事的方式精心选择。参见图1.(a)中的示例。

我们使用纽约市和迪士尼乐园的博客数据集评估我们的方法,该博客数据集包含2万多个博客帖子以及14万张相关图片。 尽管我们在实验中专注于旅游主题,但是我们的方法是完全不受监督的,因此适用于具有大量带有图片的博客文章的任何领域。 通过与其他最先进的替代方法(包括[9、12、21])进行比较,我们证明了我们的方法的优越性能。 我们通过Amazon Mechanical Turk(AMT)进行定量评估(例如BLEU和Top-K召回)并进行用户研究评估。

相关工作
由于最近关于生成用于图像数据的自然语言描述的这一主题的文献量激增,在此我们讨论与我们的工作密切相关的代表性代表思想。最受欢迎的方法之一是将文本生成摆在学习排序和嵌入的检索问题上,其中从最相似的训练图像的句子中转移测试图像的标题[6、8、21、26] 。我们的方法部分涉及文本检索,因为我们从训练数据库中为查询序列的每个图像搜索候选句子。但是,我们然后通过考虑单个图像和文本之间的兼容性以及在句子到句子过渡级别捕获文本相关性的连贯性来创建最后一段。也有视频句子作品(例如[23,32]);我们的主要新颖之处在于我们明确包含了一致性模型。与视频不同,流中的连续图像可能显示视觉内容的急剧变化,这会导致连续句子之间的突然间断。因此,更需要一致性模型来使输出通道流畅。

最近的许多工作开发了多模式网络,该网络将深度卷积神经网络(CNN)[13]和递归神经网络(RNN)[20]结合在一起。该类别中的著名架构将CNN与双向RNN [9],长期递归卷积网络[5],长期短期记忆网络[30],深层Boltzmann机器[27],依赖树RNN [26],和多模式RNN的其他变体[3,19]。尽管我们的方法部分地利用了多模态神经网络的最新进展,但我们的主要新颖之处在于我们将其与相干模型集成为统一的端到端架构,以检索流畅的连续多个句子。

在下文中,我们将比较以前的工作,这些工作与我们的工作特别相似。 在多模态神经网络模型中,长期递归卷积网络[5]与我们的目标有关,因为它们的框架明确地建模了顺序输入和输出之间的关系。 然而,该模型被应用于为给定的短视频剪辑创建句子的视频描述任务,并且未解决多个连续句子的生成。 因此,与我们不同,没有句子之间连贯的机制。 [11]的工作解决了查询段落的图像序列的检索,这是我们问题的相反方向。 他们提出了一个潜在的结构化SVM框架,以学习从文本到图像序列的语义相关性关系。 但是,它们的模型仅专用于图像序列检索,因此不适用于自然句子生成。
贡献
我们重点介绍以下论文的主要贡献。 (1)据我们所知,这项工作是第一个解决用句子序列表示图像流的问题。 关于现有方法的整体,我们将输入和输出扩展为更复杂的形式:图像流而不是单个图像,句子序列而不是单个句子。 (2)我们开发了一种相干递归卷积网络(CRCN)的多模式体系结构,该体系结构集成了用于图像表示的卷积网络,用于句子建模的递归网络以及用于句子的流畅过渡的局部相干模型。 (3)我们使用大型非结构化博客文章数据集评估我们的方法,该数据集包含2万个博客文章和140K关联图像。 通过定量评估和用户研究,我们证明了我们的方法在描述图像流方面比其他最新技术更为成功。

2博客文章中的文本图像并行数据集

我们讨论如何将博客文章转换为图像-文本并行数据流的训练集B,每个
其中的图像句子对序列为:B1 = {((I1l,T1l),···,(I1N1,T1N1)}}∈B。训练集大小由L = | B |表示。 图2.(a)总结了博客文章的预处理步骤。

2.1博客预处理

我们假设博客作者以语义上有意义的方式用多个图像来增加他们的文本。 为了将每个博客分解为一系列图像和相关文本,我们首先执行文本分割,然后进行文本摘要。 文本分割的目的是将输入的博客文本分为一组文本段,每个文本段都与一个图像相关联。 因此,段数与博客中的图像数相同。 文本摘要的目的是将每个文本段简化为单个关键句。 作为这两个过程的结果,我们可以将每个Blog转换为Bl = {((Il1,T11l),…,(IlN1,TN11))}的形式。

文字分割。
我们首先根据段落将博客文章分为文本块。我们应用了NLTK [2]的标准段落标记器,该标记器使用基于规则的正则表达式来检测段落划分。然后,我们基于[10]中提出的图像到文本块距离来使用启发式算法。简单来说,我们将每个文本块分配给索引距离最小的图像,其中每个文本块和图像在博客中均计为单个索引距离。
文字摘要。
我们将每个文本段总结为一个关键句子。我们应用基于潜在语义分析(LSA)的摘要方法[4],该方法使用奇异值分解获得句子的概念维,然后递归地找到最有代表性的句子,从而最大程度地提高每个主题中句子间的相似度一个文本段。
数据扩充。
数据增强是卷积神经网络提高图像分类准确性的一种众所周知的技术[13]。它的基本思想是通过应用变换,水平反射或向训练图像添加噪声来人为地增加训练示例的数量。我们从经验上观察到,这个想法在我们的问题上也能带来更好的表现。对于每个图像句子序列Bl = {(Il1,T1l),··,(IlN1,T lN1)},我们增加每个句子Tnl具有多个训练句子。也就是说,当我们执行基于LSA的文本摘要时,我们选择排在前k位的最高摘要句,其中排在前位的k成为相关图像的摘要句,所有排在前k位的句子都用于在我们的模型中进行训练。在略微使用符号的情况下,我们让Tnl表示单个摘要句子和κ扩充句子。经过全面的经验检验后,我们选择κ= 3。

2.2文字说明

一旦我们用κ语句表示每个文本段,我们就提取段落矢量[17]以表示文本的内容。 段落向量是一种基于神经网络的无监督算法,可从可变长度的段落中学习固定长度的特征表示。 我们使用gensim doc2vec代码从博客数据集的两类中分别学习了300维密集向量表示。 我们使用pn表示文本Tn的段落矢量表示。 然后,我们为每个Tn提取一个经过分析的树,以识别相关的实体和单词的语法作用。 我们使用斯坦福大学的核心NLP库[18]。 解析树用于局部一致性模型,将在3.2节中讨论。

3我们的架构

许多现有的句子生成模型(例如[9,19])结合训练数据中的单词或短语来生成新颖图像的句子。 我们的方法更高一级; 我们使用训练数据库中的句子为新颖的图像流创作句子序列。 尽管我们的模型可以轻松扩展为使用单词或短语作为基本构建块,但是这种粒度使得序列过长而无法训练语言模型,这可能会给学习RNN模型带来一些困难。 例如,消失的梯度效应是众所周知的难点,即很难在较长的时间间隔内反向传播误差信号。 因此,我们设计了一种方法,该方法从训练数据库中为每个查询图像检索单个候选句子,并考虑单个图像对句子对的适用性以及连续句子之间的连贯性,设计出最佳的句子序列。
在这里插入图片描述

图2.(b)说明了我们的CRCN的结构。 它由三个主要组件组成,分别是用于图像表示的卷积神经网络(CNN)[13],用于句子序列建模的双向递归神经网络(BRNN)[24]和用于平滑流的局部相干模型[1]。 多句。 每个数据流都是由{(I1,T1),…,(IN,TN)}表示的可变长度序列。 我们使用t∈{1,···,N}来表示句子/图像在序列中的位置。 我们分别为每个位置定义CNN和BRNN模型,并为整个数据流定义相关模型。 对于CNN组件,我们选择的是VGGNet [25],它将图像表示为4,096维向量。 我们将分别在第3.1节和第3.2节中讨论BRNN和一致性模型的细节,最后在第3.3节中介绍如何组合这三个组件的输出以创建单个兼容性评分。

3.1 BRNN模型

BRNN模型的作用是代表文本序列的内容流。 在我们的问题中,BRNN比普通的RNN更适合,因为BRNN可以同时对前向和后向流进行建模,这使我们可以考虑每个句子的前一个和后一个句子,从而使整个序列的内容彼此交互 。 如图2.(b)所示,我们的BRNN具有五层:输入层,向前/向后层,输出层和ReLU激活层,它们最终与相干模型的层合并为两个完全连接的层。 请注意,每个文本均由第2.2节中讨论的300维段落矢量pt表示。 BRNN的确切形式如下。 一起参见图2.(b),以获得更好的理解。
在这里插入图片描述
BRNN将一系列文本向量pt作为输入。 然后,我们计算xf和xtb,它们是输入单元向前进和后退单元的激活。 与其他BRNN模型不同,我们将输入激活分为具有不同参数集W f的前向激活和后向激活,从经验上讲会带来更好的性能。 我们将激活函数f设置为整流线性单位(ReLU),f(x)= max(0,x)。 然后,我们创建两个独立的前进和后退
隐藏的单位,用hf和htb表示。 BRNN ot的最终激活可以看作是对位置t处句子内容的描述,它还隐式编码了句子流及其序列中的周围上下文。 要学习的参数集包括权重
在这里插入图片描述

3.2局部一致性模型

BRNN模型可以捕获文本内容的流,但是缺乏学习反映语篇实体之间的分布,句法和参考信息的段落连贯性的知识。因此,我们明确地基于[1]的工作加入了一个局部连贯模型,该模型着重于解决全文中话语实体(即互称名词短语)的局部转变模式。如图2.(b)所示,我们首先为Zt表示的每个摘要文本提取解析树,然后将所有已排序的解析树连接成一个大树,然后从中为整个序列创建一个实体网格。实体网格是一个表格,其中每一行对应一个话语实体,每一列代表一个句子。语法角色由三类表示,一类不存在(即,句子中未提及):S(主题),O(对象),X(主题或对象除外)和-(不存在)。在制作完实体网格之后,我们将列举整个文本中实体的语法角色的转变。我们将history参数设置为3,这意味着我们可以获得43 = 64个过渡描述(例如SO-或OOX)。通过计算每个跃迁的出现频率的比率,我们最终创建了一个64维的表示形式,它捕获了序列的相干性。最后,我们通过零填充将此描述符变成300维矢量,然后将其转发到ReLU层,就像对BRNN输出所做的那样。

3.3 CNN,RNN和相干模型的组合

在RNN和相干模型的ReLU激活层之后,它们的输出(即{ot} tN = 1和q)经过两个完全连接的(FC)层,它们的作用是确定BRNN语言因素和 相干因素。 我们删除全连接层的偏置项,变量的尺寸为Wf1∈R512×300,Wf2∈R4,096×512,ot,q∈R300×1,st,g∈R4,096×1, O∈R300×N,S∈R4,096×N。
在这里插入图片描述
我们使用O和q的共享参数,以便输出可以很好地混合内容流和连贯性之间的交互。 在我们的测试中,联合学习优于使用单独参数的两个术语的学习。 注意,由于丢失,最后两个FC层的乘积Wf2Wf1不会减少为单个线性映射。 我们为这两层分配0.5和0.7的辍学率。 从经验上讲,它在具有丢包的单个FC层上大大提高了泛化性能。

3.4培训CRCN

为了训练我们的CRCN模型,我们首先定义图像流和段落序列之间的兼容性得分。 虽然我们的得分函数是受Karpathy等人启发的。 [9],有两个主要区别。 首先,[9]的得分函数在句子片段和图像片段之间进行处理,因此该算法考虑了它们之间的所有组合以找出最佳匹配。 另一方面,我们通过句子序列和图像序列之间的有序和成对的兼容性来定义分数。 其次,我们还添加了一个术语,用于测量图像序列和文本序列之间的相关性。 最后,句子序列k和图像流l的得分Skl由下式定义:
在这里插入图片描述
其中vtl表示流l的第t个图像的CNN特征向量。 然后,我们定义成本函数来训练我们的CRCN模型,如下所示[9]。
在这里插入图片描述
其中,Skk表示对应图像的训练对与句子序列之间的分数。 该目标基于最大利润结构损失,鼓励对齐的图像句子序列对比未对齐的对具有更高的分数。 对于每个积极的训练示例,我们从训练集中随机抽取100个样本。 由于每个对比示例的长度都是随机的,并且是从内容广泛的数据集中进行采样的,因此否定性示例与肯定性示例具有相同的长度和相同的内容顺序的可能性极小。
优化。
我们使用时间反向传播(BPTT)算法[31]来训练我们的模型。 我们将随机梯度下降(SGD)与100个数据流的迷你批次结合使用。 在许多SGD技术中,我们选择RMSprop优化器[28],它在我们的实验中具有最佳性能。 我们使用He等人的方法初始化CRCN模型的权重。 [7],这在深层校正模型中非常可靠。 我们观察到它比简单的高斯随机初始化好,尽管我们的模型不是很深。 我们在除BRNN之外的所有层中都使用丢包正则化,最后一个FC层丢包为0.7,其他剩余层丢包为0.5。

3.5检索句子序列

在测试时,目标是为给定查询图像流{Iq1,…,IqN}检索最佳句子序列。首先,我们使用CNN VGGNet fc7功能上的2-距离从训练数据库中为每个查询图像选择K最近图像[25]。在我们的实验中,K = 5成功。然后,通过在每个位置t连接与K最近图像相关联的句子,我们生成一组句子序列候选C。最后,我们使用学习到的CRCN模型来计算查询图像流与每个序列候选者之间的兼容性得分,从而根据这些候选者对候选者进行排名。

但是,这种情况的主要困难在于,应聘者呈指数级增长(即| C | = KN)。为了解决这个问题,我们使用一种近似的分而治之的策略。我们将问题递归地分成子问题,直到子问题的大小可以控制。例如,如果我们将搜索候选长度减半Q倍,则每个子问题的搜索空间变为KN / 2Q。使用波束搜索的思想,我们首先在最低级别的子问题中找到前M个最佳序列候选,然后递归地增加候选长度,同时将最大候选大小限制为M。我们将M设置为50。这是一种近似搜索,我们的实验可确保通过合理的组合搜索获得几乎最佳的解决方案,这主要是因为局部流利性和连贯性对于全局搜索无疑是必需的。也就是说,为了使整个句子序列流畅且连贯,其所有子部分也必须同样。

4实验

数据集。我们收集有关两个主题的博客数据集:纽约市和迪士尼乐园。我们从[11]的数据集中重复使用迪士尼乐园的博客数据,并使用与[11]相同的抓取方法重新收集NYC的数据,在该方法中,我们首先从两个流行的博客发布站点抓取博客文章及其相关图片,BLOGSPOT和WORDPRESS,方法是更改​​Google搜索中的查询字词。然后,我们手动选择用多个图像描述故事和事件的旅行日志。最后,该数据集包括纽约市的11,863篇独特博客文章和78,467张图像,迪士尼乐园包括7,717篇博客文章和60,545张图像。
任务。为了进行定量评估,我们将数据集随机分为80%作为训练集,10%作为验证集,其他作为测试集。对于每个测试帖子,我们将图像序列用作查询Iq,将摘要语句的序列用作groundtruth TG。每种算法都从训练数据库中检索查询图像序列的最佳序列,理想情况下,检索到的序列与TG匹配良好。由于训练和测试数据是不相交的,因此每个算法最多只能检索相似(但不相同)的句子。

对于定量度量,我们利用两种类型的语言相似性度量标准(即BLEU [22],CIDEr [29]和METEOR [16]分数)和检索准确性(即top-K回忆和中位数排名),它们被广泛使用在文本生成文献中[8,9,19,26]。前K个召回率R @ K是在给定前K个候选者的情况下检索地面truthth的召回率,中位数排名表示第一个检索到的groundtruth的中位数排名值。较高的BLEU,CIDEr,METEOR,R @ K得分和较低的中位秩值表明性能更好。

基线。 由于以前的研究尚未解决从图像流生成句子序列的问题,因此我们扩展了几种以公开可用代码为基准的最新单句模型,包括Kiros等人的对数双线性多峰模型。 等 [12],以及Karpathy等人的递归卷积模型。 [9]和Vinyals等。 [30]。 对于[12],我们使用本文介绍的三个变体,它们是标准对数双线性模型(LBL)和两个多模态扩展:基于模态的LBL(MLBL-B)和因式三向LBL( MLBL-F)。 我们使用Karpathy等人撰写的NeuralTalk软件包。 对于[9]的基线,用(CNN + RNN)表示,[30]的基线用(CNN + LSTM)表示。 作为最简单的基准,我们还与[21]中的全局匹配(GloMatch)进行了比较。 对于所有基线,我们通过串联查询流中为每个图像生成的句子来创建最终句子序列。
在这里插入图片描述
我们还比较了我们方法的不同变体,以验证我们方法的关键组件的贡献。 我们在不使用RNN部分作为最简单变体的情况下测试了K最近搜索(1NN); 对于测试查询中的每个图像,我们找到其K(= 1)最相似的训练图像,并简单地连接它们的关联语句。 第二种变体是由(RCN)表示的仅BRNN方法,该方法从我们的方法中排除了基于实体的一致性模型。 我们的完整方法用(CRCN)表示,并且此比较通过相干模型量化了改进。 公平地说,我们对所有算法使用相同的VGGNet fc7功能[25]。

4.2定量结果

表1显示了同时使用语言和检索指标的实验的定量结果。我们的方法(CRCN)和(RCN)的表现优于其他最先进的基准,这些基准产生的段落与我们的不同,而无需考虑句子到句子的过渡。 (MLBL-F)在[12]的三个模型中显示出最佳性能,尽管余量很小,部分是因为它们在训练中共享相同的单词词典。在基于mRNN的模型中,(CNN + LSTM)的性能明显优于(CNN + RNN),因为LSTM单元有助于更稳固地从自然博客的不规则和冗长的数据中学习模型。
在这里插入图片描述

我们还观察到(CRCN)优于(1NN)和(RCN),尤其是在检索指标方面。它表明,BRNN和一致性模型这两个关键组件的集成确实有助于提高性能。 (CRCN)在语言指标方面仅略胜于(RCN),但在检索指标方面显着更好。这意味着(RCN)可以检索到相当好的解决方案,但与(CRCN)相比,它不能擅长将唯一正确的解决方案排在较高的位置。语言指标的小幅度差异还归因于其固有的局限性;例如,BLEU专注于计算n元语法词的匹配,因此不擅长比较句子之间,甚至更糟的段落之间无法充分评估其流畅性和连贯性。

图3示出了句子序列检索的几个示例。在每个集合中,我们显示一个查询图像流和由我们的方法和基线创建的文本结果。除了图3.(d),我们显示了序列的一部分,因为它们很长,无法说明。这些定性的例子表明,我们的方法在表达包括各种内容的图像序列方面更为成功。
在这里插入图片描述

4.3通过Amazon Mechanical Turk进行的用户研究

我们使用AMT进行用户研究,以观察一般用户通过不同算法在文本序列之间的偏好。由于我们的评估涉及多张图片和长篇文章,因此我们将AMT任务设计为对于没有背景知识的普通土耳其人来说足够简单。

我们首先从两个数据集中随机抽取100个测试流。我们首先将每个查询的最大图像数设置为5。如果查询长于此,我们将其统一采样为5。在AMT测试中,我们显示查询图像流Iq,以及由我们的方法生成的一对段落(CRCN)和一个基线以随机顺序排列。我们要求土耳其人使用Iq选择更多约定的文本序列。我们将测试设计为成对比较,而不是多项选择题,以使回答和分析更加容易。问题看起来与图3的示例非常相似。对于每个查询,我们从三个不同的土耳其人那里获得答案。我们与四个基准进行比较;我们在[12]的三个变体中选择(MLBL-B),在基于mRNN的方法中选择(CNN + LSTM)。我们还选择(GloMatch)和(RCN)作为我们方法的变体。
在这里插入图片描述

表2显示了AMT测试的结果,这些结果验证了AMT注释者更喜欢我们的结果而不是基线的结果。 (GloMatch)是最糟糕的,因为它使用的图像表示能力太弱(即GIST和Tiny图像)。 (CRCN)和(RCN)之间的差异(即表2的第4列)没有以前的量化指标那么重要,这主要是因为我们的查询图像流采样到的时间相对较短(5)。随着传递时间的延长,相干性变得越来越关键 。 为证明这一点,我们运行了另一组AMT测试,其中每个查询使用8-10张图像。 如表2的最后一列所示,(CRCN)和(RCN)之间的性能裕度随着查询图像流长度的增加而变大。 此结果可确保随着通过时间的延长,连贯性变得更加重要,因此(CRCN)的输出更受土耳其人的青睐。

5结论

我们提出了一种检索图像流句子序列的方法。 我们开发了相干递归卷积网络(CRCN),它由卷积网络,双向正向递归网络和基于实体的局部相干模型组成。 通过对大量博客文章进行定量评估和使用AMT进行用户研究,我们证明了我们的CRCN方法优于其他最新的候选方法。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值