【论文阅读】Deep Compositional Captioning: Describing Novel Object Categories without Paired Training Data

Isangelaa

于 2022-03-01 15:07:54 发布

阅读量267

点赞数

分类专栏：论文阅读笔记文章标签：计算机视觉深度学习人工智能

本文链接：https://blog.csdn.net/weixin_44947240/article/details/123200283

版权

论文阅读笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

【论文阅读】Deep Compositional Captioning: Describing Novel Object Categories without Paired Training Data

motivation
- task
- difficult
contribution
method
experiment
conclusion
Related Work

CVPR2016
泛读一下

motivation

task

生成成对图像数据集中不存在的新对象的描述

difficult

在这里插入图片描述
现有的深度标题方法无法生成关于在标题语料库中看不到的对象（比如水獭）的句子。相比之下，我们的模型有效地整合了来自独立图像数据集和文本语料库的信息，在没有任何配对图像-句子数据的情况下组成对新对象的描述。

contribution

提出了DCC(Deep Compositional Captioning)，可以组成描述新物体及其与其他物体的互动的句子。
我们通过实证评估其在MSCOCO上的性能，证明了我们的模型描述新概念的能力，并在没有配对图像-句子数据存在的对象的ImageNet图像上展示了定性结果。
此外，我们还扩展了我们的方法，以生成对视频剪辑中的对象的描述。我们的结果表明，与现有的图像和视频字幕方法相比，DCC在在上下文中生成新对象的描述方面具有明显的优势。

method

方法包括三个阶段：

training a deep lexical classifier and deep language model with unpaired data
combining the lexical classifier and language model into a caption model which is trained on paired image-sentence data
transferring knowledge from words which appear in paired image-sentence data to words which do not appear in paired image-sentence data.

DCC consists of a lexical classifier, which maps pixels to semantic concepts and is trained only on unpaired image data, and a language model, which learns the structure of natural language and is trained on unpaired text data. The multimodal unit of DCC integrates the lexical classifier and language model and is trained on paired image-sentence data.

Method for transferring knowledge from words trained with paired image-sentence data to words trained without image sentence data.
（具体迁移方法可以详细看这一部分）

Direct Transfer
Delta Transfer

experiment

datasets

image description

为了实证评估我们的方法，我们创建了MSCOCO[20]训练集的一个子集(表示为保留的MSCOCO训练集)，它排除了至少描述八个MSCOCO对象中的一个的所有图像-句子对。为了确保被排除的对象至少与一些被包含的对象相似，我们使用第3.4节中描述的word2vec嵌入的向量对在MSCOCO分割挑战中注释的80个对象进行了聚类，并从每个聚类中排除一个对象。我们选择了以下词：“瓶子”、“公共汽车”、“沙发”、“微波炉”、“披萨”、“球拍”、“手提箱”和“斑马”。我们随机选择50%的MSCOCO验证集进行验证，并留出剩下的50%进行测试。我们使用验证集来确定所有模型超参数，并在测试集上显示所有结果。我们根据MSCOCO数据集中提供的五个地面真实标题注释来标记每个图像中的视觉概念。如果任何一个地面真实标题提到一个物体，相应的图像被认为是该物体的积极例子。
除了实证评估我们的模型外，我们还通过描述成对的图像语料库之外的对象，在大规模上定性地检验了DCC的性能。具体来说，我们从完整的ImageNet对象识别数据集中[3]中选择642个对象，这些对象没有出现在MSCOCO中，也出现在Webpus文本数据集中（见4.3节）词汇表中。我们不做人工概念修剪；因此，一些选定的概念指各种各样的物体（例如，“动物”类包含所有动物），而其他类别只包含少量的图像（例如，有三个“铁饼”图像）。我们使用每个类中75%的图像来训练词汇分类器，并对其余的进行评估。我们强调，我们对这些类别没有任何描述。

video description

对于视频描述的实证评估，我们使用了来自微软视频描述(MSVD)语料库[2]的Youtube片段集合，其中包含1,970个简短的注释片段。我们的基本实验设置遵循之前的视频描述工作的[35,34]。然而，我们在训练过程中保留了一些物体的配对视频-句子数据。因为有显著变化的视频剪辑包含每个对象在MSVD数据集，我们提出对象MSVD数据集出现在五个或更少的训练视频和至少一个测试视频也出现在ILSVRC2015视频对象检测挑战。1我们的MSVD保留集排除了配对的视频句子训练数据，包括“斑马”、“仓鼠”、“西兰花”和“海龟”。
我们还定性地评估了我们的方法在ILSVRC目标检测挑战视频（最初的发布）它由ILSVRC2015视频物体检测的30个物体的1952个视频片段组成。我们在探测挑战视频中描述的物体包括“鲸鱼”、“狐狸”、“仓鼠”、“狮子”、“斑马”和“海龟”。

metrics

为了评估我们的转移方法，我们必须选择一个度量来指示一个生成的句子是否包含一个新对象。常见的标题指标，如BLEU[23]和METEOR[1]，衡量句子的整体意义和流畅性。然而，对于许多物体，我们可以在不提及新物体的情况下获得良好的BLEU和METEOR（例如，考虑图4中描述男孩打网球的句子）。为了明确地报告我们的模型整合新词汇表的能力，我们还报告了f1分数。f1分数考虑“假阳性”（当一个词出现在句子中时，它不应该出现在句子中），“假阴性”（当一个词没有出现时，它应该出现在句子中）和“真阳性”（当一个词出现时，它应该出现在句子中）。如果生成的句子包含至少一个单词，我们认为生成的句子是“积极的”；如果一个单词在描述图像的地面真实注释中提到，我们认为生成的句子是“积极的”。

Results

在这里插入图片描述
我们比较了转移前的DCC（无转移）到delta转移的DCC(∆T)和直接转移的DCC(DCC)。我们还与另一个有竞争的标题生成模型(LRCN)进行了比较。我们用f1分数来衡量模型在生成的句子中插入新单词的能力。我们还报告了Bleu-1和流星，这表明了整体的句子质量。DCC成功地融入了新单词，提高了句子的质量。（在%中显示的值）

为了说明我们的模型最适合哪些词，我们在表2中报告了单个对象的f1分数。我们将该模型与一个用图像-句子对进行训练的模型进行了比较。对于所有的对象，DCC都能够组成包含该对象的句子。
在这里插入图片描述
我们比较了使用不同的未配对图像和文本数据集对词汇分类器和语言模型进行预训练的效果。正如预期的那样，当使用域MSCOCO数据来训练词汇分类器和语言模型时，我们看到了最好的结果，尽管使用域外语料库进行训练是具有可比性的。（在%中显示的值）

可视化

在这里插入图片描述
比较无转移模型、域内训练(MSCOCO)的DCC、域外训练(ImageNet和WebCorpus)以及对所有MSCOCO对象进行配对图像-句子监督训练的模型生成的字幕。DCC能够整合新单词，并生成类似于训练过程中所有对象的配对图像句子时生成的句子。
在这里插入图片描述
DCC能够描述在任何成对的图像-句子数据中都没有提到的Imagenet对象（粗体字），因此不能用现有的深度标题模型来描述。X→Y表示已知的单词X被转移到新的单词Y上。

由DCC生成的四种常见的错误类型。

（video结果未关注）

conclusion

我们提出了深度成分捕获器(DCC)，它可以用来描述新的对象，而不出现在当前的标题副本。我们的定量和定性结果表明，我们的模型能够通过有效地使用现有的视觉数据集和未配对的文本数据，将新的词汇表集成到生成的图像和视频描述中。通过整合来自不同来源的数据和在语义相关概念之间传递知识，DCC通过提供丰富的描述来改进当前的深度标题模型，这些丰富的描述不受成对图像-句子语料库可用性的限制。

Related Work

Deep Captioning

Zero-Shot Learning

Describing New Objects in Context

Isangelaa

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【论文阅读】Deep Compositional Captioning: Describing Novel Object Categories without Paired Training Data

【论文阅读】Deep Compositional Captioning: Describing Novel Object Categories without Paired Training Datamotivationtaskdifficultcontributionmethodexperimentdatasetsimage descriptionvideo descriptionmetricsResults可视化conclusionRelated WorkDeep CaptioningZero-Shot
复制链接

扫一扫