文章目录
- 论文名称: Every Picture Tells a Story: Generating Sentences from Images
- 论文下载地址
- 论文发表时间及会议:2010年 ECCV
- 这篇文章主要介绍的是基于模板的caption方法。
- 使用的方法是:使用三元组场景元素填充模板槽以生成图像标题。
- 本论文对image Potentials 和 sentence Potentials;node Potentials & Edge Potentials进行了详细的描述。
本文描述了一种可以计算将图像链接到句子的分数的系统。该分数可用于将描述性句子附加到给定图像,或者用于获得说明给定句子的图像。
链接文本和图像的两个applications:
- 1、Illustration(插图):
查找文本建议的图片(也许是建议集合中的插图)- 2、annotation(注释):
为一张图寻找文本注释(为了让关键字能够找到更多的图片)
Approch(方法)
本文的评分系统围绕一个中间表示,我们称之为 The meaning of the image
评估句子和图像的相似性:
(a):句子和图像都映射到Meaning space
(b):比较结果
Mapping Image to Meaning
从图像到Meaning的映射被简化为学习预测图像的三元组。从图像预测三元组的问题涉及求解(最小)多标记马尔可夫随机场(MRF)。
提供了MRF的潜力后,我们使用贪婪的方法进行推理。推理包括在给定一元和二元势的情况下找到离散值集的最佳选择。
三元组的形式:{object,action,sence}
Image Potentials(图像电势)
电势 -->>>> 计算为特征函数的线性组合。
这就把学习问题转化为在特征函数的线性组合上搜索最佳权重的问题,使得ground Truth三元组得分高于任何其他三元组。
Node Potentials(节点电势):
为了提供有关MRF节点的信息,我们首先需要构建图像特征。我们的图像特征包含:
- 1、detector responses
- 2、classification responses
- 3、GIst-based scene classification responses(基于主旨的场景分类):使用 gist 编码全局信息
node features: 首先,我们通过设置一个判别分类器(线性SVM)来构建节点特征,以独立地预测图像特征上的每个节点。虽然分类是独立学习的,但他们很清楚其他对象和场景信息。这是一个节点数维向量,该向量中的每个元素为给定图像的节点提供分数。这可以是对象,动作和场景节点的节点电势。
- 通过匹配图像特征,我们获得训练集中到测试图像的k-最近邻,然后计算从图像侧计算得到的那些节点特征的最近邻的平均值。---->>>>>我们可以得到相似图像的节点特征表示。
- 通过匹配图像特征,我们获得训练集中到测试图像的k-最近邻,然后计算从句子侧计算的那些节点特征的最近邻的平均值。 —>>>>可以获得look like our image 的图像的句子表示。
- 通过匹配从分类器和检测器(上面)派生的那些节点特征,我们获得训练集中到测试图像的k-最近邻,然后计算从图像侧计算的那些节点特征的最近邻的平均值。—>>>>我们可以获得对于产生similiar分类器和检测器输出的图像的节点特征的表示。
- 通过匹配从分类器和检测器(上面)派生的那些节点特征,我们获得训练集中到测试图像的k-最近邻,然后计算从句子侧计算的那些节点特征的最近邻的平均值。—>>>>我们可以获得产生similiar分类器和检测器输出的图像的句子表示。
Edge Potentials(边电势)
大多数边缘的参数的估计是有噪声的。有严重的平滑问题,我们采用类似的Good Turing平滑方法:a)控制参数的数量;b)进行平滑处理。我们对边缘电势有多个估计,如果一起使用可以提供更准确的估计。我们形成这些电势的线性组合。因此,在学习中,我们感兴趣的是找到初始估计的线性组合的权重,使得最终的线性组合势能在MRF上提供值,使得ground truth 三元组是所有示例的最高得分三元组。这样我们将参数的数量限制为初始估计的数量。
- 我们对 Edge 有四种不同的估计。
edge 的最终得分是这些估计的线性组合。
Sentence Potentials(句子电势)
我们通过计算句子和三元组之间的相似性来表示句子。
为此,我们需要在文本中具有对象,场景和动作的相似性概念。
为每个句子生成依赖解析。我们提取了主题,直接对象以及涉及名词和动词的任何nmod依赖关系。这些依赖关系用于生成句子的(object,action)pairs。为了从句子中提取场景信息,我们提取了介词短语的头部名词(介词“of”和“with”除外),以及短语“X in background”的头部名词。
对象和场景的相似性度量
【An information-theoretic definition of similarity】
我们使用该相似性度量方法,确定两个词之间的语义距离。
基于上位词(is-a)和下位词(instance-of)关系,将名词同义词(sysets)排列在层次结构中。
每个synset被定义为具有基于synset或synset的下位词在语料库中发生的频率的信息内容。
两个同义词的相似性被定义为同义词的最小共同祖先的信息内容的两倍除以两个同义词的信息内容的总和。
行为共现分数(Action Co-occurrence Score)
对于所有动词对,我们使用似然比来确定在同一图像的不同字幕中同时出现的两个动词是否显着。然后,我们使用似然比作为正相关动词对的相似性得分,并将似然比的否定作为负相关动词对的相似性得分。通常,我们发现此过程发现的动词要么描述相同的动作,要么描述通常共同发生的两个动作。
节点电势(Node Potentials)
- 首先,我们计算从每个句子中提取的每个对象,场景和动作的相似性。这给了我们对节点上电位的第一估计。我们称之为句子节点特征。
- 对于每个句子,我们还计算描述训练集中相同图像的其他四个句子的句子节点特征的平均值。
- 我们计算给定句子的句子节点特征空间中k个最近邻的平均值。我们认为这是我们对节点的第三次估算。
- 我们还计算与上面步骤中最近邻对应的图像的图像节点特征的平均值。
- 步骤3中最近邻的参考句子的句子节点特征的平均值被认为是我们对节点的第五个估计。
- 我们还包括参考句子的句子节点特征。
Edge potentials
句子边缘的估计与图像的边缘估计相同。
Learning
有两个映射需要学习。
一、从图像空间到meaning空间的映射使用图像电势,
二、从句子空间到meaning空间的映射使用句子电势。
学习从图像到meaning的映射涉及在节点和边缘上的图像电势的线性组合上找到权重,使得对于所有示例,ground truth 三元组在所有其他三元组中得分最高。