现有的图像描述方法要么是自顶向下,从图像的要点开始并将其转换为单词,这类方法很难注意细节;要么是自底向上,提出描述图像各个方面的单词,然后将它们组合起来,这类方法从独立的方面形成句子,缺少端到端形式的训练。人们描述图像时倾向于谈论图像中语义上更重要的区域或目标对象, 因此本文提出了一种新算法,通过语义注意模型将两种方法结合起来,该算法学习选择性地关注语义概念提议(semantic concept proposals)并将它们融合到循环神经网络的隐藏状态和输出中,选择和融合形成了连接自顶向下和自底向上计算的反馈。
模型架构:
系统的主要工作流程由以下等式控制:
首先使用来自分类CNN的中间过滤器的响应来构建全局视觉描述v。CNN的特征只在t=0的时候使用一次,用来初始化x0,为RNN提供图像内容的概述。此外,运行一组属性检测器来获取最有可能出现在图像中的视觉属性或概念列表,每个对应词典中的一个条目。
本文提出了三种不同的获得 attribute 的方法:
1、一种无参数的方法 (k-NN)
我们使用 GoogleNet 得到的feature来评估图像的距离,并使用简单词频(TF)来在检索到的训练图像的ground-truth标题中选择最频繁的单词。通过这种方式,我们可以为每个图像构建一个单词列表,作为检测到的可视属性。
除了检索到的属性外,我们还训练了参数度量模型来提取可视属性。我们首先通过从训练数据的标题中选择最常见的单词来构建一组固定的可视属性。属性被视为一组预定义的类别,可以像传统的分类问题那样学习。
2、有参数模型,trained with ranking-loss (RK)
利用排序损失作为目标函数学习多标签分类器.
3、fully-connected network (FCN).
使用全卷积网络(FCN)从局部中学习attribute。