论文链接:<Detecting Visual Relationships>
主要任务:Visual Relationships Detection
主要思想:
由于每种关系之中的视觉外观的高度多样性和大量视觉短语的存在,作者认为传统的将Visual Relationships Detection视为一个分类问题(每种类型的关系(sit)或每个视觉短语(preson-ride-horse))的方法面临着巨大的困难:
(1)、使用视觉短语作为类别,会面临着大量的类别需要识别
(2)、使用每种类型的关系作为类别,会增加每个类别内部的多样性
同时,物体的类别和关系之间有着很强的统计相关性,但object并不是relationship的额外特征,relationship也不是object的特征。为此,作者根据object和relationship之间的统计相关性设计了一个框架,利用物体与关系之间的空间形态和统计相关性来解决上述问题。
论文笔记:
(1)、论文框架
给定一幅图像,首先经过一个object detector模块检测出所有的object。然后对于每对object,提取对应的local regions和spatial masks,再加上每个object的appearance features送进DR-Net,联合所有特征之后输出每个triplet的概率。
(2)、假设一张图像中检测出n个物体,理论上有n(n-1)个object pair,但这其中有许多的object pair显然是不可能的,论文就使用了一个简单的神经网络作为filter来过滤一些不可能的object关系。
(3)、Spatial Configurations
这一模块的设计思路是:两个物体之间的关系也反映在他们之间的Spatial Configurations上,例如他们的相对位置和相对大小。作者使用两个二进制的mask来实现,框架如下:
(4)、 Statistical Relations
物体之间的关系与物体有很强的相关性,这一点在论文<Neural Motifs: Scene Graph Parsing with Global Context>中作者使用了大量实验进行了证明。
(5)、Integrated Prediction
文章采用一个名为DR-Net的网络结构来关联之前我们得到的信息:
在给定object和subject的情况下,关系r的后验概率定义为:
其中,ls和lo是subject和object的one-hot编码 。