论文:论文链接
基本思想
<Visual Relation Detection with Multi-Level Attention>这篇论文,完成的是Visual Relation Detection这一任务,作者认为,与物体相关的多个线索有助于Visual Relation Detection,在论文中,作者将这些线索分为:appearances, spacial locations and semantic meanings。作者认为,appearances笼统的将边界框提取特征,无法捕获到两物体之间的显著区域。论文研究的问题是如何关注到物体之间对应关系的显著区域以获得更具代表性的appearances,并将这些线索有效的结合起来。论文的目标检测和特征提取阶段使用Faster RCNN和VGG16网络,论文的网络结构如下:
主要贡献:
(1)、提出了MLA-VRD模型,改进了不同类型线索之间的组合方式,用于视觉检测。
(2)、多阶段注意提取显著通道和显著区域,以更好的表示appearances,多线索注意动态的聚焦不同线索之间的组合方式,以更有效地组合各种线索。
(3)、大量实验证明了方法的有效性。
论文笔记
(1)、不同的线索可以帮助Visual Relation Detection任务
(2)、appearances cue捕捉object和subject及其surrounding contexts的表象,通常是区分不同视觉关系的重要线索。而对于如"on"等位置关系,spatial cue通常更有帮助;对于具有相似语义的两个物体,如“horse”和“elephant”,发生在“horse”上的relation,如"ride",通常也可迁移到另一对象“elephant”上。
(3)、以往的研究中,通常直接将这三种线索简单的连接起来,然而对于不同类型的关系,三种线索的侧重应该不同。为了改进以往方法的不足,论文提出了:
①、 better appearance feature representation with multi-stage appearance attention
②、better way to combine three types of cues with multi-cue attention
接下来介绍多阶段注意和多线索注意两个模块:
(4)、 the multi-stage appearance attention(多阶段注意)
这一模块包括低层次的 channel-wise attention和高层次的spatial attention,前者的目标是通过focusing on informative channels,以增强图像的特征表示;后者的的目标是学习代表关系的显著性区域。
(5)、Channel-wise Attention
这一模块简单来说就是将全图特征压缩为一个通道的特征,假设压缩前特征U的维度为(W,H,C),压缩后的h维度为C,具体计算方式如下:
而后经过如下计算:
得到Channel-wise Attention后的特征(式中W1维度为(c/4,c),W2维度为(c,c/4),4是论文设置的数,无特殊含义)。
(6)、Spatial Attention
这一模块的思路是论文<Show,Attend and tell>的经典思路,附上论文链接:<show,attend and tell>
目的是对特征图的每个像素生成一个对应的权重,计算公式如下:
这里的h代表的是object的特征图, h∈ (C′ ,H′ ,W′),其中,fe是全连接层,W3是可训练权重矩阵,采用这个公式的意义为:Spatial Attention初始权重e的值,由object,subject,和图像特征h共同决定。而后进行softmax标准处理等操作。
(7)、Multi-cue Attention(多线索注意)
在多阶段注意模块中,我们提取到了appearances cue,接下来是spatial cue,作者使用object和subject之间的相对位置偏移(Δx,Δy)和 height/width偏移(Δw,Δh)以及物体与原图的尺寸比例Δa来表示spatial cue:
以Δs和Δo分别表示subject和object的spatial cue,得到spatial cue的计算方法:
其中,fl是全连接层。
至于semantic cue,论文中也只是简单的提及,使用word2vec编码后经过fc层,个人感觉意义就是对不同的物体添加语义联系。
经过上述阶段,我们得到了ca作为 appearance,cl作为spatial,cs作为semantic,得到计算公式如下:
其中,i的取值范围{a,l,s},Gi的维度(N,L),N是所需要预测的谓词的所有类别数,L是ci特征的维度,该公式代表不同线索的权值β,由谓词类别和该线索本身共同决定。最终用以分类的谓词得分如下:
(8)、loss
这个公式很好理解,最大化预测正确的概率(+P),最小化预测错误的概率(-P)。
实验结果
才疏学浅,欢迎各位大佬批评指正!