Motion Guided Attention for Video Salient Object Detection

任务描述:

 

1. 存在问题:与静态图像不同,视频中的物体是在运动着的。由于以下原因,如何在视频显著性目标检测中有效地考虑物体的运动是一个关键问题:

(1)视频中的目标显著性不仅取决于目标的外观(包括颜色,纹理和语义),而且还取决于目标在连续帧之间的运动。

(2)物体运动为空间连贯性提供了关键的提示。如,具有相似位移的相邻图像块很可能属于同一前景对象或背景区域。

(3)利用运动提示可以使视频中的显著性物体分割更加容易,因此可以生成更高质量的显著性图。例如,在RGB帧中,背景可能同样包含了具有不通过颜色和纹理的各种内容,而前景(显著性物体)同样可能由具有锋利边缘和不同外观的部分组成。在没有运动提示的情况下,在这样的视频帧中定位和分割完整的显着对象是一项挑战。

2. 解决方案:

(1)文章介绍了一组新颖的运动引导注意力模块,这些模块可以通过运动特征或运动显着性参与并增强显著性物体的外观特征。

(2)文章提出了一种用于视频显著性目标检测的新的网络结构,这一网络由用于在静态图像进行显著性检测的外观分支(appearance branch),用于在光流图像中进行运动性检测的运动分支(motion branch)以及将这两个分支进行连接的注意力模块所组成。

模型方法:

运动引导的注意力模块(Motion Guided Attention):

四种不同类型的MGA模块

本文首先关注如何利用运动信息(motion information)去强化在外观特征(appearance feature)中重要的位置或元素。在这里,作者将外观特征(appearance feature)定义为在外观检测分支(appearance branch)中由一些隐藏层(如ReLU)生成的特征向量。其中,运动信息又可以分为两类:由运动检测分支(motion branch)的最后一层所得到的的运动显著性图,以及在运动检测分支中一些ReLU函数所产生的运动特征。

基于上述定义,作者在这一部分提出了四种不同的注意力模块:

(1)MGA-m

MGA-m注意力模块是一个残差结构,“-m”表示的是该注意力模块输入的运动信息是一张图。其中, �� 代表的是外观特征,而 �� 代表的是运动显著性图。公式一的左边项式是一个简单的基于元素乘的注意力机制,这一项式能够关注显著性物体中运动的一部分,却大大忽视显著性物体中静止的一部分(这是由于运动检测分支上进行的是运动的显著性物体检测任务,它并不关注静止部分,即与背景位移相似的图像部分极有可能被预测0),因此,使它加上 �� 有助于补充那些可能被错误抑制了的显著性物体中的静态部分的特征。

(2)MGA-t

在MGA-m的基础上,本文进一步提出MGA-t,“-t”表示的是该注意力模块输入的运动信息是特征向量。其中, �(.) 代表的是1*1的卷积操作, �� 代表的是运动特征(motion feature)。作者通过添加这一操作来使运动特征(motion feature)和外观特征(appearance feature)进行对齐。

(3)MGA-tm

在MGA-t的基础上,本文进一步提出MGA-tm,“-tm”代表的是从运动检测分支输入到该注意力模块的特征向量首先被转换成一张空间图(spatial map),从而使得运动特征转换成空间权重,从而实现对外观特征的加权。MGA-tm与MGA-t的区别在于,MGA-tm可以被视为空间上的注意力机制(spatial attention),而MGA-t则通过一个三维张量(3D tensor)来同时实现空间和通道上的注意力。这么做的原因是因为,由于运动特征仅仅是用来引导外观特征,而缺乏关于外观的信息,因此不太可能仅通过运动特征去实现通道上的注意力。

(4)MGA-tmc

考虑到在MGA-tm中缺乏与视觉显著性或运动显著性物体紧密相连的对通道进行加权的能力,本文进一步提出MGA-tmc,“-tmc”中的“c”代表的是通道上的注意力。其中, ��′ 代表的是完成空间注意力加权后的外观特征,GAP代表的是全局平均池化层(global average pooling), ℎ(.) 和 ℎ′(.) 都是1*1的卷积操作,C代表的是一个单独的标量,等于Softmax函数输出中的元素数量。MGA-tmc模块首先通过显着运动强调空间位置,然后选择可能以运动参与外观特征(the motion-attended appearance features)为条件对显着性建模的属性,最后添加输入特征作为补充。

网络结构(Network Architecture):

模型结构图

如图所示,模型一共由三个部分组成,外观检测分支(appearance branch),运动检测分支(motion branch)和之前介绍过的运动引导的注意力模块(MGA)所组成。外观检测分支和运动检测分支是一个对称的设计,但是运动检测分支采用了更轻量级的设计,因为光流图像不像RGB图像一样包含丰富的语义与细微的边界。

具体来说,外观检测分支和运动检测分支都由encoder,ASPP和decoder三个模块所组成。

Encoder:Encoder包含了5个层,1个头卷积层(head-convolution)和4个残差层。头卷积层有64个输出通道,kernel size为7*7,stride为2,使用ReLU函数做批标准化(batch normalization)。在外观检测分支中,4个残差层分别包含3,4,23和3个基于残差学习的bottlenecks,并分别具备256,512,1024和2048个输出通道。在运动检测分支中,4个残差层分别包含3,4,6,3个基于残差学习的bottlenecks,并分别具备64,128,256,和512个输出通道。这些残差层的步长被设计为2,2,1,1。因此,encoder将输入图像的空间尺寸缩小为原来的八分之一。

ASPP:ASPP中包含了五个平行的卷积层,分别为1个1*1的卷积层,三个3*3且扩张率为12,24,36的扩张卷积层,以及一个全局平均池化层。这些卷积层得到的结果将进行concat,得到一个特征图。

Decoder:decoder通过将低阶特征与高阶特征融合以恢复特征图的空间尺寸来进行高分辨率的显著性检测,获得精细的物体边缘。由ASPP输出的高阶特征首先由1*1卷积层压缩为256维,同时,由encoder中的residual-1输出的低阶特征同样用1*1卷积层压缩到48维,并与高阶特征进行concat。之后,使用两个3*3的卷积层对混合后的高阶特征与低阶特征进行推理,其输出通道为256维。最后,一个带有Sigmoid函数的1*1卷积用来生成最后的显著性图。

最后,本文使用MGA模块来实现运动检测分支对外观检测分支的引导。每个MGA模块以上一阶段外观检测分支与运动检测分支中卷积层的输出作为输入,并输出被引导后的外观特征,这些外观特征将取代下一阶段外观检测分支的输入,作为新的输入。例如,MGA-0以两个分支中的head-conv的输出作为输入,其输出的外观特征将取代原本作为外观分支中residual-1层的输入(即head-conv直接输出的外观特征),作为新的输入。模型图中蓝色虚线部分是被取代掉的,蓝色虚线连接的两个模块实际并不连通。

多任务训练计划(Multi-task Training Scheme):

最后,文章使用一个多任务训练计划来训练我们提出的运动引导注意网络。首先,本文使用在ImageNet上预训练的ResNet-101 初始化外观检测分支,然后在显著性目标检测数据集上进行微调。其次,我们实施“光流估计”并渲染光流图像。光流图像被计算为从前一帧到当前帧的前向流。第三,使用ImageNet预训练的ResNet-34 模型初始化运动子网,然后在视频显着目标检测数据集中对这些合成的光流图像及其对应的显著性图进行训练。最后,提出的MGA模块将两个分支整合在一起,形成我们提出的网络,该网络通过混合静态图像和视频显著性目标检测数据集进行调整。由于静态图像或视频中第一帧的训练样本没有相应的运动图像,因此我们推测它们的前一帧与自己相同。也就是说,这些样本中的对象没有运动,也没有显著性运动。对于这种情况,我们只需在MGA模块的运动输入中填充零即可。

实验结果:

和state-of-the-art的对比:

消融实验:

文章首先对不同结构设计进行了对比,”appearance branch”代表仅使用外观检测分支进行预测,”motion branch”代表仅使用运动检测分支进行预测,”dual branch+MGA-D”代表使用两个分支进行预测,但只在decoder阶段使用MGA模块,”dual branch+MGA-E”代表使用两个分支进行预测,但只在encoder阶段使用MGA模块。

比较了不同融合方式。

比较了不同MGA模块的效果,”E-*”表示在encoder阶段使用的不同的融合方式,”D-*”表示在decoder阶段使用的不同的融合方式。当验证encoder阶段不同MGA的有效性时,decoder使用MGA-m模块作为基准;当验证decoder阶段不同MGA的有效性时,encoder使用MGA-tmc作为基准。

最后,本文对不同的训练方案进行了验证。

附录:

文中提到了三种不同类型模型的缺陷:

Graph based methods:基于图的方法旨在基于时空连贯性将外观显着性与运动提示相结合,但由于使用手工制作的低层特征和缺乏训练数据挖掘而受到限制。 因此,这种基于图的算法无法自适应地获取复杂场景中运动模式和对象语义的准确特征。 这些方法很难捕捉物体运动和高级语义的对比和独特性。

FCN-based methods:基于完全卷积网络的方法通过简单地将过去的帧或过去的预测显着图与当前帧连接起来,以形成卷积神经网络(CNN)的输入,从而对时间一致性进行建模。 这些基于CNN的方法未采用显式运动估计(例如光流),并且受到来自背景的干扰和混乱背景的影响视频外观。

RNN-based methods:当前,视频显着目标检测的最新结果是通过基于递归神经网络的算法来实现的,该算法利用卷积存储单元(例如ConvLSTM)来聚合远程时空特征 。 这些递归模型中的一些利用流扭曲使先前的特征与当前的特征对齐,但忽略了光流图像中的空间相干性和运动对比度。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

xifenglie123321

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值