【论文阅读】MaskFlownet: Asymmetric Feature Matching With Learnable Occlusion Mask

2020CVPR

动机

特征扭曲是光流估计的核心技术; 然而,扭曲过程中由遮挡区域引起的模糊性是一个尚未解决的主要问题。(a)图像扭曲导致遮挡区域的模糊性。(b)在特征扭曲过程中也存在同样的问题。这些区域可以在没有任何明确监督的情况下被掩盖。

基于卷积神经网络的深度学习,特征形变(feature warping)是其中最关键的一步。原始图像与目标图像首先通过同一个特征提取器得到不同层级的特征图,为了找到原始特征图与目标特征图之间的对应关系,特征形变将目标特征图通过当前预测的流场形变到与原始特征图相似的位置,再通过互相关层得到局部区域内两两像素之间的相关程度。然而,形变后的特征图同样在遮挡区域留下了歧义与无效信息,会干扰特征匹配的结果,这也是光流问题中尚未解决的主要问题之一。

本文提出一种可学习遮挡掩模(learnable occlusion mask)的非对称特征匹配模块,不需要任何显式的监督信息就可以预测遮挡区域、过滤特征形变带来的无效信息。如图1,目标图像通过流场形变之后,可学习遮挡掩模预测的遮挡(黑色)区域准确地过滤了重影部分的干扰信息,得到了干净的掩模图像(masked image)。在这个简单的例子中就可以看到,原始图像与目标图像并非完全对等——后者在形变之后产生了重影,需要利用掩模信息进行过滤。

可学习遮挡掩模的非对称特征匹配模块可以轻松结合到任何已有的基础网络上,通过端到端的方式自动学习到遮挡掩模,仅仅引入可忽略不计的额外计算量就可以显著提升网络的表现。

学习到的掩模可以和形变图像一起送入之后的级联网络中,进一步提升网络的整体表现。我们在 MPI Sintel、KITTI 2012 和 KITTI 2015 的光流数据集上都做了算法评测,截至投稿时间,均达到所有不使用额外信息的公开方法中最好的结果。

贡献

  • 提出了一个非对称遮挡感知特征匹配模块,它可以学习一个粗糙的遮挡掩码,在没有任何显式监督的情况下,在特征扭曲后立即过滤无用(遮挡)区域。
  • 所提出的模块可以很容易地集成到端到端网络架构中,并在引入可忽略的计算成本的同时享受性能提升。 学习到的遮挡掩码可以进一步输入到具有双特征金字塔的后续网络级联中,从而实现最先进的性能。
  •  MaskFlownet,超过了 MPI Sintel、KITTI 2012 和 2015 基准上所有已发布的光流方法。

总结

改进自PWC-net ,采用了非对称的、结合遮挡掩膜的匹配代价容量计算。做匹配代价容量计算时,应当排除那些在一帧中被遮挡的像素。同时,由于第二帧的特征经过了映射,破坏了匹配的对称性,因此,在匹配前,对映射后的第二帧的特征再插入若小运算量的可变卷积(deformable convolution),并加入一个前层网络预测的遮挡掩膜,再和第一帧的特征进行匹配。这个做法显著地提高了 PWC-net 的效果。模块可以很容易地集成到端到端网络架构中,计算量可忽略同时提升性能。学习到的遮挡掩码可以进一步输入到具有双特征金字塔的后续网络级联中,从而达到SOTA。

 
 

方法

整体架构。MaskFlownet由两个阶段组成——第一个端到端网络MaskFlownet-s(左)和第二个级联网络(右),目的是使用双金字塔进行细化。金字塔上的虚线表示共享的权重。mask流量网通常利用尽可能的所提出的AsymOFMM。可学习的遮挡掩模是粗到细的预测,并输入到新的遮挡感知特征金字塔。

一种简化的遮挡情况。根据所示的流程,将顶部图像扭曲到底部图像。前景对象(阴影区域)生成一个较大的位移(由红线跟踪),而背景则保持静止(由蓝线跟踪)。然而,一个前景物体的副本在扭曲后仍然停留在被遮挡的区域。

功能匹配模块。图说明了提出的AsymOFMM和OFMM与FMM的比较。FMM用流位移φ扭曲目标特征映射。OFMM引入了乘法可学习遮挡掩模θ,然后采用加性权衡项µ.AsymOFMM进一步用可变形卷积取代了翘曲操作。

每个级别的网络连接。此图采用了第一阶段(MaskFlownet-S)。可学习的遮挡掩模通过前一级的s型激活生成,然后上采样并输入AsymOFMM。

图2:可学习遮挡掩模的非对称特征匹配模块(AsymOFMM)

可学习遮挡掩模的非对称特征匹配模块的结构如图2所示。首先我们非对称地引入了变形卷积(deformable convolution),即在根据当前流场对目标特征图进行形变的同时做一次额外的卷积,目的在于打破原始特征图与目标特征图的对称性。此时,网络预测的可学习遮挡掩模作用在形变后的特征图上(相乘),过滤重影现象带来的干扰信息,得到掩模特征图。最后,由于遮挡区域原本携带的信息在过滤之后有所缺失,因此需要与一个权衡项相加作为弥补,而这个权衡项,也是无监督学习到良好掩模的关键。

从图3中的对比可以看出,该模块不需要任何额外的监督信息就可以学习到反映真实遮挡区域的掩模。

图3:可学习遮挡掩模与遮挡区域真值(取反)对比

在该模块的基础上,我们还提出了可以充分利用掩模信息的双特征金字塔级联网络结构,进一步提升整个网络的表现。结合以上模块设计的MaskFlownet 的整体结构如图4所示。

图4:MaskFlownet 完整网络结构

实验

表1:总体实验结果

我们在 MPISintel、KITTI 2012 和 KITTI 2015 数据集上进行了广泛的实验。表1总结了我们的方法与其它方法相比的总体表现。其中,MaskFlownet-S 不使用级联部分、以 PWC-Net 为基础网络,仅仅将所有特征匹配部分替换为我们提出的可学习遮挡掩模的非对称特征匹配模块,就在所有数据集上都取得了实质性的提升。MaskFlownet 则进一步受益于级联网络,在所有测试集上都取得了所有方法中的最佳结果。

表2:不同特征匹配模块之间的对比

表3:对称与非对称卷积的对比

表2证明了可学习遮挡掩模的非对称特征匹配模块相对于普通设计的优越性。表3证明了增加一个对称的额外卷积层(sym-conv)对结果的影响并不显著,而简单的非对称设计就可以带来明显的提升。我们在实验中发现,经过非对称卷积的目标特征与原始特征的确可以学习到完全不同的特征表示进而从中受益,如图5所示。

图5:特征图中的非对称性

表4:掩模与权衡项的作用

表5:级联与双特征金字塔的作用

表4说明了掩模与权衡项需要同时存在才会提升网络的表现。一个可能的解释是,只有质量良好的掩模才可以帮助特征匹配,而缺少权衡项将会导致网络无法学习到质量良好的掩模,如图6所示。表5证明了级联网络与双特征金字塔结构的作用。

图6:有无权衡项(右上无,右下有)所学习到的掩模对比

结论

提出了可学习遮挡掩模的非对称特征匹配模块,该模块可以被轻松结合到端到端的基础网络中,不需要任何额外数据就可以学习到遮挡区域,并且能显著改进光流预测的结果。

凭借其整体表现的优越性、不带来额外计算开销的便捷性、无需遮挡区域真值的普遍适用性、以及独立于基础网络的一般性,期望该模块可以在光流预测与特征匹配任务中得到广泛的应用。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值