知乎原文:https://zhuanlan.zhihu.com/p/378269087
其他解读 https://blog.csdn.net/weixin_43823854/article/details/116051388
分割高度重叠的物体具有挑战,不同于以往的two-stage,讲图像建模成两个重叠层的组合,提出了BCNet。顶部GCN层检测遮挡对象,底部GCN层推断部分遮挡实例。
在one-stage 和two-stage 目标检测 中 使用不同的backbone和网络层上 验证了双层解耦的有效性。
我们注意到,大多数增量改进来自于更好的backbone主干架构设计,很少关注从目标检测中获得ROI(感兴趣区域)特征后的实例掩码回归。
两个图像层的重叠部分表示遮挡体的不可见区域,这是由我们的遮挡感知BCNet框架明确建模的。
以前的方法通过非最大抑制或附加的后处理来解决相邻对象之间的掩码冲突,因此,它们的结果沿着边界过度光滑,或者在相邻物体之间显示出很小的间隙。
我们使用了GCN,因为GCN可以考虑像素之间的非局部关系,允许在遮挡区域存在的情况下跨像素传播信息。
目标检测使用了FCOS,因为它具有高效的内存和运行时间,当然其他先进主流的也可以使用。
我们还贡献了第一个大规模的遮挡感知实例分割数据集,具有groundtruth,完整的对象轮廓遮挡和部分遮挡对象
我们的双层方法可以顺利集成到最先进的端到端训练分割框架。
结构
- 采用Resnet-50/101及FPN(特征金字塔)作为backbone,对输入图像进行特征提取;
- 用FCOS作为目标检测,预测ROI的坐标(x,y,w,h)
- 使用RoI Align算法根据物体检测框位置,在整张图片特征图内准确抠取感兴趣目标区域的特征子图,并将其作为双图卷积神经网络的输入用于最终的物体分割。
- 用来mask prediction 的双层GCN,第一层输出遮挡物体的边界和掩膜(mask),第二层特征子图与第一个图卷积网络中最后一层卷积后的特征相加
工作流程
给定一张图片,经过backbone+fpn提取特征,经过FCOS得到bbox以及class,然后使用ROI crop,将crop后的ROI feature送入BCNet进行mask的预测,第一个GCN层同时检测occluder的contour以及mask,来建模occludr区域,然后与ROI feature进行element-wise add 残差,第二个GCN通过occlusion-aware feature进行指导,同时输出部分occlude的contour和mask。
————————————————
原文链接:https://blog.csdn.net/weixin_43823854/article/details/116051388
具体算法:
最近,图卷积网络(GCN)[27]被用于图像[11,62,36]和视频[54]中的远程关系建模。对于高度重叠的对象,遮挡器可以将属于同一部分遮挡对象的像素分割成不相交的子区域。因此,我们采用GCN作为我们的基本块,因为GCN具有非局部性质[53],其中每个图节点代表feature map上的单个像素。为了明确地建模遮挡的区域,我们进一步将单个GCN块扩展到如图4所示的双层GCN结构,它在一个单一的通用框架中构建了两个正交图。
以下部分为Non-local Neural Networks相关知识,使用Non-Local自注意力模型,
文中的公式:
Z = σ ( A X