https://proceedings.neurips.cc/paper/2019/file/e6e713296627dff6475085cc6a224464-Paper.pdf
参考https://blog.csdn.net/qq_38929105/article/details/119852781
本文通过将问题表述为多实例学习(MIL)任务来解决困难,通过框的扫描线生成正负的bags。提出的深度模型将MIL集成到一个完全监督的实例分割网络中,结果由unary term和pairwise term生成,前者估计每个边界框的前景和背景区域,而后者保持估计的对象掩模的统一性。
Introduction
对实例分割的介绍。。
基于cnn的方法需要大量具有实例级像素级注释的训练图像。昂贵的注释成本限制了实例分割的适用性。
Simple Does It: Weakly Supervised Instance and Semantic Segmentation[17]不是端到端训练,它利用GrabCut[18]和MCGproposals[19]编制pseudo gt(伪标签),然后学习完全监督模型进行分割。
本文提出了一个使用带有边界框注释的训练数据学习模型进行实例分割,采用端到端训练,将MIL 整合到全监督中,而且在推断过程无proposal,加快了分割速度。
主要受到了从边界框(Image segmentation with a bounding box prior. In ICCV, 2009.)[20]中推断出的紧密性先验的启发,一个对象实例应该触摸其边界框的四个边,设计了MIL公式集成到实例分割网络中,MIL训练数据包括positive and negative bags。下图
一个正bag含至少一个正实例,而一个负bag只包含负实例
边界框内的垂直或水平交叉线会产生一个正bag,因为它必须覆盖至少一个属于该对象的像素。不通过任何边界框的水平或垂直线形成一个负bag
虽然这里的示例bag可视化为矩形,但它们仅供说明目的。在实践中,它们是具有1像素高度/宽度的水平/垂直线。
使用DenseCRF来精细化mask
Related work
Weakly supervised instance segmentation.
很少有基于深度学习的方法使用弱注释来进行实例分割,只有[17]是第一个也是唯一一种基于cnn的方法,它使用盒级监督训练数据进行实例分割。然而,他们的两阶段方法并不能进行端到端训练.
Method
Overview
数据集: D = ( I n , B n ) n = 1 N D = ( In , Bn ) ^N_{n=1} D=(In,Bn)n=1N
N是数量, I n I_n In是第n个图像, B n B_n Bn是 I n I_n In的annotation, I n I_n In里有 K n K_n Kn个box
annotations: B n =