Segmentation Is All You Need

Segmentation Is All You Need

文章翻译自ICCV2019《Segmentation Is All You Need》
作者:Zehua Cheng YuxiangWu Zhenghua Xu Thomas Lukasiewicz WeiyangWang
论文链接:https://arxiv.org/pdf/1904.13300v3.pdf

摘要:区域提议机制对于现有的深度学习方法进行图像对象检测至关重要。尽管它们通常在正常情况下可以实现良好的检测性能,但在极端情况下的召回率很低,令人无法接受。这主要是因为边界框注释包含很多环境噪声信息,并且需要非最大抑制(NMS)来选择目标框。因此,在本文中,我们提出了第一个无锚和无NMS的对象检测模型,称为弱监督多模态注释分割(WSMA-Seg),该模型利用分割模型无需NMS即可实现准确而强大的对象检测。在WSMA-Seg中,提出了多模态注释,以使用弱监督边界框实现实例感知分割。我们还开发了一种基于运行数据的跟踪算法来跟踪对象的轮廓。此外,我们提出了一种多尺度合并分段(MSP-Seg)作为WSMA-Seg的基础分段模型,以实现更准确的分段并提高WSMA-Seg的检测准确性。在多个数据集上的实验结果表明,提出的WSMA-Seg方法优于最新的检测器。

1、引言
图像中的目标检测是计算机视觉中研究最广泛的任务之一[1,2]。 解决该任务的现有深度学习方法(例如,R-CNN [3]及其变体[4、5、1])主要依靠区域提议机制(例如,区域提议网络(RPN))来生成潜在的边界框 图像,然后对这些边界框进行分类以实现对象检测。 尽管此类机制通常在正常情况下可以实现良好的检测性能,但在极端情况下(例如,复杂的遮挡(图1(a)),照明不佳(图1(b))和较大的 小物体(图1(c))的比例太低了。
具体来说,通过区域提议机制检测极端情况下的物体会遇到两个挑战:首先,区域提议机制的性能高度依赖于边界框的纯度[6]。 但是,在极端情况下,带注释的边界框通常比正常情况下包含更多的环境噪声。 这不可避免地增加了模型学习的难度,并降低了边界框的置信度,从而削弱了检测性能。 其次,在区域提议机制中使用非最大抑制(NMS)操作通过设置联合交叉点(IoU)阈值来筛选其他边界框来选择目标框。 然而,很难(有时甚至是不可能)找到合适的阈值以适应极端情况下的非常复杂的情况。

在这里插入图片描述
出于此目的,在这项工作中,我们提出了一种弱监督的多模式注释分割(WSMA-Seg)方法,该方法使用分割模型来实现无NMS的准确而鲁棒的对象检测。 它包括两个阶段,即训练和测试阶段。 在训练阶段,WSMA-Seg首先将检测任务中弱监督的边界框注释转换为多通道分段式蒙版,称为多模式注释; 然后,使用多模态注释作为标签来训练分割模型,以学习训练图像的多模态热图。 在测试阶段,基于像素级逻辑运算,将给定测试图像的最终热图转换为实例感知的分割图; 接着进行轮廓追踪操作,以利用分割图产生物体的轮廓。 最后,将对象的边界框创建为其相应轮廓的外接四边形。
WSMA-Seg具有以下优点:(i)作为无NMS的解决方案,WSMA-Seg避免了所有与锚框和NMS相关的超参数; 因此,也避免了上述阈值选择问题。 (ii)通过利用类似分段的多模式注释的拓扑结构可以减轻复杂的遮挡问题; (iii)多模式注释是像素级注释; 因此,他们可以更准确地描述物体并克服上述环境噪声问题。
此外,很明显,所提出的WSMA-Seg方法的性能很大程度上取决于基础分割模型的分割性能。 因此,在这项工作中,我们进一步提出了多尺度合并分段(MSP-Seg)模型,该模型用作WSMA-Seg的基础分割模型,以实现更准确的分割(尤其是在极端情况下,例如非常小的情况下) 物体),因此提高了WSMA-Seg的检测精度。
本文的贡献简述如下:
我们提出了一种弱监督的多模式注释分割(WSMA-Seg)方法,以在不使用NMS的情况下实现准确而强大的目标检测,这是第一种无锚和无NMS的目标检测方法。
我们提出多模式注释,以使用弱监督边界框实现实例感知的分割; 我们还开发了一种基于运行数据的跟踪算法来跟踪对象的轮廓。
我们提出了一种多尺度合并分段(MSP-Seg)模型,以实现更准确的分段并提高WSMA-Seg的检测精度。
我们已经对钢筋头,WIDER Face和MS COCO数据集进行了广泛的实验研究; 结果表明,所提出的WSMA-Seg方法在所有测试数据集上均优于最新的检测器。
2、弱监督多模式注释分割
在本节中,我们介绍使用弱监督多模式注释分段(WSMA-Seg)进行物体检测的方法。 WSMA-Seg通常包括两个阶段:培训阶段和测试阶段。在训练阶段,如图2所示,WSMA-Seg首先将弱监督的边界框注释转换为具有三个通道的像素级分段式蒙版,分别代表内部,边界和内部遮罩信息的边界,产生的注释称为多模式注释;然后,将多峰注释用作标签以训练基础的分割模型,以学习训练图像的相应多模态热图。在测试阶段,如图3所示,我们首先将给定的测试图像发送到训练有素的分割模型中以获得多模态热图。然后,基于像素级逻辑运算将得到的三个热图转换为实例感知的分割图;最后,使用分割图进行轮廓跟踪操作以生成对象的轮廓,然后将对象的边界框创建为其轮廓的外接四边形。本节的其余部分将介绍WSMA-Seg的主要成分。

在这里插入图片描述
2.1生成多峰注释
像素级分割注释比边界框注释更具代表性,因此它们可以解决一些对边界框注释具有挑战性的极端情况。但是,创建设计良好的像素级分割蒙版非常耗时,大约是创建边界框注解的15倍[7]。因此,在这项工作中,我们提出了一种方法,可以自动将边界框注释转换为类似于分段的多模式注释,这是像素级的类似于几何分段的多通道注释。在此,“类似几何分割”是指多峰注解不是严格的分割注解。相反,它们是从简单的几何图形生成的注释,例如边界框的内接椭圆。这是由[8]中的发现所激发的,即分割模型并未充分利用像素级分割信息。因此,我们认为设计良好的像素级细分注释对于实现合理的性能可能不是必不可少的;相反,像素级的几何注释应该足够了。此外,要为图像中的每个对象生成一个边界框,需要一个实例感知的分割。为了实现此目的,多模式注释被设计为具有多个通道以引入其他信息。
具体来说,如图2所示,多峰注解使用三个通道来表示有关内部,边界以及几何内部的边界的像素级蒙版信息。 这三种不同的像素级蒙版生成如下:给定具有边界框注释的图像,我们首先为每个边界框获取一个内接的椭圆,然后通过设置边缘上的像素值来获得内部蒙版(通道0) 将椭圆的内部或内部的像素的值设置为1,然后将其他像素的值设置为0。然后,通过将椭圆的边缘或内部宽度w上的像素的值设置为1来获得边界蒙版(通道1) ,并将其余值设置为0。类似地,通过将椭圆重叠区域的边缘或内部宽度w内的像素值设置为1来生成内部蒙版(通道2)上的边界。
在这里插入图片描述

2.2多尺度池分割
显然,所提出的WSMA-Seg方法的性能很大程度上取决于基础分割模型的分割性能。因此,在这项工作中,我们进一步提出了多尺度合并分段(MSP-Seg)模型,该模型用作WSMA-Seg的基础分段模型,以实现更准确的分段(尤其是在极端情况下,例如,非常小物体),从而提高WSMA-Seg的检测精度。如图4所示,MSP-Seg是Hourglass的改进分割模型[9]。 MSP-Seg的主要改进是在跳过连接上引入了多比例块,对残差块的输出特征图执行多比例池化操作。具体来说,如图5所示,多尺度合并利用大小为1、3、3、5、5和7 7的四个池化内核,同时对跳过连接上的剩余块生成的先前特征图进行平均池化操作。然后,将不同池化通道生成的四个特征图连接起来,以形成一个新的特征图,其通道数是以前的特征图的四倍。在此,为确保四个特征图具有相同的大小,将步幅设置为1,并进行零填充。最后,我们应用1 1卷积来恢复通道数,并应用逐元素加法来合并特征图。如图4所示,通过使用多模式注释作为标签,MSP-Seg被训练为每个图像学习三个热图,分别称为内部热图,边界热图和内部热图上的边界。直观上,多尺度合并能够提高分割精度,因为它可以组合不同尺度的特征以获得更具有代表性的特征图。请注意,作为一种高度精确的细分模型,MSP-Seg可以广泛应用于各种细分任务。
2.3使用分割结果和轮廓跟踪进行目标检测
在获得训练有素的分割模型之后,我们现在能够进行对象检测。 如图3所示,给定测试图像作为分割模型的输入,WSMA-Seg首先生成三个热图,即内部,边界和内部热图上的边界,分别表示为I,B和O。 。 然后将这三个热图转换为二进制热图,将感兴趣区域中的像素值设置为1,其余设置为0。按照[10]中的方法进行此转换。 此外,像素级运算I(B O)用于将三个热图合并为一个实例感知的分割图。
在这里插入图片描述
最后,执行轮廓跟踪操作以使用感知实例的分割图为对象生成轮廓,并且将对象的边界框创建为其轮廓的外接四边形。 跟踪轮廓的一种常规方法是使用基于扫描的跟踪算法[10]。 但是,在具有许多对象的大图像(这在检测任务中很常见)的情况下,基于扫描的跟踪算法非常耗时。
因此,基于[11]中的工作,我们提出了一种改进的基于运行数据的RDB跟踪算法,该算法大大减少了轮廓跟踪操作的时间和存储成本。 RDB跟随算法的伪代码在算法1中显示,示例在图2.3中显示。 与像素跟随算法不同,后者需要扫描整个图像以找到起点并沿顺时针方向跟踪轮廓像素以重复生成结果,RDB跟随算法只需要保存两行像素值并扫描 一次完整的映像,可显着减少内存消耗并提高速度。
在这里插入图片描述
具体来说,RDB遵循算法首先使用空值初始化两个变量ledge和redge,然后从左上角到右下角逐行扫描二进制实例感知分割图,以找到轮廓(第1-3行)。 如果某个像素的值为1,而其左侧像素的值为0,则此像素位于轮廓的左侧,因此将其分配给窗台; 同样,如果像素的值为1
并且其右侧像素的值为0,则此像素位于轮廓的右侧,因此将其分配为红色(第4-9行)。 当找到了窗台和窗台时,我们检查上方是否存在一对let dge和ret dge,它们的x坐标比窗台和窗台的x坐标大/小1。 如果是这样,我们将壁架和红色框添加到与let dge和ret dge相同的轮廓集中; 否则,我们将创建一个新的轮廓集,并在其上添加窗台和底纹(第10-19行)。
3、实验
为了显示我们提出的WSMA-Seg方法在物体检测中的优势,已经对三个基准数据集进行了广泛的实验研究,即Rebar Head3,WIDER Face4和MS COCO数据集5,每个数据集都包含许多极端情况。 WSMA-Seg的重要参数如下:Stack是堆叠的沙漏网络的数量(有关沙漏的更多详细信息,请参见[9]),Base是预定义的基本数字,并且通道数始终是整数 Base的倍数,而Depth是下采样的数量。 茎代表 在1第一个堆栈之前执行三个连续的3×3卷积运算,步幅= 1。
3.1钢筋头部检测
我们首先在钢筋头检测数据集中进行实验,该数据集包含250个训练图像(包括总共30942个钢筋头)和200个测试图像。整个图像的原始分辨率为20002666。在此数据集上执行对象检测非常具有挑战性,因为它仅包含一些训练样本,并且还会遇到非常严重的遮挡情况(请参见图7)。另外,目标钢筋的头部很小:每个盒子的平均面积为7,000像素,仅占整个图像的0.13%。图像的注释也很差,并且具有丰富的照明效果。
选择了两个基于锚的最新模型,即Faster R-CNN [5]和Cascade R-CNN [12]作为基线。表1显示了我们建议的WSMA-Seg的检测性能以及该数据集上的基线。如表1所示,在F1得分方面,我们建议的Stack = 2,Base = 40,Depth = 5的方法在所有解决方案中均实现了最佳性能。此外,WSMA-Seg所需的参数数量远远少于基线(仅Cascade RCNN的1/7和Faster RCNN的1/4),而WSMA-Seg的训练时期数也少于基线基线。因此,我们可以得出结论,与最新的基准相比,WSMA-Seg更简单,更有效,更高效。
在这里插入图片描述
3.2WIDER人脸检测
我们进一步在WIDER人脸检测数据集[13]上进行实验,该数据集包含32、203张图像和393、703张脸。由于比例,姿势和遮挡的高度可变性,该数据集中的面部检测极具挑战性。与其他面部检测数据集相比,WIDER Face导致的检测精度低得多。 WIDER Face根据EdgeBox的检测精度定义了三个难度级别(即,简单,中等和困难)[14]。此外,数据集还将遮挡视为附加属性,并分为三类:无遮挡,部分遮挡和重遮挡。具体地,当遮挡总面部面积的1%至30%时,将面部分类为部分遮挡,并且遮挡面积超过30%的面部分类为重度遮挡。训练集的大小为12879,验证集的大小为3226,测试集的大小为16098。
选择十二种最新方法作为基准,即两阶段CNN,Cascade R-CNN和LDCF + [15],多任务Cascade CNN [16],ScaleFace [17],MSCNN [18],HR [19],人脸R-CNN [20],人脸注意网络[21]和PyramidBox [22]。 以F1分数表示的实验结果如表8所示。结果表明,我们提出的WSMA-Seg在所有三个类别中均优于最新的基准,在Easy,Medium,Easy,Medium和Infrared中分别达到94.70、93.41和87.23。
在这里插入图片描述
3.3、MS COCO检测
最后,我们对MS COCO检测数据集[7]进行了实验研究,MS COCO检测数据集是最流行的大规模检测数据集之一。 我们的结果是通过使用test-dev分割(20k图像)和大量检测方法获得的。 我们构建了包含82081个样本的训练集,包含40137个样本的验证集和包含20288个样本的测试集。 我们使用[7]中使用的指标来表征性能。 定义并描述了四种类型的度量标准,如下所示:
在这里插入图片描述
选择了七个最新解决方案作为基准,表2和表3中显示了四种类型的指标的实验结果。结果表明,我们的WSMA-Seg方法优于所有最新基准 就大多数指标而言,包括最具挑战性的指标,AP,AP,AR1和AR。 对于其他指标,我们提出的方法的效果也很接近达到最佳基准。 这证明所提出的WSMA-Seg方法通常可以实现与没有NMS的最新方法相比,它可以实现更精确,更强大的对象检测。
在这里插入图片描述
4、结论
在这项工作中,我们提出了一种用于图像中物体检测的新方法,称为弱监督多模式注释分割(WSMA-Seg),该方法无锚且无NMS。我们观察到NMS是现有的深度学习方法中图像对象检测的瓶颈之一。在NMS上调整超参数的需求严重阻碍了高性能检测框架的可伸缩性。因此,为了实现WSMA-Seg,我们提出使用多模式注释来实现基于弱监督边界框的实例感知分割,并开发了一种基于运行数据的跟踪算法来跟踪对象的轮廓。此外,提出了一种多尺度合并分段(MSP-Seg)模型作为WSMA-Seg的基础分段模型,以实现更准确的分段并提高WSMA-Seg的检测精度。在多个数据集上的实验结果得出结论,所提出的WSMA-Seg方法优于最新的检测器。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值