实例分割的路径聚合网络
0.论文摘要
信息在神经网络中的传播方式至关重要。在本文中,我们提出了路径聚合网络(PANet),旨在增强基于提议的实例分割框架中的信息流动。具体而言,我们通过自底向上的路径增强,在较低层中引入精确的定位信号,从而缩短了较低层与最顶层特征之间的信息路径。我们提出了自适应特征池化,将特征网格与所有特征层级连接起来,使每个层级中的有用信息能够直接传播到后续的提议子网络中。此外,我们还创建了一个互补分支,为每个提议捕捉不同的视角,以进一步提高掩码预测的准确性。这些改进实现简单,仅带来微小的额外计算开销,但却非常有效,使我们的PANet在COCO 2017挑战赛的实例分割任务中获得了第一名,在目标检测任务中获得了第二名,且无需大规模批量训练。PANet在MVD和Cityscapes数据集上也达到了最先进的水平。
1.引言
实例分割是最重要且具有挑战性的任务之一。其目标是预测类别标签和像素级的实例掩码,以定位每张图像中呈现的不同数量的实例。该任务在自动驾驶、机器人技术、视频监控等领域具有广泛的应用价值。
在深度卷积神经网络的帮助下,提出了多个实例分割框架,例如[21, 33, 3, 38],其性能迅速提升[12]。Mask R-CNN [21] 是一个简单而有效的实例分割系统。基于Fast/Faster R-CNN [16, 51],它使用全卷积网络(FCN)进行掩码预测,同时进行边界框回归和分类。为了实现高性能,采用了特征金字塔网络(FPN)[35]来提取网络内的特征层次结构,其中通过横向连接增强的自顶向下路径用于传播语义较强的特征。
近期发布的多个数据集[37, 7, 45]为新算法的设计提供了便利。COCO [37]包含20万张图像,每张图像中捕捉了多个具有复杂空间布局的实例。与之不同的是,Cityscapes [7]和MVD [45]提供了街道场景,每张图像中包含大量交通参与者。这些数据集中出现了模糊、严重遮挡和极小的实例。
在图像分类中设计网络的几项原则同样适用于目标识别。例如,通过简洁的残差连接[23, 24]和密集连接[26]来缩短信息路径并促进信息传播是有效的。此外,通过采用分割-变换-合并策略[61, 6]创建并行路径,增加信息路径的灵活性和多样性也是有益的。
我们的研究发现,当前最先进的Mask R-CNN模型中的信息传播仍有进一步优化的空间。具体而言,低层特征对于大尺寸实例的识别具有帮助,但从低层结构到顶层特征的路径较长,增加了获取精确定位信息的难度。此外,每个候选框的预测基于从某一特征层级池化得到的特征网格,而该层级是启发式分配的。由于其他层级中丢弃的信息可能对最终预测有帮助,这一过程可以进一步改进。最后,掩码预测仅基于单一视角进行,错失了获取更多多样化信息的机会。
基于这些原则和观察,我们提出了PANet,如图1所示,用于实例分割。
图1. 我们框架的示意图。(a) FPN骨干网络。(b) 自底向上的路径增强。© 自适应特征池化。(d) 边界框分支。(e) 全连接融合。注意,为了简洁起见,我们在(a)和(b)中省略了特征图的通道维度。
首先,为了缩短信息路径并利用低层次中存在的精确定位信号增强特征金字塔,我们创建了自底向上的路径增强。事实上,低层特征在[44, 42, 13, 46, 35, 5, 31, 14]等系统中已被使用。但传播低层特征以增强整个特征层次结构用于实例识别的方法尚未被探索。
其次,为了恢复每个提案与所有特征层级之间的断裂信息路径,我们开发了自适应特征池化。这是一个简单的组件,用于为每个提案聚合来自所有特征层级的特征,避免任意分配的结果。通过这一操作,相比[4, 62]中的方法,我们创建了更清晰的路径。
最后,为了捕捉每个提案的不同视角,我们通过引入微小的全连接(fc)层来增强掩码预测,这些层具有与Mask R-CNN最初使用的FCN互补的特性。通过融合这两种视角的预测,信息多样性得以增加,从而生成质量更高的掩码。
前两个组件在目标检测和实例分割中共享,从而显著提升了这两项任务的性能。
通过PANet,我们在多个数据集上实现了最先进的性能。以ResNet-50 [23] 作为初始网络,我们的PANet在单尺度测试下已经在目标检测 [27] 和实例分割 [33] 任务中超越了COCO 2016挑战赛的冠军。需要注意的是,这些先前的结果是由更大的模型 [23, 58] 结合多尺度和水平翻转测试实现的。
我们在COCO 2017挑战赛的实例分割任务中获得了第一名,并在目标检测任务中获得了第二名,且无需进行大批量训练。我们还在Cityscapes和MVD数据集上对我们的系统进行了基准测试,同样取得了顶尖的排名,这表明我们的PANet是一个非常实用且性能卓越的框架。我们的代码和模型将公开提供。
2.相关工作
实例分割
实例分割方法主要分为两大类。最流行的一类是基于候选区域的方法。这类方法与目标检测有很强的关联。在R-CNN [17]中,来自[60, 68]的目标候选区域被输入网络以提取特征进行分类。Fast R-CNN [16, 51]、Faster R-CNN [16, 51]和SPPNet [22]通过从全局特征图中池化特征来加速这一过程。早期的工作[18, 19]将MCG [1]生成的掩码候选区域作为输入来提取特征,而CFM [9]、MNC [10]和Hayder等人[20]则将特征池化与网络结合以加快速度。更新的设计是在网络中生成实例掩码作为候选区域[48, 49, 8]或最终结果[10, 34, 41]。Mask R-CNN [21]是这类方法中的一个有效框架。我们的工作基于Mask R-CNN,并在重要方面对其进行了改进。
另一流派的方法主要基于分割。它们学习了专门设计的变换[3, 33, 38, 59]或实例边界[30],然后从预测的变换中解码出实例掩码。其他流程的实例分割也存在。DIN[2]融合了目标检测和语义分割系统的预测结果。[66, 65]中使用图模型来推断实例的顺序。[53, 50]中利用RNN在每一步提出一个实例。
多层级特征
在图像识别中,使用了来自不同层的特征。SharpMask [49]、Peng等人 [47] 和 LRR [14] 通过融合特征图来实现具有更精细细节的分割。FCN [44]、U-Net [54] 和 Noh等人 [46] 通过跳跃连接融合了来自较低层的信息。TDM [56] 和 FPN [35] 都通过横向连接增强了自上而下的路径,用于目标检测。与 TDM 不同,TDM 使用最高分辨率的融合特征图来池化特征,而 SSD [42]、DSSD [13]、MS-CNN [5] 和 FPN [35] 则将建议分配到适当的特征层进行推理。我们以 FPN 为基线,并对其进行了大幅增强。
ION [4]、Zagoruyko 等人 [62]、Hypernet [31] 和 Hypercolumn [19] 通过拼接不同层的特征网格来提升预测效果。为了获得可行的新特征,需要进行一系列操作,包括归一化、拼接和降维。相比之下,我们的设计则更为简洁。
在[52]中,也采用了融合来自不同源的特征网格的方法。但该方法在不同尺度的输入上提取特征图,然后通过最大操作进行特征融合,以改进从输入图像金字塔中选择特征。相比之下,我们的方法旨在利用单尺度输入下网络内特征层次结构中所有特征层的信息,并实现端到端的训练。
更大的上下文区域
[15, 64, 62] 的方法通过使用中心凹结构对每个提案的特征进行池化,以利用来自不同分辨率区域的上下文信息。从较大区域池化的特征提供了周围环境的上下文信息。PSPNet [67] 和 ParseNet [43] 中使用了全局池化,极大地提高了语义分割的质量。Peng 等人 [47] 也观察到了类似的趋势,他们利用了全局卷积。我们的掩码预测分支也支持访问全局信息,但所采用的技术完全不同。
3.框架
我们的框架如图1所示。为了提升性能,我们进行了路径增强和聚合。通过增强自底向上的路径,使低层信息更容易传播。我们设计了自适应特征池化,使每个提议都能访问所有层级的信息以进行预测。在掩码预测分支中添加了一条互补路径。这种新结构带来了显著的性能提升。与FPN类似,这种改进与CNN结构(如[57, 32, 23])无关。
图1. 我们框架的示意图。(a) FPN主干网络。(b) 自底向上的路径增强。© 自适应特征池化。(d) 边界框分支。(e) 全连接融合。请注意,为了简洁起见,我们在(a)和(b)中省略了特征图的通道维度。
3.1 自底向上路径增强
动机 [63] 中提出的深刻观点指出,高层神经元对整体对象有强烈响应,而其他神经元更可能被局部纹理和模式激活,这体现了在FPN中增加自上而下路径以传播语义强特征并增强所有具有合理分类能力的特征的必要性。
我们的框架通过基于低层模式强响应的传播,进一步增强了整个特征层次结构的定位能力,因为对边缘或实例部分的高响应是准确定位实例的强有力指标。为此,我们构建了一条从低层到高层的干净横向连接路径。这一过程产生了一条“捷径”(图1中的绿色虚线),它由不到10层组成,跨越这些层次。相比之下,FPN中的CNN主干提供了一条长路径(图1中的红色虚线),从低层到最高层需要经过100多层。
增强的自底向上结构 我们的框架首先实现了自底向上的路径增强。我们遵循FPN的定义,将生成具有相同空间尺寸特征图的层归为同一网络阶段。每个特征层级对应一个阶段。我们同样以ResNet [23] 作为基础结构,并使用 { P 2 , P 3 , P 4 , P 5 } \{P_2, P_3, P_4, P_5\} { P2,P3,P4,P5} 表示由FPN生成的特征层级。我们的增强路径从最低层级P2开始,逐步接近P5,如图1(b)所示。从P2到P5,空间尺寸逐渐以2为因子进行下采样。我们使用 { N 2 , N 3 , N 4 , N 5 } \{N_2, N_3, N_4, N_5\} { N2,N