**Object as Distribution**
摘要:目标检测是视觉场景理解的关键部分。目标在检测任务中的表示方式对注释的效率和可行性,遮挡的鲁棒性,姿势,光照和其他语义不确定性的可视源以及现实应用中的有效性(例如,自动驾驶)都具有重要意义。比较流行的目标表示形式包括2D和3D边界框,多边形,样条线,像素和体素。每种都有自己的优点和缺点。在这项工作中,我们提出了一种新的基于二元正态分布的目标的表示形式。这种基于分布的表示形式具有以下优点:可以可靠地检测高度重叠的目标,并且由于目标边缘的统计表示形式,具有改进下游跟踪和实例分割任务的潜力。我们对该目标检测任务的表示形式进行定性评估,并对其在实例分割任务的基准算法中的使用情况进行定量评估。
1 引言:
50多年来,目标检测一直是计算机视觉领域的主要问题之一[1]。 “目标”及其与场景的关系没有普遍的形式化或定义-这是数学,计算机科学,认知科学和哲学领域广泛研究和讨论的话题。尽一切努力明确定义在视觉场景中成为独特目标意味着什么,很多有价值的语义知识被丢弃了[2]。在计算机视觉中,2D图像空间中的目标已由其2D边界框[3],3D边界框[4],多边形[5],样条线[6],像素[7]和体素[8]定义。每个表示都有基准和最新的算法。从特定应用的实用角度(例如机器视觉)考虑,每种方法都有优点和缺点,它们提供了不同级别的保真度,信息密度和注释成本。
我们提出了一种新的基于**二元正态分布(5个参数)**的表示形式,以替代2D边界框(4个参数)最常用的目标表示形式。如图1所示,这种基于分布的表示形式具有对高重叠目标进行鲁棒性检测的优势。目前尚无成熟的基准方法可用于评估此统计表示形式,因此对于检测任务,我们主要依赖于定性评估。从概念上讲,此表示法的优势在于其着重于目标的中心并不是目标边缘的距离,从而使后者周围不确定。这种强调的结果是,目标跟踪和实例分割的衍生任务可能变得对目标边缘和遮挡伪像的固有时空变化具有更高的鲁棒性。我们基于此统计表示提供了基准实例分割方法,从而激发了进一步利用此表示进行下游分割和跟踪任务的工作。最终,目标检测是感知和视觉场景理解的一般任务的简化。这项工作提出的一个基本问题是边界框是否是现实世界中检测任务中最有用的目标最小化表示形式。
图1:本工作中考虑的目标表示的说明性示例,突出显示了高度重叠的目标的情况以及每种表示对在检测步骤中成功解耦目标的任务的鲁棒性。
2 相关工作:
目标检测:
近年来,卷积神经网络(CNN)在目标检测中已经达到很好的表现[9,10,11]。这些基于CNN的方法可以分为两类:一阶段方法和两阶段方法。诸如YOLO [3]或SSD [11]之类的一阶段方法可以通过下一个工作通过用一次前馈网络直接预测出感兴趣目标的边界框。诸如Faster R-CNN [10]或R-FCN [12]之类的两阶段方法首先生成建议框,然后利用从CNN中提取的区域特征进行进一步细化。这些方法的进一步改进着重于解决各种缺点,例如缺乏对尺度变化的鲁棒性,常常在目标检测基准[13](例如,在COCO目标检测任务[14])上实现最新的性能。
无边界框实例分割:
尽管实例分割已被视为目标检测的一种更高级的形式,但是实例分割的许多最新进展仍然依赖于边界框,例如,[15、16、17、18]涉及到首先用框检测目标,然后使用框作为指导分割每个目标,[19,20]以密集的滑动窗口方式生成建议框掩码。另一方面,无边界框的方法[21、22、23]用类标签和一些辅助信息预测每个图像像素,然后使用聚类算法将像素分组为目标实例。这些方法的主要缺点是辅助信息通常是无法解释的,因此只有生成密集的目标掩码才能获得检测结果,这有时是不必