CenterNet-Objects as Points

CenterNet-Objects as Points

说明:本文是对原论文的部分翻译,翻译了主要也是必要的部分,其他的细节请查看:https://arxiv.org/pdf/1904.07850.pdf 为了避免误解,翻译过程中有争议或者自我感觉翻译不太好的地方都直接用原文代替了,在一些部分也加入了自己的理解。翻译的目的是为了提高自己的翻译能力,并且我需要用到它,希望也能对大家有用。

摘要

目标检测将物体识别为图片中矩形框。大多数成功的目标检测方法会列举出详尽的潜在物体位置列表,并对这些位置进行分类。这种方法浪费且低效,且需要额外的后期处理。在这篇文章中,我们采用了不同的方法。我们把物体模拟为一个单纯的点——即物体包围框的中心点。我们的检测器使用关键点估计来找到中心点并且回归出其他所有的物体属性,比如大小,3D位置,方向甚至姿态。我们这个基于中心点的检测方法(CenterNet)是 end-to-end differentiable , 比基于边界框的检测器更简单,更快,更精确。CenterNet MSCOCO 数据集上实现了最好的速度-精确度权衡。在142FPS速度下有28.1%AP;52FPS下有37.4%AP;1.4FPS下有45.1%AP。我们使用同样的方法去估计 KITTI 基准中 3D 边界框以及 COCO 关键点数据集上的人类姿态。结果显示我们的方法能够实时运行且能够与复杂的多阶段方法媲美。

1. 引言

目标检测支持许多视觉任务,比如实力分割,姿态估计,tracking 和动作识别。它在监控,自动驾驶和视觉问题的回答方面都有 down-stream applications 。当前的目标检测器通过紧密包围物体的且与坐标轴对齐的边界框来表示物体。然后他们将目标检测简化为对图像中大量潜在边界框的图像分类任务。对每个边界框,分类器会确定框中内容是背景还是特定的对象。One-stage 检测器滑动遍历图像上的可能有物体的边界框(称为锚框)并且在不指定框内容的情况下直接对它们进行分类。Two-stage检测器重新计算每个潜在边界框的图像特征,然后对这些特征进行分类。Post-processing(也就是非最大值抑制),then removes duplicated detections for the same instance by computing bounding box IoU。这种后处理很难differentiate以及训练,因此大多数当前的检测器不能端到端训练。然而,在过去5年里,这些想法已经取得了很好的实验性成功。然而这种基于滑动窗口的目标检测器实在是有点浪费,因为他们需要列举出所有可能的物体位置和尺寸。

图1:实时检测器在COCO验证集上的速度-精度平衡。CenterNet优于一系列目前最先进的算法。

在这片文章中,我们提供了一个更简单更有效的替代方案。我们用边界框中心的一个点来表示对象(如图2)。其他的一些属性,比如物体大小、尺寸、3D范围、方向和姿态,则直接从中心位置的图像特征进行回归。这样目标检测就变成一个标准的关键点估计问题。我们只需要将图像输入到一个 会生成热图的 全卷积网络中即可。热图中峰值对应原图片中那些目标的中心。每个峰值处对应的图像特征预测处物体的边界框高度和宽度。这个模型使用标准的密集监督学习进行训练。整个推理过程是一个单网络的前向传递,没有对post-processing的非最大值抑制。

图2:我们将对象建模为边界框的中心点。边界框和其他的属性是从中心点的对应的特征推断而来。

<
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值