DETR3D

引言

从视觉信息中检测 3D 对象是低成本自动驾驶系统的长期挑战。 虽然使用 LiDAR 等模式收集的点云中的对象检测受益于有关可见对象的 3D 结构的信息,但基于相机的设置更加不适定,因为我们必须仅根据 RGB 中包含的 2D 信息生成 3D 边界框预测 图片。
现有方法 [1, 2] 通常完全从 2D 计算构建检测管道。 也就是说,他们使用为 2D 任务设计的对象检测管道(例如,CenterNet [1]、FCOS [3])来预测 3D 信息,如对象姿态和速度,而不考虑 3D 场景结构或传感器配置。 这些方法需要几个后处理步骤来融合跨相机的预测并去除冗余框,从而在效率和有效性之间进行权衡。
作为这些基于 2D 的方法的替代方法,一些方法通过应用 3D 重建方法(如 [4, 5, 6])将更多 3D 计算合并到我们的对象检测管道中,以从相机图像创建场景的伪 LiDAR 或范围输入 . 然后,他们可以将 3D 对象检测方法应用于这些数据,就像直接从 3D 传感器收集一样。 然而,这种策略会受到复合误差的影响 [7]:深度值估计不足对 3D 对象检测的性能有强烈的负面影响,这也可能表现出其自身的误差。
在本文中,我们为自动驾驶提出了 2D 观察和 3D 预测之间更优雅的过渡,它不依赖于密集深度预测的模块。 我们的框架称为 DETR3D(多视图 3D 检测),以自上而下的方式解决了这个问题。 我们通过几何反投影将 2D 特征提取和 3D 对象预测与相机变换矩阵联系起来。 我们的方法从一组稀疏的对象先验开始,在整个数据集中共享并端到端学习。 为了收集特定场景的信息,我们将从这些对象先验解码的一组参考点反向投影到每个相机,并获取由 ResNet 主干 [8] 提取的相应图像特征。 从参考点的图像特征收集的特征然后通过多头自注意力层相互交互[9]。 在一系列自注意力层之后,我们从每一层读取边界框参数,并使用受 DETR [10] 启发的 set-to-set 损失来评估性能。
我们的架构不执行点云重建或图像的显式深度预测,使其对深度估计中的错误具有鲁棒性。 此外,我们的方法不需要任何后处理,例如非最大抑制(NMS),提高了效率并减少了对手工设计的清洁输出方法的依赖。 在 nuScenes 数据集上,我们的方法(没有 NMS)与现有技术(有 NMS)相当。 在相机重叠区域,我们的方法明显优于其他方法。

• 我们提出了一个基于RGB 图像的流线型3D 对象检测模型。 与在最后阶段结合来自不同相机视图的对象预测的现有工作不同,我们的方法在每一层计算中融合来自所有相机视图的信息。 据我们所知,这是第一次尝试将多相机检测转换为 3D 集到集预测。
• 我们引入了一个模块,该模块通过向后几何投影连接 2D 特征提取和 3D 边界框预测。 它不会受到来自辅助网络的不准确深度预测的影响,并且通过将 3D 信息反向投影到所有可用帧上来无缝使用来自多个摄像头的信息。
• 与Object DGCNN [11] 类似,我们的方法不需要后处理,例如每个图像或全局NMS,它与现有的基于NMS 的方法相当。 在相机重叠区域,我们的方法明显优于其他方法。
• 我们发布代码以促进可重复性和未来研究。

相关工作

二维物体检测。 RCNN [12] 率先使用深度学习进行目标检测。 它将一组预先选择的对象提议输入卷积神经网络 (CNN) 并相应地预测边界框参数。 尽管这种方法表现出惊人的性能,但它比其他方法慢一个数量级,因为它为每个对象提议执行 ConvNet 前向传递。
为了解决这个问题,Fast RCNN [13] 引入了一个共享的可学习 CNN,以在一次前向传递中处理整个图像。 为了进一步提高性能和速度,Faster RCNN [13] 包括一个区域提议网络 (RPN),该网络与检测网络共享全图像卷积特征,从而实现几乎免费的区域提议。 Mask RCNN [14] 结合了一个掩码预测分支来实现并行实例分割。 这些方法通常涉及多阶段改进,在实践中可能会很慢。 与这些多阶段方法不同,SSD [15] 和 YOLO [16] 在单次拍摄中执行密集预测。 尽管它们比上述替代方案快得多,但它们仍然依靠 NMS 来去除冗余框预测。 这些方法预测边界框 w.r.t. 预定义的锚点。 CenterNet [1] 和 FCOS [3] 通过从按锚点预测转变为按像素预测改变了范式,显着简化了常见的对象检测管道。
基于集合的对象检测。 DETR [10] 将目标检测作为一个集合到集合的问题。 它使用 Transformer [9] 来捕捉特征和对象的交互。 DETR 学习将预测分配给一组真实值框; 因此,它不需要后处理来过滤掉多余的框。 然而,DETR 的一个关键缺点是它需要大量的训练时间。 Deformable DETR [17] 分析了 DETR 的缓慢收敛,并提出了一个可变形的自注意力模块来定位特征并加速训练。 同时,[18] 将 DETR 的缓慢收敛归因于基于集合的损失和 Transformer 交叉注意机制。 他们亲提出两个变体,TSP-FCOS 和 TSP-RCNN,以克服这些问题。 SparseRCNN [19] 将集合预测合并到 RCNN 风格的管道中; 它优于没有 NMS 的多阶段目标检测。 OneNet [20] 研究了一个有趣的现象:基于密集的目标检测器在配备了最低成本的集合损失后可以使它们无 NMS。 对于 3D 域,Object DGCNN [11] 研究了点云中的 3D 对象检测。 它将 3D 对象检测建模为动态图上的消息传递,将 DGCNN 框架概括为预测一组对象。 与 DETR 类似,Object DGCNN 也是无 NMS 的。
单目 3D 对象检测。 从 RGB 图像进行 3D 检测的一种早期方法是 Mono3D [21],它使用语义和形状线索从 3D 建议集合中进行选择,在训练时使用场景约束和其他先验。 [22] 使用鸟瞰图 (BEV) 进行单目 3D 检测,而 [23] 通过最小化 2D-3D 投影误差,利用 2D 检测进行 3D 边界框回归。 使用 2D 检测器作为 3D 计算的起点最近已成为一种标准方法 [24, 25]。 其他工作还探索了可微渲染 [26] 或 3D 关键点检测 [27, 28, 1] 的进步,以实现最先进的 3D 对象检测性能。 所有这些方法都在单目设置中运行,并且通过在后处理阶段合并输出之前独立处理每一帧来完成对多个相机的扩展。

方法

我们的架构输入从一组投影矩阵(内在和相对外在的组合)已知的相机中收集的 RGB 图像,并为场景中的对象输出一组 3D 边界框参数。 与过去的方法相比,我们基于一些高级需求来构建我们的架构: • 我们将 3D 信息合并到我们架构内的中间计算中,而不是在图像平面中执行纯 2D 计算。
• 我们不估计密集的 3D 场景几何形状,从而避免了相关的重建错误。
• 我们避免后处理步骤,例如 NMS。
我们使用新的集预测模块来解决这些需求,该模块通过在 2D 和 3D 计算之间交替来链接 2D 特征提取和 3D 框预测。 我们的模型包含三个关键组件,如图 1 所示。首先,遵循 2D 视觉中的常见做法,它使用共享的 ResNet [8] 主干从相机图像中提取特征。 或者,这些特征通过特征金字塔网络 (FPN) [29] (§3.2) 得到增强。 其次,检测头(第 3.3 节)——我们的主要贡献——以几何感知方式(第 3.3 节)将计算出的 2D 特征与一组 3D 边界框预测联系起来。 检测头的每一层都从一组稀疏的对象查询开始,这些查询是从数据中学习的。 每个对象查询都编码一个 3D 位置,投影到相机平面并用于通过双线性插值收集图像特征。 与 DETR [10] 类似,我们然后使用多头注意力 [9] 通过合并对象交互来细化对象查询。 该层重复多次,在特征采样和对象查询细化之间交替。 最后,我们评估一个 set-to-set 损失 [30, 10] 来训练网络(第 3.4 节)。

结论

我们提出了一种新范式来解决从 2D 图像中恢复 3D 信息的不适定逆问题。 在这种情况下,输入信号缺乏模型进行有效预测的必要信息,而无需从数据中学习先验。 而其他方法要么仅对2D 计算或使用额外的深度网络来重建场景,我们的在 3D 空间中运行,并根据需要使用反向投影来检索图像特征。 我们的方法有两个好处:(1)它消除了对中间层表示(例如,预测深度图或点云)的需要,这可能是复合误差的来源; (2) 它通过将相同的 3D 点投影到所有可用帧上来使用来自多个摄像机的信息。
除了将我们的工作直接应用于自动驾驶的 3D 物体检测之外,还有几个值得未来调查的领域。 例如,单点投影在检索到的图像特征图中创建了一个有限的感受野,并且为每个对象查询采样多个点将包含更多用于对象细化的信息。 此外,新的检测头与输入无关,包括 LiDAR/RADAR 等其他模式将提高性能和鲁棒性。 最后,将我们的管道推广到其他领域,如室内导航和对象操作,将扩大其应用范围,并揭示进一步改进的其他方法。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值