Categorial Depth Distribution Network for Monocular 3D Object Detection翻译

最新推荐文章于 2023-06-17 10:54:48 发布

zzzzz忠杰

最新推荐文章于 2023-06-17 10:54:48 发布

阅读量567

点赞数

分类专栏：笔记文章标签：目标检测 3d 计算机视觉

本文链接：https://blog.csdn.net/weixin_43889128/article/details/121785388

版权

笔记专栏收录该内容

75 篇文章 3 订阅

订阅专栏

摘要

与典型的多传感器系统相比，单目三维目标检测是自主车辆的一个关键问题，因为它提供了一种配置简单的解决方案。
单目3D检测的主要挑战在于准确预测对象深度，由于缺乏直接的距离测量，因此必须从对象和场景线索推断对象深度。许多方法试图直接估计深度以辅助3D检测，但由于深度不准确，性能有限。我们提出的解决方案，分类深度分布网络（CaDDN），使用预测的每个像素的分类深度分布，将丰富的上下文特征信息投影到三维空间中适当的深度间隔。然后，我们使用计算效率高的鸟瞰投影和单级检测器来产生最终的输出检测。我们将CaDDN设计为一种完全可微的端到端方法，用于联合深度估计和目标检测。我们在KITTI 3D目标检测基准上验证了我们的方法，我们在已发布的单目方法中排名第一。我们还提供了最新发布的Waymo开放数据集上的第一个单目3D检测结果。我们为CaDDN提供了一个代码版本，可在此处使用。

引言

3D空间中的感知是自动车辆和机器人等领域的关键组成部分，使系统能够了解其环境并做出相应反应。激光雷达[21,50,51]和立体[46,45,28,11]传感器在3D感知任务中有着悠久的使用历史，由于能够生成精确的3D测量，因此在3D对象检测基准（如KITTI 3D对象检测基准[16]）上显示出优异的结果。
基于单目视觉的3D感知同时得到了发展，其动机是一种低成本、易于部署的单摄像机解决方案[9,40,5,22]。由于场景信息投影到图像平面时会丢失深度信息，因此与激光雷达和立体方法相比，在相同的3D对象检测基准上的性能明显滞后。
为了消除这种影响，单目目标检测方法[13,36,37,59]通常通过在单独阶段训练单目深度估计网络来明确学习深度。然而，深度估计在3D对象检测阶段直接使用，而不了解深度置信度，这导致网络在深度预测方面往往过于自信。深度上的过度自信是一个长期的问题[59]，这会导致本地化较差。此外，在训练阶段期间，深度估计与3D检测分离，防止深度图估计针对检测任务进行优化。
图像数据中的深度信息也可以通过直接将特征从图像转换到三维空间并最终转换到鸟瞰图（BEV）网格来隐式学习[48,44]。然而，隐式方法往往会受到特征涂抹的影响，其中类似的图像特征可能存在于投影空间中的多个位置。特征涂抹增加了在场景中定位对象的难度。
为了解决这些问题，我们提出了一种单目3D目标检测方法CaDDN，该方法通过学习分类深度分布来实现精确的3D检测。通过利用概率深度估计，CaDDN能够以端到端的方式从图像生成高质量的鸟瞰特征表示。我们用三个方面来总结我们的方法。
（1） 分类深度分布。为了进行三维检测，我们预测像素分类深度分布，以便在三维空间中准确定位图像信息。
每个预测分布描述了像素属于一组预定义深度单元的概率。我们鼓励我们的分布在正确的深度箱周围尽可能清晰，以鼓励我们的网络更加关注深度估计准确可靠的图像信息[23]。通过这样做，我们的网络能够产生对3D检测有用的更清晰、更准确的特征（见图1）。另一方面，当深度估计置信度较低时，我们的网络保持产生不太尖锐分布的能力。使用分类分布允许我们的特征编码捕获固有的深度估计不确定性，以减少错误深度估计的影响，这一特性在第4.3节中被证明是CaDDN改进性能的关键。我们预测的深度分布的清晰度是通过对正确的深度箱进行一次热编码来鼓励的，该深度箱可以通过将激光雷达深度数据投影到相机帧中来生成。
（2） 端到端深度推理。我们以端到端的方式学习深度分布，共同优化精确的深度预测以及精确的3D对象检测。我们认为，联合深度估计和3D检测推理鼓励针对3D检测任务优化深度估计，从而提高性能，如第4.3节所示。
（3） BEV场景表示。我们介绍了一种利用分类深度分布和射影几何从单个图像生成高质量鸟瞰场景表示的新方法。我们之所以选择bird’seye-view表示，是因为它能够以高计算效率产生出色的3D检测性能[26]。生成的鸟瞰视图表示用作基于鸟瞰视图的检测器的输入，以生成最终输出。
在KITTI 3D物体检测测试基准[1]的汽车和行人类别中，CaDDN在所有先前发布的单目方法中排名第一，其裕度分别为1.69%和1.46%AP | R 40。我们是第一个在Waymo开放数据集上报告单目3D目标检测结果的公司[56]。

相关工作

单目深度估计。通过为图像中的每个像素生成单个深度值来执行单目深度估计。因此，许多人都是单眼的深度估计方法基于经过深入研究的像素到像素映射问题（例如语义分割）中使用的架构。例如，全卷积网络 (FCN) [34] 被引入用于语义分割，随后被用于单目深度估计 [25]。多孔空间金字塔池化 (ASPP) 模块也首先在 DeepLab [8, 7, 6] 中被提出用于语义分割，随后在 DORN [15] 和 BTS [27] 中用于深度估计。此外，许多方法以端到端的方式联合执行深度估计和分割 [63, 66, 58, 14]。我们遵循语义分割网络 DeepLabV3 [6] 的设计来估计图像中每个像素的分类深度分布。
BEV 语义分割。 BEV 分割方法 [42, 49] 试图从图像中预测 3D 场景的 BEV 语义图。图像可用于直接估计 BEV 语义图 [39, 35, 60] 或估计 BEV 特征表示 [44, 47, 41] 作为分割任务的中间步骤。特别是，Lift, Splat, Shoot [44] 以无监督的方式预测分类深度分布，以生成中间 BEV 表示。在这项工作中，我们通过使用地面实况 one-hot 编码的监督来预测分类深度分布，以生成更准确的目标检测深度分布。单目 3D 检测。单目 3D 对象检测方法通常会生成中间表示以协助 3D 检测任务。基于这些表示，单目检测可以分为三类：直接、基于深度和基于网格的方法。
直接方法。直接方法 [9, 52, 4, 32] 直接从图像估计 3D 检测，而不预测中间 3D 场景表示。相反，直接方法 [53、12、40、3] 可以结合 2D 图像平面和 3D 空间之间的几何关系来辅助检测。例如，可以在图像平面上估计对象关键点，以帮助使用已知几何结构的 3D 框构建 [33, 29]。 M3D-RPN [3] 引入了深度感知卷积，将输入逐行划分并学习每个区域的非共享内核，以学习与 3D 空间中的区域相关的特定位置特征。可以对场景中的对象执行形状估计，以创建对 3D 对象几何形状的理解。形状估计可以从 3D CAD 模型的标记顶点 [5, 24]、激光雷达扫描 [22] 或直接从输入数据以自我监督的方式 [2] 进行监督。直接方法的一个缺点是直接从 2D 图像生成检测，而无法访问明确的深度信息，这通常会导致相对于其他方法的定位性能降低。
基于深度的方法。基于深度的方法执行使用逐像素深度图作为附加输入的 3D 检测任务，其中使用单目深度估计架构预先计算深度图 [15]。估计深度图可与图像结合使用以执行 3D 检测任务 [38、64、36、13]。或者，深度图可以转换为 3D 点云，通常称为 Pseudo-LiDAR [59]，它们要么直接使用 [61, 65]，要么结合图像信息 [62, 37] 生成 3D 对象检测结果。基于深度的方法在训练阶段将深度估计与 3D 对象检测分开，从而导致学习用于 3D 检测任务的次优深度图。
对于属于感兴趣对象的像素，应该优先考虑准确的深度，而对于背景像素则不太重要，如果深度估计和对象检测是独立训练的，则不会捕捉到这一特性。
基于网格的方法。基于网格的方法通过预测 BEV 网格 [48, 55] 表示来避免估计原始深度值，用作 3D 检测架构的输入。
具体而言，OFT [48] 通过将体素投影到图像平面并采样图像特征来填充体素网格，以将其转换为 BEV 表示。多个体素可以投影到同一个图像特征上，导致沿着投影射线的重复特征和降低检测精度。
CaDDN 通过以端到端的方式联合执行深度估计和 3D 对象检测来解决所有已识别的问题，并利用深度估计生成具有准确和局部特征的有意义的鸟瞰图表示。
方法
CaDDN 通过将图像特征投影到 3D 空间来学习从图像生成 BEV 表示。然后使用高效的 BEV 检测网络使用丰富的 BEV 表示执行 3D 对象检测。 CaDDN 架构的概述如图 2 所示。
3.1 3D表示学习
我们的网络学习生成非常适合 3D 对象检测任务的 BEV 表示。以图像作为输入，我们使用估计的分类深度分布构建一个截锥体特征网格。使用已知的相机校准参数将视锥体特征网格转换为体素网格，然后折叠为鸟瞰特征网格。
Frustum 特征网络 截头体特征网络的目的是通过将图像特征与估计深度相关联，将图像信息投影到 3D 空间中。
具体来说，截头体特征网络的输入是图像 I ∈ R W I ×H I ×3 ，其中 W I , H I 是图像的宽度和高度。输出是一个平截头体特征网格 G ∈ RWF ×HF ×D×C ，其中 WF , HF 是图像特征表示的宽度和高度，D 是离散深度 bin 的数量，C 是特征通道的数量 . 我们注意到平截头体网格的结构类似于立体 3D 解构中使用的平面扫描体积检测方法 DSGN [11]。
ResNet-101 [17] 主干用于提取图像特征 F̃ ∈ R W F ×H F ×C（参见图 2 中的图像主干）。在我们的实现中，我们从 ResNet-101 主干的 Block1 中提取图像特征，以保持高空间分辨率。高空间分辨率对于有效的视锥体到体素网格的转换是必要的，这样可以在没有重复特征的情况下对视锥体网格进行精细采样。
图像特征 F̃ 用于估计像素级分类深度分布 D ∈ R W F ×H F ×D ，其中类别是 D 离散化深度箱。具体来说，我们为图像特征 F̃ 中的每个像素预测 D 个概率，其中每个概率表示网络对深度值属于指定深度 bin 的置信度。深度块的定义依赖于第 3.3 节中讨论的深度离散化方法。
我们遵循语义分割网络 DeepLabV3 [6] 的设计，从图像特征 F̃（图 2 中的深度分布网络）估计分类深度分布，我们修改网络以生成属于深度 bin 的像素级概率分数，而不是而不是具有下采样-上采样架构的语义类。图像特征 F̃ 使用 ResNet-101 [17] 主干（Block2、Block3 和 Block4）的其余组件进行下采样。一个atrous空间金字塔池化[6]（ASPP）模块被应用于捕获多尺度信息，其中输出通道的数量设置为D。ASPP模块的输出通过双线性插值被上采样到原始特征大小以产生分类深度分布 D ∈ RWF ×HF ×D 。对每个像素应用 softmax 函数，将 D logits 归一化为 0 到 1 之间的概率。
在估计深度分布的同时，我们对图像特征 F̃ 执行通道缩减（图 2 中的 Image Channel Reduce）以生成最终的图像特征 F，使用 1x1 卷积 + BatchNorm + ReLU 层将通道数从 C = 256 减少到 C = 64。需要减少通道以减少将在 3D 截锥体网格中填充的 ResNet-101 特征的高内存占用。
让 (u, v, c) 表示图像特征 F 中的坐标，而 (u, v, di ) 表示分类深度分布 D 中的坐标，其中 (u, v) 是特征像素位置，c 是通道索引， di 是深度 bin 索引。
为了生成平截头体特征网格 G，每个特征像素 F(u, v) 由其在 D(u, v) 中的关联深度 bin 概率加权，以填充深度轴 di，如图 3 所示。特征像素可以通过以下方式加权使用外积的深度概率，定义为：
公式1
其中 D(u, v) 是预测的深度分布，G(u, v) 是大小为 D × C 的输出矩阵。为每个像素计算公式 1 中的外积以形成截锥体特征 G ∈ RWF ×HF × D×C 。
视锥体到体素变换。视锥体特征 G ∈ RWF ×HF ×D×C 被转换为体素表示 V ∈ RX×Y ×Z×C，利用已知的相机校准和可微采样，如图 4 所示。体素采样点 s vk = [x, y , z] Tk 在每个体素的中心生成并变换到截锥体网格以形成截锥体采样点 s̃ fk = [u, v, dc ] Tk ，其中 dc 是沿截锥体深度轴 di 的连续深度值。使用相机校准矩阵 P ∈ R 3×4 执行转换。使用第 3.3 节中概述的深度离散化方法将每个连续深度值 dc 转换为离散深度 bin 索引 d i。 G 中的视锥体特征使用采样点 s fk = [u, v, d i ] Tk 和三线性插值（图 4 中的蓝色显示）进行采样，以填充 V 中的体素特征。
为有效变换，截头体网格 G 和体素网格 V 的空间分辨率应该相似。高分辨率的体素网格 V 会导致高密度的采样点，这将对低分辨率的平截头体网格进行过采样，从而导致大量相似的体素特征。因此，我们从 ResNet-101 主干的 Block1 中提取特征 F̃，以确保我们的视锥体网格 G 具有高空间分辨率。
体素折叠为 BEV。体素特征 V ∈ R X×Y ×Z×C 被折叠到单个高度平面以生成鸟瞰图特征 B ∈ R X×Y ×C 。 BEV 网格大大减少了计算开销，同时提供了与 3D 体素网格 [26] 相似的检测性能，促进了它们在我们的网络中的使用。我们沿着通道维度 c 连接体素网格 V 的垂直轴 z 以形成 BEV 网格 B̃ ∈ R X×Y ×Z∗C 。使用 1x1 卷积 + BatchNorm + ReLU 层减少通道数（参见图 2 中的 BEV Channel Reduce），它在学习每个高度切片的相对重要性的同时检索原始通道数 C，从而得到 BEV 网格 B ∈ RX×Y ×C 。
3.2 BEV 3D 目标检测
为了在 BEV 特征网格上执行 3D 对象检测，我们采用了完善的 BEV 3D 对象检测器 PointPillars [26] 的主干和检测头，因为它已被证明可以以低计算开销提供准确的 3D 检测结果。对于 BEV 主干，我们将下采样块中的 3x3 卷积 + BatchNorm + ReLU 层的数量从原始 PointPillars [26] 中使用的 (4, 6, 6) 增加到 Block1, Block2 的 (10, 10, 10)，和 Block3 分别。增加卷积层的数量可以扩展我们的 BEV 网络的学习能力，这对于从图像产生的较低质量特征中学习比最初由 LiDAR 点云产生的高质量特征很重要。我们使用与 PointPillars [26] 相同的检测头来生成我们的最终检测。
3.3深度离散化
连续深度空间被离散化，以定义深度分布 D 中使用的 D 个区间集。
深度离散化可以通过具有固定 bin 大小的均匀离散化 (UD)、在对数空间中增加 bin 大小的间隔增加离散化 (SID) [15] 或线性增加 bin 的线性增加离散化 (LID) [57] 来执行尺寸。深度离散化技术如图 5 所示。我们采用 LID 作为我们的深度离散化，因为它为所有深度提供了平衡的深度估计 [57]。 LID 定义为：
公式2
其中 d c 是连续深度值，[d min , d max ] 是要离散化的完整深度范围，D 是深度 bin 的数量，d i 是深度 bin 索引。
3.4深度分布标签生成
我们需要深度分布标签 D̂ 来监督我们预测的深度分布。深度分布标签是通过将 LiDAR 点云投影到图像帧中以创建稀疏密集图来生成的。执行深度补全 [20] 以在图像中的每个像素处生成深度值。我们需要每个图像特征像素的深度信息，因此我们将尺寸 W I × H I 的深度图下采样到图像特征尺寸 W F × H F 。使用第 3.3 节中描述的 LID 离散化方法将深度图转换为 bin 索引，然后转换为 one-hot 编码以生成深度分布标签。 one-hot 编码确保深度分布标签清晰，这对于通过监督鼓励我们深度分布预测的清晰性至关重要。
3.5训练损失
通常，分类是通过预测分类分布并鼓励分布的锐度来执行的，以便选择正确的类别 [19]。在监督深度分布网络时，我们利用分类来鼓励单个正确的深度箱，使用焦点损失 [30]：
公式3
其中 D 是深度分布预测，D̂ 是深度分布标签。我们发现自动驾驶数据集包含的图像对象像素少于背景像素，导致损失函数在所有像素损失均等加权时优先考虑背景像素。我们将焦点损失 [30] 权重因子 α 设置为前景对象像素的 α fg = 3.25 和背景像素的 α bg = 0.25。前景对象像素被确定挖掘为位于 2D 对象边界框标签内的所有像素，背景像素都是剩余像素。我们设置焦点损失 [30] 聚焦参数 γ = 2.0。
我们使用来自 PointPillars [26] 的分类损失 L cls 、回归损失 L reg 和方向分类损失 L dir 进行 3D 对象检测。我们网络的总损失是深度和 3D 检测损失的组合：
公式4

实验

为了证明 CaDDN 的有效性，我们展示了 KITTI 3D 对象检测基准 [16] 和 Waymo 开放数据集 [56] 的结果。
KITTI 3D 物体检测基准 [16] 分为 7,481 个训练样本和 7,518 个测试样本。训练样本通常按照[10]分为训练集（3,712个样本）和验证集（3,769个样本），这里也采用。我们通过在训练集和验证集上训练我们的模型，将 CaDDN 与测试集上的现有方法进行比较。我们通过仅在训练集上训练我们的模型来评估消融的 val 集。
Waymo 开放数据集 [56] 是最近发布的自动驾驶数据集，它由 798 个训练序列和 202 个验证序列组成。这数据集还包括 150 个没有地面实况数据的测试序列。该数据集使用多相机装备在完整的 360 度视野中提供对象标签。我们只使用前置摄像头，并且只考虑前置摄像头视野 (50.4 ◦ ) 中的对象标签来执行单目对象检测任务，并提供验证序列的结果。由于大数据集大小和高帧率，我们从训练序列中每 3 帧采样一次以形成我们的训练集（51,564 个样本）。
输入参数。体素网格由 3D 空间中的范围和体素大小定义。在 KITTI [16] 上，我们使用 [2, 46.8] × [−30.08, 30.08] × [−3, 1] (m) 作为范围，使用 [0.16, 0.16, 0.16] (m) 作为体素大小分别为 x、y 和 z 轴。在 Waymo 上，我们使用 [2, 55.76] × [−25.6, 25.6] × [−4, 4] (m) 作为范围，使用 [0.16, 0.16, 0.16] (m) 作为体素大小。此外，我们将 Waymo 图像下采样到 1248 × 832。
训练和推理细节。我们的方法在 PyTorch [43] 中实现。该网络在 NVIDIA Tesla V100 (32G) GPU 上进行训练。 Adam [18] 优化器的初始学习率为 0.001，并使用单周期学习率策略 [54] 进行修改。我们在 KITTI 数据集 [16] 上训练模型 80 次，在 Waymo 开放数据集 [56] 上训练 10 次。我们对 KITTI [16] 使用 4 的批量大小，对 Waymo 使用 2 的批量大小。
值 λ depth = 3.0, λ cls = 1.0, λ reg = 2.0, λ dir = 0.2 用于等式 4 中的损失权重因子。我们采用水平翻转作为我们的数据增强，并为所有类别训练一个模型。在推理过程中，我们过滤框得分阈值为 0.1，应用非极大值抑制 (NMS)，IoU 阈值为 0.01。
4.1KITTI 数据集结果
KITTI 数据集 [16] 上的结果使用平均精度 (AP| R 40 ) 进行评估。评估按难度设置（简单、中等和困难）和对象类别（汽车、行人和骑自行车的人）分开。 Car 类的 IoU 标准为 0.7，而 Pedestrian 和 Cyclist 类的 IoU 标准为 0.5，其中 IoU 标准是被视为真阳性检测的阈值。
表 1 显示了 CaDDN 在 KITTI [16] 测试集上的结果与最先进的已发表单目方法相比，按中等难度设置下 Car 类的性能排名顺序列出。我们注意到我们的方法在 AP| 上大大优于以前的单帧方法。在简单、中等和困难难度下，汽车类的 R 40 分别为 +2.40%、+1.69% 和 +1.29%。此外，CaDDN 的排名高于多帧方法 Kinematic3D [4]。我们的方法也优于先前在 Pedestrian 类 MonoPair [12] 上的最先进方法，并且在 AP| 上有边距 R 40 为 +2.85%、+1.46% 和 +1.23%。我们的方法在 Cyclist 类中获得第二名，并在 AP| 上有优势。相对于 MonoPSR [22]，R 40 为 -1.37%、-1.33% 和 -0.38%。
4.2Waymo数据集结果
我们采用官方发布的评估来计算Waymo开放数据集上的平均精度（mAP）和按航向加权的平均精度（mAPH）[56]。评估由难度设置（1级、2级）和距离传感器的距离（0-30米、30-50米和50米-∞). 我们以0.7和0.5的IoU标准评估车辆等级。
据我们所知，没有任何单目方法报告Waymo的结果。为了提供基线，我们扩展了M3D的官方实现-RPN[3]支持Waymo开放数据集[56]。表2显示了Waymo验证集上M3D-RPN[3]基线和CaDDN的结果。在IoU标准为0.7的情况下，我们的方法明显优于M3D-RPN[3]，AP/APH的利润率分别为+4.69%/+4.65%和+4.15%/+4.12%。
4.3消融研究
我们在网络上提供烧蚀研究，以验证我们的设计选择。结果如表3和表4所示。
深度分布的锐度。Ta中的实验1-表3显示了当沿深度轴di重复图像特征F填充平截头体特征G时的检测性能。实验2添加了深度分布预测D，分别对图像特征F进行加权，从而使AP | R 40上的性能在轻松、中等和困难程度上分别提高了+1.50%、+0.77%和+0.46%。一旦在实验3中加入深度分布监控，验证其包含性，性能将大大提高（+10.40%，+7.60%，+6.54%）。深度分布监控的增加鼓励清晰准确的分类深度分布，这鼓励图像信息定位在三维空间中，其中深度估计既准确又可靠。鼓励在正确的深度箱周围保持锐度，可在BEV投影中获得位置独特且易于识别的对象特征（见图1）。
用于深度分布估计的对象权重。
表3中的实验1、2和3对深度损失函数L depth中的所有像素使用固定损失加权因子α=0.25。实验4显示，在分别为前景对象和背景像素设置深度损失权重αfg=3.25/αbg=0.25后，改善（+0.67%，+1.07%，+0.91%）（参见第3.5节）。设置更大的前景对象权重因子αfg有助于对对象像素的深度估计进行优先排序，从而对对象进行更精确的深度估计和定位。
线性递增离散化。表3中的实验5显示，当使用LID（见第3.3节）而不是均匀离散化时，检测性能提高（+3.17%，+1.21%，+1.09%）。我们将性能提高归因于LID在所有深度提供的准确深度估计[57]。
联合深度理解。表4中的实验1、2和3分别显示了从BTS[27]、DORN[15]和CaDDN进行单独深度估计时的检测性能。BTS[27]和DORN[15]的深度图使用第3.3节中概述的LID离散化转换为深度面元指数，并转换为一次热编码以生成深度分布D。一次热编码在生成平截头体特征G时，将图像特征放置在由输入深度贴图指示的单个深度单元。我们构建了CaDDN的等效版本，该版本为每个像素选择单个深度单元，通过为D中的每个分布选择概率最高的箱子。实验4表明，当联合执行深度估计和目标检测时，性能提高（+2.97%，+1.45%，+1.86%），这是由于端到端学习对3D检测的众所周知的好处。
分类深度分布。表4中的实验5使用了平截头体特征计算G=D中的全深度分布D⊗ F、导致业绩明显增长（+2.96%，2.60%，1.88%）。我们把这一表现归因于-
4.4深度分布不确定性
为了验证我们的深度分布包含有意义的不确定性信息，我们计算了D中每个估计的分类深度分布的Shanon熵。我们用其相关的地面真实深度箱和前景/背景分类标记每个分布。
对于每个组，我们计算熵统计，如图6所示。我们观察到熵通常随着深度的增加而增加，深度估计具有挑战性，这表明我们的分布描述了有意义的不确定性信息。我们的网络在地面真实深度约为6米的像素处产生最低的分布熵。我们将深度小于6米处的高熵归因于训练集中较短范围内的少量像素。最后，我们注意到前景深度分布估计的熵略高于背景像素，这一现象也可归因于训练集不平衡。

结论

我们提出了CaDDN，一种新的单目3D目标检测方法，可以估计每个像素的精确分类深度分布。深度分布与图像特征相结合，生成保留深度可信度的鸟瞰视图表示，用于三维目标检测。我们已经证明，以正确的深度值为中心估计尖锐的分类分布，并联合执行深度估计和对象检测对于3D对象检测性能至关重要，从而在提交时在KITTI数据集[1]中排名第一。

zzzzz忠杰

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Categorial Depth Distribution Network for Monocular 3D Object Detection翻译

与典型的多传感器系统相比，单目三维目标检测是自主车辆的一个关键问题，因为它提供了一种配置简单的解决方案。单目3D检测的主要挑战在于准确预测对象深度，由于缺乏直接的距离测量，因此必须从对象和场景线索推断对象深度。许多方法试图直接估计深度以辅助3D检测，但由于深度不准确，性能有限。我们提出的解决方案，分类深度分布网络（CaDDN），使用预测的每个像素的分类深度分布，将丰富的上下文特征信息投影到三维空间中适当的深度间隔。然后，我们使用计算效率高的鸟瞰投影和单级检测器来产生最终的输出检测。我们将CaDDN设计为一
复制链接

扫一扫