原文链接:https://arxiv.org/abs/2311.07152
1. 引言
目前有很多基于激光雷达与相机融合的3D目标检测方法,但其均违反了一些基本规则,导致其受到过拟合影响。这些方法使用复杂的训练策略进行补偿,但会导致模型陷入局部极小,且需要额外的依赖(如预训练数据集)。
数据集建立时的标注阶段包含两步:首先在图像和激光雷达点云中寻找候选对象,然后根据实例的激光雷达点云生成3D边界框。这个过程需要遵循两个规则:
- 图像需要与激光雷达点云结合来寻找所有可能的候选对象并确定其类别;
- 当点云对定位边界框的边界来说足够完整时,3D边界框的生成仅依赖于点云。
规则2则说明边界框的标注是有优先级的,因为点云的几何信息精准而图像的深度估计模糊。违反此规则,引入图像特征进行边界框回归,会导致过拟合。
本文将检测过程视为标注过程,建立DAL,并使用最经典的组件和最简单的训练方式。此外,考虑到速度分布的不均衡,本文提出速度增广策略以减轻这一问题。
实验表明,本文方法有较高的性能和更好的速度精度平衡。
3. 将检测视为标注
本文的方法流程如上图所示,遵循密集到稀疏的范式。图像特征 F I ∈ R N × C ′ × H × W F_I\in\mathbb{R}^{N\times C'\times H\times W} FI