原文链接:https://arxiv.org/abs/2311.07152
1. 引言
目前有很多基于激光雷达与相机融合的3D目标检测方法,但其均违反了一些基本规则,导致其受到过拟合影响。这些方法使用复杂的训练策略进行补偿,但会导致模型陷入局部极小,且需要额外的依赖(如预训练数据集)。
数据集建立时的标注阶段包含两步:首先在图像和激光雷达点云中寻找候选对象,然后根据实例的激光雷达点云生成3D边界框。这个过程需要遵循两个规则:
- 图像需要与激光雷达点云结合来寻找所有可能的候选对象并确定其类别;
- 当点云对定位边界框的边界来说足够完整时,3D边界框的生成仅依赖于点云。
规则2则说明边界框的标注是有优先级的,因为点云的几何信息精准而图像的深度估计模糊。违反此规则,引入图像特征进行边界框回归,会导致过拟合。
本文将检测过程视为标注过程,建立DAL,并使用最经典的组件和最简单的训练方式。此外,考虑到速度分布的不均衡,本文提出速度增广策略以减轻这一问题。
实验表明,本文方法有较高的性能和更好的速度精度平衡。
3. 将检测视为标注
本文的方法流程如上图所示,遵循密集到稀疏的范式。图像特征
F
I
∈
R
N
×
C
′
×
H
×
W
F_I\in\mathbb{R}^{N\times C'\times H\times W}
FI∈RN×C′×H×W和点云特征(BEV)
F
P
∈
R
C
′
×
X
×
Y
F_P\in\mathbb R^{C'\times X\times Y}
FP∈RC′×X×Y分别由图像编码器和点云编码器提取。
N
N
N为视图数。然后,使用LSS的方法将图像特征转化到BEV下,与点云特征拼接,并通过残差块预测热图
H
∈
R
C
×
X
×
Y
H\in\mathbb R^{C\times X\times Y}
H∈RC×X×Y,其中
C
C
C为类别数。最后,选择
K
K
K个分数最高的候选对象,模拟数据标注过程中的候选对象生成过程。
稀疏感知阶段,候选对象的点云特征被收集,使用FFN预测回归目标,而此过程不使用图像特征,以防止过拟合。然后,将图像特征(包括BEV特征和原始图像特征,根据物体中心位置获取)与点云特征融合,预测类别。
3.2 训练
加载在ImageNet上预训练的图像主干后,使用nuScenes数据集端到端地训练整个网络。
本文还为图像特征添加辅助分类头以增强图像分支搜索候选对象和区分类别的能力,因为稀疏感知阶段只有被预测的实例被包含在损失计算中,而非所有标注实例。将真实物体中心对应的图像BEV特征取出,通过FFN预测类别并计算损失,与原始的检测损失相加得到总损失。
回归任务中不含图像特征,不仅可以避免性能降低,还使得可以使用更多的图像数据增广。例如,图像的随机缩放不会影响回归目标(也无需相应增广点云),从而可以利用更多的图像数据增广来提高性能。
由于nuScenes数据集的物体速度分布不均衡,大部分物体均为静止的,因此本文通过随机选择静态物体并以预定义的速度调整其点云,来改变速度分布,如下图所示。
4. 实验
4.2 基准结果
本文的方法能超过所有其余方法的性能,且有较高的速度。
4.3 消融研究
实验表明,以激光雷达单一模态方法为基线,直接读取预训练图像主干并训练BEVFusion的性能没有提升。这说明BEVFusion需要复杂的预训练策略。
使用DAL预测流程+辅助分类任务后,能有少量的性能提升,这表明尽管使用了简单的训练流程,本文的方法也能有效利用视觉模态。进一步使用图像缩放数据增广,能大幅提高性能,这是本文方法的另一关键优势。速度增广也能减小速度误差,从而提高性能。
但在BEVFusion的基础上加上辅助分类任务,不会带来性能提升。这可能是因为BEVFusion在特征融合后还通过了BEV编码器,使得特征不再独立。进一步使用大范围的图像缩放增广,性能能达到DAL相当的水平。这是因为这种增广破坏了图像线索与回归任务的联系,迫使模型关注点云线索。这表明,从回归任务中移除图像特征不是“将检测视为标注”的唯一解决方案。再加入速度增广后,BEVFusion的性能略微落后于DAL。这是因为速度增广使得利用点云进行回归更加困难,模型又开始关注图像线索。因此,本文建议在某些极端情况(如点云模态的强增广、图像分支容量增大等)下使用DAL的预测流程,以避免过拟合。
预测流程:增加图像分辨率或图像主干的容量能带来有限的性能提升。因此,使用小主干和低分辨率输入图像已经足够。而对于激光雷达分支,增大主干容量会带来大幅性能提升。
推断延迟分析:由于DAL的回归任务无需图像特征,因此可以使用小图像主干,从而减小图像分支的延迟;对现有的其余方法,则往往需要大型图像主干,会影响其效率。
5. 结论、局限性和未来工作
局限性:DAL中没有考虑超出激光雷达范围的物体。