原文链接:https://arxiv.org/abs/2408.07999
简介:自动驾驶中准确检测遮挡或远处物体(称为弱正样本)较为困难,这是因为查询初始化时过度依赖置信度热图,导致了高虚警率并掩盖了弱检测。本文提出Co-Fix3D,使用BEV表达的协同混合多阶段并行查询生成机制。模型包含局部-全局特征增强(LGE)模块,以细化BEV特征,从而更有效地突出弱正样本。使用离散小波变换(DWT)进行定位区域的噪声抑制和特征细化,并引入注意力机制以优化全局BEV特征。此外,LGE的多阶段并行也增加了BEV查询,从而增大了选中弱正样本的概率。实验表明,Co-Fix3D在nuScenes数据集上实现了SotA性能。
1. 概述
Co-Fix3D包含点云模态和多模态版本,对于点云版本,使用3D主干处理并压缩高度得到BEV特征 F L i D A R ∈ R H × W × 4 C F_{LiDAR}\in\mathbb R^{H\times W\times 4C} FLiDAR∈RH×W×4C,将通道维度减少到 C C C后,得到初始BEV特征 F 0 F_0 F0;对于多模态版本,使用2D主干和LSS得到图像的BEV特征 F C a m e r a ∈ R H × W × C F_{Camera}\in\mathbb R^{H\times W\times C} FCamera∈RH×W×C,随后进行特征融合得到初始BEV特征 F 0 F_0 F0。 F 0 F_0 F0会在LGE模块中被优化,生成BEV热图 H ∈ R H × W × c H\in\mathbb R^{H\times W\times c} H∈RH×W×c,其中 c c c为类别数。
本文使用多阶段方法生成查询,并使用掩膜机制逐步过滤每个阶段,使得并行的LGE模块受不同的真值监督。掩膜 M ∈ { 0 , 1 } H × W × 1 M\in\{0,1\}^{H\times W\times 1} M∈{ 0,1}H×W×1被初始化为全1。第 i i i阶段中,选择热图的前 k k k个值,并将掩膜中相应位置 ( w , h ) (w,h) (w,h)和类别 c c c的值 M i ( w , h , c ) M_i(w,h,c) Mi(