简介:目前的多模态3D目标检测方法多使用基于BEV的方法,但忽视了激光雷达与摄像头之间的互补交互和指导。本文提出多模态3D目标检测方法GAFusion,带有激光雷达指导的全局交互和自适应融合。具体来说,本文引入稀疏深度指导(SDG)和激光雷达占用指导(LOG),生成3D特征;随后,激光雷达指导的自适应融合Transformer(LGAFT) 以全局视角增强不同模态的交互。同时,带有稀疏高度压缩和多尺度双路径Transformer(MSDPT) 的下采样用于扩大感受野,并引入时间融合模块聚合过去帧的特征。GAFusion能在nuScenes数据集上达到SotA性能。
1. 激光雷达和摄像头特征提取
首先将激光雷达点云和多视图图像输入主干网络,提取特征。
激光雷达分支:使用3D稀疏卷积提取单尺度体素特征,但其感受野有限且特征表达较弱。因此,引入下采样层。记稀疏卷积步长1,2,4,8下的输出特征为 F 1 , F 2 , F 3 , F 4 F_1,F_2,F_3,F_4 F1,F2,F3,F4,进一步下采样得到16,32步长的特征 F 5 , F 6 F_5,F_6 F5,F6,并使用稀疏深度压缩处理 F 4 , F 5 , F 6 F_4,F_5,F_6 F4,F5,F6的不同尺度。记 p = ( x p , y p , z p ) ∈ P i p=(x_p,y_p,z_p)\in P_i p=(xp,yp,zp)∈Pi为 f ∈ F i f\in F_i f∈Fi对应的3D点,并定义仅包含 P c P_c Pc的BEV网格 ( x p , y p ) (x_p,y_p) (xp,yp),聚合不同尺度在同一高度处的特征(如图所示)。
稀疏特征 F c F_c Fc及其对应位置 P c P_c Pc可按下式得到:
F c = F 4 ∪ ( F 5 ∪ F 6 ) P 6 ′ = { ( x p × 2 2 , y p × 2 2 , z p × 2 2 ) ∣ p ∈ P 6 } P 5 ′ = { ( x p ×