【论文笔记】GAFusion: Adaptive Fusing LiDAR and Camera with Multiple Guidance for 3D Object Detection

原文链接:https://openaccess.thecvf.com/content/CVPR2024/papers/Li_GAFusion_Adaptive_Fusing_LiDAR_and_Camera_with_Multiple_Guidance_for_CVPR_2024_paper.pdf

简介:目前的多模态3D目标检测方法多使用基于BEV的方法,但忽视了激光雷达与摄像头之间的互补交互和指导。本文提出多模态3D目标检测方法GAFusion,带有激光雷达指导的全局交互和自适应融合。具体来说,本文引入稀疏深度指导(SDG)激光雷达占用指导(LOG),生成3D特征;随后,激光雷达指导的自适应融合Transformer(LGAFT) 以全局视角增强不同模态的交互。同时,带有稀疏高度压缩和多尺度双路径Transformer(MSDPT) 的下采样用于扩大感受野,并引入时间融合模块聚合过去帧的特征。GAFusion能在nuScenes数据集上达到SotA性能。

在这里插入图片描述

1. 激光雷达和摄像头特征提取

首先将激光雷达点云和多视图图像输入主干网络,提取特征。

激光雷达分支:使用3D稀疏卷积提取单尺度体素特征,但其感受野有限且特征表达较弱。因此,引入下采样层。记稀疏卷积步长1,2,4,8下的输出特征为 F 1 , F 2 , F 3 , F 4 F_1,F_2,F_3,F_4 F1,F2,F3,F4,进一步下采样得到16,32步长的特征 F 5 , F 6 F_5,F_6 F5,F6,并使用稀疏深度压缩处理 F 4 , F 5 , F 6 F_4,F_5,F_6 F4,F5,F6的不同尺度。记 p = ( x p , y p , z p ) ∈ P i p=(x_p,y_p,z_p)\in P_i p=(xp,yp,zp)Pi f ∈ F i f\in F_i fFi对应的3D点,并定义仅包含 P c P_c Pc的BEV网格 ( x p , y p ) (x_p,y_p) (xp,yp),聚合不同尺度在同一高度处的特征(如图所示)。
在这里插入图片描述
稀疏特征 F c F_c Fc及其对应位置 P c P_c Pc可按下式得到:
F c = F 4 ∪ ( F 5 ∪ F 6 ) P 6 ′ = { ( x p × 2 2 , y p × 2 2 , z p × 2 2 ) ∣ p ∈ P 6 } P 5 ′ = { ( x p × 2 1 , y p × 2 1 , z p × 2 1 ) ∣ p ∈ P 5 } P c = P 4 ∪ ( P 5 ′ ∪ P 6 ′ ) \begin{aligned}F_c&=F_4\cup(F_5\cup F_6)\\ P'_6&=\{(x_p\times 2^2,y_p\times 2^2,z_p\times 2^2)|p\in P_6\}\\ P'_5&=\{(x_p\times 2^1,y_p\times 2^1,z_p\times 2^1)|p\in P_5\}\\ P_c&=P_4\cup(P'_5\cup P'_6)\end{aligned} FcP6P5Pc=F4(F5F6)={(xp×22,yp×22,zp×22)pP6}={(xp×21,yp×21,zp×21)pP5}=P4(P5P6)

此段文字描述不太清晰,看图的理解话应该是:(1)不同尺度特征上采样到同一尺度,(2)把同一 ( x , y ) (x,y) (x,y)位置的特征(沿高度维度和尺度维度)求和。

摄像头分支:多视图图像输入主干得到 F c ∈ R N c × C × H × W F_c\in\mathbb R^{N_c\times C\times H\times W} FcRNc×C×H×W N c N_c Nc为视图数)。

2. 激光雷达指导

为了得到BEV特征,需要进行图像的视图变换。但难以准确估计深度分布,会导致BEV特征的信息损失。本文提出激光雷达指导:稀疏深度指导(SDG)和激光雷达占用指导(LOG),以使图像特征更好地捕捉几何和深度信息。

稀疏深度指导:如下左图所示,首先将激光雷达点云投影到多视图图像上,获取多视图稀疏深度图。然后,将其输入到共享的编码器提取深度特征,并和图像特征拼接,得到深度感知的图像特征,用于视图变换。体素池化后,得到图像3D特征 F c ′ ∈ R C × Z × H × W F'_c\in\mathbb R^{C\times Z\times H\times W} FcRC×Z×H×W。SDG可利用激光雷达更加可靠的深度信息。
在这里插入图片描述
激光雷达占用指导:由于激光雷达点云的稀疏性和噪声,深度信息可能不精确。如上右图所示,本文将激光雷达BEV特征映射到3D空间得到3D特征,并加入占用预测头,估计激光雷达占用 O L ∈ R 1 × Z × H × W O_L\in\mathbb R^{1\times Z\times H\times W} OLR1×Z×H×W。激光雷达3D占用会与 F c ′ F'_c Fc相乘得到激光雷达占用指导的图像3D特征:
F c ′ ′ = M u l ( F c ′ , O L ) F''_c=Mul(F'_c,O_L) Fc′′=Mul(Fc,OL)

其中 M u l Mul Mul为带广播的按元素乘法。这样,2D图像特征就包含了充分的语义信息和精确的深度信息。

实验表明,LOG带来的性能提升更为显著,这说明3D特征的直接交互可以提供足够的定位信息。

3. 多尺度双路径Transformer

为有效聚合语义信息和扩大感受野,本文引入MSDPT,双路径Transformer(DPT)包含了局部路径和全局路径,使用3D卷积进行下采样以得到不同尺度的特征,如图所示。
在这里插入图片描述
局部路径主要提取细粒度的语义结构,仅在3D图像特征的水平切面上进行。全局路径则获取精确的场景语义布局,首先通过沿高度的均值池化获得BEV特征,并与BEV特征的基本信息交互。两路径使用共享权重的窗口注意力以提高计算效率。最后,局部路径的3D体素特征会与全局路径的语义特征融合。记两路径的输出分别为 F l o c a l ∈ R C × X × Y × Z F_{local}\in\mathbb R^{C\times X\times Y\times Z} FlocalRC×X×Y×Z F g l o b a l ∈ R C × X × Y F_{global}\in\mathbb R^{C\times X\times Y} FglobalRC×X×Y,则最终输出 F o u t F_{out} Fout为:
F o u t = F l o c a l + σ ( W H F l o c a l ) ⋅ unsqueeze ( F g l o b a l , − 1 ) F_{out}=F_{local}+\sigma(W_HF_{local})\cdot \text{unsqueeze}(F_{global},-1) Fout=Flocal+σ(WHFlocal)unsqueeze(Fglobal,1)

其中 W H W_H WH为FFN生成的高度聚合权重, σ ( ⋅ ) \sigma(\cdot) σ()为sigmoid函数。

4. 激光雷达指导的自适应融合Transformer

目前的方法仅简单地拼接不同模态的BEV特征,而未考虑不同模态的信息交互和全局空间关联。本文提出LGAFT自适应地增强激光雷达BEV特征 F L B F_{LB} FLB和图像BEV特征 F C B F_{CB} FCB的全局交互,其结构如图所示。
在这里插入图片描述
使用 1 × 1 1\times 1 1×1卷积处理 F L B F_{LB} FLB F C B F_{CB} FCB,并将输出特征 F L B ′ F'_{LB} FLB F C B ′ F'_{CB} FCB拼接,通过Sigmoid后得到特征权重 W F W_F WF。然后,使用 W F W_F WF自适应地融合激光雷达和图像BEV特征,得到 F a F_a Fa

为减少计算,本文未使用多头注意力模块。本文将 F a F_a Fa作为交叉注意力的查询,自适应图像特征被视为键与值,以避免梯度爆炸收敛问题。总的融合过程如下:
Q = Concat ( ( 1 − W F ) F L B ′ , W F ( F C B ′ + P ) ) W Q K = W F ( F C B ′ + P ) W K V = ( F C B ′ + P ) W V F B E V = MLP ( LN ( Softmax ( Q K T C ) V ) ) \begin{aligned}Q&=\text{Concat}((1-W_F)F'_{LB},W_F(F'_{CB}+P))W_Q\\ K&=W_F(F'_{CB}+P)W_K\\ V&=(F'_{CB}+P)W_V\\ F_{BEV}&=\text{MLP}(\text{LN}(\text{Softmax}(\frac{QK^T}{\sqrt C})V))\end{aligned} QKVFBEV=Concat((1WF)FLB,WF(FCB+P))WQ=WF(FCB+P)WK=(FCB+P)WV=MLP(LN(Softmax(C QKT)V))

其中 W Q , W K , W V W_Q,W_K,W_V WQ,WK,WV为可学习参数, P P P为可学习位置编码, L N LN LN为层归一化。

5. 时间融合模块

时间融合可更好地帮助检测物体的运动状态和被遮挡物体。本文参考BEVDet4D,将历史帧的BEV特征存储,并将当前帧与过去帧融合。最后将融合特征输入BEV编码器和检测头,获取检测结果。

实施细节:使用预训练的图像主干。先训练激光雷达检测器,再冻结预训练激光雷达分支,进行联合训练。

  • 8
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

byzy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值