【论文笔记】GAFusion: Adaptive Fusing LiDAR and Camera with Multiple Guidance for 3D Object Detection

原文链接:https://openaccess.thecvf.com/content/CVPR2024/papers/Li_GAFusion_Adaptive_Fusing_LiDAR_and_Camera_with_Multiple_Guidance_for_CVPR_2024_paper.pdf

简介:目前的多模态3D目标检测方法多使用基于BEV的方法,但忽视了激光雷达与摄像头之间的互补交互和指导。本文提出多模态3D目标检测方法GAFusion,带有激光雷达指导的全局交互和自适应融合。具体来说,本文引入稀疏深度指导(SDG)激光雷达占用指导(LOG),生成3D特征;随后,激光雷达指导的自适应融合Transformer(LGAFT) 以全局视角增强不同模态的交互。同时,带有稀疏高度压缩和多尺度双路径Transformer(MSDPT) 的下采样用于扩大感受野,并引入时间融合模块聚合过去帧的特征。GAFusion能在nuScenes数据集上达到SotA性能。

在这里插入图片描述

1. 激光雷达和摄像头特征提取

首先将激光雷达点云和多视图图像输入主干网络,提取特征。

激光雷达分支:使用3D稀疏卷积提取单尺度体素特征,但其感受野有限且特征表达较弱。因此,引入下采样层。记稀疏卷积步长1,2,4,8下的输出特征为 F 1 , F 2 , F 3 , F 4 F_1,F_2,F_3,F_4 F1,F2,F3,F4,进一步下采样得到16,32步长的特征 F 5 , F 6 F_5,F_6 F5,F6,并使用稀疏深度压缩处理 F 4 , F 5 , F 6 F_4,F_5,F_6 F4,F5,F6的不同尺度。记 p = ( x p , y p , z p ) ∈ P i p=(x_p,y_p,z_p)\in P_i p=(xp,yp,zp)Pi f ∈ F i f\in F_i fFi对应的3D点,并定义仅包含 P c P_c Pc的BEV网格 ( x p , y p ) (x_p,y_p) (xp,yp),聚合不同尺度在同一高度处的特征(如图所示)。
在这里插入图片描述
稀疏特征 F c F_c Fc及其对应位置 P c P_c Pc可按下式得到:
F c = F 4 ∪ ( F 5 ∪ F 6 ) P 6 ′ = { ( x p × 2 2 , y p × 2 2 , z p × 2 2 ) ∣ p ∈ P 6 } P 5 ′ = { ( x p ×

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

byzy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值