【论文笔记】GAFusion: Adaptive Fusing LiDAR and Camera with Multiple Guidance for 3D Object Detection

byzy

于 2024-08-18 13:43:51 发布

阅读量1.6k

点赞数 9

分类专栏：多模态融合3D感知（目标检测为主） # 激光雷达与图像融合文章标签：论文阅读目标检测自动驾驶深度学习计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45657478/article/details/141103334

版权

原文链接：https://openaccess.thecvf.com/content/CVPR2024/papers/Li_GAFusion_Adaptive_Fusing_LiDAR_and_Camera_with_Multiple_Guidance_for_CVPR_2024_paper.pdf

简介：目前的多模态3D目标检测方法多使用基于BEV的方法，但忽视了激光雷达与摄像头之间的互补交互和指导。本文提出多模态3D目标检测方法GAFusion，带有激光雷达指导的全局交互和自适应融合。具体来说，本文引入稀疏深度指导（SDG）和激光雷达占用指导（LOG），生成3D特征；随后，激光雷达指导的自适应融合Transformer（LGAFT） 以全局视角增强不同模态的交互。同时，带有稀疏高度压缩和多尺度双路径Transformer（MSDPT） 的下采样用于扩大感受野，并引入时间融合模块聚合过去帧的特征。GAFusion能在nuScenes数据集上达到SotA性能。

在这里插入图片描述

1. 激光雷达和摄像头特征提取

首先将激光雷达点云和多视图图像输入主干网络，提取特征。

激光雷达分支：使用3D稀疏卷积提取单尺度体素特征，但其感受野有限且特征表达较弱。因此，引入下采样层。记稀疏卷积步长1,2,4,8下的输出特征为 $F_1,F_2,F_3,F_4$ ，进一步下采样得到16,32步长的特征 $F_5,F_6$ ，并使用稀疏深度压缩处理 $F_4,F_5,F_6$ 的不同尺度。记 $p=(x_p,y_p,z_p)\in P_i$ 为 $f\in F_i$ 对应的3D点，并定义仅包含 $P_c$ 的BEV网格 $x_p,y_p)$ ，聚合不同尺度在同一高度处的特征（如图所示）。
在这里插入图片描述
稀疏特征 $F_c$ 及其对应位置 $P_c$ 可按下式得到：

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

byzy 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。