FlatFusion: Delving into Details of Sparse Transformer-based Camera-LiDAR Fusion for Autonomous Driving
原文链接:https://arxiv.org/abs/2408.06832
简介:从稀疏数据中整合信息的点云Transformer十分高效。但与摄像头的融合存在挑战,因为图像像素是密集而深度模糊的。本文探索了基于Transformer的稀疏摄像头-激光雷达融合,包括图像到3D和激光雷达到2D的映射、注意力邻域分组、单模态token化和Transformer的微结构。通过实验选择最有效的方案,本文提出FlatFusion,其性能能超过基于稀疏Transformer的SotA方法(如UniTR,CMT和SparseFusion)。
1. 通用框架
如图所示,基于稀疏Transformer的摄像头-激光雷达融合框架包含token化各模态输入的主干&