OccFusion: A Straightforward and Effective Multi-Sensor Fusion Framework for 3D Occupancy Prediction
原文链接:https://arxiv.org/abs/2403.01644
I. 引言
目前的3D占用预测方法多仅依赖环视图像,从而易受光照和天气影响。多模态融合3D占用预测可以减轻这一问题并提高性能。
本文提出OccFusion,通过动态融合模块融合环视图像、360度激光雷达和环视雷达的特征。
III. OccFusion
A. 问题陈述
本文的目标是使用环视相机、环视雷达和激光雷达的信息生成密集3D语义占用网格 O ∈ R X × Y × Z O\in\mathbb R^{X\times Y\times Z} O∈RX×Y×Z,其中每个网格的值为预测的类别标签。
B. 总体结构
如图所示,使用2D主干提取总共 L L L个尺度的图像特征 M n = { M n l ∈ R C l × H l × W l } l = 1 L M_n=\{M_n^l\in\mathbb R^{C_l\times H_l\times W_l}\}_{l=1}^L Mn={
Mnl∈RCl×Hl×Wl}l=1L,然后通过视图变换得到全局BEV特征 F g l o b a l C a m _ l ∈ R C l × X l × Y l F_{global}^{Cam\_l}\in\mathbb R^{C_l\times X_l\times Y_l} FglobalCam_l∈RCl×Xl