【论文笔记】BiCo-Fusion: Bidirectional Complementary LiDAR-Camera Fusion for Semantic- and Spatial-Aware 3

最新推荐文章于 2024-08-06 23:57:11 发布

byzy

最新推荐文章于 2024-08-06 23:57:11 发布

阅读量682

点赞数 16

分类专栏： # 激光雷达与图像融合多模态融合3D感知（目标检测为主）文章标签：论文阅读自动驾驶目标检测深度学习计算机视觉

本文链接：https://blog.csdn.net/weixin_45657478/article/details/140855810

版权

多模态融合3D感知（目标检测为主）同时被 2 个专栏收录

32 篇文章 36 订阅

订阅专栏

激光雷达与图像融合

16 篇文章 5 订阅

订阅专栏

BiCo-Fusion: Bidirectional Complementary LiDAR-Camera Fusion for Semantic- and Spatial-Aware 3D Object Detection
原文链接：https://arxiv.org/abs/2406.19048

简介：现有的激光雷达-摄像头融合方法或者忽略了激光雷达特征的稀疏性，或者由于模态间隙，不能保留激光雷达原始的空间结构和摄像头特征的语义密度。本文提出双向互补激光雷达-摄像头融合网络BiCo-Fusion，能实现鲁棒的语义和空间感知的3D目标检测。本文引入预融合增强特征，减小域间隙，包含：体素增强模块（VEM），利用图像特征增强激光雷达特征的语义；图像增强模块（IEM），使用3D体素特征增强图像特征的空间特性。VEM和IEM均双向更新，以减小域间隙。随后，统一融合自适应加权和选择特征，建立统一的3D表达。

1. 概述

在这里插入图片描述
首先，使用编码器提取各模态特征。激光雷达点云和图像分别使用VoxelNet和Swin Transformer作为编码器。

随后，激光雷达体素特征 $F_L$ 和摄像头特征 $F_C$ 进行交互与融合。预融合阶段使用VEM和IEM分别增强激光雷达特征的语义和图像特征的空间感知，随后统一融合阶段将空间感知的图像特征 $F_{SpC}$ 提升到3D空间，并与语义感知的激光雷达特征 $F_{SeL}$ 自适应地融合。

最后，压缩融合体素特征 $F_f$ 的高度得到BEV特征 $F_B$ ，并输入BEV编码器和检测头得到最终结果。训练时，使用匈牙利算法匹配预测与真值，并使用Focal损失和L1损失进行分类与回归。

2. 预融合

预融合包含VEM和IEM两个模块，以双向互补的方式增强两模态的特征。

A. 体素增强模块

在这里插入图片描述
由于激光雷达点云缺少语义信息，本文设计了VEM。首先将非空体素的中心投影到图像上，并选择离投影点最近的 $K$ 个图像特征 $F_{nearest}\in\mathbb R^{K\times C_{2D}}$ 。设计以距离为先验的加权方案，计算各图像特征到投影点的距离 $L_{nearest}\in\mathbb R^{1\times K}$ ，作为 $F_{nearest}$ 的权重。按下式得到距离先验加权的特征 $F_{weighted}\in\mathbb R^{1\times C_{2D}}$ ：
$F_{weighted}=\text{Softmax}(L_{nearest})\times F_{nearest} \tag1$

最后，使用线性层和激活函数进行可学习的融合，得到语义感知的体素特征 $F_{SeL}$ ：
$F_{SeL}=\text{ReLU}(\text{Linear}(F_{weighted}))+F_L\tag2$

B. 图像增强模块

在这里插入图片描述
由于图像缺少3D空间信息，本文提出IEM。首先将点云投影到图像平面得到稀疏深度图 $D_{sparse}$ ，然后使用深度补全和特征提取得到密集深度图 $D_{dense}\in\mathbb R^{H\times W\times C_{depth}}$ ，最后将密集深度图和图像特征 $F_C\times\mathbb R^{H\times W\times C_{2D}}$ 拼接，并通过卷积融合，得到空间感知的图像特征 $F_{SpC}$ ：
$F_{SpC}=\text{Conv}(\text{Concat}(F_C,D_{dense}))\tag3$

这样，后续统一融合中能更精确地将图像特征提升到3D空间。

3. 统一融合

将图像特征提升为3D体素后，得到 $\hat F_{SpC}$ 。

给定增强的激光雷达特征 $F_{SeL}\in\mathbb R^{X\times Y\times Z\times C_{3D}}$ 和3D图像特征 $F_{SpC}\in\mathbb R^{X\times Y\times Z\times C_{2D}}$ ，本文使用自适应加权方法进行统一融合得到融合的体素特征 $F_f$ ：
$\alpha=\text{Conv}_{3D}(\text{Concat}(\text{Conv}_{3D}(F_{SeL}),\text{Conv}_{3D}(\hat F_{SpC})))\\ F_f=\sigma(\alpha)\cdot F_{Sel}+(1-\sigma(\alpha))\cdot \hat F_{SpC}$

其中 $\sigma$ 为Sigmoid函数。

统一融合能带来明显的性能提升，因为（1）VEM减小了域间隙；（2）体素融合填充了非空体素，补偿了激光雷达模态的稀疏性。

实施细节：训练时，首先训练激光雷达单一模态，再加入图像分支微调。使用CBGS方案。

byzy

关注

16
点赞
踩
23

收藏

觉得还不错? 一键收藏
打赏
0
评论
【论文笔记】BiCo-Fusion: Bidirectional Complementary LiDAR-Camera Fusion for Semantic- and Spatial-Aware 3

【论文笔记】BiCo-Fusion: Bidirectional Complementary LiDAR-Camera Fusion for Semantic- and Spatial-Aware 3D Object Detection
复制链接

扫一扫