【论文笔记】BiCo-Fusion: Bidirectional Complementary LiDAR-Camera Fusion for Semantic- and Spatial-Aware 3

BiCo-Fusion: Bidirectional Complementary LiDAR-Camera Fusion for Semantic- and Spatial-Aware 3D Object Detection
原文链接:https://arxiv.org/abs/2406.19048

简介:现有的激光雷达-摄像头融合方法或者忽略了激光雷达特征的稀疏性,或者由于模态间隙,不能保留激光雷达原始的空间结构和摄像头特征的语义密度。本文提出双向互补激光雷达-摄像头融合网络BiCo-Fusion,能实现鲁棒的语义和空间感知的3D目标检测。本文引入预融合增强特征,减小域间隙,包含:体素增强模块(VEM),利用图像特征增强激光雷达特征的语义;图像增强模块(IEM),使用3D体素特征增强图像特征的空间特性。VEM和IEM均双向更新,以减小域间隙。随后,统一融合自适应加权和选择特征,建立统一的3D表达。

1. 概述

在这里插入图片描述
首先,使用编码器提取各模态特征。 激光雷达点云和图像分别使用VoxelNet和Swin Transformer作为编码器。

随后,激光雷达体素特征 F L F_L FL和摄像头特征 F C F_C FC进行交互与融合。预融合阶段使用VEM和IEM分别增强激光雷达特征的语义和图像特征的空间感知,随后统一融合阶段将空间感知的图像特征 F S p C F_{SpC} FSpC提升到3D空间,并与语义感知的激光雷达特征 F S e L F_{SeL} FSeL自适应地融合。

最后,压缩融合体素特征 F f F_f Ff的高度得到BEV特征 F B F_B FB,并输入BEV编码器和检测头得到最终结果。训练时,使用匈牙利算法匹配预测与真值,并使用Focal损失和L1损失进行分类与回归。

2. 预融合

预融合包含VEM和IEM两个模块,以双向互补的方式增强两模态的特征。

A. 体素增强模块

在这里插入图片描述
由于激光雷达点云缺少语义信息,本文设计了VEM。首先将非空体素的中心投影到图像上,并选择离投影点最近的 K K K个图像特征 F n e a r e s t ∈ R K × C 2 D F_{nearest}\in\mathbb R^{K\times C_{2D}} FnearestRK×C2D。设计以距离为先验的加权方案,计算各图像特征到投影点的距离 L n e a r e s t ∈ R 1 × K L_{nearest}\in\mathbb R^{1\times K} LnearestR1×K,作为 F n e a r e s t F_{nearest} Fnearest的权重。按下式得到距离先验加权的特征 F w e i g h t e d ∈ R 1 × C 2 D F_{weighted}\in\mathbb R^{1\times C_{2D}} FweightedR1×C2D
F w e i g h t e d = Softmax ( L n e a r e s t ) × F n e a r e s t (1) F_{weighted}=\text{Softmax}(L_{nearest})\times F_{nearest} \tag1 Fweighted=Softmax(Lnearest)×Fnearest(1)

最后,使用线性层和激活函数进行可学习的融合,得到语义感知的体素特征 F S e L F_{SeL} FSeL
F S e L = ReLU ( Linear ( F w e i g h t e d ) ) + F L (2) F_{SeL}=\text{ReLU}(\text{Linear}(F_{weighted}))+F_L\tag2 FSeL=ReLU(Linear(Fweighted))+FL(2)

B. 图像增强模块

在这里插入图片描述
由于图像缺少3D空间信息,本文提出IEM。首先将点云投影到图像平面得到稀疏深度图 D s p a r s e D_{sparse} Dsparse,然后使用深度补全和特征提取得到密集深度图 D d e n s e ∈ R H × W × C d e p t h D_{dense}\in\mathbb R^{H\times W\times C_{depth}} DdenseRH×W×Cdepth,最后将密集深度图和图像特征 F C × R H × W × C 2 D F_C\times\mathbb R^{H\times W\times C_{2D}} FC×RH×W×C2D拼接,并通过卷积融合,得到空间感知的图像特征 F S p C F_{SpC} FSpC
F S p C = Conv ( Concat ( F C , D d e n s e ) ) (3) F_{SpC}=\text{Conv}(\text{Concat}(F_C,D_{dense}))\tag3 FSpC=Conv(Concat(FC,Ddense))(3)

这样,后续统一融合中能更精确地将图像特征提升到3D空间。

3. 统一融合

将图像特征提升为3D体素后,得到 F ^ S p C \hat F_{SpC} F^SpC

给定增强的激光雷达特征 F S e L ∈ R X × Y × Z × C 3 D F_{SeL}\in\mathbb R^{X\times Y\times Z\times C_{3D}} FSeLRX×Y×Z×C3D和3D图像特征 F S p C ∈ R X × Y × Z × C 2 D F_{SpC}\in\mathbb R^{X\times Y\times Z\times C_{2D}} FSpCRX×Y×Z×C2D,本文使用自适应加权方法进行统一融合得到融合的体素特征 F f F_f Ff
α = Conv 3 D ( Concat ( Conv 3 D ( F S e L ) , Conv 3 D ( F ^ S p C ) ) ) F f = σ ( α ) ⋅ F S e l + ( 1 − σ ( α ) ) ⋅ F ^ S p C \alpha=\text{Conv}_{3D}(\text{Concat}(\text{Conv}_{3D}(F_{SeL}),\text{Conv}_{3D}(\hat F_{SpC})))\\ F_f=\sigma(\alpha)\cdot F_{Sel}+(1-\sigma(\alpha))\cdot \hat F_{SpC} α=Conv3D(Concat(Conv3D(FSeL),Conv3D(F^SpC)))Ff=σ(α)FSel+(1σ(α))F^SpC

其中 σ \sigma σ为Sigmoid函数。

统一融合能带来明显的性能提升,因为(1)VEM减小了域间隙;(2)体素融合填充了非空体素,补偿了激光雷达模态的稀疏性。

实施细节:训练时,首先训练激光雷达单一模态,再加入图像分支微调。使用CBGS方案。

  • 16
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

byzy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值