BiCo-Fusion: Bidirectional Complementary LiDAR-Camera Fusion for Semantic- and Spatial-Aware 3D Object Detection
原文链接:https://arxiv.org/abs/2406.19048
简介:现有的激光雷达-摄像头融合方法或者忽略了激光雷达特征的稀疏性,或者由于模态间隙,不能保留激光雷达原始的空间结构和摄像头特征的语义密度。本文提出双向互补激光雷达-摄像头融合网络BiCo-Fusion,能实现鲁棒的语义和空间感知的3D目标检测。本文引入预融合增强特征,减小域间隙,包含:体素增强模块(VEM),利用图像特征增强激光雷达特征的语义;图像增强模块(IEM),使用3D体素特征增强图像特征的空间特性。VEM和IEM均双向更新,以减小域间隙。随后,统一融合自适应加权和选择特征,建立统一的3D表达。
1. 概述
首先,使用编码器提取各模态特征。 激光雷达点云和图像分别使用VoxelNet和Swin Transformer作为编码器。
随后,激光雷达体素特征 F L F_L FL和摄像头特征 F C F_C FC进行交互与融合。预融合阶段使用VEM和IEM分别增强激光雷达特征的语义和图像特征的空间感知,随后统一融合阶段将空间感知的图像特征 F S p C F_{SpC} FSpC提升到3D空间,并与语义感知的激光雷达特征 F S e L F_{SeL} FSeL自适应地融合。
最后,压缩融合体素特征 F f F_f Ff的高度得到BEV特征 F B F_B FB,并输入BEV编码器和检测头得到最终结果。训练时,使用匈牙利算法匹配预测与真值,并使用Focal损失和L1损失进行分类与回归。
2. 预融合
预融合包含VEM和IEM两个模块,以双向互补的方式增强两模态的特征。
A. 体素增强模块
由于激光雷达点云缺少语义信息,本文设计了VEM。首先将非空体素的中心投影到图像上,并选择离投影点最近的
K
K
K个图像特征
F
n
e
a
r
e
s
t
∈
R
K
×
C
2
D
F_{nearest}\in\mathbb R^{K\times C_{2D}}
Fnearest∈RK×C2D。设计以距离为先验的加权方案,计算各图像特征到投影点的距离
L
n
e
a
r
e
s
t
∈
R
1
×
K
L_{nearest}\in\mathbb R^{1\times K}
Lnearest∈R1×K,作为
F
n
e
a
r
e
s
t
F_{nearest}
Fnearest的权重。按下式得到距离先验加权的特征
F
w
e
i
g
h
t
e
d
∈
R
1
×
C
2
D
F_{weighted}\in\mathbb R^{1\times C_{2D}}
Fweighted∈R1×C2D:
F
w
e
i
g
h
t
e
d
=
Softmax
(
L
n
e
a
r
e
s
t
)
×
F
n
e
a
r
e
s
t
(1)
F_{weighted}=\text{Softmax}(L_{nearest})\times F_{nearest} \tag1
Fweighted=Softmax(Lnearest)×Fnearest(1)
最后,使用线性层和激活函数进行可学习的融合,得到语义感知的体素特征
F
S
e
L
F_{SeL}
FSeL:
F
S
e
L
=
ReLU
(
Linear
(
F
w
e
i
g
h
t
e
d
)
)
+
F
L
(2)
F_{SeL}=\text{ReLU}(\text{Linear}(F_{weighted}))+F_L\tag2
FSeL=ReLU(Linear(Fweighted))+FL(2)
B. 图像增强模块
由于图像缺少3D空间信息,本文提出IEM。首先将点云投影到图像平面得到稀疏深度图
D
s
p
a
r
s
e
D_{sparse}
Dsparse,然后使用深度补全和特征提取得到密集深度图
D
d
e
n
s
e
∈
R
H
×
W
×
C
d
e
p
t
h
D_{dense}\in\mathbb R^{H\times W\times C_{depth}}
Ddense∈RH×W×Cdepth,最后将密集深度图和图像特征
F
C
×
R
H
×
W
×
C
2
D
F_C\times\mathbb R^{H\times W\times C_{2D}}
FC×RH×W×C2D拼接,并通过卷积融合,得到空间感知的图像特征
F
S
p
C
F_{SpC}
FSpC:
F
S
p
C
=
Conv
(
Concat
(
F
C
,
D
d
e
n
s
e
)
)
(3)
F_{SpC}=\text{Conv}(\text{Concat}(F_C,D_{dense}))\tag3
FSpC=Conv(Concat(FC,Ddense))(3)
这样,后续统一融合中能更精确地将图像特征提升到3D空间。
3. 统一融合
将图像特征提升为3D体素后,得到 F ^ S p C \hat F_{SpC} F^SpC。
给定增强的激光雷达特征
F
S
e
L
∈
R
X
×
Y
×
Z
×
C
3
D
F_{SeL}\in\mathbb R^{X\times Y\times Z\times C_{3D}}
FSeL∈RX×Y×Z×C3D和3D图像特征
F
S
p
C
∈
R
X
×
Y
×
Z
×
C
2
D
F_{SpC}\in\mathbb R^{X\times Y\times Z\times C_{2D}}
FSpC∈RX×Y×Z×C2D,本文使用自适应加权方法进行统一融合得到融合的体素特征
F
f
F_f
Ff:
α
=
Conv
3
D
(
Concat
(
Conv
3
D
(
F
S
e
L
)
,
Conv
3
D
(
F
^
S
p
C
)
)
)
F
f
=
σ
(
α
)
⋅
F
S
e
l
+
(
1
−
σ
(
α
)
)
⋅
F
^
S
p
C
\alpha=\text{Conv}_{3D}(\text{Concat}(\text{Conv}_{3D}(F_{SeL}),\text{Conv}_{3D}(\hat F_{SpC})))\\ F_f=\sigma(\alpha)\cdot F_{Sel}+(1-\sigma(\alpha))\cdot \hat F_{SpC}
α=Conv3D(Concat(Conv3D(FSeL),Conv3D(F^SpC)))Ff=σ(α)⋅FSel+(1−σ(α))⋅F^SpC
其中 σ \sigma σ为Sigmoid函数。
统一融合能带来明显的性能提升,因为(1)VEM减小了域间隙;(2)体素融合填充了非空体素,补偿了激光雷达模态的稀疏性。
实施细节:训练时,首先训练激光雷达单一模态,再加入图像分支微调。使用CBGS方案。