简介:目前的多模态3D目标检测方法多使用基于BEV的方法,但忽视了激光雷达与摄像头之间的互补交互和指导。本文提出多模态3D目标检测方法GAFusion,带有激光雷达指导的全局交互和自适应融合。具体来说,本文引入稀疏深度指导(SDG)和激光雷达占用指导(LOG),生成3D特征;随后,激光雷达指导的自适应融合Transformer(LGAFT) 以全局视角增强不同模态的交互。同时,带有稀疏高度压缩和多尺度双路径Transformer(MSDPT) 的下采样用于扩大感受野,并引入时间融合模块聚合过去帧的特征。GAFusion能在nuScenes数据集上达到SotA性能。
1. 激光雷达和摄像头特征提取
首先将激光雷达点云和多视图图像输入主干网络,提取特征。
激光雷达分支:使用3D稀疏卷积提取单尺度体素特征,但其感受野有限且特征表达较弱。因此,引入下采样层。记稀疏卷积步长1,2,4,8下的输出特征为
F
1
,
F
2
,
F
3
,
F
4
F_1,F_2,F_3,F_4
F1,F2,F3,F4,进一步下采样得到16,32步长的特征
F
5
,
F
6
F_5,F_6
F5,F6,并使用稀疏深度压缩处理
F
4
,
F
5
,
F
6
F_4,F_5,F_6
F4,F5,F6的不同尺度。记
p
=
(
x
p
,
y
p
,
z
p
)
∈
P
i
p=(x_p,y_p,z_p)\in P_i
p=(xp,yp,zp)∈Pi为
f
∈
F
i
f\in F_i
f∈Fi对应的3D点,并定义仅包含
P
c
P_c
Pc的BEV网格
(
x
p
,
y
p
)
(x_p,y_p)
(xp,yp),聚合不同尺度在同一高度处的特征(如图所示)。
稀疏特征
F
c
F_c
Fc及其对应位置
P
c
P_c
Pc可按下式得到:
F
c
=
F
4
∪
(
F
5
∪
F
6
)
P
6
′
=
{
(
x
p
×
2
2
,
y
p
×
2
2
,
z
p
×
2
2
)
∣
p
∈
P
6
}
P
5
′
=
{
(
x
p
×
2
1
,
y
p
×
2
1
,
z
p
×
2
1
)
∣
p
∈
P
5
}
P
c
=
P
4
∪
(
P
5
′
∪
P
6
′
)
\begin{aligned}F_c&=F_4\cup(F_5\cup F_6)\\ P'_6&=\{(x_p\times 2^2,y_p\times 2^2,z_p\times 2^2)|p\in P_6\}\\ P'_5&=\{(x_p\times 2^1,y_p\times 2^1,z_p\times 2^1)|p\in P_5\}\\ P_c&=P_4\cup(P'_5\cup P'_6)\end{aligned}
FcP6′P5′Pc=F4∪(F5∪F6)={(xp×22,yp×22,zp×22)∣p∈P6}={(xp×21,yp×21,zp×21)∣p∈P5}=P4∪(P5′∪P6′)
此段文字描述不太清晰,看图的理解话应该是:(1)不同尺度特征上采样到同一尺度,(2)把同一 ( x , y ) (x,y) (x,y)位置的特征(沿高度维度和尺度维度)求和。
摄像头分支:多视图图像输入主干得到 F c ∈ R N c × C × H × W F_c\in\mathbb R^{N_c\times C\times H\times W} Fc∈RNc×C×H×W( N c N_c Nc为视图数)。
2. 激光雷达指导
为了得到BEV特征,需要进行图像的视图变换。但难以准确估计深度分布,会导致BEV特征的信息损失。本文提出激光雷达指导:稀疏深度指导(SDG)和激光雷达占用指导(LOG),以使图像特征更好地捕捉几何和深度信息。
稀疏深度指导:如下左图所示,首先将激光雷达点云投影到多视图图像上,获取多视图稀疏深度图。然后,将其输入到共享的编码器提取深度特征,并和图像特征拼接,得到深度感知的图像特征,用于视图变换。体素池化后,得到图像3D特征
F
c
′
∈
R
C
×
Z
×
H
×
W
F'_c\in\mathbb R^{C\times Z\times H\times W}
Fc′∈RC×Z×H×W。SDG可利用激光雷达更加可靠的深度信息。
激光雷达占用指导:由于激光雷达点云的稀疏性和噪声,深度信息可能不精确。如上右图所示,本文将激光雷达BEV特征映射到3D空间得到3D特征,并加入占用预测头,估计激光雷达占用
O
L
∈
R
1
×
Z
×
H
×
W
O_L\in\mathbb R^{1\times Z\times H\times W}
OL∈R1×Z×H×W。激光雷达3D占用会与
F
c
′
F'_c
Fc′相乘得到激光雷达占用指导的图像3D特征:
F
c
′
′
=
M
u
l
(
F
c
′
,
O
L
)
F''_c=Mul(F'_c,O_L)
Fc′′=Mul(Fc′,OL)
其中 M u l Mul Mul为带广播的按元素乘法。这样,2D图像特征就包含了充分的语义信息和精确的深度信息。
实验表明,LOG带来的性能提升更为显著,这说明3D特征的直接交互可以提供足够的定位信息。
3. 多尺度双路径Transformer
为有效聚合语义信息和扩大感受野,本文引入MSDPT,双路径Transformer(DPT)包含了局部路径和全局路径,使用3D卷积进行下采样以得到不同尺度的特征,如图所示。
局部路径主要提取细粒度的语义结构,仅在3D图像特征的水平切面上进行。全局路径则获取精确的场景语义布局,首先通过沿高度的均值池化获得BEV特征,并与BEV特征的基本信息交互。两路径使用共享权重的窗口注意力以提高计算效率。最后,局部路径的3D体素特征会与全局路径的语义特征融合。记两路径的输出分别为
F
l
o
c
a
l
∈
R
C
×
X
×
Y
×
Z
F_{local}\in\mathbb R^{C\times X\times Y\times Z}
Flocal∈RC×X×Y×Z和
F
g
l
o
b
a
l
∈
R
C
×
X
×
Y
F_{global}\in\mathbb R^{C\times X\times Y}
Fglobal∈RC×X×Y,则最终输出
F
o
u
t
F_{out}
Fout为:
F
o
u
t
=
F
l
o
c
a
l
+
σ
(
W
H
F
l
o
c
a
l
)
⋅
unsqueeze
(
F
g
l
o
b
a
l
,
−
1
)
F_{out}=F_{local}+\sigma(W_HF_{local})\cdot \text{unsqueeze}(F_{global},-1)
Fout=Flocal+σ(WHFlocal)⋅unsqueeze(Fglobal,−1)
其中 W H W_H WH为FFN生成的高度聚合权重, σ ( ⋅ ) \sigma(\cdot) σ(⋅)为sigmoid函数。
4. 激光雷达指导的自适应融合Transformer
目前的方法仅简单地拼接不同模态的BEV特征,而未考虑不同模态的信息交互和全局空间关联。本文提出LGAFT自适应地增强激光雷达BEV特征
F
L
B
F_{LB}
FLB和图像BEV特征
F
C
B
F_{CB}
FCB的全局交互,其结构如图所示。
使用
1
×
1
1\times 1
1×1卷积处理
F
L
B
F_{LB}
FLB和
F
C
B
F_{CB}
FCB,并将输出特征
F
L
B
′
F'_{LB}
FLB′和
F
C
B
′
F'_{CB}
FCB′拼接,通过Sigmoid后得到特征权重
W
F
W_F
WF。然后,使用
W
F
W_F
WF自适应地融合激光雷达和图像BEV特征,得到
F
a
F_a
Fa。
为减少计算,本文未使用多头注意力模块。本文将
F
a
F_a
Fa作为交叉注意力的查询,自适应图像特征被视为键与值,以避免梯度爆炸收敛问题。总的融合过程如下:
Q
=
Concat
(
(
1
−
W
F
)
F
L
B
′
,
W
F
(
F
C
B
′
+
P
)
)
W
Q
K
=
W
F
(
F
C
B
′
+
P
)
W
K
V
=
(
F
C
B
′
+
P
)
W
V
F
B
E
V
=
MLP
(
LN
(
Softmax
(
Q
K
T
C
)
V
)
)
\begin{aligned}Q&=\text{Concat}((1-W_F)F'_{LB},W_F(F'_{CB}+P))W_Q\\ K&=W_F(F'_{CB}+P)W_K\\ V&=(F'_{CB}+P)W_V\\ F_{BEV}&=\text{MLP}(\text{LN}(\text{Softmax}(\frac{QK^T}{\sqrt C})V))\end{aligned}
QKVFBEV=Concat((1−WF)FLB′,WF(FCB′+P))WQ=WF(FCB′+P)WK=(FCB′+P)WV=MLP(LN(Softmax(CQKT)V))
其中 W Q , W K , W V W_Q,W_K,W_V WQ,WK,WV为可学习参数, P P P为可学习位置编码, L N LN LN为层归一化。
5. 时间融合模块
时间融合可更好地帮助检测物体的运动状态和被遮挡物体。本文参考BEVDet4D,将历史帧的BEV特征存储,并将当前帧与过去帧融合。最后将融合特征输入BEV编码器和检测头,获取检测结果。
实施细节:使用预训练的图像主干。先训练激光雷达检测器,再冻结预训练激光雷达分支,进行联合训练。