原文链接:https://arxiv.org/abs/2403.07284
简介:稀疏3D检测器因其无需密集BEV特征表达的低延迟特性受到了广泛关注,但其性能低于密集检测器。本文的SparseLIF是一个完全稀疏的端到端多模态3D目标检测器,包含3个关键设计:(1)透视感知的查询生成(PAQG),利用透视先验生成高质量3D查询;(2)RoI感知的采样(RIAS),通过从各模态采样RoI特征细化先验查询;(3)不确定性感知的融合(UAF),精确量化各模态的不确定性并自适应融合,实现对传感器噪声的鲁棒性。实验表明SparseLIF在NuScenes上能达到最优性能。
0. SparseLIF概述
使用图像主干和FPN提取多视图/多尺度/多帧的图像特征,记为
X
c
a
m
=
{
X
c
a
m
v
m
t
}
v
=
1
,
m
=
1
,
t
=
1
V
,
M
,
T
X_{cam}=\{X_{cam}^{vmt}\}_{v=1,m=1,t=1}^{V,M,T}
Xcam={Xcamvmt}v=1,m=1,t=1V,M,T,其中
V
,
M
,
T
V,M,T
V,M,T分别为相机视图数,特征尺度数和时间帧数。同时,使用3D激光雷达主干和FPN提取多尺度激光雷达特征,记为
X
l
i
d
=
{
X
l
i
d
r
}
r
=
1
R
X_{lid}=\{X_{lid}^r\}_{r=1}^R
Xlid={Xlidr}r=1R,其中
R
R
R为激光雷达特征尺度数。
透视感知的查询生成(PAQG)模块使用耦合的2D和单目3D图像检测器,利用透视先验生成高质量3D查询。此后,RoI感知的采样(RIAS)模块会将查询与图像和激光雷达特征交互,提取RoI特征进行细化。不确定性感知的融合(UAF)模块会量化RoI特征的不确定性,并进行多模态特征的自适应融合,用于3D目标检测。
1. 透视感知的查询生成
最近的方法通常使用可学习查询,但学习将与输入无关的查询移动到真值附近较为困难。可视化表明,2D检测对远处和小物体的检测更好,因此本文利用2D检测提供的透视先验生成3D查询。
PAQG中的轻量级透视检测器包括耦合的2D和单目3D子网络,前者预测中心位置
(
c
x
,
c
y
)
(c_x,c_y)
(cx,cy)、置信度分数和类别标签,后者预测不同视图下的深度
d
d
d、旋转角、大小和速度。基于相机外参
E
v
E_v
Ev和内参
I
v
I_v
Iv,将边界框中心投影到3D空间:
c
3
D
=
E
v
−
1
I
v
−
1
[
c
x
d
,
c
y
d
,
d
,
1
]
c^{3D}=E^{-1}_vI_v^{-1}[c_xd,c_yd,d,1]
c3D=Ev−1Iv−1[cxd,cyd,d,1]
3D中心
c
3
D
c^{3D}
c3D会与预测大小、旋转角和速度组合得到3D边界框。然后,进行非最大抑制,根据置信度分数选择前
N
k
N_k
Nk个边界框,通过交叉注意力,用图像特征初始化查询:
q
i
=
1
∣
V
∣
∑
v
∈
V
∑
m
=
1
M
B
S
(
X
c
a
m
v
m
,
P
c
a
m
v
(
c
i
3
D
)
)
q_i=\frac1{|\mathcal V|}\sum_{v\in \mathcal V}\sum_{m=1}^MBS(X_{cam}^{vm},P_{cam}^v(c_i^{3D}))
qi=∣V∣1v∈V∑m=1∑MBS(Xcamvm,Pcamv(ci3D))
其中 P c a m v ( c i 3 D ) P_{cam}^v(c_i^{3D}) Pcamv(ci3D)将3D中心 c i 3 D c_i^{3D} ci3D投影到视图 v v v上, V \mathcal V V为有效投影视图数, B S ( ⋅ ) BS(\cdot) BS(⋅)表示双线性采样。为考虑被忽视的物体,本身还引入 N r N_r Nr个随机初始化的查询框,得到共 N q = N k + N r N_q=N_k+N_r Nq=Nk+Nr个查询提案。
实验表明,PAQG模块能明显提高小物体的远距离物体的检测性能。
2. RoI感知的采样
输入查询 Q = { q i ∈ R C } i = 1 N q Q=\{q_i\in\mathbb R^C\}_{i=1}^{N_q} Q={qi∈RC}i=1Nq,需要采样各模态的RoI特征以进行细化。
激光雷达分支:受可变形注意力启发,本文为每个查询
q
i
q_i
qi采样
K
=
4
K=4
K=4个点以检索激光雷达特征图
X
l
i
d
X_{lid}
Xlid中的RoI特征
{
F
l
i
d
i
k
}
k
=
1
K
\{F_{lid}^{ik}\}_{k=1}^K
{Flidik}k=1K:
F
l
i
d
i
k
=
∑
r
=
1
R
B
S
(
X
l
i
d
r
,
P
l
i
d
(
c
i
+
Δ
l
i
d
i
r
k
)
)
⋅
σ
l
i
d
i
r
k
F_{lid}^{ik}=\sum_{r=1}^RBS(X_{lid}^r,P_{lid}(c_i+\Delta_{lid}^{irk}))\cdot\sigma_{lid}^{irk}
Flidik=r=1∑RBS(Xlidr,Plid(ci+Δlidirk))⋅σlidirk
其中 c i c_i ci为查询 q i q_i qi的3D中心, P l i d P_{lid} Plid将中心投影到激光雷达BEV空间。 Δ l i d i r k \Delta_{lid}^{irk} Δlidirk和 σ l i d i r k \sigma_{lid}^{irk} σlidirk分别为由 q i q_i qi预测的采样偏移量和注意力权重。
图像分支:类似地,为每个查询
q
i
q_i
qi采样
K
=
4
K=4
K=4个点以检索图像特征图
X
c
a
m
X_{cam}
Xcam中的RoI特征:
F
c
a
m
i
t
k
=
1
∣
V
∣
∑
v
∈
V
∑
m
=
1
M
B
S
(
X
c
a
m
v
m
t
,
P
c
a
m
v
t
(
c
i
+
Δ
c
a
m
i
v
m
t
k
)
)
⋅
σ
c
a
m
i
v
m
t
k
F_{cam}^{itk}=\frac1{|\mathcal V|}\sum_{v\in\mathcal V}\sum_{m=1}^MBS(X_{cam}^{vmt},P_{cam}^{vt}(c_i+\Delta_{cam}^{ivmtk}))\cdot\sigma_{cam}^{ivmtk}
Fcamitk=∣V∣1v∈V∑m=1∑MBS(Xcamvmt,Pcamvt(ci+Δcamivmtk))⋅σcamivmtk
其中 P c a m v t P^{vt}_{cam} Pcamvt为3D空间到特征空间的投影函数(进行时间对齐后)。
通道-空间相关性感知的混合:将检索的RoI特征记为 f ∈ R S × C f\in\mathbb R^{S\times C} f∈RS×C,其中 S = K S=K S=K(激光雷达)或 S = T × K S=T\times K S=T×K(图像)。
首先基于
q
i
q_i
qi建模通道相关性,增强
f
f
f的通道语义:
W
c
=
Linear
(
q
i
)
∈
R
C
×
C
M
c
(
f
)
=
ReLU
(
LayerNorm
(
f
W
c
)
)
W_c=\text{Linear}(q_i)\in\mathbb R^{C\times C}\\ M_c(f)=\text{ReLU}(\text{LayerNorm}(fW_c))
Wc=Linear(qi)∈RC×CMc(f)=ReLU(LayerNorm(fWc))
其中
W
c
W_c
Wc为跨时间帧和采样点的通道相关性。随后,建模空间相关性:
W
s
=
Linear
(
q
i
)
∈
R
S
×
S
M
s
(
f
)
=
ReLU
(
LayerNorm
(
f
T
W
s
)
)
W_s=\text{Linear}(q_i)\in\mathbb R^{S\times S}\\ M_s(f)=\text{ReLU}(\text{LayerNorm}(f^TW_s))
Ws=Linear(qi)∈RS×SMs(f)=ReLU(LayerNorm(fTWs))
其中 W s W_s Ws为跨通道的空间相关性。最后,将特征拉直,并通过线性层聚合。
3. 不确定性感知的融合
给定各模态的RoI特征
F
c
a
m
F_{cam}
Fcam和
F
l
i
d
F_{lid}
Flid,UAF融合的目标是使模型对传感器失效(如图)具有鲁棒性。
融合可记为:
Q
ˉ
=
f
U
A
(
F
c
a
m
,
U
c
a
m
,
F
l
i
d
,
U
l
i
d
)
\bar Q=f_{UA}(F_{cam},U_{cam},F_{lid},U_{lid})
Qˉ=fUA(Fcam,Ucam,Flid,Ulid)
其中 Q ˉ = { q ˉ i ∈ R C } i = 1 N q \bar Q=\{\bar q_i\in\mathbb R^C\}_{i=1}^{N_q} Qˉ={qˉi∈RC}i=1Nq为细化的查询特征, f U A f_{UA} fUA为不确定性感知的融合函数。 U c a m U_{cam} Ucam和 U l i d U_{lid} Ulid为模态的不确定性。
考虑到精确定位的重要性,本文将不确定性
U
s
,
s
∈
{
c
a
m
,
l
i
d
}
U_s,s\in\{cam,lid\}
Us,s∈{cam,lid}定义为预测边界框与真实边界框
B
B
B欧式距离的函数:
U
s
=
1
−
exp
(
−
D
x
y
(
f
r
e
g
(
F
s
)
,
B
)
)
U_s=1-\exp(-D^{xy}(f_{reg}(F_s),B))
Us=1−exp(−Dxy(freg(Fs),B))
其中
f
r
e
g
f_{reg}
freg为边界框的回归函数,
D
x
y
D^{xy}
Dxy为BEV下的欧式距离。由于真实边界框不可获取,故使用距离预测器,根据RoI特征预测距离,得到:
U
s
=
1
−
exp
(
−
f
d
i
s
t
(
F
s
)
)
U_s=1-\exp(-f_{dist}(F_s))
Us=1−exp(−fdist(Fs))
其中 f d i s t f_{dist} fdist为距离预测器(MLP)。
对于不确定性感知的融合函数
f
U
A
f_{UA}
fUA,其为不确定性加权的拼接融合:
q
ˉ
i
=
F
F
N
(
C
a
t
(
F
c
a
m
(
1
−
U
^
c
a
m
)
,
F
l
i
d
(
1
−
U
^
l
i
d
)
)
)
\bar q_i=FFN(Cat(F_{cam}(1-\hat U_{cam}),F_{lid}(1-\hat U_{lid})))
qˉi=FFN(Cat(Fcam(1−U^cam),Flid(1−U^lid)))
这样,UAF量化了各模态的不确定性,指导模型关注更可靠的模态。
实施细节:使用查询去噪策略。
延迟分析:实验表明,本文的检测头部分(包括PAQG、RIAS、UAF模块等)仅占用了很小的时间。