【论文笔记】SparseLIF: High-Performance Sparse LiDAR-Camera Fusion for 3D Object Detection

原文链接:https://arxiv.org/abs/2403.07284

简介:稀疏3D检测器因其无需密集BEV特征表达的低延迟特性受到了广泛关注,但其性能低于密集检测器。本文的SparseLIF是一个完全稀疏的端到端多模态3D目标检测器,包含3个关键设计:(1)透视感知的查询生成(PAQG),利用透视先验生成高质量3D查询;(2)RoI感知的采样(RIAS),通过从各模态采样RoI特征细化先验查询;(3)不确定性感知的融合(UAF),精确量化各模态的不确定性并自适应融合,实现对传感器噪声的鲁棒性。实验表明SparseLIF在NuScenes上能达到最优性能。

0. SparseLIF概述

在这里插入图片描述
使用图像主干和FPN提取多视图/多尺度/多帧的图像特征,记为 X c a m = { X c a m v m t } v = 1 , m = 1 , t = 1 V , M , T X_{cam}=\{X_{cam}^{vmt}\}_{v=1,m=1,t=1}^{V,M,T} Xcam={Xcamvmt}v=1,m=1,t=1V,M,T,其中 V , M , T V,M,T V,M,T分别为相机视图数,特征尺度数和时间帧数。同时,使用3D激光雷达主干和FPN提取多尺度激光雷达特征,记为 X l i d = { X l i d r } r = 1 R X_{lid}=\{X_{lid}^r\}_{r=1}^R Xlid={Xlidr}r=1R,其中 R R R为激光雷达特征尺度数。

透视感知的查询生成(PAQG)模块使用耦合的2D和单目3D图像检测器,利用透视先验生成高质量3D查询。此后,RoI感知的采样(RIAS)模块会将查询与图像和激光雷达特征交互,提取RoI特征进行细化。不确定性感知的融合(UAF)模块会量化RoI特征的不确定性,并进行多模态特征的自适应融合,用于3D目标检测。

1. 透视感知的查询生成

最近的方法通常使用可学习查询,但学习将与输入无关的查询移动到真值附近较为困难。可视化表明,2D检测对远处和小物体的检测更好,因此本文利用2D检测提供的透视先验生成3D查询。
在这里插入图片描述
PAQG中的轻量级透视检测器包括耦合的2D和单目3D子网络,前者预测中心位置 ( c x , c y ) (c_x,c_y) (cx,cy)、置信度分数和类别标签,后者预测不同视图下的深度 d d d、旋转角、大小和速度。基于相机外参 E v E_v Ev和内参 I v I_v Iv,将边界框中心投影到3D空间:
c 3 D = E v − 1 I v − 1 [ c x d , c y d , d , 1 ] c^{3D}=E^{-1}_vI_v^{-1}[c_xd,c_yd,d,1] c3D=Ev1Iv1[cxd,cyd,d,1]

3D中心 c 3 D c^{3D} c3D会与预测大小、旋转角和速度组合得到3D边界框。然后,进行非最大抑制,根据置信度分数选择前 N k N_k Nk个边界框,通过交叉注意力,用图像特征初始化查询:
q i = 1 ∣ V ∣ ∑ v ∈ V ∑ m = 1 M B S ( X c a m v m , P c a m v ( c i 3 D ) ) q_i=\frac1{|\mathcal V|}\sum_{v\in \mathcal V}\sum_{m=1}^MBS(X_{cam}^{vm},P_{cam}^v(c_i^{3D})) qi=V1vVm=1MBS(Xcamvm,Pcamv(ci3D))

其中 P c a m v ( c i 3 D ) P_{cam}^v(c_i^{3D}) Pcamv(ci3D)将3D中心 c i 3 D c_i^{3D} ci3D投影到视图 v v v上, V \mathcal V V为有效投影视图数, B S ( ⋅ ) BS(\cdot) BS()表示双线性采样。为考虑被忽视的物体,本身还引入 N r N_r Nr个随机初始化的查询框,得到共 N q = N k + N r N_q=N_k+N_r Nq=Nk+Nr个查询提案。

实验表明,PAQG模块能明显提高小物体的远距离物体的检测性能。

2. RoI感知的采样

输入查询 Q = { q i ∈ R C } i = 1 N q Q=\{q_i\in\mathbb R^C\}_{i=1}^{N_q} Q={qiRC}i=1Nq,需要采样各模态的RoI特征以进行细化。

激光雷达分支:受可变形注意力启发,本文为每个查询 q i q_i qi采样 K = 4 K=4 K=4个点以检索激光雷达特征图 X l i d X_{lid} Xlid中的RoI特征 { F l i d i k } k = 1 K \{F_{lid}^{ik}\}_{k=1}^K {Flidik}k=1K
F l i d i k = ∑ r = 1 R B S ( X l i d r , P l i d ( c i + Δ l i d i r k ) ) ⋅ σ l i d i r k F_{lid}^{ik}=\sum_{r=1}^RBS(X_{lid}^r,P_{lid}(c_i+\Delta_{lid}^{irk}))\cdot\sigma_{lid}^{irk} Flidik=r=1RBS(Xlidr,Plid(ci+Δlidirk))σlidirk

其中 c i c_i ci为查询 q i q_i qi的3D中心, P l i d P_{lid} Plid将中心投影到激光雷达BEV空间。 Δ l i d i r k \Delta_{lid}^{irk} Δlidirk σ l i d i r k \sigma_{lid}^{irk} σlidirk分别为由 q i q_i qi预测的采样偏移量和注意力权重。

图像分支:类似地,为每个查询 q i q_i qi采样 K = 4 K=4 K=4个点以检索图像特征图 X c a m X_{cam} Xcam中的RoI特征:
F c a m i t k = 1 ∣ V ∣ ∑ v ∈ V ∑ m = 1 M B S ( X c a m v m t , P c a m v t ( c i + Δ c a m i v m t k ) ) ⋅ σ c a m i v m t k F_{cam}^{itk}=\frac1{|\mathcal V|}\sum_{v\in\mathcal V}\sum_{m=1}^MBS(X_{cam}^{vmt},P_{cam}^{vt}(c_i+\Delta_{cam}^{ivmtk}))\cdot\sigma_{cam}^{ivmtk} Fcamitk=V1vVm=1MBS(Xcamvmt,Pcamvt(ci+Δcamivmtk))σcamivmtk

其中 P c a m v t P^{vt}_{cam} Pcamvt为3D空间到特征空间的投影函数(进行时间对齐后)。

通道-空间相关性感知的混合:将检索的RoI特征记为 f ∈ R S × C f\in\mathbb R^{S\times C} fRS×C,其中 S = K S=K S=K(激光雷达)或 S = T × K S=T\times K S=T×K(图像)。

首先基于 q i q_i qi建模通道相关性,增强 f f f的通道语义:
W c = Linear ( q i ) ∈ R C × C M c ( f ) = ReLU ( LayerNorm ( f W c ) ) W_c=\text{Linear}(q_i)\in\mathbb R^{C\times C}\\ M_c(f)=\text{ReLU}(\text{LayerNorm}(fW_c)) Wc=Linear(qi)RC×CMc(f)=ReLU(LayerNorm(fWc))

其中 W c W_c Wc为跨时间帧和采样点的通道相关性。随后,建模空间相关性:
W s = Linear ( q i ) ∈ R S × S M s ( f ) = ReLU ( LayerNorm ( f T W s ) ) W_s=\text{Linear}(q_i)\in\mathbb R^{S\times S}\\ M_s(f)=\text{ReLU}(\text{LayerNorm}(f^TW_s)) Ws=Linear(qi)RS×SMs(f)=ReLU(LayerNorm(fTWs))

其中 W s W_s Ws为跨通道的空间相关性。最后,将特征拉直,并通过线性层聚合。

3. 不确定性感知的融合

在这里插入图片描述
给定各模态的RoI特征 F c a m F_{cam} Fcam F l i d F_{lid} Flid,UAF融合的目标是使模型对传感器失效(如图)具有鲁棒性。

融合可记为:
Q ˉ = f U A ( F c a m , U c a m , F l i d , U l i d ) \bar Q=f_{UA}(F_{cam},U_{cam},F_{lid},U_{lid}) Qˉ=fUA(Fcam,Ucam,Flid,Ulid)

其中 Q ˉ = { q ˉ i ∈ R C } i = 1 N q \bar Q=\{\bar q_i\in\mathbb R^C\}_{i=1}^{N_q} Qˉ={qˉiRC}i=1Nq为细化的查询特征, f U A f_{UA} fUA为不确定性感知的融合函数。 U c a m U_{cam} Ucam U l i d U_{lid} Ulid为模态的不确定性。

考虑到精确定位的重要性,本文将不确定性 U s , s ∈ { c a m , l i d } U_s,s\in\{cam,lid\} Us,s{cam,lid}定义为预测边界框与真实边界框 B B B欧式距离的函数:
U s = 1 − exp ⁡ ( − D x y ( f r e g ( F s ) , B ) ) U_s=1-\exp(-D^{xy}(f_{reg}(F_s),B)) Us=1exp(Dxy(freg(Fs),B))

其中 f r e g f_{reg} freg为边界框的回归函数, D x y D^{xy} Dxy为BEV下的欧式距离。由于真实边界框不可获取,故使用距离预测器,根据RoI特征预测距离,得到:
U s = 1 − exp ⁡ ( − f d i s t ( F s ) ) U_s=1-\exp(-f_{dist}(F_s)) Us=1exp(fdist(Fs))

其中 f d i s t f_{dist} fdist为距离预测器(MLP)。

对于不确定性感知的融合函数 f U A f_{UA} fUA,其为不确定性加权的拼接融合:
q ˉ i = F F N ( C a t ( F c a m ( 1 − U ^ c a m ) , F l i d ( 1 − U ^ l i d ) ) ) \bar q_i=FFN(Cat(F_{cam}(1-\hat U_{cam}),F_{lid}(1-\hat U_{lid}))) qˉi=FFN(Cat(Fcam(1U^cam),Flid(1U^lid)))

这样,UAF量化了各模态的不确定性,指导模型关注更可靠的模态。

实施细节:使用查询去噪策略。
延迟分析:实验表明,本文的检测头部分(包括PAQG、RIAS、UAF模块等)仅占用了很小的时间。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

byzy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值