【CVPR2024】RadarDistill: Boosting Radar-based Object Detection Performance via Knowledge Distillation

RadarDistill: Boosting Radar-based Object Detection Performance via Knowledge Distillation from LiDAR Features
原文链接:https://arxiv.org/abs/2403.05061

简介:雷达数据稀疏而富有噪声,寻找合适的表达较为困难。本文提出RadarDistill,利用激光雷达数据和知识蒸馏增强雷达特征。模型包含3个关键组件:跨模态对齐(CMA),基于激活的特征蒸馏(AFD),和基于提案的特征蒸馏(PFD)。CMA通过多层膨胀操作提高雷达特征密度,AFD将激光雷达激活强度较高区域的知识迁移到雷达模态,PFD则指导雷达模态的提案特征模拟激光雷达特征。在nuScenes数据集上的实验表明,本文方法能达到雷达单一模态的SotA性能,且能大幅提升雷达-图像融合方法的性能。


1. 准备知识

本文使用PillarNet作为激光雷达检测器和雷达检测器的基准方案。记激光雷达和雷达的稀疏2D柱体特征分别为 F l d r 2 D F_{ldr}^{2D} Fldr2D F r d r 2 D F_{rdr}^{2D} Frdr2D,并定义低级BEV特征 F m o d l ∈ R C × H 8 × W 8 F_{mod}^l\in\mathbb R^{C\times\frac H8\times\frac W8} FmodlRC×8H×8W

F m o d l = SparseEnc ( F m o d 2 D ) F_{mod}^l=\text{SparseEnc}(F_{mod}^{2D}) Fmodl=SparseEnc(Fmod2D)

其中 m o d ∈ { l d r , r d r } mod\in\{ldr,rdr\} mod{ldr,rdr},SparseEnc表示2D稀疏卷积编码器。

类似地,定义高级BEV特征 F m o d h ∈ R C × H 8 × W 8 F_{mod}^h\in\mathbb R^{C\times\frac H8\times\frac W8} FmodhRC×8H×8W

F m o d h = DenseEnc ( F m o d l ) F_{mod}^h=\text{DenseEnc}(F_{mod}^l) Fmodh=DenseEnc(Fmodl)

其中DenseEnc表示2D密集卷积编码器。

高级BEV特征会输入CenterPoint的头部,预测分类热图 H c l s H^{cls} Hcls、回归热图 H r e g H^{reg} Hreg和IoU分数热图 H I o U H^{IoU} HIoU

H m o d c l s , H m o d r e g , H m o d I o U = CenterHead ( F m o d h ) H_{mod}^{cls},H_{mod}^{reg}, H_{mod}^{IoU}=\text{CenterHead}(F_{mod}^h) Hmodcls,Hmodreg,HmodIoU=CenterHead(Fmodh)

2. 跨模态对齐

由于稀疏性不同,雷达的非空柱体数仅占激光雷达非空柱体数的一小部分。直接将激光雷达的非空柱体特征迁移到雷达的相应空柱体是不可行的,因此需要进行跨模态对齐(CMA)。

CMA模块如图所示,其中下采样模块使用可变形卷积(DCN)提取重要特征,并使用ConvNeXt V2块聚合。上采样块使用2D转置卷积进行膨胀,以密集化特征的周边区域。聚合模块为拼接+ 1 × 1 1\times 1 1×1卷积,执行类似跳跃连接的操作。

通过CMA后,雷达的低级特征变得更加密集。

3. 基于激活的特征蒸馏

AFD使用激活感知的特征匹配对齐 F a ( n ) F^{a^{(n)}} Fa(n) F l d r l F^l_{ldr} Fldrl

特征的“激活区域”被定义为特征强度值沿通道维度求和后大于0的区域,其余区域被定义为“未激活区域”。激活掩膜 M i , j l d r , M i , j a ( n ) M_{i,j}^{ldr},M_{i,j}^{a^{(n)}} Mi,jldr,Mi,ja(n)用于表达激活区域。

蒸馏区域同样分为两类:激活区域(AR,雷达与激光雷达均激活)和未激活区域(IR,雷达激活而激光雷达未激活)。AR与IR是不平衡的,其中后者为主要区域。本文使用AR与IR的像素数之比表达IR的相对自适应权重 ρ \rho ρ

定义掩膜 M s e p ( n ) M^{sep^{(n)}} Msep(n)区分上述区域:

A R ( n ) = ( M a ( n ) = 1 ) & ( M l d r = 1 ) , I R ( n ) = ( M a ( n ) = 1 ) & ( M l d r = 0 ) , M i , j s e p ( n ) = { α , 若 ( i , j ) ∈ A R ( n ) ρ ( n ) × β , 若 ( i , j ) ∈ I R ( n ) 0 , 否则 , ρ ( n ) = N A R ( n ) N I R ( n ) AR^{(n)}=(M^{a^{(n)}}=1)\&(M^{ldr}=1),\\ IR^{(n)}=(M^{a^{(n)}}=1)\&(M^{ldr}=0),\\ M_{i,j}^{sep^{(n)}}=\begin{cases}\alpha, & 若(i,j)\in AR^{(n)}\\ \rho^{(n)}\times\beta, & 若(i,j)\in IR^{(n)} \\ 0, &否则\end{cases},\\ \rho^{(n)}=\frac {N_{AR^{(n)}}} {N_{IR^{(n)}}} AR(n)=(Ma(n)=1)&(Mldr=1),IR(n)=(Ma(n)=1)&(Mldr=0),Mi,jsep(n)= α,ρ(n)×β,0,(i,j)AR(n)(i,j)IR(n)否则,ρ(n)=NIR(n)NAR(n)

其中 α \alpha α β \beta β为平衡参数, N N N为像素数。

蒸馏损失 L l o w ( n ) L_{low}^{(n)} Llow(n)

L l o w ( n ) = ∑ c = 1 C ∑ i = 1 H ∑ j = 1 W M i , j s e p ( n ) ( F i , j l d r − F i , j a ( n ) ) 2 L_{low}^{(n)}=\sum_{c=1}^{C}\sum_{i=1}^H\sum_{j=1}^WM^{sep^{(n)}}_{i,j}(F^{ldr}_{i,j}-F_{i,j}^{a^{(n)}})^2 Llow(n)=c=1Ci=1Hj=1WMi,jsep(n)(Fi,jldrFi,ja(n))2

激活掩膜损失 L m a s k ( n ) L_{mask}^{(n)} Lmask(n)保证雷达的激活掩膜接近激光雷达的激活掩膜:

L l o w ( n ) = ∑ i = 1 H ∑ j = 1 W ∣ M i , j l d r − σ ( F i , j a ( n ) ) ∣ L_{low}^{(n)}=\sum_{i=1}^H\sum_{j=1}^W|M_{i,j}^{ldr}-\sigma(F_{i,j}^{a^{(n)}})| Llow(n)=i=1Hj=1WMi,jldrσ(Fi,ja(n))

其中 σ \sigma σ为sigmoid函数。

最终的AFD损失为

L A F D = 1 2 ∑ n = 1 2 ( L l o w ( n ) + L m a s k ( n ) ) L_{AFD}=\frac12\sum_{n=1}^2(L^{(n)}_{low}+L^{(n)}_{mask}) LAFD=21n=12(Llow(n)+Lmask(n))

本文AFD未考虑激光雷达激活、但雷达未激活的区域,以及激光雷达和雷达均未激活的区域。这可能是因为:雷达特征膨胀后仍为未激活的区域离雷达原始测量太远,提取的特征不可靠;而后者的蒸馏没有意义。

4. 基于提案的特征蒸馏

PFD使用提案级别的特征匹配,以减少高级特征的差异。其使用雷达模态的预测结果,指导雷达网络生成类似激光雷达的物体特征,同时抑制误检的特征。

根据文中描述,可画图如下:

雷达网络的DenseEnc按上图生成高级BEV特征后,对 F r d r h ( m ) F^{h^{(m)}}_{rdr} Frdrh(m)使用PFD。

首先将雷达热图 H r d r c l s H_{rdr}^{cls} Hrdrcls和真实热图 H G T c l s H_{GT}^{cls} HGTcls阈值化(阈值取0.1),以确认TP、FP和FN:

T P = ( H G T c l s > σ ) & ( H r d r c l s > σ ) , F P = ( H G T c l s < σ ) & ( H r d r c l s > σ ) , F N = ( H G T c l s > σ ) & ( H r d r c l s < σ ) TP=(H_{GT}^{cls}>\sigma)\&(H_{rdr}^{cls}>\sigma),\\ FP=(H_{GT}^{cls}<\sigma)\&(H_{rdr}^{cls}>\sigma),\\ FN=(H_{GT}^{cls}>\sigma)\&(H_{rdr}^{cls}<\sigma) TP=(HGTcls>σ)&(Hrdrcls>σ),FP=(HGTcls<σ)&(Hrdrcls>σ),FN=(HGTcls>σ)&(Hrdrcls<σ)

TP和FN为前景相关的重要区域,被视为同一类;而FP被划到另一类。缩放掩膜定义为:

M i , j s c a l e = { λ 1 N T P + N F N , 若 ( i , j ) ∈ ( T P ∪ F N ) , λ 2 N F P , 若 ( i , j ) ∈ F P , 0 , 否则 M_{i,j}^{scale}=\begin{cases}\frac{\lambda_1}{N_{TP}+N_{FN}},&若(i,j)\in(TP\cup FN),\\ \frac{\lambda_2}{N_{FP}},&若(i,j)\in FP,\\ 0, &否则\end{cases} Mi,jscale= NTP+NFNλ1,NFPλ2,0,(i,j)(TPFN),(i,j)FP,否则

其中 λ 1 , λ 2 \lambda_1,\lambda_2 λ1,λ2为平衡参数。

跨模态特征尺度的对齐(归一化)即对 F l d r h F_{ldr}^h Fldrh F r d r h ( m ) F_{rdr}^{h^{(m)}} Frdrh(m)使用通道softmax:

S c , : , : m o d = exp ⁡ ( F c , : , : m o d τ ) ∑ c ∗ = 1 C exp ⁡ ( F c ∗ , : , : m o d τ ) S^{mod}_{c,:,:}=\frac{\exp(\frac{F^{mod}_{c,:,:}}{\tau})}{\sum_{c^*=1}^C\exp(\frac{F^{mod}_{c^*,:,:}}{\tau})} Sc,:,:mod=c=1Cexp(τFc,:,:mod)exp(τFc,:,:mod)

其中 τ \tau τ为控制分布平滑度的超参数,设为0.5。

蒸馏损失 L h i g h ( m ) L_{high}^{(m)} Lhigh(m)

L h i g h ( m ) = ∑ c = 1 C ∑ i = 1 H ∑ j = 1 W M i , j s c a l e ∣ S c , i , j l d r − S c , i , j h ( m ) ∣ L_{high}^{(m)}=\sum_{c=1}^{C}\sum_{i=1}^H\sum_{j=1}^WM^{scale}_{i,j}|S^{ldr}_{c,i,j}-S^{h^{(m)}}_{c,i,j}| Lhigh(m)=c=1Ci=1Hj=1WMi,jscaleSc,i,jldrSc,i,jh(m)

注意到在上述蒸馏时,由于TP、FP、FN是基于真实热图判断的,故没有考虑激光雷达的检测正确性。换句话说,在激光雷达误检/漏检的情况,雷达蒸馏到的知识仍可能导致误检/漏检。

PFD损失为

L P F D = 1 2 ∑ m = 1 2 L h i g h ( m ) L_{PFD}=\frac12\sum_{m=1}^2L^{(m)}_{high} LPFD=21m=12Lhigh(m)

5. 总体损失函数

激光雷达网络为预训练网络,在蒸馏过程被冻结。雷达网络的损失函数为检测损失、AFD损失和PFD损失的加权和。

总结:本文训练时的模型是一种师生模型,激光雷达网络为教师模型,而雷达网络为学生模型。测试时,只需雷达网络(学生模型)。
若将PFD中的真实热图替换为激光雷达热图,将检测损失中的检测真值替换为激光雷达的检测结果,该模型应该可以延伸到无标签下的雷达模型训练。

  • 12
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

byzy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值