原文链接:https://arxiv.org/abs/2407.08569
简介:本文将激光雷达数据与2D图像结合进行无监督3D检测,并提出激光雷达-2D自步学习(LiSe)的方法。本文认为RGB图像作为激光雷达数据的补充,提供了精确的2D位置线(尤其对于激光雷达点很少的物体)。本文设计了自适应采样和弱模型整合策略,前者在训练时动态调整伪标签分布以避免过拟合;后者则巩固不同伪标签分布下训练模型的强度,组成鲁棒且强大的最终模型。
几个概念:
- 无监督3D目标检测的过程不仅包括精确估计物体的3D位置,还包括识别未见过的物体和处理不可预测的环境条件。挑战在于为稀疏和富含噪声的数据提取有判别力的特征,并同时克服类别不平衡、尺度变化和部分遮挡的问题。
- 自步学习(self-paced learning) 是训练数据根据模型性能动态调整的自主学习过程。
0. 概述
本文方法分为三个部分:激光雷达与2D场景的结合、自适应采样策略和弱模型整合。
1. 激光雷达与2D场景的结合
来自激光雷达的伪框:首先进行激光雷达数据处理。使用GPS/INS数据对齐不同激光雷达扫描到同一坐标系下,并参考前人工作计算各点的持续性分数(ppScore)
τ
(
u
)
\tau(u)
τ(u),以判断其属于静态或动态物体。ppScore越高,越可能来自静态物体。
计算ppScore后,同时考虑几何距离和ppScore的相似性进行聚类,将点云分割为不同的簇。具体来说,建立一个图,其中间距小于半径阈值 r t r_t rt的两点通过边连接,边的权重为ppScore之差 ∣ τ ( u ) − τ ( v ) ∣ |\tau(u)-\tau(v)| ∣τ(u)−τ(v)∣。使用DBSCAN在图的变体,将图分割为ppScore和空间位置相近的不同簇,并过滤掉那些前 K % K\% K%点的ppScore大于阈值 α \alpha α的簇,剩余的簇被视为前景簇。最后,使用现成的边界框拟合算法,为每个簇生成3D边界框。
来自图像的伪框:本文使用现成的开放词汇2D检测器GroundingDINO,即将类别名输入GroundingDINO获取2D边界框集合。由于预测框通常包含背景,不反应物体的真实形状,本文将其作为分割一切模型(SAM)的提示,得到相应的2D物体掩膜。随后,将激光雷达点云投影到图像上,取掩膜内的点作为来自相应物体的点,并使用区域增长算法获取包含最大点数的簇。最后,基于簇获取3D边界框。
所有生成的3D边界框会作为激光雷达点云的伪标签。需要注意的是,开放词汇2D检测器可检测到激光雷达难以检测的远处物体或小物体,可作为激光雷达伪标签的补充,从而提高整体性能和训练数据的覆盖率。
激光雷达与2D场景的结合:本文使用距离感知的策略融合来自激光雷达和图像的伪标签。首先定义距离阈值
d
min
d_{\min}
dmin,并选择该距离外来自图像的伪框
B
i
m
g
B_{img}
Bimg,与来自激光雷达的伪框
B
L
i
D
A
R
B_{LiDAR}
BLiDAR一起构成最终伪框集合:
B
f
i
n
a
l
=
B
L
i
D
A
R
∪
{
b
i
∣
d
(
b
i
)
≥
d
min
,
b
i
∈
B
i
m
g
}
B_{final}=B_{LiDAR}\cup\{b_i|d(b_i)\geq d_{\min},b_i\in B_{img}\}
Bfinal=BLiDAR∪{bi∣d(bi)≥dmin,bi∈Bimg}
其中 d ( b i ) d(b_i) d(bi)为边界框到自车的距离。该方法可以避免近距离处来自图像的伪框与来自激光雷达的伪框冲突(因为近距离处激光雷达点云足够进行检测)。
2. 自适应采样策略
由于训练时模型容易倾向简单样本(如近处或大型物体),且该倾向是因为不平衡的数据分布,因此本文提出自适应采样策略,在训练阶段动态平衡不同物体。
首先,使用基于距离和体积的度量来分类物体,前者将物体分为近距离和远距离物体,后者则将物体分为大型物体和小型物体。
随后,计算训练前的初始物体分布和训练后的推断物体分布,比较之并为下一轮训练做出调整:推断分布中增加概率的物体,会在下一轮减少;反之增加。引入采样分数:
R
(
g
i
)
=
{
1
−
(
Q
(
g
i
)
−
Q
i
n
i
t
(
g
i
)
)
若
Q
(
g
i
)
>
Q
i
n
i
t
(
g
i
)
1
+
(
Q
i
n
i
t
(
g
i
)
−
Q
(
g
i
)
)
若
Q
(
g
i
)
≤
Q
i
n
i
t
(
g
i
)
R(g_i)=\begin{cases}1-(Q(g_i)-Q_{init}(g_i))&若Q(g_i)>Q_{init}(g_i)\\1+(Q_{init}(g_i)-Q(g_i))&若Q(g_i)\leq Q_{init}(g_i)\end{cases}
R(gi)={1−(Q(gi)−Qinit(gi))1+(Qinit(gi)−Q(gi))若Q(gi)>Qinit(gi)若Q(gi)≤Qinit(gi)
上述两个公式化简后其实是一样的,即 1 − Q ( g i ) + Q i n i t ( g i ) 1-Q(g_i)+Q_{init}(g_i) 1−Q(gi)+Qinit(gi)。
其中
g
i
g_i
gi为一类物体(基于距离和体积度量),
Q
(
g
i
)
Q(g_i)
Q(gi)为推断分布的采样概率,
Q
i
n
i
t
(
g
i
)
Q_{init}(g_i)
Qinit(gi)为初始分布中的采样概率。
R
(
g
i
)
R(g_i)
R(gi)为下一轮的新采样分数。自适应重采样可使模型朝向困难样本,实现自步学习。
3. 弱模型整合
不同训练轮次的模型倾向不同类型的物体,而缺乏全面的检测能力,称为“弱模型”。本文引入弱模型整合,以建立更强的鲁棒模型。选择
T
s
T_s
Ts轮开始的模型作为初始化,并将其后的弱模型与前面整合的强模型以权重平均的方式整合,作为当前轮次的强模型。整合因数
λ
\lambda
λ用于平衡过去强模型和当前弱模型的影响。计算过程如下:
Θ
t
=
{
θ
t
若
1
≤
t
<
T
s
λ
⋅
Θ
t
−
1
+
(
1
−
λ
)
⋅
θ
t
若
T
s
≤
t
≤
T
\Theta_t=\begin{cases}\theta_t&若1\leq t<T_s\\\lambda\cdot\Theta_{t-1}+(1-\lambda)\cdot\theta_t&若T_s\leq t\leq T\end{cases}
Θt={θtλ⋅Θt−1+(1−λ)⋅θt若1≤t<Ts若Ts≤t≤T
其中 T T T为总训练轮数, θ t \theta_t θt为弱模型权重, Θ t \Theta_t Θt为强模型权重。
4. 基于伪标签的自步学习
本文将上述步骤整合为自步学习。具体来说,训练包含两个阶段:种子训练和自训练。前者使用 B f i n a l B_{final} Bfinal训练初始检测器 Θ 0 \Theta_0 Θ0,后者则迭代地训练 T T T轮,其中第 t t t轮使用 t − 1 t-1 t−1轮的模型 Θ t − 1 \Theta_{t-1} Θt−1推断得到的伪标签,并使用自适应采样策略重新分布,用于训练新模型 Θ t \Theta_t Θt。
实验表明,LiSe在远距离处的性能能超过全监督方法,证明了2D场景理解对远距离物体检测能力的增强。
总结:本文只是在一开始生成初始伪标签时利用了图像数据,在后续迭代训练和推断时均无需图像,因此本质上仍属于激光雷达目标检测方法。