3D-CVF
Abstract
融合的难点之一是传感器的空间角度。
融合时可能会出现空间信息损失,因为这种转换是一到多的转换。
为了解决这个问题,文中采用的是利用交叉视角的空间融合策略结合相机和激光雷达的信息。
-
该方法利用自动校准的投影,将2D相机特征转换成平滑的空间特征映射,该映射和激光雷达映射在俯视图上保持最高的一致性;
-
采用门控特征融合网络,根据区域使用空间注意力映射到混合相机和激光雷达特征;
-
在候选框优化阶段完成camera-LiDAR的特征融合。使用基于兴趣的特征池化区域分别对低等级的激光雷达特征和相机特征进行池化,两者与合并的camera-LiDAR特征融合来增强候选区域的优化。
Intruducion
相机缺少深度信息,激光雷达无法提供密集且丰富的信息,如较细小的形状、颜色和纹理。
文中采用的是多视角的融合,进而保证不损失重要信息。
在第一个阶段,我们生成较强的联合camera-LiDAR特征。这个自动校准特征投影将相机视角的特征映射为光滑且稠密的BEV特征映射,采用的方法为能够进行矫正空间偏移的插值投影。
之后利用自适应的门控融合网络解决从两个源中获取物体以及对应位置的问题。
最后分别对IoU区域的两个特征池化,并和之前的合并特征融合。
Related Work
介绍了其他类型的方式,如MV3D,AVOD,ContFuse和MMF等。
Proposed 3D Object Detector
总体结构:
由5个部分构成:
- 激光管道
- 相机管道
- 交叉视角空间特征映射
- 门控相机-激光雷达特征融合网络
- 候选区生成和优化网络
Lidar Pipeline
激光雷达基于体素结构。利用Voxelnet网络,对每个体素中的激光雷达点进行编码,生成固定长度的嵌入式向量。这些经过编码的体素经过六个3D 稀疏卷积层(strides=2),得到在BEV区域的128通道的激光雷达特征映射。激光雷达特征映射相对于体素特征结构在宽度和高度上减少了8倍。
RGB Pipeline
利用预训练的ResNet-18网络,之后再利用FPN,作为该通道的backbone,生成camera-view的256通道的相机特征映射。其宽度和长度相对于之前的图像缩小了8倍。
Cross-View Feature Mapping
CVF映射生成了BEV角度的相机特征映射。这个自动校准的投影将camera-view的特征映射转化为BEV的特征映射。之后利用额外的卷积网络增强投影的特征映射。
Gated Camera-LiDAR Feature Fusion
利用门控网络联合图像特征映射和激光雷达特征映射。将空间注意力映射应用于特征映射来根据每个模式的重要性调整其贡献。该网络生成了联合camera-LiDAR特征映射。
3D RoI Fusion-based Refifinement
当基于camera-LiDAR特征映射的候选区域生成之后,利用RoI池化,进一步优化候选区域。因为联合camera-LiDAR特征映射不包含充分的空间信息,利用基于3D RoI池化提取多尺度激光雷达特征和相机特征。这些特征分别通过PointNet编码器进行编码,之后通过3D RoI的融合网络融合三者,得到的融合特征用于生成最后的检测结果。
Cross-View Feature Mapping
Dense Camera Voxel Structure
构建相机体素结构,其宽度和高度分别是激光雷达的2倍。
Auto-Calibrated Projection Method
目的:camera-feature转化为BEV;发现两者之间最好的对应关系以便于最大化信息融合效果
Gated Camera-LiDAR Feature Fusion
Adaptive Gated Fusion Network
× is the element-wise product operation, and ⊕ is the channel-wise concatenation operation.
3D-RoI Fusion-based Refinement
Region Proposal Generation
初步的检测结果通过RPN获得,将检测子网络应用于joint camera-LiDAR特征来预测初始化的回归结果和木匾分数。由于初步的检查结果有大量与目标得分有关的候选框,因此利用带有IoU阈值为0.7的NMS后处理获得得分最高的目标候选框。
3D RoI-based Feature Fusion
利用旋转3D RoI对齐将预测的边界框的数值转换到世界坐标系下,利用基于3D RoI池化对低等级的LiDAR和相机特征进行池化,之后和joint-camera-LiDAR特征进行结合。低等级的特征在目标上任然保持了细节的空间特征(在z轴)。具体来说,对应于3D RoI边界框的6个尺度的激光雷达特征通过基于3D RoI的池化。利用PointNet对每个尺度的低等级的LiDAR特征进行编码,再合并成1x1的特征向量。
与此同时,多视角的图像特征也转化为1x1的特征向量。由于相机视图特性与3D RoI框在不同的域中表示,我们设计了基于RoI网格的池化。如下图所示,在3D RoI边界框中构建了r * r * r空间坐标。这些点投影到相机视角域中,与这些点一致的相机特征像素通过PointNet编码。这些编码的多视角相机特征的合并形成了另一个1x1的特征向量。最后用于优化候选框的特征是上述两个1x1的特征向量和经过RoI对齐的joint camera-LiDAR特征的合并。
Training Loss Function
两个阶段:
第一个阶段:
L
r
p
n
=
β
1
L
c
l
s
+
β
2
(
L
r
e
g
∣
θ
+
L
r
e
g
∣
l
o
c
)
L_{rpn} = \beta_1 L_{cls} + \beta_2 (L_{reg|\theta} + L_{reg|loc})\\
Lrpn=β1Lcls+β2(Lreg∣θ+Lreg∣loc)
其中:
β
1
=
1
,
β
2
=
2
L
r
e
g
∣
θ
=
S
m
o
o
t
h
e
d
−
L
1
l
o
s
s
L
r
e
g
∣
l
o
c
=
m
o
d
i
f
i
e
d
S
m
o
o
t
h
e
d
−
L
1
l
o
s
s
\beta_1 = 1, \beta_2 = 2\\ L_{reg|\theta} = Smoothed-L1 loss \\ L_{reg|loc} = modified Smoothed-L1 loss \\
β1=1,β2=2Lreg∣θ=Smoothed−L1lossLreg∣loc=modifiedSmoothed−L1loss
L c l s = f o c a l l o s s = 1 N b o x Σ i = 1 N b o x − α ( 1 − p i ) γ log ( p i ) α = 0.25 γ = 2 N b o x : 边 界 框 的 数 量 p i : 第 i 个 目 标 框 的 分 数 L_{cls} = focal\ loss=\frac{1}{N_{box}}\Sigma_{i=1}^{N_{box}}-\alpha(1-p_i)^{\gamma}\log(p_i)\\ \alpha = 0.25\\ \gamma = 2\\ N_{box}:边界框的数量\\ p_i:第i个目标框的分数\\ Lcls=focal loss=Nbox1Σi=1Nbox−α(1−pi)γlog(pi)α=0.25γ=2Nbox:边界框的数量pi:第i个目标框的分数
第二阶段:
L
r
e
f
=
β
1
L
i
o
u
+
β
2
(
L
r
e
g
∣
θ
+
L
r
e
g
∣
l
o
c
)
L_{ref} = \beta_1 L_{iou} + \beta_2 (L_{reg|\theta} + L_{reg|loc})
Lref=β1Liou+β2(Lreg∣θ+Lreg∣loc)
L
i
o
u
L_{iou}
Liou表示的是
3
D
I
o
U
l
o
s
s
3D IoU loss
3DIoUloss的自信度分数损失。
Experiments
KITTI
-
AP是通过最新的41-point precision-recall curve作为检测指标测量的。
-
点云范围:[0, 70.4] x [-40, 40] x [-3, 1]m在xyz轴上;
-
激光雷达的范围的体素结构包含1600×1408×40个体素晶格。,每个体素的尺寸为:0*.05×0.05×0.1m*
训练过程:
结果对比:
Ablation study
Conclusions
3D-CVF是两个阶段的多模式目标检测。在第一个阶段,为了生成激光雷达和相机的有效结合方式,我们引入了交叉视角的特征融合,将camera-view的特征映射投影到BEV的矫正和插值的特征映射。之后利用自适应的门控融合网络有选择的融合相机和激光雷达特征。在第二个阶段,;利用3D RoI融合网络对相机特征、激光雷达特征和融合特征三者进行处理。进而得到目标检测的结果。