1. Motivation
受二维目标检测启发,并且利用多视图的信息,将3D稀疏点云数据编码成dense的多视图数据,之后进行深度融合在进行目标检测。
2. Contribution
- 利用多模态信息进行区域特征融合,得到更加丰富点云信息;
- 提出多视图编码方法,获得稀疏的三维dense的点云表示;
- 采用点云鸟瞰图来生成高度精确的3D proposals;
- 设计了一种深度融合方法,使中间层能够从不同的试图进行交互;
- 结合drop-path训练方法和辅助loss对训练网络进行正则化。
3. 正文
3.1 3D Point Cloud Representation
3.1.1 Bird’s Eye View Representation
如Figure 2 所示,论文将点云数据进行投影到平面上,并离散成0.1m的二维网格。对于每个一个单元格,高度特征设置成单元格中点的最大高度。论文将点云切成多个切片,并为每一个切片计算高度图。强度特征则设置为每个单元中高度最高的点的反射率值。点云密度表示每个单元中的点数,论文将其计算为
m
i
n
(
1.0
,
log
(
N
+
1
)
log
(
64
)
)
min(1.0,\;\frac{\log\left(N+1\right)}{\log\left(64\right)})
min(1.0,log(64)log(N+1)),其中N代表每个网格中点的数量。由于强度和密度特征是对于整个点云进行计算的,而高度特征是对于M个切片计算的,因此鸟瞰图编码为(M+2)个通道。
3.1.2 From View Representation
由于Lidar点云非常稀疏,投影到图像平面上得到非常稀疏的2D图像,因此论文将其投影到一个柱面上,得到一个dense的前视图,以来补充鸟瞰图特征信息。假设点
p
=
(
x
,
y
,
z
)
p=\left(x,y,z\right)
p=(x,y,z),在前视图对应坐标为
p
f
v
=
(
r
,
c
)
p_{fv}=\left(r,c\right)
pfv=(r,c),其中:
3.2 3D Proposal Network
由于鸟瞰图有以下好处:
- 物体投影到鸟瞰图时保持物理尺寸,因此具有较小的尺寸方差;
- 鸟瞰图不同物体占据不同空间,避免遮挡问题;
- 道路场景中,由于物体通常位于地面上,垂直位置变化较小;因此论文以鸟瞰图为输入,采用RPN进行3D proposal的生成。
因此使用鸟瞰图进行3D proposal的生成,对于每个3D proposal,规定为
(
x
,
y
,
z
,
l
,
w
,
h
)
\left(x,y,z,l,w,h\right)
(x,y,z,l,w,h),其中坐标为3D box的中心。而先验3D box的坐标为
(
x
b
v
,
y
b
v
,
l
b
v
,
w
b
v
)
\left(x_{bv},y_{bv},l_{bv},w_{bv}\right)
(xbv,ybv,lbv,wbv),并且论文设计了4个anchor box(根据训练结果聚类得到)。对于车辆检测,论文将先验
(
l
,
w
)
\left(l,w\right)
(l,w)设置为{(3.9, 1.6), (1.0, 0.6)},并且将高度h设置成1.56m,然后旋转90度,又能得到两个先验框。
(
x
,
y
)
\left(x,y\right)
(x,y)在先验图中遍历,z值可以通过相机盖度和目标高度进行计算得到。3D候选框角度限制在(0, 90)之间,便于训练。
点云进行离散得到分辨率为0.1m的鸟瞰图,即每个鸟瞰图中的像素点在实际场景中的长度和宽度都是0.1m,即每个目标框占据范围大约为5-40个像素。因为检测到小目标依旧比较困难,因此论文在候选框网络之前的最后一层添加了一个上采样,进入候选框网络特征边大小便是原始输入鸟瞰图的1/4,因此设置3D bbox的偏移值:
t
=
(
△
x
,
△
y
,
△
z
,
△
l
,
△
w
,
△
h
)
t\;=\left(\triangle x,\triangle y,\triangle z,\triangle l,\triangle w,\triangle h\right)
t=(△x,△y,△z,△l,△w,△h)。其中前三个为anchor的长宽高归一化的量,而后三者为相对gt的log对数得到的:
△
s
=
log
s
G
T
s
a
n
c
h
o
r
\triangle s=\log\frac{s_{GT}}{s_{anchor}}
△s=logsanchorsGT。
在训练阶段,分类loss采用交叉熵,回归损失采用smooth L1损失。鸟瞰图中的anchor鱼gt的iou超过0.7视为正例,小于0.5视为负例,介于中间样本框忽略。
3.3 Region-based Fusion Network
3.3.1 Multi-View ROI Pooling
来自不同视图通常具有不同得分辨率,因此对每个视图采用ROI池化,以来获得相同长度得特征向量。因为论文是以Lidar坐标系为基准坐标系,因此将3D proposal分别投影到鸟瞰图(BV)、前视图(FV)和RGB图时需要进行坐标转化。
3.3.2 Deep Fusion
对于深度信息的融合,论文首先提出两种常见方式:
- early fusion: 即先融合在提取特征。
- late fusion:即先提取特征再融合。
- deep fusion:本文综合上面两种方法提出一种新的融合方法,为了使得不同视图的中间层特征之间有更多的交互,因此设计了deep fusion。
3.3.3 Oriented 3D Box Regression
论文采用预测8个角点一共24个值的方法,3D框得方方向可以根据这8个点获得,经过相关实验这种冗余得预测必3D box得中心点及长宽高偏移效果要好。
3.3.4 Network Regularization
论文采用两种方法对基于区域的融合网络进行正则化处理:下降路径训练和辅助损失。对于每次迭代,随机选择50%的概率执行全局drop-path或局部drop-path。如果选择全局下降路径,则从三个视图随机选择一个;如果选择本地丢弃路径,则输入到每个连接节点的路径将以50%的概率随机删除。论文确保每个连接点至少保留一条输入路径,并且再网络中添加了辅助路径和损耗。辅助路径与著网络层数相同。辅助路径与每一层与主网络中的相应层共享权重。论文使用相同的多任务损失,即分类损失加上3D 框回归损失,来反向传播每个辅助路径,并对包含辅助损失在内的所有损失进行平均加权。