Multi-View 3D Object Detection Network for Autonomous Driving

1. Motivation

受二维目标检测启发,并且利用多视图的信息,将3D稀疏点云数据编码成dense的多视图数据,之后进行深度融合在进行目标检测。

2. Contribution

  1. 利用多模态信息进行区域特征融合,得到更加丰富点云信息;
  2. 提出多视图编码方法,获得稀疏的三维dense的点云表示;
  3. 采用点云鸟瞰图来生成高度精确的3D proposals;
  4. 设计了一种深度融合方法,使中间层能够从不同的试图进行交互;
  5. 结合drop-path训练方法和辅助loss对训练网络进行正则化。

3. 正文

在这里插入图片描述

3.1 3D Point Cloud Representation

3.1.1 Bird’s Eye View Representation

在这里插入图片描述
如Figure 2 所示,论文将点云数据进行投影到平面上,并离散成0.1m的二维网格。对于每个一个单元格,高度特征设置成单元格中点的最大高度。论文将点云切成多个切片,并为每一个切片计算高度图。强度特征则设置为每个单元中高度最高的点的反射率值。点云密度表示每个单元中的点数,论文将其计算为 m i n ( 1.0 ,    log ⁡ ( N + 1 ) log ⁡ ( 64 ) ) min(1.0,\;\frac{\log\left(N+1\right)}{\log\left(64\right)}) min(1.0,log(64)log(N+1)),其中N代表每个网格中点的数量。由于强度和密度特征是对于整个点云进行计算的,而高度特征是对于M个切片计算的,因此鸟瞰图编码为(M+2)个通道。

3.1.2 From View Representation

由于Lidar点云非常稀疏,投影到图像平面上得到非常稀疏的2D图像,因此论文将其投影到一个柱面上,得到一个dense的前视图,以来补充鸟瞰图特征信息。假设点 p = ( x , y , z ) p=\left(x,y,z\right) p=(x,y,z),在前视图对应坐标为 p f v = ( r , c ) p_{fv}=\left(r,c\right) pfv=(r,c),其中:
在这里插入图片描述

3.2 3D Proposal Network

由于鸟瞰图有以下好处:

  1. 物体投影到鸟瞰图时保持物理尺寸,因此具有较小的尺寸方差;
  2. 鸟瞰图不同物体占据不同空间,避免遮挡问题;
  3. 道路场景中,由于物体通常位于地面上,垂直位置变化较小;因此论文以鸟瞰图为输入,采用RPN进行3D proposal的生成。

因此使用鸟瞰图进行3D proposal的生成,对于每个3D proposal,规定为 ( x , y , z , l , w , h ) \left(x,y,z,l,w,h\right) (x,y,z,l,w,h),其中坐标为3D box的中心。而先验3D box的坐标为 ( x b v , y b v , l b v , w b v ) \left(x_{bv},y_{bv},l_{bv},w_{bv}\right) (xbv,ybv,lbv,wbv),并且论文设计了4个anchor box(根据训练结果聚类得到)。对于车辆检测,论文将先验 ( l , w ) \left(l,w\right) (l,w)设置为{(3.9, 1.6), (1.0, 0.6)},并且将高度h设置成1.56m,然后旋转90度,又能得到两个先验框。 ( x , y ) \left(x,y\right) (x,y)在先验图中遍历,z值可以通过相机盖度和目标高度进行计算得到。3D候选框角度限制在(0, 90)之间,便于训练。
点云进行离散得到分辨率为0.1m的鸟瞰图,即每个鸟瞰图中的像素点在实际场景中的长度和宽度都是0.1m,即每个目标框占据范围大约为5-40个像素。因为检测到小目标依旧比较困难,因此论文在候选框网络之前的最后一层添加了一个上采样,进入候选框网络特征边大小便是原始输入鸟瞰图的1/4,因此设置3D bbox的偏移值:
t    = ( △ x , △ y , △ z , △ l , △ w , △ h ) t\;=\left(\triangle x,\triangle y,\triangle z,\triangle l,\triangle w,\triangle h\right) t=(x,y,z,l,w,h)。其中前三个为anchor的长宽高归一化的量,而后三者为相对gt的log对数得到的: △ s = log ⁡ s G T s a n c h o r \triangle s=\log\frac{s_{GT}}{s_{anchor}} s=logsanchorsGT
在训练阶段,分类loss采用交叉熵,回归损失采用smooth L1损失。鸟瞰图中的anchor鱼gt的iou超过0.7视为正例,小于0.5视为负例,介于中间样本框忽略。

3.3 Region-based Fusion Network

3.3.1 Multi-View ROI Pooling

来自不同视图通常具有不同得分辨率,因此对每个视图采用ROI池化,以来获得相同长度得特征向量。因为论文是以Lidar坐标系为基准坐标系,因此将3D proposal分别投影到鸟瞰图(BV)、前视图(FV)和RGB图时需要进行坐标转化。

3.3.2 Deep Fusion

在这里插入图片描述

对于深度信息的融合,论文首先提出两种常见方式:

  1. early fusion: 即先融合在提取特征。
    在这里插入图片描述
  2. late fusion:即先提取特征再融合。
    在这里插入图片描述
  3. deep fusion:本文综合上面两种方法提出一种新的融合方法,为了使得不同视图的中间层特征之间有更多的交互,因此设计了deep fusion。
    在这里插入图片描述

3.3.3 Oriented 3D Box Regression

论文采用预测8个角点一共24个值的方法,3D框得方方向可以根据这8个点获得,经过相关实验这种冗余得预测必3D box得中心点及长宽高偏移效果要好。

3.3.4 Network Regularization

论文采用两种方法对基于区域的融合网络进行正则化处理:下降路径训练和辅助损失。对于每次迭代,随机选择50%的概率执行全局drop-path或局部drop-path。如果选择全局下降路径,则从三个视图随机选择一个;如果选择本地丢弃路径,则输入到每个连接节点的路径将以50%的概率随机删除。论文确保每个连接点至少保留一条输入路径,并且再网络中添加了辅助路径和损耗。辅助路径与著网络层数相同。辅助路径与每一层与主网络中的相应层共享权重。论文使用相同的多任务损失,即分类损失加上3D 框回归损失,来反向传播每个辅助路径,并对包含辅助损失在内的所有损失进行平均加权。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值