3DSSD

最新推荐文章于 2024-08-16 08:12:19 发布

xinxiang7

最新推荐文章于 2024-08-16 08:12:19 发布

阅读量910

点赞数

分类专栏： paper阅读文章标签： 3D目标检测激光雷达

本文链接：https://blog.csdn.net/xinxiang7/article/details/113878208

版权

paper阅读专栏收录该内容

14 篇文章 4 订阅

订阅专栏

港中文贾佳亚团队在CVPR2020发表的文章提出3DSSD，一种基于点的高效单阶段3D目标检测方法，放弃传统上采样和优化，采用FusionSampling策略和无锚定框预测网络。在KITTI和NuScenes表现出色，推理速度达25FPS。

摘要由CSDN通过智能技术生成

3DSSD: Point-based 3D Single Stage Object Detector

来自港中文贾佳亚大神组的一篇文章。该篇文章在CVPR2020上拿到了oral。好文章，一定要好好拜读一下。
文章：3DSSD
代码：3DSSD

Abstract

当前已经有各种各样的基于体素的单阶段的3D目标检测，但是基于点的单阶段目标检测还有待探索。在这篇文章中，我们第一次展示了轻量级的和有效的基于点的单阶段的3D目标检测，称为3DSSD。在这个范式中，在所有现存的基于点的方法中不可避免的所有的上采样和优化阶段都被放弃了，进而达到减少大量计算消耗。在下采样阶段我们提出了融合采样策略，使得检测不太具有代表性的点变得可行。框预测网络包括一个候选生成层，一个带有3D中心分配策略的无锚定回归头，进而满足准确度和速度的要求。我们的范式是一个无锚定的单阶段框架。在KITTI和NuScenes上表现都不错，而且推理速度为25FPS。

Introduction

3D点云的特性：

稀疏
无序
局部敏感

3D点云，利用卷积进行稀疏比较困难。

之前的解决方案：

投影为图像
voxel-based
- 类似于PointNet的backbone
- 手动设计的特征
point-based

前两种方法提升了效率，但是损失了信息。最后一种方法推理速度较慢。

Our Contribution

F-FPS: 基于特征距离的采样策略，这个方法有利于保存不同物体之前不太好的点。最终的采样策略是F-FPS和D-FPS的融合。
框预测网络：CG(candidate generation layer)，无锚定回归头，3D中心点分配策略
- CG中，从F-FPS中平移代表性的点来生成候选点。
- 将候选点当成中心点，发现周围的点，并提取特征。
- 将特征作为输入喂给无锚定回归头，来预测3D边界框。
- 利用3D中心分配策略来筛选更靠近物体中心的点，进而获取更高准确位置的预测。

Related Work

多感知器的3D目标检测方法如：MV3D，AVOD，MMF
仅有雷达的3D目标检测方法，如：VoxelNet, PointNet, SECOND, PointPillars, F-PointNet, IPOD, PointNet++, STD

Our Framework

3DSSD_struct1

Fusion Sampling

Motivation

首先利用SA(set abstract)层进行下采样和提取语义信息。之后利用FP(feature propagation)进行上采样和扩展语义信息。之后再利用RPN获得候选，再加一个优化模块，得到最终的结果。其中FP和优化模块限制了效率。从这两处下手进行改进。

Challenge
3DSSD_fp1

具有不同代表性的点的数量，点的召回率也不同。可以看到，在 $N_m=1024$ 和 $N_m=512$ 之中，召回率几乎为原来的1/3和1/2。

Feature-FPS
$\lambda L_d(A,B) + L_f(A,B)\\ L_d(A,B): 表示XYZ距离L2\\ L_f(A,B): L2特征距离\\ \lambda: 表示平衡参数，如上表所示$
采用两种测量距离方法的结合：

考虑积极点，去除无意义的消极点，需要考虑两个方面：采样过程中每个点的空间距离和语义信息。卷积得到较好的语义信息，因此采用特征距离获取较多的积极点，去除无效点。
仅仅使用语义特征距离作为标准会使同一个物体保存较多的点，有些冗长。
增加空间距离项，减少冗余，增加多样性。

Fusion Sampling

F-FPS获得较高的召回率和更精确的位置，但是会降低分类准确度；
F-FPS和D-FPS各取一半；

Box Prediction Network

Candidate Generation Layer
3DSSD_cg1

我们仅仅使用F-FPS的点作为初始中心点。
在其相对位置对其对应物体的监督下，平移这些点。
将这些移动的点作为candidate points。之后利用上述这些点作为中心点，发现周围的点。进行group，并作为输入，通过MLP提取特征。
最后进行回归和分类。

Anchor-free Regression Head

在回归头中，我们预测每个点对应物体的距离，大小和方向。由于每个点没有经验方向，所以借鉴了F-Pointnet中的分类和回归方程的混合。

3D Center-ness Assignment Strategy

为每个候选点分配标签，一般采用的方法是IoU或者mask为每个像素点分配标签。

先用 $l_{mask}$ 判断是否在物体内
利用 $l_centerness$ 构建中心点函数

$分别表示到前后左右上下面的距离\\$

Loss Function

3DSSD_loss2
$N_c: 表示总的候选点数\\ N_p: 积极的候选点数\\ s_i: 点i的预测类的得分\\ u_i: 点i的真实标签\\ N_P^{*}: 表示从F-FPS中的积极候选点\\ L_r = L_{dist} + L_{size} + L_{angle} + L_{center}\\ 其中利用smoth-l_1作为L_{dist} + L_{size}\\$
3DSSD_loss3
$d_{c}^{a}, d_{r}^{a}: 预测的角度类和残差\\ t_{c}^{a}, t_{r}^{a}: 对应的目标$
3DSSD_loss4
$P_m: 点m的真实位置\\ G_m: 点m的预测位置\\ 计算8个角的差值$

Experiment

KITTI

IoU threshold = 0.7
ADAM
learning_rate = 0.002, epoch = 0-40
learning_rate = 0.0002, epoch = 40-50
batch_size = 16
num_gpus = 4

4种数据增强的方法：

mix-up
rotate each bounding box ~ a uniform distribution ∆θ1 ∈ [[π/4, +π/4], add a random translation (∆x, ∆y, ∆z)
each point cloud is randomly flipped along x-axis
we randomly rotate each point cloud around z-axis (up axis) and rescale it.

nuScenes

将0.5s内的点云累积起来；
随机选取65536个体素，其中关键帧的点占比0.25。将65536个点送入以点为基础的网络中；

Ablation Studies

Results on Validation Set
3DSSD_re3
Effect of Fusion Sampling Strategy
3DSSD_re4
Effect of Shifting in CG Layer & Effect of 3D Center-ness Assignment
3DSSD_re5