3DSSD学习笔记

Ice-冰鸽

已于 2022-02-18 22:27:33 修改

阅读量1.3k

点赞数

分类专栏： 3D目标检测文章标签： 3d 学习深度学习

于 2022-02-18 22:21:41 首次发布

本文链接：https://blog.csdn.net/weixin_51998481/article/details/123003264

版权

3D目标检测专栏收录该内容

3 篇文章 1 订阅

订阅专栏

介绍

这篇文章主要是对CVPR2020年发布的3D单阶段目标检测论文3DSSD: Point-based 3D Single Stage Object Detector的解读。

动机

作者提出以往基于点的三维目标检测方法时间和内存占有远远大于基于体素的方法，考虑到FP层占用了一部分时间，作者将针对FP层进行问题解决，同时引发了两个问题。

1.FP层的丢弃或保留

在以往基于点的检测方法通过SA模块仅仅只有采样的点才会有这些特征，没有被采样的点就没有特征，因此需要FP模块将这些特征传递给没有被采样到的点。作者给出以下表格：
在这里插入图片描述
可以看出FP层是占有相当一部分的时间。作者打算舍弃FP层。

但是如果直接丢弃FP层采用SA最后剩下的采样点进行预测的方法几乎是预测不出结构的。这是因为前人的采样是D-FPS，这会导致采样点中存在很多的背景点，不利于预测。
在这里插入图片描述
由图可以看出D-FPS在512个点时召回率仅为一半，因此直接丢弃FP层是不行的。

2.融合采样的提出

前人采用的D-FPS算法是在欧式空间中进行的最远点采样，并不会考虑到该点的任何语义特征，所以作者提出了针对语义特征的F-FPS。因为在语义信息的引导下，能够排除大量的背景点信息，保留更多的前景点信息。

但如果仅仅只使用F-FPS，会保留很多同一个物体的点，也会导致精度下降，因此作者同时考虑了欧式和特征空间的采样信息。也就是说保留的点会造成冗余从而影响其他物体的检测。
在这里插入图片描述
所以作者提出了融合采样。

3.F-FPS导致cls分数下降

由于背景点过少的时候对cls是不友好的，作者假设最终采样点个数为N_m个，则对其每一半做不同的操作。
在这里插入图片描述

方法论

framework

这是3DSSD的网络框架。

backbone

作者根据数据集的不同设计了不同的backbone。（左边是KITTI数据集，右边是nuScenes数据集）

CG layer

前人的研究工作在得到每个点的feature后，接上三层的SA layer，分别用于中心点选择，周围点特征提取以及生成语义信息。为了进一步降低计算成本，候选中心点的生成就直接在F-FPS采样后进行。
CG layer
F-FPS采样的点由于比D-FPS的点更加可能是前景点，所以候选点仅仅只是在F-FPS的点上生成。CG层根据候选中心点领域选择从F-FPS和D-FPS中采样得到的代表点进行局部特征提取，采用MLP进行特征提取。