【论文阅读】【三维目标检测】STD: Sparse-to-Dense 3D Object Detector for Point Cloud

最新推荐文章于 2022-10-24 23:27:17 发布

麒麒哈尔

最新推荐文章于 2022-10-24 23:27:17 发布

阅读量3.8k

点赞数 3

分类专栏：论文阅读

本文链接：https://blog.csdn.net/wqwqqwqw1231/article/details/100565150

版权

论文阅读同时被 2 个专栏收录

54 篇文章 75 订阅

订阅专栏

三维目标检测

24 篇文章 10 订阅

订阅专栏

文章目录

STD
讨论

STD: Sparse-to-Dense 3D Object Detector for Point Cloud
2019ICCV文章，3D Object Detection

STD

方法仍然为two stage的方法，先进行proposal，后进行优化。整个网络结构如下：
在这里插入图片描述

Proposal Generation Module

该论文提出了基于球形anchor的proposal generation的方法，这一点我觉得仍待讨论，但不影响我们对论文的理解。

首先，提出这种球形anchor的motivation如下：
For example, the amount of points is prohibitively huge where high redundancy exists in anchors. They cost much computation during training and inference. Also, the way to assign ground-truth labels for anchors needs to be specially designed.
也就是说，用每个激光点预测一个proposal是过量的冗余了。
（这也是我不明白的第一点，在最后我会统一讨论）

每一个球形anchor是对应着每一个激光雷达点的，可以认为每一个点以自身为中心，一定半径产生了一个球，这个球就是anchor。然后使用PointNet++得到每个点的segmentation label score和feature。然后进行NMS得到大约500个球形anchor。（这里是我不明白的第二点）这个使用Pointnet++得到score和feature的过程如下：
在这里插入图片描述

然后对每个anchor内部的点使用PointNet，进行Classification是否属于前景从而生成proposal，同时进行Regression回归从anchor到proposal需要的参数（长宽高，中心偏移量和角度），回归的这部分参数是针对于特定大小的一个长方体的。然后进行NMS，得到300个anchor。这部分网络如下：
在这里插入图片描述
为了训练这个这一块网络，确定一个anchor是否是属于预测前景的anchor，本文提出了PointIoU的方式将ground truth box与anchor匹配。简单的说就是，PointIoU=（属于anchor与ground truth box相交部分的点的数量）/（属于anchor与ground truth box相并部分的点的数量）。用这个来判断一个anchor的label。

Proposal Feature Generation

得到了proposal之后，对proposal进行体素化，这一块可以参考VoxelNet。文中也说明了体素化的优点是既快，效果又好。

Box Prediction Network

体素化后得到结构栅格化的feature，就可以表示为标准的4维tensor，之后使用不同的分支（由全连接层构成），分别预测proposal的label score，IoU和与box之间的位置大小偏差。然后使用label score乘以预测的IoU做NMS得到最后的box。

Loss

proposal：

每个点的segmentation的loss，使用focal loss
每个anchor的loss，cross-entropy loss
anchor到proposal的位置的大小的loss， smooth-L1 loss
anchor到proposal的位置的大小的loss， bin loss（可以参考PointRCNN或者FrustumNet）

Head：

proposal与box之间位置大小和方向的差别，使用与anchor到proposal的loss与loss相同
预测IoU，3D IoU loss
8-corner loss

2D IoU Loss如下，可参考论文UnitBox: An Advanced Object Detection Network
在这里插入图片描述

实验

首先本文在KITTI数据集的test和val上分别做了测试，而且测试proposal模块的召回率，要比其他方法中的proposal模块召回率高。

Ablation studies：

测试了使用球形anchor和长方体anchor的召回率，球形anchor要比长方体的anchor高。
测试了在第二个stage使用segmentation feature和将xyz转到proposal坐标系的必要性。加入segmentation feature提升非常大，在之前的论文中有测试过将xyz转到proposal坐标系下的必要性，提升也很大。
测试了最后使用IoU做NMS的必要性

讨论

我认为本文值得讨论的地方是这种是否球形anchor。在我的理解anchor是一种凭借经验设置的框，用于生成proposal，减少生成proposal这个过程的学习难度。在本文中在生成proposal的过程中也使用了固定长宽高的长方体框，我的理解是这个才应该叫做anchor。那个球形邻域则是为了判断中心点产生的proposal类别而聚合的特征。

另外一点是，整个网络输入的点是16k，与PointRCNN是一样多的，第一步生成的anchor也是16k，因为每个点对应着一个anchor，是靠着NMS减少的anchor的，但这一点同样可以在PointRCNN中实现。所以，在上面提到使用球形anchor的motivation是减少冗余的anchor，这样不太能说的通。我的理解是相比于使用方向不同的大小不同的多个anchor，是可以成倍减少anchor的。

另外一点是文章中没有说的太清楚，就是在第一次NMS是用什么来排序的，但从文章中可以推测，应该是使用的是每个点的label的score。

麒麒哈尔

关注

3
点赞
踩
12

收藏

觉得还不错? 一键收藏
9
评论
【论文阅读】【三维目标检测】STD: Sparse-to-Dense 3D Object Detector for Point Cloud

文章目录STDProposal Generation ModuleProposal Feature GenerationBox Prediction NetworkLoss实验讨论STD: Sparse-to-Dense 3D Object Detector for Point Cloud2019ICCV文章，3D Object DetectionSTD方法仍然为two stage的方法，...
复制链接

扫一扫