【论文阅读】【三维目标检测】Structure Aware Single-stage 3D Object Detection from Point Cloud

最新推荐文章于 2024-08-18 10:29:55 发布

麒麒哈尔

最新推荐文章于 2024-08-18 10:29:55 发布

阅读量4.5k

点赞数 20

分类专栏：论文阅读文章标签：点云 3D目标检测自动驾驶

本文链接：https://blog.csdn.net/wqwqqwqw1231/article/details/105475779

版权

SASSD是香港理工大学和阿里巴巴达摩院提出的3D目标检测新方法，旨在解决体素方法中的信息损失问题。该论文通过辅助网络和PS Warp技术，结合点云和体素信息，实现了一种单阶段检测器。实验结果显示，SASSD在KITTI排行榜上取得了优异成绩。

摘要由CSDN通过智能技术生成

文章目录

SASSD
思考
- Point和Voxel的结合之作
- PSwarp将one stage和two stage的方法联系起来

香港理工大学和阿里巴巴达摩院出品，之前听说阿里的团队检测KITTI排第一，可能就是这篇文章吧。

如果对2D Object Detection有一定了解，其实本文读起来还是比较容易理解的。我认为本文体现了：3D Object Detection的发展趋势遵循2D Object Detection发展趋势。其实要比较好的理解本文，我认为要对比理解R-FCN，PV-RCNN，PV-CNN这三篇论文。与这三篇论文的对比我放在了我的思考中，如果各位读者想要了解本文背后的趋势，可以重点关注一下我的思考。

SASSD

motivation

本论文认为voxel的方法还是太过于粗糙，尤其是随着resolution的下降，很多前景点的信息都被融到了附近的背景点中，所以想要把信息更精细化。具体可以参考论文中的图3。
在这里插入图片描述

Framework

在这里插入图片描述
上图就很好的展现了该网络的结构。首先使用作为SECOND作为backbone，其实也就是使用3D Sparse Convolution，然后加入一个分类头和回归头。在所谓的Detection network中，提出了PS Warp，这个在下面具体讲。

Auxiliary Network

平行于SECOND，加入了Auxiliary network，这个就是用来精细化信息的分支。SECOND每一层的feature map中的feature被认为是grid的中心的feature，然后通过插值的方式得到原始点云中每个点对应的feature。通过不同resolution的feature map，原始点云中获取不同scale的feature，然后concatenate这些不同scale的feature，得到point-wise的feature。最后使用point-wise的feature取预测每个point的mask和对应object的center。

PS Warp

这个其实与R-FCN中的RoI pool非常像。如果了解过R-FCN，这个理解起来就比较容易。这里我用我的话解释一下，这个过程可以用下述这种图解释：

在这里插入图片描述
首先要明确，feature map中的每个grid会预测一个box。
1）首先Classification branch不再是判断每个grid“是否是物体”的二分类，而是判断每个grid是否属于Object的某个部分，把Object分为K个部分，用K层score分别表示每个grid是否属于第K个部分，以下我们叫做 $C^K$