文章目录
香港理工大学和阿里巴巴达摩院出品,之前听说阿里的团队检测KITTI排第一,可能就是这篇文章吧。
如果对2D Object Detection有一定了解,其实本文读起来还是比较容易理解的。我认为本文体现了:3D Object Detection的发展趋势遵循2D Object Detection发展趋势。其实要比较好的理解本文,我认为要对比理解R-FCN,PV-RCNN,PV-CNN这三篇论文。与这三篇论文的对比我放在了我的思考中,如果各位读者想要了解本文背后的趋势,可以重点关注一下我的思考。
SASSD
motivation
本论文认为voxel的方法还是太过于粗糙,尤其是随着resolution的下降,很多前景点的信息都被融到了附近的背景点中,所以想要把信息更精细化。具体可以参考论文中的图3。
Framework
上图就很好的展现了该网络的结构。首先使用作为SECOND作为backbone,其实也就是使用3D Sparse Convolution,然后加入一个分类头和回归头。在所谓的Detection network中,提出了PS Warp,这个在下面具体讲。
Auxiliary Network
平行于SECOND,加入了Auxiliary network,这个就是用来精细化信息的分支。SECOND每一层的feature map中的feature被认为是grid的中心的feature,然后通过插值的方式得到原始点云中每个点对应的feature。通过不同resolution的feature map,原始点云中获取不同scale的feature,然后concatenate这些不同scale的feature,得到point-wise的feature。最后使用point-wise的feature取预测每个point的mask和对应object的center。
PS Warp
这个其实与R-FCN中的RoI pool非常像。如果了解过R-FCN,这个理解起来就比较容易。这里我用我的话解释一下,这个过程可以用下述这种图解释:
首先要明确,feature map中的每个grid会预测一个box。
1)首先Classification branch不再是判断每个grid“是否是物体”的二分类,而是判断每个grid是否属于Object的某个部分,把Object分为K个部分,用K层score分别表示每个grid是否属于第K个部分,以下我们叫做 C K C^K C