【论文阅读】【三维目标检测】Structure Aware Single-stage 3D Object Detection from Point Cloud

SASSD是香港理工大学和阿里巴巴达摩院提出的3D目标检测新方法,旨在解决体素方法中的信息损失问题。该论文通过辅助网络和PS Warp技术,结合点云和体素信息,实现了一种单阶段检测器。实验结果显示,SASSD在KITTI排行榜上取得了优异成绩。
摘要由CSDN通过智能技术生成

香港理工大学和阿里巴巴达摩院出品,之前听说阿里的团队检测KITTI排第一,可能就是这篇文章吧。

如果对2D Object Detection有一定了解,其实本文读起来还是比较容易理解的。我认为本文体现了:3D Object Detection的发展趋势遵循2D Object Detection发展趋势。其实要比较好的理解本文,我认为要对比理解R-FCN,PV-RCNN,PV-CNN这三篇论文。与这三篇论文的对比我放在了我的思考中,如果各位读者想要了解本文背后的趋势,可以重点关注一下我的思考。

SASSD

motivation

本论文认为voxel的方法还是太过于粗糙,尤其是随着resolution的下降,很多前景点的信息都被融到了附近的背景点中,所以想要把信息更精细化。具体可以参考论文中的图3。
在这里插入图片描述

Framework

在这里插入图片描述
上图就很好的展现了该网络的结构。首先使用作为SECOND作为backbone,其实也就是使用3D Sparse Convolution,然后加入一个分类头和回归头。在所谓的Detection network中,提出了PS Warp,这个在下面具体讲。

Auxiliary Network

平行于SECOND,加入了Auxiliary network,这个就是用来精细化信息的分支。SECOND每一层的feature map中的feature被认为是grid的中心的feature,然后通过插值的方式得到原始点云中每个点对应的feature。通过不同resolution的feature map,原始点云中获取不同scale的feature,然后concatenate这些不同scale的feature,得到point-wise的feature。最后使用point-wise的feature取预测每个point的mask和对应object的center。

PS Warp

这个其实与R-FCN中的RoI pool非常像。如果了解过R-FCN,这个理解起来就比较容易。这里我用我的话解释一下,这个过程可以用下述这种图解释:

在这里插入图片描述
首先要明确,feature map中的每个grid会预测一个box。
1)首先Classification branch不再是判断每个grid“是否是物体”的二分类,而是判断每个grid是否属于Object的某个部分,把Object分为K个部分,用K层score分别表示每个grid是否属于第K个部分,以下我们叫做 C K C^K C

  • 20
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值