PIXOR: Real-time 3D Object Detection from Point Clouds

最新推荐文章于 2024-08-27 22:43:41 发布

梨鱼

最新推荐文章于 2024-08-27 22:43:41 发布

阅读量461

点赞数

分类专栏： 3D目标检测论文文章标签：目标检测 3d 计算机视觉

本文链接：https://blog.csdn.net/xuxiaoxx/article/details/120783176

版权

3D目标检测论文专栏收录该内容

13 篇文章 3 订阅

订阅专栏

PIXOR: Real-time 3D Object Detection from Point Clouds

背景

点云体素化做3D卷积计算量大，而且由于点云具有稀疏性，很多计算是不必要的。而将点云投影到一个平面上做2D卷积，点云会在离散化和投影的过程中产生信息丢失。因此作者提出一种输入是3D体素，但是做的是2D卷积的网络架构。

网络架构

在这里插入图片描述

1.输入点云转化

采用鸟瞰图来表示场景，从而将输入的点云数据转化成二维形式表示，由于在自动驾驶中，物体一般都是处于同一地面的，因此对应的参照投影是相同的。所以可以在颜色通道处保留高度信息，来达到降维的效果。并且由于是利用鸟瞰图来进行目标检测，因此不会产生物体相互遮挡的情况。
体素化LIDAR表示常用的特征是占有率、反射率、密度和高度特征。而在论文中，作者主要采用了两种特征：占有率和反射率。假设3D场景的物理尺寸为 $L \times W \times H$ ，然后以每单元 $d_L\times d_W\times d_H$ 进行3D矩阵空间点的离散。每个单元格的值均被编码为占有率（加入单元格存在点，则为1，否则为0）。离散化后占有率特征为 $\frac L{d_L}\times\frac W{d_W}\times\frac H{d_H}$ 。同样对反射率也进行编码，不过设置 $d_H$ 为 $H$ ，因此得到的强度特征为 $\frac L{d_L}\times\frac W{d_W}\times1$ ，因此最终形状为 $\frac L{d_L}\times\frac W{d_W}\times\left(\frac H{d_H}+1\right)$ 。

2.网络结构

该网络采用了全卷积神经网络，并采用无proposal方案，这样便可以直接返回每个像素的预测。整个体系结构可以分为两个子网：主干网络和检测头。主干网络用于特征提取，而检测头用于不同任务的预测。

2.1主干网络

在这里插入图片描述
在特征提取阶段，经常使用pooling layer对特征图进行下采样。下采样因子通常是16，并且通常在低分辨率有较多的层，高分辨率有较多的层，因为对于图像来说，目标的尺寸较大，但是对于3D点云来说，检测目标一般是较小的，在进行下采样之后，所剩余的信息是极少的。因此第一种方法是减少使用池化层，但是会限制特征图的感受野的大小；第二种方法是使用卷积膨胀，但是会导致在高级特征图中出现棋盘效应。
因此本文第一增加了更多小通道数的卷积层，第二点采用特征金字塔，将低分辨率和高分辨率的特征图融合，增强对尺寸不同的目标的检测能力。

2.2头网络

在这里插入图片描述
检测头为一个多任务网络，同时处理目标识别和定位，被设计成小二高效，并且两个任务共享一定层数的权重。根据相关实验分析，最后证明fully-shared效果相对于其余两种是要更好的。

接着是gt box的设计，表示为 $\left\{\theta,x_c,y_c,w,l\right\}$ ，其中 $\theta$ 是航向角，范围为[-pi,pi]。回归分支的回归量有6个量 $\left\{\cos\left(\theta\right),\sin\left(\theta\right),dx,dy,w,l\right\}$ ，前两个用于确定 $\theta$ ，dx和dy用于确定box的中心点的偏移，w和l为box的大小。学习目标定义为 $\left\{\cos\left(\theta\right),\sin\left(\theta\right),\log\left(dx\right),\log\left(dy\right),\log\left(w\right),\log\left(l\right)\right\}$ ，在训练集之前被标准化为零均值和单位方差。
在这里插入图片描述

2.3 损失函数设置

作者采用多任务loss对网络进行训练。对分类输出采用交叉熵损失，对回归输出采用 $smooth l_1$ 损失。分类过程中正负样本全部参与，而回归时只采用负样本。
在这里插入图片描述
由于正负样本不平衡原因，作者另外采用focal loss降低负样本的影响。

总结

PIXOR为一个one-stage的目标检测器，并且运用于无人驾驶领域，采用BEV为输入，以来提高计算速率。并且采用权重共享方法和特征金字塔的方法，巧妙解决小物体检测问题。在常见的数据集中表现都是相当不错的。

梨鱼

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
PIXOR: Real-time 3D Object Detection from Point Clouds

PIXOR: Real-time 3D Object Detection from Point Clouds背景点云体素化做3D卷积计算量大，而且由于点云具有稀疏性，很多计算是不必要的。而将点云投影到一个平面上做2D卷积，点云会在离散化和投影的过程中产生信息丢失。因此作者提出一种输入是3D体素，但是做的是2D卷积的网络架构。网络架构1.输入点云转化...
复制链接

扫一扫

专栏目录