PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection
Abstract
PointVoxel-RCNN是一个新颖的,高表现的3D目标检测框架,从点云中检测3D目标. 我们的方法整合了voxel 3D CNN和基于PointNet的集抽象来学习更多的有鉴别行的点云特征.它充分利用了高效的学习,3D体素的CNN的高质量的proposals以及基于PointNet网络的灵活的感受野.该框架通过一个新的体素集抽象模块将三维场景与三维体素CNN总结成一组小的关键点,以节约后续计算, 同时还用于对代表性的场景进行编码. 给定由体素CNN生成的高质量的3D proposals, RoI grid pooling通过关键点集抽像从关键点到RoI-grid来抽象特定proposal的特征.相比于传统的池化操作,RoI grid 特征点编码更加丰富的语义信息来准确的评估目标置信度和位置.
Introduction
两种点展示的融合: 基于体素的3D CNN和基于PointNet的集抽象.
采用的是两步走策略:
- voxel-to-keypoint scene encoding
- keypoint-to-grid RoI teature abstraction
voxel-to-keypoint scene encoding:
采用三维稀疏卷积的体素CNN进行体素特征学习和精确的psoposals生成。 为了缓解上述需要太多体素来编码整个场景的问题,通过最远点采样(FPS)选择一组小的关键点,从体素特征中总结出总体的三维信息。 通过基于PointNet的集合抽象对相邻的体素特征进行分组,对每个关键点的特征进行聚合,以总结多尺度点云信息。 这样,整个场景就可以由少量具有相关多尺度特征的关键点有效和高效地编码。
keypoint-to-grid RoI teature abstraction:
考虑到每个框方案及其网格点位置,提出了一个RoI网格池模块,其中每个网格点采用具有多半径的关键点集抽象层,从具有多尺度上下文的关键点聚合特征。 然后,所有网格点的聚合特征都可以联合用于后续的置信度预测和细粒度框细化。
PV-RCNN for Point Cloud Object Detection
3D Voxel CNN for Effificient Feature Encoding and Proposal Generation
3D voxel CNN
将点云分割成体素(LxWxH
), 之后通过sparse convolution进行降采样.
3D proposal generation
采用的proposal生成方式和Second
与PointPillars
的获取方式一致.
Voxel-to-keypoint Scene Encoding via Voxel Set Abstraction
Keypoints Sampling
采用的是FPS算法(Furthest-Point-Sampling algorithm)
Voxel Set Abstraction Module
Voxel Set Abstraction(VSA)模块将多尺度语义特征从3D CNN特征卷编码到关键点.
针对关键点
p
i
p_i
pi
- 首先获取半径在 r k r_k rk以内的体素集, 在公式1中;
- 之后进行随机取样,之后多层感知机进行编码,之后再最大池化, 如公式2所示;
- 再针对不同层级的体素特征进行处理,得到公式3.
Extended VSA Module
- 将BEV视角的特征也加入,得到公式4
Predicted Keypoint Weighting
每个关键点特征的预测特征加权:
其中A(.)
表示三层MLP,并带有sigmoid
函数。
Keypoint-to-grid RoI Feature Abstraction for Proposal Refifinement
RoI-grid Pooling via Set Abstraction
其过程类似于VSA模型。