1. 概要
论文:https://arxiv.org/abs/2206.04670
代码:https://github.com/guochengqian/pointnext
简而言之,就是一套更有效的训练策略,简单有效。
2. 动机
观察1:3D点云领域的大多数工作专注于开发精巧的模块来提取点云的局部细节,例如 KPConv [3] 中的伪网格卷积以及 Point Transformer [4] 中的自注意力层。这些新提出的方法在各种任务中都远优于经典的点云理解网络PointNet++,给人的错觉是 PointNet++ 网络过于简单,无法学习复杂的点云表示。
结论1:在这项工作中,我们发现影响PointNet++ 性能的原因不在于其网络模块,而在于其陈旧的训练以及模型缩放策略。
创新点:
- 首先,我们发现SOTA方法的大部分性能增益源于改进的训练策略(即数据增强和优化技术)。例如,在训练过程中随机丢掉颜色信息,可以使得S3DIS上的性能提升5个点的mIoU. 遗憾的是,相比于神经网络结构的改进,训练策略的进步很少被公开提及和研究。
- 其次,SOTA方法的另一大性能增益来自于模型规模的提升。然而,我们发现,简单地提高PointNet++ 的卷积数量以及channel size无法提高模型的精度。因此,模型缩放策略, 即如何有效地扩展模型的深度(用更多卷积层)和广度(用更大的channel size),是一个很值得研究的话题
3. 方法
3.1 PointNet++回顾
PointNet++ 使用U-Net结构:
- 编码器(Encoder):使用一系列 Set Abstraction (SA)模块对点云特征进行层次化抽象
- 解码