PointNet++论文解读

最新推荐文章于 2024-09-27 09:58:11 发布

邢博威

最新推荐文章于 2024-09-27 09:58:11 发布

阅读量1.1k

点赞数 1

本文链接：https://blog.csdn.net/weixin_43890651/article/details/111570503

版权

PointNet++论文解读

论文标题：PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space
原文地址：PointNet++

1.Introduction

点云是三维空间中物体的重要表示形式之一，然而由于点云的无序性以及形状、密度的不规则，使得点云处理成为一个十分具有挑战性的任务。

PointNet是将深度学习应用到点云处理中的开创性工作，它的基本思想是学习每个点的空间表示，然后将所有点的空间表示聚合成全局点云特征，在点云的分类、分割任务上都取得了不错的效果。然而，PointNet并没有利用到点云中的局部结构信息，CNN中的经验表明，通过层级结构提取局部信息有助于提高网络的泛化能力。

基于此，这篇文章提出了分层的PointNet++网络结构。简单来说，就是首先对点云进行采样分组，然后对每一组的点云使用PointNet提取该组的特征，对于得到的特征再次进行分组采样并得到更高层级的特征，重复这个过程直到得到整个点云集合的特征。通过这种层级结构，可以利用多个尺度的邻域来获得局部细节信息和提升鲁棒性，实验也证明PointNet++在多个点云的数据集上都达到了SOTA的结果。

2.Problem Statement

记 $\mathcal{X}=(M, d)$ 是一个离散度量空间，其中 $M$ 是点的集合， $d$ 是距离测度，在这个空间中， $M$ 的密度一般是不均匀的。我们希望学习一个函数 $f$ ，把 $\mathcal{X}$ 作为输入，输出 $\mathcal{X}$ 相关的语义信息。在分类任务中， $f$ 会对整个 $\mathcal{X}$ 预测出一个标签；在分割任务中， $f$ 会对 $M$ 中的每一个点分配一个标签。

3.Method

3.1 PointNet介绍

对于给定的无序点云集合 $\{x_{1}, x_{2}, \ldots, x_{n}\}$ ，函数 $f$ 可以定义为：
$f\left(x_{1}, x_{2}, \ldots, x_{n}\right)=\gamma\left(\operatorname{MAX}_{i=1, \ldots, n}\left\{h\left(x_{i}\right)\right\}\right)$
其中 $\gamma,h$ 都是多层感知机(MLP)， $h$ 可以理解为对一个点学习得到的点的特征，在得到每一个点的特征以后，进行MAX-POOLING，再通过函数 $\gamma$ 得到最终的输出，作为整个点云集合的特征。

3.2 多层级点云特征学习

pointnet++网络结构

如上图所示，PointNet++结构由一系列集合提取层级(set abstraction level)组合而成。对于一个set abstraction level，它的输入是一个 $N\times(d+C)$ 维的矩阵，表示有 $N$ 个点，每个点包含 $d$ 维的坐标和C维的特征，在通过采样层、分组层和PointNet层后，得到的输出是 $N’\times(d+C’)$ 维的矩阵，表示采样得到了 $N^{'}$ 个点，每个点包括 $d$ 维坐标和融合了邻域信息的 $C^{'}$ 维的新的特征。

采样层: 对于输入的 $n$ 个点 $\{x_{1}, x_{2}, \ldots, x_{n}\}$ ，采样层会通过最远点采样法得到采样点集合 $\{x_{i_1}, x_{i_2}, \ldots, x_{i_m}\}$ 。相比于随机采样，采用最远采样法有助于覆盖整个点集。

分组层: 在分组层中，对于采样层得到的 $N ’$ 个点，会在原始的点集中分别选择每个点的 $K$ 个相邻点并将它们划分为一组，需要注意的是，每一组的 $K$ 可能是并不相同的，但PointNet会将它们转换成固定长度的特征向量。具体的分组方法采用球采样(Ball Query)，即选取采样点某个半径范围内的所有点作为一组。

pointnet层: 对于PointNet层，会将上一层输出的 $N’\times K\times(d+C)$ 维的数据转换为 $N’\times(d+C’)$ 维的数据。对于每一组的K个点，都会以其中的采样点为中心计算其他点的相对坐标，然后通过PointNet得到这一组的特征表示，这样就相当于利用了周围点的信息。

3.3 非均匀采样密度下的多尺度特征学习

由于点云密度是不均匀的，在密集区域学习到的特征可能并不能应用到稀疏区域，基于此，作者提出了density adaptive的PointNet++结构来学习不同大小区域的特征并结合起来，以适应输入点云密度的变化。文章中采用了两种方法：
多尺度特征学习

Multi-scale grouping (MSG): 如左上图所示，会对不同规模区域的点云分别学习一个特征并把它们组合起来，形成一个多尺度的特征。在训练的时候，采用random input dropout策略，即以一定的概率随机丢弃掉点云中的点，这样就可以获得不同密度和不同均匀度的训练样本。

Multi-resolution grouping (MRG): 如右上图所示，最终的特征由两部分拼接而成，一个是当前层的特征，另一个是经过set abstraction采样后得到的层的特征，在不同密度的情况下，两个特征所占的权重也会不同，从而可以学习到不同密度下的特征表示。此外，由于避免了在低层次上进行大规模的特征提取，这种方法在计算上也更加高效。

3.4 点云分割中的特征传递

由于set abstraction的采样过程，点的数目变得越来越少，然而分割任务需要对所有的点都预测出一个label，因此需要获得所有原始的点的特征，所采用的方法是将采样点的特征传递给原始点。

具体来说，本文对采样点采用K近邻权重加权的插值方法获得原始点的特征(公式如下)，并与来自set abstraction的相应层的特征结合起来(对应图中的skip link concatenation)，之后采用全连接层和relu层进行更新，直到获得所有原始点的特征。
$f^{(j)}(x)=\frac{\sum_{i=1}^{k} w_{i}(x) f_{i}^{(j)}}{\sum_{i=1}^{k} w_{i}(x)} \quad \text { where } \quad w_{i}(x)=\frac{1}{d\left(x, x_{i}\right)^{p}}, j=1, \ldots, C$