Pointnet Tutorial

啥也不是的py人

于 2023-02-01 20:18:08 发布

阅读量491

点赞数

分类专栏： # PointCloud 文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/weixin_50920579/article/details/128839596

版权

PointCloud 专栏收录该内容

8 篇文章 3 订阅

订阅专栏

.1 intro-点云特性

Q1：什么是点云？

简单来说就是一堆三维点的集合，必须包括各个点的三维坐标信息，其他信息比如各个点的法向量、颜色等均是可选项

num_channels一般为3，表示点云的三维坐标。

1.1 点云特性

点云几个两个很重要的特性。

（1）无序性。点云中的点在打乱它们的索引之后，依然能表达空间结构。

（2）旋转不变形。点云整体经过旋转之后，类别没有改变。

1.2 motivation

related work

Volumetric CNNs：对体素应用3DCNN。缺点是点云的坐标空间的稀疏性导致转成体素后的分辨率问题，以及3D卷积带来的开销
Multiview CNNs：将点云或者shape渲染成视图，使用传统的图像卷积来做特征学习。这种方法确实取得了不错的效果，但是缺点是应用非常局限，像分割、补全等任务就不太好做
Spectral CNNs
feature-based DNN

why we want to do this?

直接对点云做特征学习也不是不可以，但有几个问题需要考虑：特征学习需要对点云中各个点的排列保持不变性、特征学习需要对rigid transformation保持不变性等。

1.3 pointnet的处理

对于（1）

所以设计的ML模型必须是一个对称函数，因为对称函数的结果与输入的参数的顺序无关。比如sum、max函数。可以类比二维卷积神经网络中的max pooling操作。实际上论文中的max pooling操作在代码里用的就是max函数。

以上这种直接对坐标进行max的操作会使大量的点丢失（可能会导致特征丢失），所以要先使用多层感知器（MLP）将每个点映射到更高的维度（此时信息会冗余）

对于（2）

论文中使用了T-Net去学习物体的旋转，相当需要学习一个3x3的矩阵

我们希望不论点云在怎样的坐标系下呈现，网络都能正确的识别出。这个问题可以通过STN（spacial transform netw）来解决。二维的变换方法可以参考这里，三维不太一样的是点云是一个不规则的结构（无序，无网格），不需要重采样的过程。pointnet通过学习一个矩阵来达到对目标最有效的变换。

小结：

为什么PointNet是重要的？

真正让PointNet具备很大影响力的，还是它的简洁、高效和强大。
首先要说清楚，PointNet所作的事情就是对点云做特征学习，并将学习到的特征去做不同的应用：分类（shape-wise feature）、分割（point-wise feature）等。

PointNet之所以影响力巨大，就是因为它为点云处理提供了一个简单、高效、强大的特征提取器（encoder），几乎可以应用到点云处理的各个应用中，其地位类似于图像领域的AlexNet。

.2 Pointnet

2.1 contribution

设计了一个新颖的深层网络架构来处理三维中的无序点集
设计的网络表征可以做三维图形分类、图形的局部分割以及场景的语义分割等任务
提供了完备的经验和理论分析来证明PointNet的稳定和高效。
充分的消融实验，证明网络各个部分对于表征的有效性。

网络的亮点

空间变换网络解决旋转问题：三维的STN（空间变换网络--spatial transform network）可以通过学习点云本身的位姿信息学习到一个最有利于网络进行分类或分割的DxD旋转矩阵（D代表特征维度，pointnet中D采用3和64）。至于其中的原理，我的理解是，通过控制最后的loss来对变换矩阵进行调整，pointnet并不关心最后真正做了什么变换，只要有利于最后的结果都可以。pointnet采用了两次STN，第一次input transform是对空间中点云进行调整，直观上理解是旋转出一个更有利于分类或分割的角度，比如把物体转到正面；第二次feature transform是对提取出的64维特征进行对齐，即在特征层面对点云进行变换。
maxpooling解决无序性问题：网络对每个点进行了一定程度的特征提取之后，maxpooling可以对点云的整体提取出global feature。