PointNet阅读笔记

最新推荐文章于 2024-06-02 23:40:08 发布

yucong96

最新推荐文章于 2024-06-02 23:40:08 发布

阅读量421

点赞数

分类专栏： 3D+ML论文阅读文章标签： PointNet 三维深度学习

基本上翻译自[1]:Pointnet: Deep learning on point sets for 3d classification and segmentation，加了一点个人理解。

Introduction

典型的卷积结构需要规则的数据结构，比如图像或者voxel模型。对于点云、mesh这样的非规则数据结构，往往就会将它们转化成voxel模型或多视角下的二维图片，再用卷积进行处理。二维图像损失了部分几何信息，而体素化则引入了人工的误差，因此都不是理想的处理方式。

作者希望发现一种网络结构，可以直接处理点云。点云模型中，点的顺序和结果无关，因此这一模型必须是和顺序无关的（invariant to permutation）。另外，模型也需要对刚性变化保持不变性（invariant to rigid motions）。

作者提出了PointNet，它以点云作为输入，输出模型的类别（对于模型分类问题）或每个点所属的类别（对于模型分割问题）。PointNet的结构非常简单，它先对每个点进行独立相同（identical & independent）处理，再使用一个简单的对称函数（symmetric function，它的性质是，改变输入参数的顺序，不影响最后的结果）得到特征向量。在论文中，这一对称函数非常简单，就是逐元素取最大值（max pooling）。

论文的主要贡献为：

设计了一个处理点云的模型；
验证了模型可以用于模型分类、分割和语义信息提取；
对方法的有效性和稳定性提出了经验和理论的分析
对模型的有效性提出了符合直观的解释

Related Work

Point Cloud Features
Deep Learning on 3D Data
- 体素化CNN（Volumetric CNN）
- 多视角CNN（Multiview CNN）
- 谱方法CNN（Spectral CNN）
- 基于特征的深度网络（Feature-based DNN）：传统方法提取几何特征，再使用全连接。

Problem Statement

输入： $N$ 个点，每个点3个坐标。
输出：对于 $k$ 模型分类，输出 $k$ 维向量，分别表示 $k$ 个类别的概率；对于模型分割，对每个点输出 $m$ 维向量，表示该点属于 $m$ 个类别的概率。

Deep Learning on Point Sets

点云的性质

无序性。对于 $N!$ 种点不同顺序的组合，输出结果都应是一样的。
点的互动。点之间满足空间上的度量，邻近的点构成了局部特征。
变换不变性。平移和旋转不应改变物体的分类或分割结果。

PointNet的结构

对无序输入的对称函数

处理无序输入往往有三种方式：

先排序再输入。它的缺点有：对于高维数据，不存在唯一的排序。
RNN。在“OrderMatters”论文中，作者论证了RNN中顺序是无法被完全丢弃的。
对称函数。PointNet即采用了这种方法。

本文构造的对称函数如下：
$f\left(\left\{ x_1, \cdots, x_N \right\}\right) \approx g\left( h(x_1), \cdots, h(x_N) \right)$

其中， $f$ 是 $2^{\mathbb{R}^N} \rightarrow \mathbb{R}$ 的函数，其中 $2^{\mathbb{R}^N}$ 表示 $N$ 维向量组成的集合作为输入。 $h$ 是 $\mathbb{R}^N \rightarrow \mathbb{R}^K$ 的函数，将原来的 $N$ （仅考虑坐标则为3，若另有 $c$ 维的点上的特征，则为 $3 + c$ ）变成 $K$ 维向量。 $g$ 是一个 $\mathbb{R}^K * \cdots * \mathbb{R}^K \rightarrow \mathbb{R}$ 的对称函数。

局部特征和全局特征的整合

对于模型分类问题，对上述的 $f$ 直接用SVM或者多层感知机（MLP）做分类就好了。

对于模型分割问题，将上述的全局特征向量，分别concatenate到每个点经过 $h$ 运算后的向量上。对concatenate后的向量，再使用SVM或MLP做分类就好了。使用这样的方法，论文中给出了预测每个点法向量的结果，这说明每个点能通过全局特征感知到自己的邻域。

联合对齐网络

点云的语义信息应该不随点云的刚性几何变换（旋转或平移）而变化。一种自然的想法是在特征提取之前先做一次对齐。我们可以设计一个小网络（mini-network）来学习一个 $3 * 3$ 的变换矩阵，并对 $N * 3$ 的点云做变换。

这样的想法可以进一步用于特征空间的对齐，因此在上方的流程图中，还有一个 $64 * 64$ 的变换矩阵，对特征空间做对齐。特征空间的变换矩阵维度（ $64 * 64$ ）要远大于几何空间（ $3 * 3$ ），因此避免变换矩阵太难优化，在损失函数部分加上一个正则项，即
$L_{reg} = || I - AA^T ||_{F}^{2}$

最低0.47元/天解锁文章

yucong96

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
PointNet阅读笔记

基本上翻译自[1]:Pointnet: Deep learning on point sets for 3d classification and segmentation，加了一点个人理解。Introduction典型的卷积结构需要规则的数据结构，比如图像或者voxel模型。对于点云、mesh这样的非规则数据结构，往往就会将它们转化成voxel模型或多视角下的二维图片，再用卷积进行处理。二维...
复制链接

扫一扫

专栏目录