PointNet阅读笔记

基本上翻译自[1]:Pointnet: Deep learning on point sets for 3d classification and segmentation,加了一点个人理解。

Introduction

典型的卷积结构需要规则的数据结构,比如图像或者voxel模型。对于点云、mesh这样的非规则数据结构,往往就会将它们转化成voxel模型或多视角下的二维图片,再用卷积进行处理。二维图像损失了部分几何信息,而体素化则引入了人工的误差,因此都不是理想的处理方式。

作者希望发现一种网络结构,可以直接处理点云。点云模型中,点的顺序和结果无关,因此这一模型必须是和顺序无关的(invariant to permutation)。另外,模型也需要对刚性变化保持不变性(invariant to rigid motions)。

作者提出了PointNet,它以点云作为输入,输出模型的类别(对于模型分类问题)或每个点所属的类别(对于模型分割问题)。PointNet的结构非常简单,它先对每个点进行独立相同(identical & independent)处理,再使用一个简单的对称函数(symmetric function,它的性质是,改变输入参数的顺序,不影响最后的结果)得到特征向量。在论文中,这一对称函数非常简单,就是逐元素取最大值(max pooling)。

论文的主要贡献为:

  1. 设计了一个处理点云的模型;
  2. 验证了模型可以用于模型分类、分割和语义信息提取;
  3. 对方法的有效性和稳定性提出了经验和理论的分析
  4. 对模型的有效性提出了符合直观的解释

Related Work

  • Point Cloud Features
  • Deep Learning on 3D Data
    • 体素化CNN(Volumetric CNN)
    • 多视角CNN(Multiview CNN)
    • 谱方法CNN(Spectral CNN)
    • 基于特征的深度网络(Feature-based DNN):传统方法提取几何特征,再使用全连接。

Problem Statement

  • 输入: N N N个点,每个点3个坐标。
  • 输出:对于 k k k模型分类,输出 k k k维向量,分别表示 k k k个类别的概率;对于模型分割,对每个点输出 m m m维向量,表示该点属于 m m m个类别的概率。

Deep Learning on Point Sets

点云的性质

  • 无序性。对于 N ! N! N!种点不同顺序的组合,输出结果都应是一样的。
  • 点的互动。点之间满足空间上的度量,邻近的点构成了局部特征。
  • 变换不变性。平移和旋转不应改变物体的分类或分割结果。

PointNet的结构

PointNet结构

对无序输入的对称函数

处理无序输入往往有三种方式:

  • 先排序再输入。它的缺点有:对于高维数据,不存在唯一的排序。
  • RNN。在“OrderMatters”论文中,作者论证了RNN中顺序是无法被完全丢弃的。
  • 对称函数。PointNet即采用了这种方法。

本文构造的对称函数如下:
f ( { x 1 , ⋯   , x N } ) ≈ g ( h ( x 1 ) , ⋯   , h ( x N ) ) f\left(\left\{ x_1, \cdots, x_N \right\}\right) \approx g\left( h(x_1), \cdots, h(x_N) \right) f({ x1,,xN})g(h(x1),,h(xN))

其中, f f f 2 R N → R 2^{\mathbb{R}^N} \rightarrow \mathbb{R} 2RNR的函数,其中 2 R N 2^{\mathbb{R}^N} 2RN表示 N N N维向量组成的集合作为输入。 h h h R N → R K \mathbb{R}^N \rightarrow \mathbb{R}^K RNRK的函数,将原来的 N N N(仅考虑坐标则为3,若另有 c c c维的点上的特征,则为 3 + c 3+c 3+c)变成 K K K维向量。 g g g是一个 R K ∗ ⋯ ∗ R K → R \mathbb{R}^K * \cdots * \mathbb{R}^K \rightarrow \mathbb{R} RKRKR的对称函数。

局部特征和全局特征的整合

对于模型分类问题,对上述的 f f f直接用SVM或者多层感知机(MLP)做分类就好了。

对于模型分割问题,将上述的全局特征向量,分别concatenate到每个点经过 h h h运算后的向量上。对concatenate后的向量,再使用SVM或MLP做分类就好了。使用这样的方法,论文中给出了预测每个点法向量的结果,这说明每个点能通过全局特征感知到自己的邻域。

应用PointNet预测各点法向

联合对齐网络

点云的语义信息应该不随点云的刚性几何变换(旋转或平移)而变化。一种自然的想法是在特征提取之前先做一次对齐。我们可以设计一个小网络(mini-network)来学习一个 3 ∗ 3 3*3 33的变换矩阵,并对 N ∗ 3 N*3 N3的点云做变换。

这样的想法可以进一步用于特征空间的对齐,因此在上方的流程图中,还有一个 64 ∗ 64 64*64 6464的变换矩阵,对特征空间做对齐。特征空间的变换矩阵维度( 64 ∗ 64 64*64 6464)要远大于几何空间( 3 ∗ 3 3*3 33),因此避免变换矩阵太难优化,在损失函数部分加上一个正则项,即
L r e g = ∣ ∣ I − A A T ∣ ∣ F 2 L_{reg} = || I - AA^T ||_{F}^{2} Lreg=IAA

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值