SO-Net: Self-Organizing Network for Point Cloud Analysis

最新推荐文章于 2024-09-14 20:22:29 发布

想发CCFA

最新推荐文章于 2024-09-14 20:22:29 发布

阅读量1.4k

点赞数 54

分类专栏：点云学习文章标签：论文阅读论文笔记计算机视觉

本文链接：https://blog.csdn.net/weixin_60335028/article/details/141138155

版权

点云学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

Abstract

本文提出了SO-Net，是一种创新的深度学习架构，为处理无序点云数据设计。SO-Net利用自组织映射（SOM）技术来捕捉点云的空间分布，并实现排列不变的特征提取。这种分层特征提取方法能够从局部到全局提取特征，还能够通过点到节点的k最近邻搜索系统地调整网络的receptive field，从而灵活适应不同的点云分析任务。

在点云重建、分类、物体部分分割和形状检索等多个识别任务中，SO-Net展现出良好的性能。得益于可并行化和简洁的架构设计，SO-Net的训练速度显著快于现有网络。

Introduction

这部分首先介绍了卷积神经网络（ConvNets）在2D图像识别、物体分类和语义分割等领域取得的成就。然而，尽管在2D图像上取得了巨大成功，将深度学习应用于3D数据仍然是一个挑战。3D数据的稀疏性和分辨率损失限制了传统3D卷积网络（3D ConvNets）的性能，并且它们的计算成本随着数据规模的增长而呈指数级增加。

这一部分进一步讨论了现有的处理点云的方法，包括体素化、基于kd-tree和octree的深度网络等，并指出了它们的局限性。例如，体素化方法虽然简单，但存在分辨率损失和计算成本高的问题。而基于树结构的方法虽然能够处理稀疏性，但可能缺乏重叠的receptive field。这些局限性促使作者提出SO-Net，旨在通过自组织映射（SOM）来明确建模点云的空间分布。

最后，还概述了SO-Net的主要贡献，包括其排列不变性网络设计、基于SOM的分层特征提取方法、以及通过点到节点k最近邻搜索调整receptive field重叠的能力。作者强调SO-Net在点云分类、自编码器重建、部分分割和形状检索等任务中的性能，并指出其训练速度显著快于现有网络。

Related-Work

体素化方法由于与3D卷积网络的天然兼容性，是3D形状表示的直观选择。通过将3D空间划分为细小的立方体（体素），并用二进制变量表示每个体素是否被物体占用，体素化能够将3D形状转换为可以由3D ConvNets处理的格式。尽管体素化方法简单且在某些情况下能够实现优秀的性能，但是它存在一些固有的缺陷，主要的问题是分辨率损失和随着体素化表示精细度增加而指数级增长的计算成本。

为了解决这些问题，研究者提出了稀疏方法，通过仅表示被占用的体素来减少存储和计算需求，但这些方法仍然依赖于规则的体素网格，并且缺乏并行化处理的能力。

谱卷积网络适用于非欧几里得几何结构，如流形网格，但应用范围有限。与此同时，将3D数据渲染成多视图2D图像的方法通过将3D问题转化为2D问题，使得可以使用标准的2D卷积网络进行处理。但仍然存在信息损失的问题，且难以扩展到需要精细点级标注的任务。

为了克服这些限制，又引入了索引技术如kd-tree和octree，通过构建规则的数据结构来组织3D空间，使得可以应用深度学习技术进行有效的特征提取和处理。这些技术通过简化空间查询和数据访问，提高了3D数据的处理效率。PointNet是直接利用点云数据的先驱，通过通道最大池化操作实现了对输入点排列顺序的不变性，但缺乏类似ConvNet的分层特征聚合。PointNet++通过在不同层次上对点进行分组，实现了多尺度特征的提取，但仍然依赖于启发式的分组和采样策略。

本文提出的SO-Net在PointNet++的基础上进行了改进，通过显式建模输入点云的空间分布，并允许调整receptive field的重叠，从而实现更有效的局部特征聚合。

Self-Organizing Network

这一章一共四个小节，第一节介绍了自组织映射（SOM）的初始化和训练过程，是SO-Net中用于捕捉点云空间分布的关键步骤。第二节描述了SO-Net的编码器架构，包括如何利用SOM进行分层特征提取，并将个别点特征聚合成节点特征，最终形成全局特征向量。第三节讨论了SO-Net在点云分割任务中的应用，包括如何将编码器中的特征用于逐点的分类任务。第四节介绍了SO-Net的自编码器设计，用于从全局特征向量重建点云，以及如何通过不同策略优化重建过程。

Permutation Invariant SOM

SOM是一种无监督的神经网络，用于将高维数据（论文中为点云数据）映射到低维空间中，同时保持数据的拓扑结构。在SO-Net中，SOM不仅帮助网络学习点云的空间分布，而且通过其结构化的特性，使得网络能够进行排列不变的特征提取。

本节首先详细描述了SOM的初始化过程，其中初始节点被均匀地分布在一个单位球内，确保了对于任何给定的点云，这些节点都能够提供有效的覆盖。这种初始化方法对于实现网络的排列不变性至关重要，它消除了节点初始化顺序对训练结果的影响。

接着，讨论了SOM的训练机制，强调了SO-Net中采用的批量更新策略。与传统的逐点更新不同，批量更新在积累了所有点的影响后，一次性更新SOM节点。这种方法不仅保证了排列不变性，而且由于其确定性，可以高效地在GPU上实现。

此外，还提到了SOM训练中可能遇到的挑战，例如局部最小值问题，即SOM可能收敛到局部最优解，导致一些节点在点云的覆盖范围之外。但论文也指出，即使在存在次优SOM的情况下，SO-Net仍然能够在各种应用中实现优于现有方法的性能。

Encoder Architecture

这一部分详细阐述了SO-Net的编码器架构，这是网络中用于从点云数据中提取特征的关键组成部分。编码器利用自组织映射（SOM）作为基础，通过点到SOM节点的k最近邻（kNN）搜索，将每个点与SOM上的节点联系起来。

在点特征提取阶段，每个点的特征通过一系列全连接层进行处理，以提取局部的几何信息。随后，这些特征通过最大池化操作，根据kNN搜索的结果，将与同一SOM节点相关的点特征聚合成单一的节点特征。

So-Net的网络结构

节点特征提取之后，这些特征与相应的SOM节点坐标相结合，进一步通过一系列共享的全连接层进行处理。最终，所有节点特征被聚合成一个全局特征向量，这个向量能够代表整个点云的全局信息。这一全局特征向量是网络输出的核心，可以用于各种下游任务，如分类、分割和重建等。

此外，还讨论了如何通过调整kNN搜索中的k值来控制特征提取过程中的receptive field重叠。较大的k值会增加receptive field的重叠，有助于捕捉更广泛的局部特征，而较小的k值则可能专注于更精细的局部结构。使其能够适应不同的点云分析任务。

Extension to Segmentation

主要探讨了SO-Net在点云分割任务中的应用。点云分割是计算机视觉中的一项关键任务，它涉及将一个点云分割成多个部分或区域，通常对应于场景中的不同物体或物体的不同部分。在这一节中，作者描述了如何将SO-Net的编码器结构扩展到点云的逐点标注任务，即对点云中的每个点进行分类，以确定它们属于哪个物体部分。

作者提出了一种基于SO-Net的解决方案，该方案利用了在3.2节中描述的编码器来提取每个点的局部特征，并将这些局部特征与通过SOM得到的全局特征向量结合起来。这种结合允许网络捕获点云中每个点的上下文信息，从而提高分割的精度。

作者详细阐述了特征融合的过程，包括如何将全局特征向量与通过kNN搜索得到的每个点的局部特征相结合。然后，这些融合后的特征通过一系列全连接层进行处理，以生成每个点的分类得分。文章中提到了不同的特征融合策略，包括早期、中期和晚期融合，并讨论了它们各自的优缺点。通过实验，发现中期融合配合平均池化操作在点云分割任务中最为有效。

此外，还讨论了如何使用平均池化或最大池化等方法来处理由于特征融合导致的冗余信息。这些方法有助于减少特征维度，同时保留重要的分类信息。

Autoencoder

3.4节主要介绍了SO-Net在点云重建任务中的应用，即如何利用网络从点云数据中恢复或重建三维形状。点云重建是一个复杂的过程，它要求网络不仅能够理解输入点云的结构，还能够生成缺失的信息，以重建出一个完整的三维模型。

解码器的架构图

作者设计了一个解码器网络，用于从SO-Net编码器提取的全局特征向量中重建点云。这个解码器由两个并行的分支组成：一个全连接分支和一个卷积分支，每个分支都针对不同的重建任务进行了优化。

全连接分支利用网络学习到的全局特征向量来预测点云中的点，每个点的坐标是独立预测的，为重建过程提供了高度的灵活性。而卷积分支则利用了空间连续性的优势，通过上采样和卷积操作来预测特征矩阵，进而转换为点云。

作者详细描述了解码器的架构，包括上采样模块和卷积层的设计，以及如何将这些模块整合到一个端到端的网络中。此外，还讨论了损失函数的选择。作者选择了Chamfer距离作为损失函数，因为它能够度量两个点集之间的相似度，并且对于点云重建任务是可微分的、适合并行计算的，同时也对异常值具有鲁棒性。

Experiment

在本节中，SO-Net在三种不同的应用中进行了性能评估，点云自动编码器，目标分类和目标部分分割。而且，在自动编码器中训练的编码器可以用作其他两个任务的预训练。除了二维MNIST分类外，编码器结构和SOM配置在所有实验中都保持相同，没有进行精细的微调。

Implementation Detail

主要是一些参数的设定，包括所用显卡，初始的学习率等等。

Datasets

这一小节主要介绍了SO-Net在点云自编码器任务中的实现细节和实验设置。

首先描述了自编码器的网络结构，包括编码器和解码器的配置。编码器利用了之前提到的SOM和分层特征提取方法，将点云数据压缩成一个全局特征向量。而解码器则设计为两个并行的分支：一个全连接分支和一个卷积分支，两者共同工作以从全局特征向量中重建点云。

接着，定义了实验中使用的损失函数——Chamfer距离，用于指导点云的重建过程。Chamfer距离的引入是为了确保重建的点云与原始点云尽可能接近。

此外，还提到了实验中使用的两个数据集：ModelNet10和ModelNet40。这些数据集包含了不同类别的3D模型，并且被广泛用于评估点云处理算法的性能。

文章还介绍了数据增强技术，在训练阶段应用于输入点云，以提高网络的泛化能力。包括添加高斯噪声、对SOM节点添加噪声以及对点云进行缩放等。

Point Cloud Autoencoder

在这一部分中，作者首先展示了使用SO-Net自编码器重建的点云示例，并讨论了自编码器的两个关键组成部分：一个全连接分支和一个卷积分支。全连接分支负责预测点云中的点，而卷积分支则利用空间连续性来恢复点云的主体结构。

点云自编码的例子

接着，文章讨论了自编码器的损失函数，特别是Chamfer距离，是一种衡量两个点集之间差异的方法，用于指导点云的重建过程。Chamfer距离的选择是为了确保重建的点云与原始点云尽可能接近。

此外，还展示了自编码器在不同大小的点云上的性能，包括输入点云大小为1024和2048的情况。作者报告了重建点云的质量，并讨论了自编码器在捕捉点云细节方面的局限性。

Classification Tasks

重点介绍了SO-Net在点云分类任务中的应用和性能评估。在这一节中，作者详细描述了用于分类任务的网络配置，包括在编码器顶部添加的多层感知器（MLP），以及用于提高泛化能力的随机dropout技术。作者使用了ModelNet10和ModelNet40数据集作为分类任务的基准测试。

首先讨论了分类网络的训练过程，包括使用的损失函数和优化算法。接着，展示了SO-Net与其他现有最先进方法的比较结果，包括基于点云、kd-tree和octree等可扩展3D表示的学习网络。SO-Net在ModelNet10和ModelNet40数据集上的实例准确率分别超过了其他方法1.7%和1.5%，显示出其优越的性能。

还进行了关于网络对点云数据损坏的鲁棒性测试，包括在测试时引入点云的随机丢弃和对SOM节点添加高斯噪声。实验结果表明，即使在点云数据部分缺失或SOM结果受到噪声干扰的情况下，SO-Net仍然能够保持较高的分类准确率。

此外，这一节还探讨了使用自编码器进行预训练对分类性能的影响。实验结果表明，预训练可以显著提升网络在分类任务上的性能，表明自编码器学习到的特征对于提高分类准确率是有益的。

最后，通过一系列图表和讨论，总结了SO-Net在点云分类任务中的性能，包括不同网络层数对分类准确率的影响，以及SO-Net与其他方法相比在训练速度上的优势。

Part Segmentation on ShapeNetPart

主要介绍了SO-Net在ShapeNetPart数据集上进行物体部分分割任务的实验和结果。物体部分分割是计算机视觉领域中的一项挑战性任务，它要求模型不仅识别出整个物体，还要区分并识别物体的各个组成部分。

作者首先描述了将物体部分分割问题转化为逐点分类任务的方法。与之前章节中的点云分类任务类似，这一任务同样利用了SO-Net的编码器来提取特征，但不同之处在于，为了进行部分分割，需要更精细的特征表示来捕捉物体局部的细节和结构。

作者提到了在网络中使用表面法线信息作为输入的一部分，有助于提高分割的精度，因为法线信息能够提供关于物体表面方向的重要线索。此外，作者采用了平均池化操作来融合由于特征提取过程中的receptive field重叠而产生的冗余信息。

在实验设置方面，作者使用了ShapeNetPart数据集，该数据集包含了多种类别的物体，每个物体都有多个部分的标注。作者按照数据集中的类别划分，对模型进行了训练和测试，并使用了平均交并比（mean Intersection over Union, mIoU）作为评价指标来衡量分割性能。

结果表明，SO-Net在物体部分分割任务上取得了与其他先进方法相媲美的性能。作者通过表2展示了SO-Net与其他几种方法的IoU分数，证明了SO-Net在多个类别上的有效性和优越性。此外，作者还提供了一些可视化的分割结果，这些结果展示了SO-Net能够准确地识别和分割物体的不同部分。

Conclusion

在本文中，作者提出了一种新的SO-Net，通过显式建模输入点的空间分布和系统地调整接收野重叠来对点云进行分层特征提取。在点云重建、目标分类、目标部分分割等一系列实验中，网络取得了具有竞争力的性能。特别是，在点云分类和形状检索方面优于最先进的深度学习方法，训练速度明显更快。同时还提到，由于SOM保留了输入空间的拓扑属性，并且SO-Net将点云相应地转换为特征矩阵，因此应用经典卷积神经网络或基于图的卷积神经网络实现更深层次的分层特征聚合是一个有希望的未来方向。