专利：基于点云数据的三维目标识别和模型分割方法

本文链接：https://blog.csdn.net/ycc18829026593/article/details/136307335

摘要：

主要是对三维点云信息进行深度网络训练，用PointNet++模型三维模型的深度特征表示是三维目标识别和三维模型语义分割的关键和前提，机器人、自动驾驶、虚拟现实、遥感测绘等领域有着广泛的应用前景。然而传统的卷积神经网络需要以规则化的数据作为输入，对于点云数据需要转换为视图或体素网格来处理，过程复杂且损失了三维模型的几何结构信息。借助已有的可以直接处理点云数据的深度网络，针对产生的特征缺少局部拓扑信息问题进行改进，提出一种利用双对称函数和空间转换网络获得更鲁棒、鉴别力更强的特征。实验表明，通过端到端的方式很好地解决缺少局部信息问题，在三维目标识别、三维场景语义分割任务上取得了更好的实验效果，并且相比于 PointNet++在相同精度的情况下训练时间减少了 20%。之前利用深度学习在点云上提取特征的工作有 PointNet[1]和 PointNet++[2]。 PointNet 以记录空间坐标的原始点云数据直接作为网络的输入，学习点云模型的空间编码后转换为全局特征描述子用于目标分类和模型分割任务。PointNet++为了学习到模型更多的局部结构信息，首先通过最远点采样和球查询的方式提取包含型局部结构的点集，并利用 PointNet 学习带有局部特征的点集串联为全局特征用于模型分割任务。

本文方法在 PointNet 直接处理原始点云模型的深度网络基础上，以端到端的方式完成输入到高层特征表示的映射。且利用多层感知机网络单独地提取每个点的深度特征，然后引入与二维图像上处理仿射变换不变性的空间转换网络(spatial transformer networks， STN)[3]相似的结构学习模型的拓扑结构信息，同时利用双对称函数对点集特征进行编码，消除点序对全局特征的影响并且进一步产生更有鉴别力和稳健性更强的深度特征。相比于 PointNet，本文通过构建端到端的深度网络模型学习带有模型拓扑结构的全局信息，以更小的时间代价达到了更高的目标识别精度，网络结构更加简单并且易于训练。

本文通过设计直接处理点云数据的深度网络，提取三维模型深度特征应用于三维模型识别和三维模型分割任务。提取模型全局特征的网络结构如图 1 所示(卷积核大小除第 1 层为 1×3，其余均为1×1，且步长均为 1，同层卷积权值共享。对于目标识别任务，输入点云序列只记录空间坐标信息，大小为 N×3；对于三维模型语义分割任务，输入点云序列记录空间坐标、颜色、法向信息，大小为 N×9)。网络以点云数据为输入，经过 5 个卷积层，差异性对称函数和姿态变换子网络处理，将池化特征和姿态特征串联得到最终的全局特征。对于 k 类三维目标识别任务，深度网络以记录空间信息{x,y,z}的点云数据直接作为输入，对每个模型上的点做单独处理，输出对应所属类别概率的 k 维向量。对于有 m个语义标签的三维模型语义分割任务，深度网络以从每个场景目标模型中采样得到的 n 个点的点云模型作为输入，输出对应每个点语义标签的 N×m 维特征矩阵。本文所使用的深度网络可以分为 3 个部分：深度卷积神经网络单独提取每个点的深度信息，差异性双对称函数提取模型不同显著性特征，空间转换网络预测出姿态变换矩阵融合为带有局部信息的全局特征。

本文对于所有模型在表面按照面积的不同均匀地采集 1 024 个点，每个点记录空间坐标信息，且为了便于训练将所有点的坐标标准化到单元球中。在训练阶段，为了增强网络对模型仿射变换的特征不变性以及增加训练数据，对训练集模型进行随机角度的沿 Z 轴旋转以及添加均值为零，方差0.03 的高斯噪声。实验中设置 dropout 参数为 0.7，实验结果对比见表 1。