点云深度学习语义分割拓展学习

在这里插入图片描述
自动驾驶、机器人应用、计算机视觉上拥有强大的应用前景,犹如vr技术,借助语义分割对真实场景的理解与识别
不同任务:语义(场景)分割;实例(物体)分割;部件分割
在这里插入图片描述
PPT大纲
在这里插入图片描述
一、基于多视角平面投影的网络:已有成功经验解决现有问题
1、多视角表示:3D数据投影到不同的2D平面完成数据降维,采用已有2D语义分割模型处理,融合不同视角的结果
在这里插入图片描述
在这里插入图片描述
点云投影(数据降维度)-多流fcn预测各个像素得分(成熟2D语气分割模型)-score融合-3D点云的label
在这里插入图片描述
相机的不同位置拍摄-2D分割
在这里插入图片描述
优势:具有可扩展性,可处理数以亿计的点云,
劣势:(1)对视点选择非常敏感,
(2)稀疏点云投影的还是稀疏的,如激光雷达只占了5.9%的像素
(3)但点云投影与真实二维存在差异(领域飘逸问题)

改进方向:更好的投影方法,保留原始3D点的结构化信息或提供更多的视角
,完美cover整个3d场景

2.点云投影到球状表示上,实现密集表示
在这里插入图片描述
从xyz算出球面坐标
在这里插入图片描述
沙漏模型:3D球面投影得到前视图,使用Squeeznet网络特征提取与分割,使用条件随机场作为RN层对分割结果进一步优化

在这里插入图片描述
第一篇的改进,球状表示方法没有更新,框架上更新:增加focal loss解决样本不均衡问题
在这里插入图片描述
2D深度图标签转移到3D点云上,使用基于KNN的后处理步骤解决离散化误差、模糊cnn输出等
在这里插入图片描述
优点:相比于多视角,保留了更多的信息,点云的稠密表示
劣势:只要是借助中间表示方法,势必会带来离散化误差,遮挡等问题

3.体素表示
在这里插入图片描述
划分为不同的栅格(voxel),在使用3D CNN处理
在这里插入图片描述
大规模处理3D点云的结构,对输入数据高效存储,避免网络结构中空间信息的冗余计算和存储,稠密点云voxel化后的稠密处理,消除了对原始传感器预处理的步骤,端到端方法处理大规模点云。输出规则输出(输入点云的映射,可以成为3D点云处理的通用描述子)
在这里插入图片描述
保存了点的领域信息,但体素化也属于中间过程,造成信息离散化,高分辨率可以解决,但增加计算成本。低分辨率会导致细节丢失。选择体素分辨率非常重要

4.栅格表示
在这里插入图片描述
5.其他表示
在这里插入图片描述

二、基于原始点的处理:不用中间转换,直接处理点处理的流派(pointnet为backbone)
直接处理点不现实,直至先驱性工作pointnet出现
在这里插入图片描述
分为四类:

  • 基于点的的多层感知机(pointnet)
  • 基于点的卷积方法
  • 基于RNN
  • 基于图的方法

1.基于点的多层感知机:处理全局、局部特征的关系,因此使用共享多层感知机。

在这里插入图片描述
point对精细网络场景识别的不足,对复杂场景的泛华能力差。
为获取相邻点关系,更丰富的局部结构特征:基于临近点特征池化(pointnet++)、基于注意力机制(提升分割准确率,对影响local feature的点给予更大的权重)、基于局部全局特征方法(特征合并)相继被提出。
pointnet++与U-net相似,

2.点卷积方法:更有效的卷积操作,找到适合点云的cnn方式
在这里插入图片描述
给学习的特征赋予权重,特征按照某种方式排列,可视化特征比较清晰,但不适合大规模应用。

3.基于RNN
在这里插入图片描述
无序进入,有序出,从xyz三个方向切片,塞入rnn处理。
几十-几百的数据有鲁棒性,但是数千数据输入时鲁棒性不一定好,对输入点云顺序有要求。pointnet作者证实不如pointnet方式

4.基于图
在这里插入图片描述
点云转换为超点形式的集合,针对超点构成的超点图处理,分析spg和sppg。
a为带有颜色的点云信息,b为超点集合,c对相邻超点进行连线得到超边,在利用GNN网络处理超点图。
在这里插入图片描述
对点云分割分割为三个子问题,转为超点分割问题
在这里插入图片描述
又提出带有监督框架的spg

三、总结
在这里插入图片描述
3D representation:能否寻求一种 intermediate regular representation,既具有很好的 local feature,又能提供合理的 global feaure?我认为具有结构性的 voxel 以及上文所说的 superpoint 都是一种很好的尝试。从表现形式上来看,上述方案的内核都相差不远,首先利用 local feaure 以及 local pooling 等类似的操作来聚合 部件节点,然后利用相邻结构或者超边来描述 voxle 或节点之间的关系,最后针对 intermediate regular representation 提出不同的深度学习框架。因此,我认为可以借助树、图、层次图等数据结构, 探索上下文结构特征和局部几何特征更加结构化的表达方式。
multimodal learning:人类大脑作为信息处理终端,对图像、几何和声音等多种模态信息整合进而做出判断。如何有效融合 3D 点云和 2D 图像两种不同模态的信息对于 3D 对象的分析至关重要。目前, 2D 图像数据与 3D 几何数据的多模态学习多采用对原始数据进行直接融合、对抽象的特征进行拼接和对决策结果进行融合等手段,在深度神经网络设计的层面缺乏深入的办法对两种模态信息的处理过程进行融合。因此,我个人认为有效的 3 维层级结构化数据可以更容易与已有的 2D 图像规则数据进行多层面、深层次的信息交互。此外,多模态的学习还能解决 3D 数据量较少,对标注信息需求过大的问题。
cognitive psychology:这个角度的想法是源于 北京科技大学 马慧敏 教授,她曾经提出,在解决小目标、强遮挡、高动态、任意姿态的三维视觉问题时,应该更多的从学习的本质出发,强调认知心理学和机器学习的交叉研究。从认知层面来说,解决 2D 图像问题和 3D 点云问题应该存在本质性的区别,如何有效的结合语义结构的认知模型,跨越 2D 与 3D 的认知壁垒,都能对上文中的 3D 表示或者多模态都能提供更多的理论支撑。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值