关于pointnet的几个点

1.为什么将维数从一开始3维变成1024维后再进行池化。

一开始输入只有xyz三维,(x,y,z),如果进行最大池化(maxpool),会损失太多信息,输出的全局特征仅仅继承了三个坐标轴上最大的那个特征。

 但如果将点映射到1024维的高维空间再进行最大池化,则1024维所有通道上都只保留最大的那一个,比起3维池化却是能保留更多,保留了1024个,损失的信息会减少很多。

2.T-net

 

对于普通的PointNet(vanilla),如果先后输入同一个但是经过不同旋转角度的物体,它可能不能很好地将其识别出来。在论文中的方法是新引入了一个T-Net网络去学习点云的旋转,将物体校准,剩下来的PointNet(vanilla)只需要对校准后的物体进行分类或者分割即可。

由于点云的旋转非常的简单,只需要对一个N × D的点云矩阵乘以一个D × D的旋转矩阵即可,因此对输入点云学习一个3 × 3的矩阵,即可将其矫正;同样的将点云映射到K维的冗余空间后,再对K维的点云特征做一次校对,只不过这次校对需要引入一个正则化惩罚项,希望其尽可能接近于一个正交矩阵。

 

具体来说,对于每一个N × 3的点云输入,网络先通过一个T-Net将其在空间上对齐(旋转到正面),再通过MLP将其映射到64维的空间上,再进行对齐,最后映射到1024维的空间上。这时对于每一个点,都有一个1024维的向量表征,而这样的向量表征对于一个3维的点云明显是冗余的,因此这个时候引入最大池化操作,将1024维所有通道上都只保留最大的那一个,这样得到的1 × 1024的向量就是N NN个点云的全局特征。

如果做的是分类的问题,直接将这个全局特征再进过MLP去输出每一类的概率即可;但如果是分割问题,由于需要输出的是逐点的类别,因此其将全局特征拼接在了点云64维的逐点特征上,最后通过MLP,输出逐点的分类概率。

3.shared

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
PointNet是一种用于处理三维云数据的深度学习模型。它是由Charles R. Qi等人在2017年提出的。PointNet的目标是对不同形状的物体进行分类、分割和识别等任务。 PointNet的网络结构包括两个主要部分:特征提取网络和全局特征编码器。特征提取网络将输入的云数据转化为局部特征,而全局特征编码器则将局部特征集成为全局特征。具体而言,特征提取网络包含几个全连接神经网络和最大池化层,用于提取每个的局部特征。全局特征编码器则使用一个全连接神经网络,将所有的局部特征整合为全局特征。最后,全连接神经网络将全局特征映射到具体的任务空间中,例如物体分类、物体分割等。 PointNet的特是可以对云数据进行任意排序和排列,从而能够处理不同形状和大小的物体。此外,PointNet还可以处理不完整和噪声干扰的云数据,具有较强的鲁棒性。 关于PointNet的代码详解,可以参考以下资源: - PointNet的原始论文提供了详细的网络结构和算法描述,可以通过阅读该论文来深入了解代码的实现细节。 - 在GitHub上可以找到PointNet的开源代码,可以通过下载和阅读代码来了解其实现方式和具体细节。 - 在相关的博客和教程中,也有人对PointNet的代码进行了解析和解释,可以通过阅读这些博客和教程来获取更多的代码解释和示例。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值