VoxelNet论文了解

前言

本文网络采用的是端到端模式、基于点云的目标检测网络。其将点云划分为等大小的三维空间,并通过体素特征编码(VFE)层将每个体素内的一组点转换为统一的特征表示。

网络主要由3个部分组成:
特征学习网络、中间层卷积、RPN(候选区域网路)
在这里插入图片描述

特征学习网络

大概描述一下就是:首先将点云数据空间分为一个个栅格,构造栅格网;然后根据栅格网将点云数据进行分割。因为数据过多,于是采用随机采样。对包含T个点以上的体素中抽取T个点。随后进行堆叠体素特征编码:每个栅格的点进行去中心化后输入全连接网络得到逐点特征,对逐点特征进行max-pooling,得到局部聚合特征,逐点连接逐点特征和局部聚合特征得到逐点连接特征。另外,由于超过90%的体素为空,需要将非空体素特征表示为稀疏张量
在这里插入图片描述

卷积中间层

采用3D卷积层,BN层,Relu层。通过逐渐扩大的感受域聚合体素特征,增加了更多的形状描述。

RPN(候选区域网络)

输入特征图,经过卷积得到的不同尺寸的特征图,分别通过上采样成相同尺寸,再串联到一起。最后用来进行概率评分和回归(概率评分指该区域符合目标条件的得分,回归是对区域进行一定调整:平移、缩放等)。
在这里插入图片描述

生疏点
端到端:
是指直接输入的是原始图片,输出的是结果。不像一些网络输入的是经过卷积后得到的特征图。
好处在于:通过减少人工处理和后续处理,使模型尽可能的从原始输入到输出,给模型更多的自我调整空间,使模型契合度更好。

点云:
表示多维点的集合。三维时,一般表示空间坐标x,y,z,当存颜色等信息时,变为4维。

融合fusion:
能够获取更多层次的特征。但在此论文中没有用到这个操作,原因是因为汽车、自行车之类的物体可单凭外部轮廓就可识别出来。不必再融合颜色等其他特征。如果涉及到判断某个实例,如;一辆黄色的车,那就需要用到fusion操作。

参考:
https://blog.csdn.net/hit1524468/article/details/80023901
https://blog.csdn.net/shenziheng1/article/details/84837419

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值