前言
本文网络采用的是端到端模式、基于点云的目标检测网络。其将点云划分为等大小的三维空间,并通过体素特征编码(VFE)层将每个体素内的一组点转换为统一的特征表示。
网络主要由3个部分组成:
特征学习网络、中间层卷积、RPN(候选区域网路)
特征学习网络
大概描述一下就是:首先将点云数据空间分为一个个栅格,构造栅格网;然后根据栅格网将点云数据进行分割。因为数据过多,于是采用随机采样。对包含T个点以上的体素中抽取T个点。随后进行堆叠体素特征编码:每个栅格的点进行去中心化后输入全连接网络得到逐点特征,对逐点特征进行max-pooling,得到局部聚合特征,逐点连接逐点特征和局部聚合特征得到逐点连接特征。另外,由于超过90%的体素为空,需要将非空体素特征表示为稀疏张量。
卷积中间层
采用3D卷积层,BN层,Relu层。通过逐渐扩大的感受域聚合体素特征,增加了更多的形状描述。
RPN(候选区域网络)
输入特征图,经过卷积得到的不同尺寸的特征图,分别通过上采样成相同尺寸,再串联到一起。最后用来进行概率评分和回归(概率评分指该区域符合目标条件的得分,回归是对区域进行一定调整:平移、缩放等)。
生疏点
端到端:
是指直接输入的是原始图片,输出的是结果。不像一些网络输入的是经过卷积后得到的特征图。
好处在于:通过减少人工处理和后续处理,使模型尽可能的从原始输入到输出,给模型更多的自我调整空间,使模型契合度更好。
点云:
表示多维点的集合。三维时,一般表示空间坐标x,y,z,当存颜色等信息时,变为4维。
融合fusion:
能够获取更多层次的特征。但在此论文中没有用到这个操作,原因是因为汽车、自行车之类的物体可单凭外部轮廓就可识别出来。不必再融合颜色等其他特征。如果涉及到判断某个实例,如;一辆黄色的车,那就需要用到fusion操作。
参考:
https://blog.csdn.net/hit1524468/article/details/80023901
https://blog.csdn.net/shenziheng1/article/details/84837419