pointpillars Paper学习总结

Pointpillar Paper

  • PointPillars提出了一种新的点云编码方式和3D转2D的方法,用2D卷积的方式实现目标检测而没有采用耗时的3D卷积,在速度和精度上达到了很好的平衡,其速度快、精度高、易于部署的特点使得其在工业界得到了广泛的应用。

  • 处理思路是3d转2d,在2d伪图像上进行目标检测。

  • 主要步骤分三阶段:
    在这里插入图片描述

    1. 将点云转换为稀疏伪图像的特征编码器网络;
      • 首先在俯视图的平面上打网格(H x W)的维度;然后对于每个网格所对应的柱子中的每个点都取(x,y,z,r,x_c,y_c,z_c,x_p,y_p)9个维度。其中前三个为每个点的真实位置坐标,r为反射率,带c下表示该点到柱子中心的偏差,带p下标的是对点相对于网络中心的偏差。每个柱子中点多于N的进行采样,少于N的进行填充0.于是形成(D,N,P)D=9,N为点数(设定值),P=H*W。
      • 然后学习特征,用一个简化的PointNet从D维中学出C个channel来,变为(C,N,P),然后对N进行最大化操作操作变为(C,P),又因为P是H*W的,我们再展开成一个伪图像形式,H,W为宽高,C为通道数。
    2. 2D卷积基础网络,用于将伪图像处理成高维特征表示;
      • 包含两个子网络(1.top-down网络,2.second网络)top-down网络结构为了捕获不同尺度下的特征信息,主要是由卷积层、归一化、非线性层构成的,second网络用于将不同尺度特征信息融合,主要由反卷积来实现(上采样)。由一个2D卷积神经网络组成,其作用是用于在第一部分网络输出的伪图像上提取高维特征。
    3. 检测头部(detection head,SSD),对类别预测和对3D检测框的位置进行回归
      • SSD检测头用于实现3D目标检测,与SSD类似,PointPillars在2D网格中进行目标检测,而Z轴坐标和高度则是通过回归方式得到。
  • 数据增强

    1. 为所有类和这些3D框中的相关点云创建了一个地面真实3D框的查找表。然后对于每个样本,我们分别随机选取汽车、行人和骑自行车的15、0、8个ground truth样本(ground truth: 分类准确性,用于统计模型中验证或推翻某种研究假设),并将其放入当前点云中。
    2. 然后,将所有ground truth box都被单独增强。每个盒子旋转(均匀地从[-\pi/20,\pi/20]绘制)并平移,进一步丰富训练集。
    3. 沿x轴应用随机镜像翻转,然后进行全局旋转和缩放。最后,应用从N(0,0.2)中提取的x,y,z的全局平移来模拟局部化噪声。

输入/输出

在这里插入图片描述

在这里插入图片描述

本文中输入数据集格式为激光雷达点云和图像的样本组成。我们只在激光雷达点云上进行训练,并与同时似乎用激光雷达和图像的融合方法进行比较。
PointPillars,一种新颖的编码器,利用PointNet学习垂直列柱体组织中的点云特征,虽然编码特征可以与任何标准2D卷积检测架构一起使用。

输入

LAS格式作为点云数据的一种,LAS是根据几种规格打包的二进制文件。其常见于自动驾驶、高精度地图制作的使用中。las文件旨在包含激光雷达点云数据记录。
其数据记录格式如下:
在这里插入图片描述

在这里插入图片描述

输出

携带有检测及回归信息的点云数据,仍是LAS格式

loss损失函数(详细说明参考网站)

每个目标的3D框用一个7维向量来表示:(x,y,z,w,l,h,θ),其中x,y,z表示3D框的中心点坐标;w,l,h表示3D框的宽、长、高;θ表示3D框的朝向角,ground truth和anchors的残差定义为:
在这里插入图片描述

其中,xgt和xa分别表示Ground truth和锚框,da=锚框宽平方与锚框长平方和的平方根。
定位损失函数采用Smooth L1函数:
在这里插入图片描述

Smooth L1损失函数为:
在这里插入图片描述

smooth L1损失函数曲线如下图所示,目的是让loss对于离群点更加鲁棒,相比于L2损失函数,其对离群点(距离中心较远的点)、异常值(outlier)不敏感,可控制梯度的量级使训练时不容易跑飞。
在这里插入图片描述

与SECOND一样,PointPillars 采用softmax分类损失来学习目标朝向,该损失函数用Ldir来表示。
对于目标分类任务,PointPillars采用Focal Loss:
在这里插入图片描述

其中Pa表示锚框的类别概率,阿尔法表示0.25,伽马表示2.
总的损失函数如下:
在这里插入图片描述

其中Npos是真阳性锚框的数量,Bloc=2,Bcls=1,Bdir=0.2
在这里插入图片描述

结果分析

  • 前置说明:KITTI数据集中,BEV指的是鸟瞰图,3D指的是三维立体图。
    在这里插入图片描述

在这里插入图片描述

PointPillars与图中所有算法相比,刷新率最高。PointPillars在平均精度(mAP)方面优于所有发布的方法。与仅使用激光雷达的方法相比,PointPillars在所有类和难度层上都取得了更好的结果(除了easy car层)。它还优于基于汽车和自行车的融合方法。
在这里插入图片描述

图中KITTI测试的平均取向相似度(AOS)检测基准。SubCNN是性能最好的图像唯一方法,而AVOD-FPN,SECOND和PointPillars是预测方向的3D对象检测器。Pointpillasr预测的是3D导向的盒子,但BEV和3D中没考虑方向。所以Pointpillars采用AOS算法,将3D方框投影到图像中,进行2D检测匹配,然后评估这些匹配的方向。与仅有的两种预测定向盒体的3D检测方法相比,PointPillars在AOS上的性能在所有层中都显著优于其他方法。

AOS解释:平均方向相似性,Average Orientation Similarity(AOS)。该指标被定义为:
在这里插入图片描述

其中,r代表物体检测的召回率recall()。在因变量r下,方向相似性s属于[0,1]被定义为所有预测样本与ground truth余弦距离的归一化:
在这里插入图片描述

其中D®表示在召回率r下所有预测为正样本的集合,δ及θ表示检出物体i的预测角度与ground truth 的差。为了惩罚多个检出匹配到同一个ground truth ,如果检出i已经匹配到ground truth(IoU至少50%)设置\delta i=1,否则为0。

新的创新点(存在问题)

  • 过分依赖前面的特征提取。SSD是one-stage的方式,只有一次的回归(可以用二阶段例如pointRCNN在后续的RCNN阶段继续对局部特征进行整合)。
  • 针对行人检测效果略差问题,怀疑是空间角度复杂的行人无法准确进行高维转伪图像处理。个人认为可以进行预先标注几种形态下的行人,然后聚类出有相似特征的行人集合,然后在指导高维转伪图像过程。也可以在伪图像中采用行人预测较好的AVOD-FPN进行处理(具体需要考虑将backbone与AVOD-FPN如何融合)。
    • 更正:点云中,因为人的物理特质特殊,相较于汽车等物体,展示效果可能更简单而更容易找到,可能不是空间角度问题导致。

代码运行

  1. 源码下载
  2. 数据集下载
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
多模态深度学习是一种融合多种感官信息的学习方法,它能够同时处理视觉、听觉和语言等不同类型的数据。多模态深度学习paper主要是研究多模态深度学习的原理、方法、框架和应用。 在多模态深度学习paper中,一般会对多模态数据的表示、融合和学习进行研究。首先,它会介绍多模态数据的表示方式,比如如何将图像、音频和文本等数据表示成机器可以理解的形式,常见的方法包括使用卷积神经网络(CNN)和循环神经网络(RNN)等。 其次,多模态深度学习paper会探讨如何将不同类型的数据进行融合。融合可以是级联式的,即将不同模态的网络分别训练,然后将它们的结果融合在一起进行决策。也可以是并行式的,即同时训练多个模态的网络,然后将它们的特征进行融合。此外,一些paper还会提出一些专门的融合算法,比如多模态融合网络和交互式融合网络。 最后,多模态深度学习paper也会讨论多模态深度学习在不同应用领域的具体应用。比如在图像识别中,多模态深度学习可以同时利用图像和文本信息来提高识别精度;在语音识别中,多模态深度学习可以同时利用语音和文本信息来提高识别准确率。 总之,多模态深度学习paper是对多模态深度学习理论和应用的研究,它为我们理解和应用多模态深度学习提供了重要的参考和指导。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

河南-殷志强

希望我的文章能帮助到你

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值