Improved Pillar with Fine-grained Feature for 3D Object Detection论文笔记

原文链接:https://arxiv.org/pdf/2110.06049.pdf

引言

        目前的3D检测方法根据点云表达主要分为基于点的、基于体素的和基于2D网格的。基于点的方法能提取最细粒度的特征,但耗时长;基于体素的方法由于稀疏卷积,耗时不稳定;基于2D网格的(如BEV或RV)速度最快,但投影可能丢失信息,因此效果可能不如前两者。

        本文在PointPillars的基础上,引入高度感知子柱体(HS柱体),使用高度感知位置编码得到垂直方向上细粒度的特征;引入基于稀疏性的小柱体(ST柱体),使用基于稀疏性的CNN主干(由密集特征稀疏注意力/DFSA模块堆叠而成)得到水平方向上的细粒度特征。

方法

        如下图所示,包含三个部分。首先将点云投影为小柱体和子柱体,得到细粒度的2D伪图像。然后使用包含DFSA的CNN主干提取特征,其中大尺度特征图包含物体的位置信息,小尺度特征图包含物体的形状信息。最后,特征输入到检测头预测边界框大小和位置。

高度感知子柱体

        子柱体:将每个柱体分割为N_h个子柱体,使用所在子柱体各点中心(x_c,y_c,z_c)和与子柱体中心(x,y,z)的偏移(x_p,y_p,z_p)加强各点,然后使用两层VFE作为柱体特征编码(PFE),从每个子柱体提取特征。然后拼接所有子柱体的特征作为2D伪图像中对应位置的特征。

        由于高度分布的集中性,分割为子柱体仅会带来小的计算时间增量。

        高度感知位置编码:直接拼接各子柱体特征会丢失子柱体的高度信息。引入高度位置编码

P(z)=\{\sin(2^i\pi z),\cos(2^i\pi z)|_{i=0}^{L-1}\},z=(z_c,z_p)

        并与各子柱体特征拼接,作为2D伪图像对应位置的特征。

基于稀疏性的小柱体

        小柱体:将2D网格尺寸减半,得到更细粒度的特征。

        基于稀疏性的CNN主干:直接减小2D网格尺寸带来了严重的耗时增加,且感受野减小。

        本文提出基于稀疏性的CNN主干(SCB),由密集特征稀疏注意力模块(DFSA)堆叠而成。由于多数小柱体为空,直接使用CNN是不必要且效率低的;可以使用稀疏的大尺度特征表达物体分布,以预测更准确的物体中心,同时使用密集的小尺度特征提取细粒度物体特征,预测更准确的物体边界。

        DFSA模块如下:

        输入的稀疏大尺度特征通过带步长的卷积块,然后沿通道维度进行均值池化和最大池化并拼接。再输入到卷积层+sigmoid函数,生成空间注意力图。同时n个分支不同尺度地下采样特征图,并通过若干卷积块,得到密集小尺度特征图。特征图尺度越小,使用的卷即块越多。密集小尺度特征图由空间注意力图指导,上采样到输出大小。最后所有分支的特征图拼接起来,通过1\times 1卷积块。

        SCB的输出是所有DFSA模块输出上采样到输入大小后拼接的结果。

实验

实施细节

        检测头:与CenterPoint类似,使用中心热图头和回归头(中心位置细化、离地高度、3D尺寸、偏航角、与真实边界框的IoU)。训练时使用focal损失,由真实物体中心监督;推断时寻找热图峰值对应的密集回归头输出位置并使用IoU感知的置信度修正。

消融研究

        主要贡献的影响:子柱体、位置编码、小柱体、DF分支和SA分支均能带来结果提升。小物体的检测精度有很大提升。

        子柱体数量的影响:检测精度随着子柱体数量N_h增大而增大,但到一定程度后,由于每个子柱体的点减少,提取特征变得困难,汽车类别检测精度有所下降。

        DFSA模块设置的影响:实验结果对DFSA模块中的超参数较为鲁棒。卷积块的数量越多,感受野越大,性能有所提升;下采样的程度越高,速度越快,但性能有所下降。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: tph-yolov5是一种基于Transformer预测头的改进版yolov5,用于在无人机捕捉场景中进行目标检测。它采用了Transformer网络结构,能够更好地处理长序列数据,提高了检测精度和速度。在无人机应用中,tph-yolov5可以更好地适应复杂的场景和光照条件,提高了无人机的自主飞行和目标跟踪能力。 ### 回答2: tph-yolov5是一种改进版的yolov5目标检测算法,主要应用于无人机场景下的目标检测。与传统的yolov5相比,tph-yolov5采用了transformer prediction head技术来进一步提高检测的准确率和效率。 无人机场景下的目标检测任务比较特殊,因为无人机拍摄的图像往往具有良好的视角和高度,但是环境复杂多变且目标出现频率较低,因此传统的目标检测算法可能会遇到一些困难,例如漏检、错检等问题。而tph-yolov5算法在transformer prediction head帮助下,能够更好地解决这些问题。 具体来说,tph-yolov5算法的优势在于如下三个方面: 1. Transformer Prediction Head技术 tph-yolov5采用transformer prediction head技术来生成目标检测的预测结果。相比传统的卷积神经网络,transformer prediction head能够更好地捕捉物体之间的关系,并且在计算量相同的情况下,能够获得更高的准确率。 2. 自适应感受野 在tph-yolov5算法中,网络会根据目标的大小和位置自适应地调整感受野的大小,这样可以更好地捕捉目标的细节,提高检测的准确率。 3. 融合多尺度特征 tph-yolov5算法融合了多尺度特征,这样可以更好地处理远距离目标和近距离目标的检测。在无人机场景下的目标检测任务中,这一点尤其重要,因为有些目标可能会比较小或者比较远。 总之,tph-yolov5是一种非常优秀的目标检测算法,它在无人机场景下的目标检测任务中表现很出色。由于采用了transformer prediction head技术等优秀的方法,它能够更准确地捕捉目标,同时也能够更快地处理大量的数据。由于无人机技术的快速发展,相信tph-yolov5算法将在未来得到更广泛的应用。 ### 回答3: tph-yolov5是一种改进的基于transformer预测头的yolov5,用于在无人机捕获的场景中进行物体检测。无人机拍摄的场景与传统的场景有很大不同,比如拍摄的视角更高,场景更广阔,物体更稀疏。这些因素导致传统的物体检测模型难以在无人机场景中准确地检测物体。因此,tph-yolov5的提出是为了解决这些问题。 tph-yolov5使用了transformer预测头来改进yolov5模型的表现。具体来说,transformer模型用于生成特征图中的位置嵌入,以在后续的特征映射中对不同位置的特定位置进行建模。这种方法可以更准确地定位每个目标的位置,特别是在稀疏目标场景中。此外,tph-yolov5还使用了引入MSELoss和IoULoss的CAP L1损失以增强模型的稳定性和准确性。 tph-yolov5的实验结果表明,在无人机拍摄的场景中,tph-yolov5相比于基准模型yolov5和其他物体检测模型,具有更高的准确性和稳定性。这些结果证明了transformer预测头的优越性以及CAP L1损失对模型表现的关键作用,这为无人机场景中物体检测的发展提供了新的思路和方法。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

byzy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值