论文阅读:EagerMOT: 3D Multi-Object Tracking via Sensor Fusion

论文地址:[2104.14682v1] EagerMOT: 3D Multi-Object Tracking via Sensor Fusion (arxiv.org)

摘要部分:

分析当前追踪方法存在的缺点:Existing methods rely on depth sensors (e.g., LiDAR) to detect and track targets in 3D space, but only up to a limited sensing range due to the sparsity of the signal. 现有方法依靠深度传感器(例如LiDAR)来检测和跟踪3D空间中的目标,但由于信号的稀疏性,只能达到有限的感应范围。On the other hand, cameras provide a dense and rich visual signal that helps to localize even distant objects, but only in the image domain. 另一方面,相机提供密集而丰富的视觉信号,有助于定位甚至远处的物体,但仅限于图像域。

分析上述问题引出本文的工作:In this paper, we propose EagerMOT, a simple tracking formulation that eagerly integrates all available object observations from both sensor modalities to obtain a well-informed interpretation of the scene dynamics. 在本文提出了EagerMOT,一种简单的跟踪公式,它整合了来自两种传感器模式的所有可用物体观察,以获得对场景动力学的明智解释。

两种传感器的作用:使用图像,我们可以识别远处进入视野的物体,而深度估计允许在物体在深度感应范围内时立即进行精确的轨迹定位。

介绍部分

背景:机器人进行导航和路径规划等活动需要感知周围环境和预测周围移动物体的运动趋势。针对这些问题需要用到检测,分割,以及不同时间段物体精确的定位。

相关工作:As shown by Weng and Kitani [35], even a simple method that relies on linear motion models and 3D overlap[1]driven two-frame data association yields a competitive track[1]ing performance when using a strong LiDAR-based 3D object detector [30].(即使使用简单的线性模型。Lidar也能产生较强的跟踪性能)缺点:However, compared to their image[1]based counterparts, methods that rely on depth sensors are more sensitive to reflective and low-albedo surfaces, and can operate only within a limited sensing range due to the sparsity of the input signal. 依赖深度传感器的方法对反射和低反照率表面更敏感,并且由于输入信号的稀疏性只能在有限的传感范围内工作。On the other hand, image-based methods leverage a rich visual signal to gain robustness to partial occlusions and localize objects with pixel-precision in the image domain, even when objects are too far away to be localized reliably in 3D space [34], [28]. However, 3D localization of the surrounding objects is vital in mobile robot scenarios. 另一方面,基于图像的方法利用丰富的视觉信号来获得对部分遮挡的鲁棒性,并在图像域中以像素精度定位对象,即使对象太远而无法在3D空间中可靠地定位[34],[28]。然而,周围物体的3D定位在移动机器人场景中至关重要。

本文提出:融合3D和2D的方法:通关两阶段关联程序实现使用相机识别并维护图像域中的轨迹,而3D检测允许在物体进入LiDAR传感区域后立即进行精确的3D轨迹定位。第一步关联不同2D和3D的检测出来的对象(buding box),第二步根据追踪公式进行轨迹状态更新。本文采用的追踪方法可以在预训练对象检测器进行追踪,而无序额外的训练

 

主要贡献:提出来自不同传感器之间不同数据关联方法

对比之间看到AB3DMOT:The recent method by Weng et al. [35] proposes a simple yet well-performing 3D MOT method; however, due to its strong reliance on 3D-based detections, it is susceptible to false positives and struggles with bridging longer occlusion gaps(基于3D检测的影响,容易受到错误的干扰,对长时间遮挡物体表现不好)

方法部分

整体过程:

 

A)融合

2dDt,3dDt分别表示来自2D、3D检测的边界框,第一步:对这两个集合进行匹配,通过将3D投影回2D平面进行IOU得到一组实例 在贪婪关联期间,我们按重叠的降序对所有可能的 de tection 对进行排序。

 

 

其中包含3中子集:

  1. 一对3D与2D对象匹配IOU大于一定的阈值且2D和3D均没有还没匹配:其中包含3d定位以及2d的边界框信息(以及2d分割信息)。
  2. 未匹配的3D对象:
  3. 未匹配的2D对象:

其中2和3只包含各自部分信息。对于有多个摄像头的数据集,本文提供的方法是只选取和3D拟合较好的一个视图作为轨迹追踪的2D融合丢掉其他视图潜在的目标。

B Matching

我们通过面向对象的 3D 边界框和位置速度矢量(不包括角速度,如 [35])表示轨迹的 3D 状态,而 2D 边界框表示其 2D 状态,由于我们主要在 3D 中跟踪对象,因此轨道的置信度分数等于其 3D 状态的置信度。请注意,不必对每一帧都完全观察这些状态,轨道可能仅使用 3D 信息 3dTt ⊆ Tt、仅 2D 信息 2dTt ⊆ Tt,或两者更新 Tt ⊆ Tt、bothTt ⊆3d Tt、bothTt ⊆2d Tt。对于轨道3dTt,保持恒定速度运动模型,由线性卡尔曼滤波器建模。对于每个新帧 t + 1,现有轨迹 3dTt 根据先前的观测和速度估计预测它们在当前帧中的位置(定向 3D 边界框)。

第一阶段数据关联(主要是3D层面):将卡尔曼滤波得到的当前帧的预测tracks 3dTt与之前3d It通过scaled distance between instances’ oriented bounding boxes and tracks’ predicted oriented boxes.进行关联scaled distance=欧式距离乘以归一化余弦距离:

 

Bi ρ = [x, y, z, h, w, l],Bi γ表示垂直方向上的角度。通过乘上归一化余弦距离实际上相当于考虑了方向的相似性。根据作者所说对于行人等小目标表现力更佳。

再该阶段将得到类似上面A匹配对的样子

 

未配对:

 

这一步所有的3DIT中的目标都进行了成功配对和未配对的处理,成功匹配的将不会进入二阶段的数据关联

       第二阶段数据关联(主要是2D层次):将2D的It(除了bothIt在第一部中间It已经处理完了)和未匹配的1uIt进行匹配,该步骤可以预测3D中检测不到的目标(即雷达扫描远处的物体时通常会由于稀疏而无法检测出目标)但是能在2D(含大量丰富的纹理信息远处的目标也能识别)中进行跟踪目标轨迹。和前面的类似:

       状态更新:使用匹配检测到的实例使用新的 3D或 2D 状态信息更新相应的轨迹。

针对2D:用新检测到的状态(左上、右下角表示的boundingbox)来覆盖之前的状态。

针对3D:将轨道的 3D 状态(即面向对象的边界框参数)建模为多变量高斯,并使用恒定速度线性卡尔曼滤波器(与 [35] 中完全相同)过滤其参数。当3D物体检测信息不可用时(例如,在图像域中仅提供2D边界框或分割掩码的部分观察),仅执行卡尔曼滤波器预测步骤来推断状态。

生存周期:和AB3DMOT一样,一旦Agemax帧内为更新轨迹则认为该目标不在视野内得到2D信息中的关联断掉时认为其彻底消失删除该条轨迹。

本文采用的检测部分

3D detections. For our final model on NuScenes, we use detections provided by CenterPoint [39]. On KITTI 3D MOT, we report and compare results obtained using state-of-the-art Point-GNN [31] and Point R-CNN [30] (as used by [35]) 3D object detectors. For our model, submitted to the KITTI benchmark, we used Point-GNN [31]. We do not pre-filter 3D object detections and take all of them as input to our tracking pipeline.(3D 检测。对于NuScenes上的最终模型,我们使用CenterPoint [39]提供的检测。在KITTI 3D MOT上,我们报告并比较使用最先进的Point-GNN [31]和Point R-CNN [30](由[35]使用)3D物体探测器获得的结果。对于提交给KITTI基准测试的模型,我们使用了Point-GNN [31]。我们不会预先过滤 3D 对象检测,也不会将所有对象检测作为跟踪管道的输入。)

2D detections. On NuScenes, we use the Cascade R-CNN [6], [8] object detector, trained on the NuImages [5] dataset. On KITTI, we follow MOTSFusion [19] and use 2D detections from RRC [26] for cars and TrackR-CNN [34] for pedestrians. We use thresholds of 0.6 and 0.9 for RRC and TrackR-CNN detections, respectively(2D 检测。在NuScenes上,我们使用Cascade R-CNN [6],[8]对象检测器,在NuImages [5]数据集上训练。在KITTI上,我们遵循MOTSFusion [19],并使用RRC [26]的2D检测来对付汽车,使用TrackR-CNN [34]对行人进行检测。我们分别对RRC和TrackR-CNN检测使用0.6和0.9的阈值。)

消融实验中值得注意的是:The significant difference between “Full“ (0.712 AMOTA) and “No 2D info“ (0.651 AMOTA) highlights the impact of leveraging 2D object detections on the overall performance.有无2D信息对AMOTA的影响达到0.61左右

运动时间的缺点:不包括花费在对象检测和自我运动估计上的时间,本文Python实现在NuScenes上以4 FPS的速度运行。与仅使用LiDAR数据并以10 FPS运行的斯坦福IPRL-TRI[10]和AB3DMOT [35]相比,它更慢(但更准确)。

参数指标:

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ng_T

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值