自动驾驶:MOT 移动物体跟踪概述

Self-Driving Cars: A Survey

原文下载:

[1901.04407] Self-Driving Cars: A Survey (arxiv.org)https://arxiv.org/abs/1901.04407

移动物体跟踪(MOT)子系统(也称为检测和跟踪多个物体 —— DATMO)主要负责检测和跟踪自动驾驶车周围环境中移动障碍物的姿势。该子系统保证自动驾驶车辆能够做出决定来避免与可能移动的物体(如,其他车辆、行人)发生碰撞。这个子系统是必不可少的。随着时间的推移,移动障碍物的位置通常是通过测距传感器捕获的数据来估算的,如LIDAR和RADAR或立体相机。单目相机的图像可用于提供丰富的外观信息,可以对这些信息探索以改善移动障碍假设。为了应对传感器测量的不确定性,贝叶斯滤波器(如,卡尔曼滤波和粒子滤波器)用于状态预测。在文献中已经提出了用于MOT的各种方法。在这里,我们介绍过去十年发表的最新和相关的内容。对于早期的作品,读者可以参考Petrovskaya等,Bernini等人和Girão等文献。

MOT的方法主要可分为六类:传统MOT,基于模型MOT,基于立体视觉MOT,基于栅格图MOT,基于传感器融合MOT和基于深度学习MOT。

1)传统的MOT

传统的MOT方法遵循三个主要步骤:数据分段、数据关联以及数据过滤[PET12]。在数据分段步骤中,使用聚类或模式识别技术对传感器数据进行分段。在数据关联步骤中,使用数据关联技术将数据段与目标(移动障碍物)相关联。在数据过滤阶段,对于每个目标,通过获取分配给目标的数据的几何平均值来估计位置。位置估计通常由卡尔曼滤波或粒子滤波器进行更新。 Amaral等[AMA15]提出了一种使用3D LIDAR传感器检测和跟踪移动车辆的传统方法。该方法使用欧几里德距离将3D LIDAR点云分割成点簇。在当前扫描传感器中,将观察到的障碍物(群集)与通过最近邻居算法得到的先前扫描中观察到的障碍物进行相关联,并通过使用粒子滤波算法估计障碍物的状态。速度高于给定阈值的障碍物被认为是移动车辆。Zhang等人为每个群集构建一个立方体边界框,并使用框尺寸来区分群集是否为车辆,并通过优化算法解决数据关联。算法中通过采用多假设跟踪(MHT)算法来减轻关联错误。Hwang等人使用单目相机拍摄的图像来滤除不属于移动物体(行人,骑自行车者和车辆)的3D LIDAR点。数据一旦过滤,算法将基于使用从图像和3D点提取的特征的分段匹配技术来执行对象跟踪。

2)基于模型的MOT

基于模型的方法通过使用传感器的物理模型和物体的几何模型直接从传感器数据进行推断,并采用非参数滤波器(如,粒子滤波器)[PET12]。该方法也不需要数据分段和关联步骤,因为几何对象模型将数据与目标相关联。 Petrovskaya和Thrun[PET09]提出了基于模型的移动车辆检测和跟踪方法,并在自动驾驶车“Junior”[MON08](斯坦福大学的汽车,在2007年DARPA城市挑战赛中获得第二名)上采用。使用连续扫描之间的LIDAR数据的差异来检测移动车辆。相比,不是通过分离数据分段和关联步骤,该方式是通过更新每个车辆目标的状态来合并新的传感器数据,其包括车辆姿态和几何形状。算法是通过结合卡尔曼滤波器和Rao-Blackwellized粒子滤波器(RBPF)的融合实现的。 He等人[HE16]对Petrovskaya和Thrun [PET09]的工作进行了修订。提出了将RBPF与缩放系列粒子滤波器(SSPF)结合用于几何拟合和整个跟踪过程中的运动估计。其中几何作为跟踪变量,这意味着它的先前状态也用于预测当前状态。Vu和Aycard [VU09]提出了一种基于模型的MOT方法,旨在通过滑动时间窗口进行激光测量,从而找到最可能的移动障碍物轨迹(轨迹)。轨迹是由一个对象(满足测量模型和运动模型从一帧到另一帧的约束)随时间产生的一系列物体形状(L形,I形和质点)。由于这种方案的高计算复杂性,它们采用数据驱动的马尔可夫链蒙特卡罗(DD-MCMC)技术,该技术使得能够在方案空间范围内中有效地遍历,并找到最优解。DD-MCMC对在给定一段时间间隔内的观测值的情况下对一组轨道的概率分布的采样数据进行处理。在每次迭代中,DD-MCMC在提议方案分发之后从当前状态中继续采样新状态(一组轨道)并以给定的概率接受新的候选状态。为了给定DD-MCMC的初始的proposals,从落入占用栅格图的自由或未探测区域的激光测量中检测动态段,并且通过将预定义对象模型拟合到动态段来生成移动障碍假设。 Wang 等人[WAN15]采用与基于模型MOT的类似的方法,但它们不假设移动对象的先前类别。贝叶斯滤波器负责联合估计传感器的姿态、静态局部背景的几何形状以及物体的动力学和几何形状。其中几何信息包括使用2D LIDAR获得的边界点。基本上,系统通过迭代地更新跟踪状态并将新测量与当前目标相关联来进行操作。分层数据关联分两个层次:在第一级中,新观察(即,点集群)与当前动态或静态目标匹配;在第二级,更新障碍物的边界点。

3)基于立体视觉的MOT

基于立体视觉的方法依赖于由立体图像对提供的颜色和深度信息。该信息可以用于检测和跟踪环境中的移动障碍物。 Ess等[ESS10]提出了一种用于障碍物检测和识别的方法,该方法仅使用了来自前视立体相机的同步视频。他们的工作重点是基于行人和汽车探测器的每帧输出的障碍物跟踪。对于障碍物检测,它们采用支持向量机(SVM)分类器、方向梯度直方图(HOG)特征,将每个图像区域分类为障碍物或非障碍物。对于障碍物跟踪,它们应用假设-验证策略将一组轨迹拟合到潜在检测到的障碍物,并使得这些轨迹一起具有高后验概率。该候选轨迹集由通过障碍物检测初始化的扩展卡尔曼滤波器(EKF)生成。最后,模型选择方法用于仅保留解释过去和现在观察的最小且无冲突的轨迹集。 Ziegler等人[ZIE14a]描述了经过修改的梅赛德斯-奔驰S级S500“Bertha”的架构。该车在历史悠久的贝尔塔·本茨纪念之路上自主驾驶。对于MOT,可以使用半全局匹配(SGM)从立体图像对进行密集视差图像重建。3D环境中的所有障碍物和超像素或点阵的这种薄且垂直定向的矩形组类似。使用卡尔曼滤波器跟踪点阵。最后,使用空间、形状和运动约束将点阵分割成静态背景和移动障碍物。时空分析由基于外观的检测和识别方案进行补充。该方案利用特定类别(行人和车辆)模型增加视觉感知的稳健性。实时识别包括三个主要阶段:感兴趣区域(ROI)生成,障碍分类和对象跟踪。Chen等人[CHEN17]使用半全局匹配算法从立体图像对中计算了视差图。在视差图的辅助下,通过简单线性迭代聚类,将产生的图像分割中的边界分类为共面、铰链和遮挡。接着,通过修改的随机样本共识(RANSAC)算法在运动估计期间获得运动点。最后,通过根据边界类型及其运动合并超像素来提取移动障碍物。

4)基于栅格图的MOT

基于栅格图的方法是建立在首先构建动态环境的占据栅格图基础上的[PET12]。地图构建步骤之后是数据分段、数据关联以及过滤步骤。这些步骤以便提供场景的物体级别的表示。 Nguyen等[NGU12]提出了一种基于网格的方法。该方法使用立体相机检测和跟踪移动物体,他们的工作重点是行人检测和跟踪。该方法从立体图像对中重建3D点云,并通过逆传感器模型对相关联的3D点云来估计网格图的每个单元的占用概率。接着,基于单元之间的区域距离,采用分层分割方法将网格单元聚类成段。最后,应用交互式多模型(IMM)方法来跟踪移动障碍物。 Azim和Aycard[AZI14]使用基于八叉树的3D局部占用网格图,将环境划分为占用的、自由的和未知的体素。在构建局部网格图之后,可以基于局部网格图中观察到的自由空间和占用空间之间的不一致来检测移动障碍物。动态体素被聚集到移动对象中,移动对象进一步分为多个层。使用从每个层提取的几何特征将移动对象分类为已知类别(行人、自行车、汽车或公共汽车)。 Ge等人[GE17]利用2.5D占据栅格图来模拟静态背景并检测移动障碍物。网格单元存储了2D投影落入单元空间域的3D点的平均高度,从当前网格和背景模型之间的差异检测运动。

5)基于传感器融合的MOT

基于传感器融合的方法融合来自各种传感器(例如,激光雷达,雷达和相机)的数据用来探索它们的个体特征并改善环境感知。达姆斯等人[DAR09]介绍了用于检测和跟踪自动驾驶汽车“Boss”[URM08](卡内基梅隆大学的汽车,在2007年DARPA城市挑战赛中获得第一名)所采用的移动车辆的传感器融合方法。 MOT子系统分为两层:传感器层和融合层。其中传感器层从传感器数据中提取特征,该特征可用于点模型或箱模型来描述移动障碍物。此外,传感器层还尝试将特征与来自融合层的当前预测的假设相关联。无法与现有假设关联的特征将被用于生成新提案。对与给定假设相关联的每个特征生成观察,封装更新假设状态估计所需的所有信息。基于传感器层提供的提议和观察,融合层为每个假设选择最佳跟踪模型,并使用卡尔曼滤波器估计(或更新估计)假设状态。 Cho等人[CHO14]描述了卡内基梅隆大学新型实验自动驾驶汽车使用的新MOT子系统。之前的MOT子系统由Darms等人提出[DAR09],通过扩展使用摄像机的数据,以识别移动物体(例如,汽车,行人和骑自行车者)的类别,从而增强来自汽车级有源传感器(例如激光雷达和雷达)的测量。 Mertz等人[MER13]使用可以直接从2D LIDAR获得的扫描线、从3D LIDAR投影到2D平面或者来自多个传感器(LADAR、RADAR和相机)进行融合。扫描线转换为世界坐标并进行分割,其中线和角特征在每个分割中被提取,并且将段与现有障碍物相关联,然后使用卡尔曼滤波器更新物体的运动。 Byun等人[BYU15]合并由多个传感器产生的移动障碍物的轨迹,例如RADAR,2D LIDAR和3D LIDAR。其中,2D LIDAR数据被投影到2D平面上,并且使用联合概率数据关联滤波器(Joint Probabilistic Data Association Filter,JPDAF)跟踪移动障碍物;3D LIDAR数据被投影到图像上并使用区域生长算法划分为移动的障碍物。最后,使用迭代最近点(ICP)匹配或基于图像的数据关联来估计或更新轨迹的姿势。Xu等人[XU15]描述了卡内基梅隆大学新型实验无人驾驶汽车使用的距离保持移动障碍物的情境感知跟踪。通过给定行为背景,在道路网络中先生成ROI,然后在ROI内找到候选目标并将其投影到道路坐标中。通过关联来自不同传感器(LIDAR,RADAR和相机)的所有候选目标来获得距离保持目标。Xue等人[XUE17]融合LIDAR和摄像机数据,提高行人检测的准确性。他们使用行人高度的先验知识来减少错误检测。他们根据针孔相机方程估算行人的高度,该方程结合了相机和LIDAR测量。

6)基于深度学习的MOT

基于深度学习的方法使用深度神经网络来检测移动障碍物的位置和几何形状,并基于当前相机数据跟踪它们的未来状态。 Huval等人[HUV15]提出了一种基于神经的方法。该方法使用Overfeat[SER13]卷积神经网络(CNN)和单目输入图像的数据检测移动车辆,重点关注实时性能。CNN旨在仅使用它们的后视图来预测在自我车辆的相同行驶方向上的汽车的位置和距离(深度)。 Mutz等人[MUT17]针对称为“跟随领导者”的密切相关的应用程序进行移动障碍物跟踪。该应用程序主要与自动驾驶车辆的车队相关。跟踪方法建立在使用回归网络的通用物体跟踪(GOTURN)[HEL16]之上。 GOTURN(回归网络的通用物体跟踪)是一种预训练的深度神经网络,能够跟踪通用对象而无需进一步训练或特定于对象的微调。最初,GOTURN接收引导车辆的图像和手动分界的边界框作为输入。假设感兴趣的物体位于边界框的中心。随后,对于每个新图像,GOTURN作为输出,给出边界框的位置和几何(高度和宽度)的估计。使用落在边界框内并且被认为是车辆的LIDAR点来估计主要车辆位置。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值