1 Introduction
在视频序列中跟踪一个物体意味着在物体或摄像机移动时,持续识别其位置。根据物体类型、物体和摄像机的自由度以及目标应用的不同,有多种方法可供选择。二维跟踪通常旨在跟踪物体或物体部分的图像投影,这些物体的三维位移会导致可以建模为二维变换的运动。为处理由于透视效应或变形引起的外观变化,需要一个自适应模型。它可以提供物体图像位置,表示为其质心和尺度或仿射变换 [141, 26, 62]。或者,可以使用更复杂的模型,例如样条 [16]、可变形模板 [142]、二维可变形网格 [112] 或二维关节模型 [20]。然而,这些方法都不涉及恢复实际的空间位置。
相比之下,三维跟踪旨在持续恢复定义相对于场景的摄像机位置和方向的全部六个自由度,或等效地,恢复相对于摄像机的物体的三维位移。
1.1 本综述的关注点与结构
3D跟踪文献特别庞大,这不仅是因为目标应用几乎有多少种方法就有多少种,而且因为解决同一问题的不同方法也是可能的。在这里,我们专注于使用单个摄像机的在线基于模型的3D跟踪。我们将描述用于摄像机、场景和物体3D跟踪的基于标记的技术和无标记的自然特征方法。
特别是,我们不会考虑用于摄像机轨迹恢复的批处理方法:因为这些方法可以将图像序列作为一个整体来考虑,它们可以依赖不适用于在线摄像机跟踪的非因果策略。此外,已有一本非常出色的参考书【54】。我们将仅限于单摄像机方法,因为多摄像机系统需要校准立体装置,因此不太受欢迎。我们只会考虑刚性物体或场景,而不是变形物体【25, 89】或关节物体(如人体)【43, 121】,这些会使我们偏离主题。
我们将首先介绍3D跟踪所需的关键数学工具。然后,我们将介绍使用点基准或平面标记来简化跟踪任务的基于标记的技术。接下来,我们将重点介绍依赖自然特征的技术。最后,我们将讨论旨在通过在每个帧中分别进行检测来代替帧间跟踪以提高跟踪对目标物体消失和重新出现的鲁棒性的最新进展。
1.2 不同应用的不同方法
3D跟踪在许多不同领域中都是非常有用的工具,下面我们简要回顾其中的一些领域。
1.2.1 增强现实应用
已经探索了许多潜在的增强现实(AR)应用,如医疗可视化、维护和修理、注释、娱乐、飞机导航和目标定位。这些应用都涉及将计算机生成的图像叠加在真实场景上,这必须在在线系统中以帧速率完成。因此,3D实时跟踪是大多数AR应用的关键组件。真实世界和虚拟世界中的物体必须相互正确对齐,并且系统延迟也应该很低,否则两者共存的幻觉将会被破坏。
1.2.2 视觉伺服
视觉伺服涉及使用一个或多个摄像机和计算机视觉系统来控制设备(如机器人臂)相对于它要操纵的部分的位置,这需要检测、跟踪、伺服和抓取。因此,它涵盖了计算机视觉、机器人学、运动学、动力学、控制和实时系统,并且被用于各种丰富的应用中,如汽车车道跟踪、移动平台导航和通用物体操纵。
跟踪信息用于测量机器人当前位置与其参考或期望位置之间的误差。因此,跟踪算法必须是鲁棒的、准确的、快速的和通用的。
1.2.3 人机界面
3D跟踪可以集成到人机界面中。例如,它可以用于连续更新手持物体的位置,随后该物体将作为3D指针。这种物体将成为所谓的“有形界面”的实例。这类界面的目标是通过允许用户操作熟悉的物体来表达他们的愿望,从而利用他们的日常经验来取代传统界面。
最终,这有望带来更自然和直观的界面。在这种情况下,基于视觉的跟踪是与物理物体无缝交互的适当技术。
1.3 基于计算机视觉的3D跟踪
除了视觉技术之外,还有许多其他技术被尝试用于实现3D跟踪,但它们都有各自的弱点:机械跟踪器虽然足够准确,但它们将用户限制在一个有限的工作空间内。磁跟踪器容易受到环境中金属的干扰,这种情况很常见,并且限制了位移范围。超声波跟踪器容易受到噪声影响,并且由于环境温度的变化,在远距离时通常不准确。惯性跟踪器则会随时间漂移。
相比之下,视觉有可能提供非侵入性、准确且低成本的解决方案,前提是愿意投入足够的努力来开发足够鲁棒的算法。在某些情况下,可以接受在场景或目标物体上添加LED或特殊标记等基准点,以简化注册任务,如将在第3节讨论的那样。当然,这假设了一个或多个基准点始终可见,否则注册将失败。此外,并非总是能够放置基准点。例如,增强现实的最终用户不喜欢它们,因为它们在场景中可见,并且在应用程序运行之前不总是可能修改环境。
因此,更可取的是依赖自然存在的特征,如边缘、角点或纹理。当然,这使得跟踪更加困难:寻找和跟随特征点或边缘可能很困难,因为在许多典型物体上它们数量太少。被跟踪物体的完全或部分遮挡通常会导致跟踪失败。摄像机移动过快会导致图像模糊;拍摄期间的光照可能显著变化;反射和镜面反射可能会混淆跟踪器。更重要的是,物体可能由于位移而迅速改变其外观。例如,当摄像机拍摄一栋建筑并绕过拐角时,一面墙会消失,另一面墙会出现。在这种情况下,必须跟踪的特征总是在变化,跟踪器必须处理不断进入和离开视野的特征。第4节和第5节将集中讨论这些难题的解决方案。
2 Mathematical Tools
讲了投影变换、内外参,欧拉角、四元数等,指数映射、估计外参矩阵、DLT、PnP、LSM、鲁棒性核、Ransac、贝叶斯跟踪、EKF、粒子滤波。
详见文献,此处略。
3 Fiducial-Based Tracking
基于视觉的3D跟踪可以分解为两个主要步骤:首先是图像处理,从图像中提取信息;其次是姿态估计本身。在场景中添加基准点(也称为地标或标记)对这两个步骤都有很大帮助:它们构成了易于提取的图像特征,并为姿态估计提供了可靠、易于利用的测量数据。
在这里,我们区分两种类型的基准点。第一种类型我们称之为“点基准点”,因为这种类型的每个基准点在场景和