【翻译】SLAM|Hybrid, Frame and Event based Visual Inertial Odometry for Robust, Autonomous Navigation

最新推荐文章于 2022-07-27 12:41:06 发布

小刘鸭19

最新推荐文章于 2022-07-27 12:41:06 发布

阅读量230

点赞数

分类专栏： Linux & ROS 事件相机DVS 计算机视觉文章标签：人工智能计算机视觉 slam

本文链接：https://blog.csdn.net/xiaoliuya19/article/details/121580065

版权

Linux & ROS 同时被 3 个专栏收录

9 篇文章 0 订阅

订阅专栏

计算机视觉

9 篇文章 0 订阅

订阅专栏

事件相机DVS

7 篇文章 3 订阅

订阅专栏

Antoni Rosinol Vidal, Henri Rebecq, Timo Horstschaefer and Davide Scaramuzza

摘要

Event cameras are bio-inspired vision sensors that output pixel-level brightness changes instead of standard intensity frames. These cameras do not suffer from motion blur and have a very high dynamic range, which enables them to provide reliable visual information during high speed motions or in scenes characterized by high dynamic range. However, event cameras output only little information when the amount of motion is limited, such as in the case of almost still motion. Conversely, standard cameras provide instant and rich information about the environment most of the time (in low-speed and good lighting scenarios), but they fail severely in case of fast motions, or difficult lighting such as high dynamic range or low light scenes. In this paper, we present the first state estimation pipeline that leverages the complementary advantages of these two sensors by fusing in a tightly-coupled manner events, standard frames, and inertial measurements. We show on the publicly available Event Camera Dataset that our hybrid pipeline leads to an accuracy improvement of 130% over event-only pipelines, and 85% over standard-framesonly visual-inertial systems, while still being computationally tractable. Furthermore, we use our pipeline to demonstrate— to the best of our knowledge—the first autonomous quadrotor flight using an event camera for state estimation, unlocking flight scenarios that were not reachable with traditional visualinertial odometry, such as low-light environments and highdynamic range scenes

事件相机是受生物启发的视觉传感器，它输出像素级的亮度变化，而不是标准的强度帧。这些相机不受运动模糊的影响，具有很高的动态范围，使它们能够在高速运动或高动态范围的场景中提供可靠的视觉信息。然而，当运动量受到限制时，事件相机只输出很少的信息，例如在几乎静止的情况下。相反，标准相机在大多数情况下(在低速和良好的照明场景中)提供关于环境的即时和丰富的信息，但在快速运动或困难的照明情况下(如高动态范围或低光照场景)，它们会严重失败。在本文中，我们提出了 the first state estimation pipeline 第一个状态估计管道，它利用了这两个传感器的互补优势，以紧耦合的方式融合事件、标准帧和惯性测量。我们在公共可用的事件摄像机数据集上显示，我们的混合pipeline比仅用于事件的pipeline的精度提高了130%，比仅用于标准框架的视觉惯性系统的精度提高了85%，同时仍然具有可计算性。此外，我们使用pipeline尽我们所知演示了，首次使用事件相机进行状态估计的自主四旋翼飞行器，解锁了传统视觉惯性里程测量无法实现的飞行场景，如低光环境和高动态范围场景。

DVS，即基于event的相机，可以检测相机所有像素的图像强度变化（每个像素完全独立），可以处理高速、高动态的视觉信息，但运动量首先or静止时，DVS采集信息有限；
传统相机，在低速和良好照明情况下能采集丰富的视觉信息，反之受限，其次会重复记录相同的不相关背景对象，从而产生过多无用信息（所有像素同时记录）。

1. 引言

传感器自运动估计在增强/虚拟现实、机器人自主控制等领域有着重要的应用。近年来，利用视觉和惯性信息([1]、[2]、[3])已经取得了很大的进展。然而，由于传统相机的一些众所周知的局限性(运动模糊和低动态范围)，这些视觉惯性测程(VIO)pipelines仍然难以应付一些情况，如高速运动或高动态范围的场景。

被称为事件相机的新型传感器为克服这些问题提供了巨大的潜力。与以固定帧率传输强度帧的标准相机不同，事件相机(如动态视觉传感器(DVS)[4])只传输强度的变化。具体地说，它们以一组异步事件的形式传输发生时的像素强度变化，其中每个事件携带亮度变化的时空坐标及其符号。

与标准相机相比，事件相机有许多优点:延迟为微秒级，动态范围非常高(与标准相机的60dB相比，动态范围为140dB)。最重要的是，由于所有的像素都是独立捕捉光线的，这样的传感器不会受到运动模糊的影响。

原则上，事件摄像机传输重建完整视频流[5]、[6]、[7]所需的所有信息，有人可能会说，仅使用事件摄像机就足以执行状态估计。事实上，这已经在[8]和[9]中得到了证明。然而,为了克服强度信息的缺乏,这些方法需要重建,同时,环境的一致表示在8,结合以一种方式或另一种方式的信息从大量的事件恢复场景中大多数梯度。

标准相机可以方便地直接获取亮度值，但不能在低光照条件下工作，在快速运动时运动模糊(由于整个传感器的同步曝光)，动态范围有限(60 dB)，导致帧内经常出现过度或过曝的区域。

传统相机可以获取每帧的信息，但帧与帧之间是盲目的，丢失了有关移动物体的信息，而DVS可以记录/感知移动变化。

观察到这种互补性，在本文中，我们提出了一种pipeline，利用两种传感模式的优点，结合惯性测量单元(IMU)，以产生一个鲁棒的，但准确的状态估计pipeline。

虽然有相当多的文献调查使用带有IMU的标准相机来执行状态估计，以及最近使用带有IMU的事件相机进行的工作，但是将所有三种传感模式结合起来仍然是一个有待解决的问题。此外，在我们设想的使用事件相机自动驾驶四旋翼的核心应用程序中，并没有具体的文献，尽管使用事件相机进行四旋翼飞行的尝试可以追溯到单篇论文[10]，该论文目前仅限于垂直着陆机动。

Q: Visual+IMU的优势？视觉和IMU的特性分别是什么？
https://zhuanlan.zhihu.com/p/34995102
https://blog.csdn.net/wheelfjl/article/details/78425109

在这项工作中,尽我们所知提出了，the first state estimation pipeline 第一个状态估计管道，融合这三个传感器（DVS、普通Camera、IMU）,我们建立在上面提出第一个quadrotor系统可以方便地利用这种混合传感器组合飞在复杂情景下,只使用机载遥感和计算机(图1)。

贡献

与最先进的商业视觉惯性pipeline(例如Snapdragon flight[11]或谷歌Tango[12]使用的管道)进行正面比较并不是我们在这项工作中的目标。事实上，这类解决方案通常使用一个或多个高质量的相机，其分辨率比我们使用的传感器高得多，而且经过精心设计，可以在最常见的消费者情况下很好地工作。。相反，在这项工作中，我们将重点放在困难的场景上，并首次展示(i)在计算能力有限的平台上使用事件摄像机运行状态估计是可能的，和(ii)我们证明，在一系列困难的情况下，它可以开启自主飞行的可能性，即使是商业系统也会遇到困难。

具体来说，我们在本文中的贡献是三方面：

我们介绍了第一个状态估计pipeline，它融合事件、标准帧和惯性测量，以提供鲁棒和准确的状态估计。虽然我们的pipeline基于[13]，但我们将其扩展到包括标准帧作为额外的传感模式，并提出了几个改进，使其可用于实时应用，重点是移动机器人；
我们定量地评估了所提出的方法，并证明使用标准帧作为附加模态，在保持计算负载可控的同时，提高了状态估计的精度；
实验结果表明，该方法可以应用于自主四旋翼的状态估计，并通过一系列实验证明，该系统能够在低光照场景或快速运动等具有挑战性的情况下可靠地飞行。

我们的工作旨在强调事件相机在鲁棒状态估计方面的潜力，我们希望我们的研究结果将激励其他研究人员和行业推动这项工作，使其广泛应用于移动机器人上。

本文的其余部分组织如下:第二部分综述了基于事件的自我运动估计方法的相关文献，特别是涉及事件相机的相关文献。在第三节中，我们提出了混合状态估计pipeline，它以紧耦合的方式融合事件、标准帧和惯性测量，并在公共可用的事件相机数据集[14]上对其进行了定量评估。第四部分描述了该方法如何用于四旋翼的自主飞行，并在有限的现实实验中证明，它解开了传统传感IV- B难以解决的挑战性场景。最后，我们在第五部分得出结论。

2. 相关工作

利用视觉和惯性传感器进行状态估计在过去的几十年里得到了广泛的研究。虽然这些作品中的绝大多数都使用标准相机和IMU，但最近出现了一种使用事件相机代替标准相机的并行研究思路。

a) Visual-inertial Odometry with Standard Cameras基于标准相机视惯性测程：视惯性测程(VIO)的相关工作可以大致分为三类，具体取决于用于估计的camera poses相机姿态的数量。full smoothers全平滑器(或批处理非线性最小二乘算法)估计姿态的完整历史， fixed-lag smoothers固定滞后平滑器(或滑动窗口估计器)考虑一个最新姿态的窗口，而 filtering滤波方法只估计最新状态。固定滞后平滑器和滤波器都将旧状态边缘化，并在高斯先验中吸收相应的信息。更具体地说：

滤波算法通过将推理过程限制在系统的最新状态，从而实现有效的估计。一个基于滤波器的视觉惯性测程系统的例子是[15]；
固定延迟平滑器估计在给定时间窗口内的状态，同时将旧状态边缘化，例如[2]；
全平滑方法通过求解一个大的非线性优化问题来估计状态的整个历史(相机轨迹和三维地标)。[3]最近提出了这类方法。

b) Visual-inertial Odometry with Event Cameras基于事件相机的视觉惯性里程计：自从2008年第一个商用事件相机[4]问世以来，许多不同的作者都考虑使用事件相机进行状态估计。虽然早期的工作集中在解决问题的受限和更简单的实例，如旋转运动估计([5]、[16]、[17]、[18])，或只在平面场景中使用[19]同时定位和映射(SLAM)，但最近的研究表明，仅使用事件相机进行6自由度姿态估计是可能的([8]、[9])。

与此同时，其他作者也探索了互补传感模式的使用，如深度传感器[20]或标准相机([21]、[22])。然而，(i)这些基于图像的管道都没有使用惯性测量，(ii)它们都使用帧的强度作为模板，将事件对齐到模板上。因此，这些方法只有在标准框架具有良好的质量(锐利和正确曝光)时才有效;当事件相机比标准相机(高速运动和HDR场景)有优势时，它们就会失败。

使用事件相机和IMU只是最近才被探索出来。[23]展示了如何将事件和惯性测量融合到一个连续时间框架中，但是它们的方法不适合实时使用，因为在接收每个事件时更新样条参数需要进行昂贵的优化。[24]提出使用迭代期望最大化EM方案来跟踪事件流中的一组特征，该方案联合优化了每个特征的外观和光流，然后使用扩展的卡尔曼滤波器融合这些轨迹，生成基于事件的视觉惯性里程计pipeline。不幸的是，由于其feature tracker的昂贵特性，[24]的作者报告说他们的管道在大多数情况下不能实时运行。

在[13]中，我们提出了一种精确的基于事件的视觉惯性里程测量管道，它可以实时运行，即使在计算能力有限的平台上，如智能手机处理器。该方法的关键是利用相机当前的姿态、场景结构和惯性测量来估计相机刚体运动产生的光流。然后，我们使用计算流高效地生成虚拟的、运动补偿的事件帧，并在多个帧中进一步跟踪视觉特性。最后，采用基于关键帧的非线性优化方法，将特征轨迹与惯性信息融合，形成了[2]和[3]的特征轨迹。而我们提出的状态估计方法受到了这项工作(即，我们对它进行了扩展，允许它与标准相机的帧进行额外的工作，并建议对管道进行几处修改，使其适合在飞行机器人上运行。

camera+IMU估计光流——>计算流生成事件帧——>跟踪多帧之间的视觉特性——>利用基于key-frame的非线性估计方法融合特征轨迹和IMU信息，形成最终的特征轨迹（运动估计）

c) Quadrotor Control with an Event Camera事件相机四旋翼控制：虽然使用事件相机进行机器人控制的研究还处于起步阶段，但之前的工作已经证明了可能的有趣应用。[25]在转子上安装了DVS传感器，表明它可以用来跟踪执行高速翻转操作的四旋翼的6自由度运动，尽管该跟踪器只适用于包含已知的白色墙壁上的黑色正方形的人工场景。此外，状态估计是离线进行的，因此不用于闭环控制的四旋翼。最近，[10]展示了使用事件摄像机的四旋翼的闭环起飞和降落。然而，与我们的方法不同的是，他们的系统依赖于光流的计算，并假设流场是发散的，因此不能用于四旋翼的一般六自由度控制。

3. 混合状态估计pipeline

我们提出的状态估计管道主要基于[13]。然而，虽然[13]只使用一个事件相机结合IMU，我们建议允许一个额外的传感模式：**一个标准相机，在固定帧率下提供强度帧。**由于这个原因，下面我们将重点描述我们的方法和[13]之间的差异，以便也考虑标准框架。最后，我们在事件相机数据集[14]上对改进后的管道进行了评估，并证明了在管道中包含标准帧可以使只使用事件和IMU的管道的准确率提高130%，而在只使用标准帧和IMU的管道中提高85%。

A. Overview

[13]可以简单总结如下。其主要思想是利用事件的时空窗合成虚拟帧(事件帧)，然后利用经典的计算机视觉方法进行特征检测和跟踪，即快速角点检测[26]和Lucas-Kanade跟踪[27]。当能够可靠地完成时，特征轨迹用于对相应地标的三维位置进行三角测量。最后，通过最小化包含视觉项(重投影误差)和惯性项的代价函数，周期性地优化相机轨迹和三维地标位置，从而有效地融合视觉和惯性信息。

未完待续~~~

小刘鸭19

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【翻译】SLAM|Hybrid, Frame and Event based Visual Inertial Odometry for Robust, Autonomous Navigation

Antoni Rosinol Vidal, Henri Rebecq, Timo Horstschaefer and Davide Scaramuzza摘要Event cameras are bio-inspired vision sensors that output pixel-level brightness changes instead of standard intensity frames. These cameras do not suffer from motion blur and
复制链接

扫一扫