VPS-SLAM: Visual Planar Semantic SLAM for Aerial Robotic Systems

 

VPS-SLAM: Visual Planar Semantic SLAM for Aerial Robotic Systems

ABSTRACT:室内环境中存在大量的高级语义信息,这些信息可以为机器人提供更好的环境理解,从而提高其估计误差的不确定性。虽然语义信息已经被证明是有用的,但是研究社区在准确地感知、提取和利用环境中的语义信息方面面临着一些挑战。为了解决这些挑战,在本文中,我们提出了一个轻量级的实时可视化语义SLAM框架,运行在空中机器人平台上。这种新方法将低级视觉/视觉惯性测程(VO/VIO)与从检测到的语义对象中提取的平面对应几何信息相结合。从选择的语义对象中提取平面提供了增强的鲁棒性,并使快速精确地改进度量估计成为可能,同时不考虑其形状和大小而将其推广到多个对象实例。我们基于图形的方法可以集成几种最先进的VO/VIO算法以及最先进的对象检测器,以便估计机器人完整的6自由度姿态,同时创建环境的稀疏语义地图。与其他作品相比,这是一个显著的优点。我们在一个标准RGB-D数据集上测试我们的方法,并将其性能与先进的SLAM算法进行比较。我们还进行了几个具有挑战性的室内实验,以验证我们在不同环境条件下的方法,并进一步在一个空中机器人上进行测试。

INDEX TERMS:SLAM, visual SLAM, visual semantic SLAM, autonomous aerial robots, UAVs.

I. INTRODUCTION

       许多与不同应用相关的室内自主任务需要使用小型空中机器人,能够在狭窄的受限空间中导航。这种车辆不能承载很大的重量,只能配备光传感器,如RGB或RGB-d摄像头,以及计算资源有限的处理单元。要实现真正自主的操作,需要精确的定位和有意义的映射结果,这确实是一个具有挑战性的问题,尤其是在鲁棒性方面。

使用视觉传感器的同步定位和建图(SLAM)可能是基于特征(稀疏、半稠密或稠密)或基于强度的。大多数半稠密SLAM技术,像[1]-[3],依靠低水平等环境特征点,线和平面。在光照变化和重复模式出现的情况下,这种方法的性能通常会下降。另一方面,其他国家基于SLAM基础的技术,如[4]-[6],专注于稠密的3d环境的映射,因此要求高端CPU和GPU硬件为了实现实时操作,这是一个明确的限制较低的空中机器人的计算能力。

最近在计算机视觉算法方面的改进已经使得在低端cpu或gpu上实时运行基于对象的检测器成为可能。将这种检测器与依赖于低级特性的视觉测程(VO)/视觉惯性测程(VIO)系统结合使用,可以提高数据关联的准确性,并在不需要高计算要求的情况下提供更健壮的循环闭包,如[7]、[8]所示。虽然在SLAM系统中添加语义信息无疑提供了额外的知识,但是提取语义对象的准确三维位置是一个具有挑战性且意义重大的问题,因为位置估计中的误差会导致语义对象的数据关联和映射出现误差。语义对象三维位置估计的不准确主要是由两个因素造成的;(1)不同语义对象类实例的三维结构不均匀且复杂。(2)语义对象检测错误等物体探测器提供的bounding box不能准确地贴合被检测物体周围。

在常见的室内环境中,一些物体呈现出垂直和/或水平的平面,可以通过提取这些平面来提高这些物体的相对位置估计。因此,为了克服上述限制,并实现一个健壮的轻量级SLAM算法,我们提出了一种语义SLAM方法,在语义检测范围内使用平面对象。

该算法可分为两部分。在第一部分中,使用VO/VIO估计来传播机器人状态。这个阶段使用环境中的底层特性来传播机器人状态。由于低水平特征检测和匹配中的不准确性,以及IMU测量中的误差和偏差(针对VIO系统),VO/VIO对机器人状态的估计常常会随着时间积累误差。我们通过将检测到的语义对象的高级平面与之前映射的语义平面相关联来解决这个问题。为了提取检测区域内的平面表面,将目前最先进的物体检测器提供的输出与精心应用的平面提取技术相结合。因此,算法的第二部分对估计进行了修正,并建立了从语义检测中提取的平面稀疏语义映射。

创建的语义映射由平面、类标签和平面类型(即水平或垂直)组成,它们由中心和法线方向表示,可以通过对语义对象的新检测来增强。综上所述,本文工作的主要贡献如下:

1、健壮、轻量级的语义SLAM算法,适合在空中机器人上运行。

2、在语义检测中加入快速平面提取,实现了精确的高水平数据关联和语义地标的映射。

本文档的其余部分组织如下:解释了几何和语义SLAM的艺术现状。第三节解释了语义检测和平面提取部分,第四节描述了使用VO/VIO测量值和提取的语义信息创建图形的过程。第五节介绍了使用标准数据集进行的实验和获得的结果,以及使用额外的现场实验,比较了我们的方法与几种先进的几何和语义SLAM方法的准确性。最后,第六节讨论得到的结果,第七节给出最后的结论。

II. RELATED WORK

研究社区已经见证了对基于视觉SLAM的算法应用于机器人的极大兴趣,因此有大量的视觉SLAM相关文献。近年来,结合几何信息和语义信息的SLAM技术得到了广泛的应用,具有重要的相关性。现在人们普遍认识到,为精确的数据关联和循环闭包合并对象级信息可以提高解决方案[10]-[12]的质量、健壮性和可解释性。

salads-moreno等人[13]提出了这个方向的首批工作之一:一个名为SLAMCC的实时语义SLAM方法。SLAMCC是为RGB-D传感器开发的,它将ICP算法应用于3D摄像机的姿态跟踪,并将估计值添加到姿态图中。然后将之前存储在数据库中的语义对象估计出的相对3D姿态进行整合,以共同优化所有姿态。Murali等人[14]提出了一种将语义信息集成到视觉SLAM系统中的方法。在门控因子图框架内,使用语义信息检测系统的inliers/outliers,以实现动态障碍的鲁棒性能。一个预先训练的基于深度学习的对象检测器提供对象的语义信息。Sunderhauf等[15]提出了一种将ORB-SLAM2[1]与基于深度学习的物体探测器以及对物体探测的平面信息进行三维无监督分割相结合的语义映射方法。我们建议的方法类似于这种方法,除了作者只提供语义映射框架,而不是一个完整的大满贯框架——他们执行耗时的数据关联使用欧几里德距离的3d点检测object-landmark对,而不是更准确的使用界标协方差的马氏距离。

Parkhiya等人提出了一种单目语义SLAM方法。他们使用深度网络从特定类别的物体(如椅子)中学习二维特征特征,并将其与三维CAD模型匹配,以估计语义对象的相对三维姿态。将这些语义对象与机器人的VO估计位姿一起添加到图优化框架中作为地标,得到机器人的修正度规位姿。

Grinvald等人[17]提出了一种基于从几何VIO传感器获取的位姿的语义映射系统。该方法利用点云数据的几何平面分割,在数据关联步骤中使用语义检测,进一步细化分割。McCormac等人[18]使用名为FusionCC的RBG-D摄像机提供了一个对象级SLAM系统,使用Mask-RCNN对象检测器对对象的截断签名距离函数(TSDF)表示进行分段。目标用于跟踪、重新定位和循环闭合,并对所提取的姿态图进行优化。Bowman等人[8]对他们之前的工作[7]进行了扩展,从而在语义SLAM方法中使用了诸如椅子和门等语义对象。将联合度量语义SLAM问题分解为连续的位姿优化问题和离散的语义数据关联和语义标签优化问题。该框架将惯性信息、几何信息和语义信息紧密结合在一起。Atanasov等人[19]对[8]提出的框架进行了扩展,利用卷积神经网络从汽车等语义对象中提取描述性语义特征,使其与几何信息和惯性信息紧密耦合。

最新的一篇关于语义风暴[10]的文章提出,在一个针对城市驾驶环境的健壮的框架中,对数据关联的不同可能假设进行追踪。也是在最近,Yang等人[12]提出了一个统一的SLAM框架,包括高层对象和基于单目信息的平面。它们不需要以前的模型,并且合并了一个非常新颖的、通用的对象到平面约束。除了没有考虑深度信息之外,与我们的方法的一个显著区别是,这项工作使用2D边框来表示对象。其他创新的方法集中在SLAM框架本身[11]中对3D激光雷达数据进行点语义标记。这项工作也强调了城市场景下的自动驾驶作为一个重要的应用领域。

我们建议的方法的目的是向快速、高效提取物体的平面表面,可以用作语义特征,从而推广了一些具有平面表面的语义对象,创建环境的一个稀疏优化图,需要最少的计算资源,因此能以较低的计算资源运行在空中机器人平台。图2给出了系统的总体概况,其不同的组成部分将在下面的章节中解释。

III. SEMANTICS BASED PLANAR EXTRACTION

A. SEMANTIC OBJECT D

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
LSD-SLAM是一种大规模直接单目SLAM算法,它是在2013年由扬·恩格尔斯等人提出的。该算法的目标是实现在没有任何先验知识或环境特征的情况下,通过单个摄像头从连续的图像序列中建立和跟踪三维地图,并且能够同时确定相机的姿态。 LSD-SLAM的核心思想是利用摄像头的像素强度信息进行定位和建图,而不依赖于传统的特征点提取和匹配。它通过高斯金字塔和灰度差分技术来提取特征,并使用稀疏数据库存储和匹配这些特征,以实现实时的建图和定位。 在LSD-SLAM中,首先需要对图像进行预处理,包括降噪和创建高斯金字塔。然后,通过计算图像中相邻帧之间的灰度差分,得到特征点的深度信息。通过对这些深度信息进行尺度一致性检查和相机姿态估计,可以建立起相机的轨迹和三维地图。 LSD-SLAM的优点之一是其能够在大规模环境下进行建图,且对于纹理较弱的区域也能较好地定位。此外,LSD-SLAM还具有较低的计算复杂度,能够实时运行,适用于移动机器人、增强现实和无人驾驶等领域。 然而,LSD-SLAM也存在一些限制,如对于场景中出现大运动或快速变化的情况,其定位和建图的精度可能会下降。此外,它对于镜头畸变和光照变化也较为敏感。 总结来说,LSD-SLAM是一种利用单个摄像头进行大规模建图和定位的算法。它通过直接使用图像的像素强度信息,不依赖于传统特征点的提取和匹配。尽管LSD-SLAM具有优点和限制,但其在许多实际应用中具有潜在的价值和广阔的应用前景。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值