彻底解决未知和非结构场景!度量语义SLAM最新SOTA开源了!

0. 这篇文章干了啥?

自主探索和场景理解是推动机器人系统发展的关键能力。传统上,探索依赖于几何地图来辅助导航和避障。然而,要增强机器人的自主性,就必须全面理解环境的语义信息。度量语义同时定位与地图构建(SLAM)作为一种关键解决方案应运而生,它提供了几何和语义环境感知的双重视角。这对于从室内服务机器人到大规模户外探索的广泛应用来说是无价的。然而,当前的方法在SLAM过程中往往采用被动机器人运动控制,限制了动态探索的潜力。

在以往的机器人探索文献中,基于信息论的方法是有前景的解决方案,展示了促进快速探索和最小化地图不确定性的能力。然而,这些方法通常将主动建图问题与定位问题分开处理,即假设定位误差已经解决。这一假设在实际场景中可能会引入限制,如由于SLAM误差导致的路径规划受损和语义地图中对象标签错误,导致机器人抓取错误的对象。

鉴于这些不足,本文重点研究主动度量语义SLAM。我们的方法通过将定位不确定性纳入探索过程,扩展了现有的基于信息论的二进制或多类主动建图方法。我们维护了一个姿态图,并利用了一种受近期谱图论进展启发的姿态图不确定性新型定量度量。通过分析语义互信息和底层姿态图拓扑结构,我们能够评估不同潜在轨迹的最大增益,从而在保持高效探索的同时,实现更高质量的定位和语义建图(如图1所示)。

下面一起来阅读一下这项工作~

1. 论文信息

标题:Active Semantic Mapping and Pose Graph Spectral Analysis for Robot Exploration

作者:Rongge Zhang, Haechan Mark Bong, Giovanni Beltrame

机构:Polytechnique Montr´eal

原文链接:https://arxiv.org/abs/2408.14726

代码链接:https://github.com/BohemianRhapsodyz/semantic_exploration

2. 摘要

未知和非结构化环境中的探索是机器人应用的关键要求。机器人的探索行为会受到其同时定位和地图绘制(SLAM)子系统性能的内在影响,尽管SLAM和探索通常是分开研究的。在本文中,我们将探索表述为一个主动映射问题,并用语义信息对其进行扩展。我们介绍了一种新的主动度量-语义SLAM方法,利用信息论和谱图理论的最新研究进展:我们结合语义互信息和SLAM子系统底层姿态图的连通性度量。我们使用由此产生的效用函数来评估不同的轨迹,以在探索过程中选择最有利的策略。实验中分析了探索和SLAM度量。在栖息地数据集上运行我们的算法,我们表明,在保持接近最先进的探索方法的效率的同时,我们的方法有效地提高了度量语义SLAM的性能,平均地图误差减少了21%,平均语义分类精度提高了9%。

3. 效果展示

图片

4. 主要贡献

综上所述,本文的主要贡献包括:

一种用于自主机器人探索的在线决策主动SLAM新方法;

一种用于主动机器人感知和场景理解的实时度量语义建图系统;

一种结合语义互信息增益和定位不确定性的混合表示,以指导机器人的行动策略;推荐课程:室内、室外激光SLAM关键算法、代码和实战剖析

我们通过在逼真的环境中进行大量实验来展示我们方法的性能,我们的实现已公开在:https://github.com/BohemianRhapsodyz/semantic_exploration。

5. 实验结果

图片

图片

图片

6. 总结 & 未来工作

在本文中,我们提出了一种实时主动度量语义SLAM方法,以实现高效准确的机器人探索。我们的方法不仅评估了三维空间中语义信息增益最大的路径,还集成了机器人状态不确定性的影响。通过将大型密集型FIM(Fisher Information Matrix)的计算转化为对底层姿态图拓扑结构的分析,实现了在线规划。Shannon-Rényi形式的熵避免了不同量级的不确定性,从而在探索和利用之间实现了自主平衡。与包括SSMI和TARE在内的先进探索方法相比,验证了我们的实现性能。对语义不确定性的研究对于计算机视觉任务也具有重要意义,例如减轻数据和场景变化引起的领域偏移影响。我们的实现还可以用于具有三维路径规划器的空中机器人探索。未来的工作将集中在频谱图稀疏化以加速探索上。我们也对推广到多机器人探索和进行实地实验感兴趣。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

7、3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿:具身智能、大模型、Mamba、扩散模型等

除了这些,还有求职硬件选型视觉产品落地、产品、行业新闻等交流群

添加小助理: cv3d008,备注:研究方向+学校/公司+昵称(如3D点云+清华+小柠檬), 拉你入群。

  • 13
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
激光与视觉融合语义SLAM开源代码是一种利用激光雷达和视觉传感器提供的数据进行同时定位与地图构建的技术。该技术结合了激光雷达提供的高精度地图和视觉传感器提供的语义信息,能够在环境中同时进行定位和目标识别。这种技术的开源代码使得研究者和开发者可以更好地理解和应用该算法。 激光与视觉融合语义SLAM开源代码的主要优点是可以利用激光雷达和视觉传感器的互补性,提高地图构建的准确性和重建的视觉效果。激光雷达能够提供精确的地图结构和距离信息,而视觉传感器则能够提供更丰富的语义信息。激光与视觉融合语义SLAM开源代码能够将两者的数据进行融合,利用激光雷达的高精度地图信息进行优化,并通过视觉传感器的语义信息实现更准确和完整的地图重建。 开源代码使得研究者可以自由地访问和利用这些算法,从而加快研究进展和技术推广。通过开源代码,研究者可以根据自己的需求和实际情况进行定制和修改,以适应不同的应用场景和硬件设备。此外,开源代码还能够促进学术界和工业界之间的交流与合作,推动SLAM技术的发展和应用。 总之,激光与视觉融合语义SLAM开源代码是一项重要的技术,能够实现在同时定位与地图构建过程中的高精度地图和丰富语义信息的完美融合。通过开源代码的共享,促进了该技术的发展和推广,为研究者和开发者提供了更好的工具和资源,推动了SLAM技术在不同领域的应用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值