重定位新思路!已开源!MambaPlace:最新跨模态点云位置识别

0. 论文信息

标题:MambaPlace:Text-to-Point-Cloud Cross-Modal Place Recognition with Attention Mamba Mechanisms

作者:Tianyi Shang, Zhenyu Li, Wenhao Pei, Pengjie Xu, ZhaoJun Deng, Fanchen Kong

机构:Qilu University of Technology

原文链接:https://arxiv.org/abs/2408.15740

代码链接:https://github.com/nuozimiaowu/MambaPlace/tree/main

1. 摘要

视觉语言位置识别(VLVPR)通过结合来自图像的自然语言描述来增强机器人定位性能。VLVPR利用语言信息指导机器人位置匹配,克服了单纯依靠视觉的限制。多模态融合的本质在于挖掘不同模态之间的互补信息。然而,一般的融合方法依赖于传统的神经架构,并且不能很好地捕捉跨模态交互的动态,尤其是在存在复杂的模态内和模态间相关性的情况下。为此,本文提出了一种新的由粗到细、端到端连通的跨模态地点识别框架,称为MambaPlace。在粗略定位阶段,文本描述和3D点云分别由预训练的T5和实例编码器编码。然后使用文本注意力Mamba (TAM)和点云Mamba (PCM)进行处理,以进行数据增强和对齐。在随后的精细定位阶段,文本描述和3D点云的特征通过级联交叉注意Mamba (CCAM)进行交叉模态融合和进一步增强。最后,我们从融合的文本点云特征预测位置偏移,实现最精确的定位。大量实验表明,与现有方法相比,MambaPlace在KITTI360Pose数据集上实现了更高的定位精度。

2. 引言

在未来的智慧城市中,自动驾驶汽车、无人机和智能物流系统需要在有效进行路径规划之前,根据人类语言的描述进行准确定位。传统的单模态视觉位置识别(VPR)方法依赖相机或雷达从二维图像或点云中提取特征,然后从数据库中检索对应的位置。然而,这些方法在人机交互方面效率低下,且在季节变化和视角变化等条件下缺乏准确性。相比之下,文本到点云的定位方法无需用户接近目标位置即可实现准确定位,且不受自然环境变化的影响。这种方法为GPS和传统视觉方法不可靠的场景(如极端天气条件和大规模遮挡)提供了更优的解决方案。文本到点云的定位面临几个挑战:1)模糊的描述可能对应于点云地图中的多个潜在区域;2)同一区域内不同位置的语言描述可能非常相似,使得精确位置回归成为一大挑战。为了解决这些问题,开创性工作Text2Pos基于KITTI360数据集为不同空间位置生成了多个描述,从而创建了基础的KITTI360Pose数据集。随后,他们提出了首个两阶段语言到点云的定位框架:在粗定位阶段,将大规模点云分割成块并与文本对齐;在精确定位阶段,采用文本和点云融合来实现每个候选区域内的精确定位。然而,Text2Pos主要关注块内的描述,忽略了语言与点云之间的全局空间关系。为了克服这一局限,Wang等人引入了关系增强Transformer(RET)来建立点云与文本之间的关系[1],在精确定位阶段利用交叉注意力来增强多模态融合。最近,Text2loc[2]采用了预训练的T5模型,并在粗定位阶段引入了对比学习机制。在重新定位阶段,他们采用了无需匹配的回归方法,显著提高了性能。

然而,以往的研究并未彻底解决几个关键问题。在Text2loc中,虽然语言信息采用了先进的T5模型进行表示,但点云特征提取仅依赖于基本的注意力机制。这种方法无法充分捕捉更复杂且信息丰富的点云的精细特征,导致对比学习期间语义空间的不平衡。

我们的目标是使用理论上统一的机制来解决这些挑战。Mamba模型引起了我们的兴趣。这种基于选择性状态空间模型(SSM)的时变架构被视为Transformer的轻量级替代方案。但我们尤其对其出色的长序列建模能力感到好奇。在粗处理阶段,处理点云数据时,我们采用纯选择性SSM基础的点云Mamba模块替换原始的自注意力模块,该模块有效捕捉点云中远距点之间的关系并增强相对位置关系。

3. 效果展示

左图介绍:我们提出了MambaPlace,这是一种利用文本描述进行城市规模地点定位的解决方案。当给定代表环境的点云以及描述某个地点的文本查询时,MambaPlace能够在地图上识别出指定地点的最可能位置。右图介绍:在KITTI360Pose测试集上的定位性能表明,所提出的MambaPlace实现方案在所有顶部搜索数量上均一致优于现有方法。值得注意的是,在5米范围内的查询中,其文本定位性能超越了当前所有最优水平(SOTA)结果。

图片

4. 主要贡献

我们的主要贡献如下:

• 开发了点云Mamba(PCM),利用纯SSM增强点云中大规模空间信息的特征表示。

• 设计了文本注意力Mamba(TAM),用于捕捉句内和句间关系的上下文细节,从而增强位置关键词与目标关键词之间的关系。

• 提出了级联交叉注意力Mamba(CCAM),以促进多模态特征的多尺度融合并有效管理语义信息,从而准确预测最终定位偏移量,提高定位准确性。

5. 方法

我们将整个过程分为两个连续的端到端阶段:全局粗定位和精细定位,如图2所示。给定一个地点的描述,MambaPlace的任务是识别出可能包含指定地点的前k个候选单元格。MambaPlace的目标是,在精细定位阶段识别出可能包含指定地点的前k个候选单元格,并在粗定位阶段确定选定候选单元格内的确切位置。

图片

图片

6. 实验结果

图片

图片

7. 总结 & 未来工作

我们提出了MambaPlace,这是首个基于注意力Mamba机制的文本到点云位置识别框架的方法。我们分别为文本、点云和跨模态特征开发了三种不同的专业注意力Mamba模块。这些模块旨在加强数据类内部及数据类之间的长期依赖性。在粗略定位阶段,我们引入了文本注意力Mamba(TAM)和点云Mamba(PCM),以增强文本编码和点云编码分支的特征表示。在精细定位阶段,我们提出了级联交叉注意力Mamba(CCAM),以整合这两种模态,从而提高文本引导的点云子图检索性能。我们证明,在考虑前10个检索位置的情况下,我们的由粗到精的方法能够准确地将89%的文本查询定位到距离查询位置15米以内的范围内,这超过了当前最先进的TextLoc方法,其定位准确率为86%。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值