VoroNav: Voronoi-based Zero-shot Object Navigationwith Large Language Model 简读

RJnet

已于 2024-05-07 17:59:20 修改

阅读量527

点赞数 6

分类专栏：论文阅读笔记文章标签：语言模型人工智能

于 2024-05-07 14:52:13 首次发布

本文链接：https://blog.csdn.net/weixin_44879707/article/details/138530694

版权

论文阅读笔记专栏收录该内容

8 篇文章

订阅专栏

文章

主页

摘要

在家庭机器人领域，零样本目标导航（ZSON）任务使代理能够在不经过明确训练的情况下熟练地遍历不熟悉的环境，并从新类别中定位物体。本文介绍了一种新的语义探索框架VoroNav，该框架提出了简化的Voronoi图，从实时构建的语义图中提取探索路径和规划节点。通过利用拓扑和语义信息，VoroNav设计了基于文本的路径和图像描述，这些描述很容易被大型语言模型（LLM）解释。特别是，我们的方法提供了路径和远视描述的协同作用来表示环境信息，使LLM能够应用常识性推理来确定导航的路径点。对HM3D和HSSD的广泛评估验证了VoroNav在成功率和勘探效率方面都超过了现有的基准（绝对改进：HM3D+2.8%成功，+3.7%SPL，+2.6%成功，HSSD+3.8%SPL）。此外，还引入了评估避障熟练程度和感知效率的指标，进一步证实了我们的方法在ZSON规划中实现的增强

传统室内导航的缺点

仅限于导航目标是一个已知类别
不会积极地识别信息点作为路径点（如图所示，在多个交叉点时，不会进行信息分辨）

方法

VoroNav包括三个模块。输入包括RGB-D图像和实时姿态，而agent的输出为“动作”（目标GOAL在全局决策模块输入）。RGB-D和姿态观察由语义映射模块（浅蓝色模块）进行处理，形成一个语义映射。全局决策模块（浅黄色模块）生成RVG（Reduced Voronoi Graph，简化的Voronoi图），用于生成周围邻居节点和探索路径的文本描述。然后，该模块使用LLM输入节点关系、场景描述、目标等融合prompt，来帮助选择概率较大的节点作为导航决策目标。本地策略模块（浅绿色模块）计划代理的低级操作以到达目标点。