ConceptGraphs：用于感知和规划的开放词汇 3D 场景图

最新推荐文章于 2024-12-04 00:00:47 发布

三谷秋水

最新推荐文章于 2024-12-04 00:00:47 发布

阅读量1.1k

点赞数 29

分类专栏：计算机视觉智能体大模型文章标签：人工智能计算机视觉语言模型机器学习

本文链接：https://blog.csdn.net/yorkhunter/article/details/142432233

版权

大模型同时被 3 个专栏收录

719 篇文章

订阅专栏

智能体

472 篇文章

订阅专栏

计算机视觉

422 篇文章

订阅专栏

23年9月来自多伦多大学、蒙特利尔大学、MIT等的论文“ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and Planning”。

为了让机器人执行各种各样的任务，它们需要一个语义丰富、紧凑且高效的 3D 世界表示，以实现任务驱动的感知和规划。最近的方法试图利用大型视觉-语言模型的特征来编码 3D 表示中的语义。然而，这些方法往往会生成具有逐点特征向量的地图，这些地图在较大的环境中扩展性不佳，也不包含环境中实体之间的语义空间关系，而这些关系对于下游规划很有用。这项工作提出 ConceptGraphs，一种用于 3D 场景的开放词汇图结构表示。ConceptGraphs 是通过利用 2D 基础模型并通过多视图关联将其输出融合到 3D 来构建的。生成的表示，可以推广到新的语义类，无需收集大型 3D 数据集或微调模型。通过许多下游规划任务展示了这种表示的实用性，这些任务通过抽象（语言）提示指定，需要对空间和语义概念进行复杂的推理。

场景表征是关键的设计选择之一，它可以促进各种任务（包括移动性和操作性）的下游规划。机器人在环境中导航时，需要根据机载传感器在线构建这些表征。为了高效执行复杂任务，这种表征应具备以下特点：随着场景体量和机器人操作持续时间的增加，可进行扩展且易于维护；词汇开放，不仅限于对训练时预定义的一组概念进行推断，还能够在推理时处理新目标和概念；具有灵活的细节级别，可以规划一系列任务，从需要密集几何信息进行移动性和操作的任务，到需要抽象语义信息和目标级affordance信息进行任务规划的任务。

ConceptGraphs 构建开放词汇 3D 场景图的概述如图所示。(a) 设计一个基于目标的建图系统，仅假设与类别无关的实例掩码并将其融合到 3D 中，(b) 利用大型视觉-语言模型解释和提取每个映射实例的语言标签，以及 © 利用大语言模型中编码的先验构建目标-空间关系图。ConceptGraphs 以目标为中心的特性允许轻松维护地图并提高可扩展性，并且图结构提供场景内的关系信息。此外，场景图表示很容易映射到自然语言格式与 LLM 交互，使它们能够回答复杂的场景查询并允许机器人访问有关周围目标的有用事实，例如可遍历性和实用性。在轮式和腿式移动机器人平台上的一系列现实世界机器人任务中实现并演示了 ConceptGraphs。

请添加图片描述

ConceptGraphs 构建紧凑、语义丰富的 3D 环境表示。给定一组姿态的 RGB-D 帧，运行一个与类别无关的分割模型来获取候选目标，使用几何和语义相似性度量在多个视图之间关联它们，并在 3D 场景图中实例化节点。然后，用大型 VLM 为每个节点添加字幕，并使用 LLM 推断相邻节点之间的关系，从而产生场景图中的边。这个场景图是开放词汇的，封装了目标属性，可用于多种下游任务，包括分割、目标接地、导航、操作、定位和重映射。该方法如图所示。

请添加图片描述

ConceptGraphs 的模块化特性，使得任何合适的开放/封闭词汇分割模型、LLM 或 LVLM 都可以使用。实验使用 Segment-Anything (SAM) [33] 作为分割模型 Seg(·)，使用 CLIP 图像编码器 [31] 作为特征提取器 Embed(·)。用 LLaVA [55] 作为大规模视觉-语言模型 VLM，使用 GPT-4 [32] (gpt-4-0613) 作为 LLM。点云下采样和最近邻阈值 δnn 的体素大小均为 2.5cm。用 1.1 作为关联阈值 δsim。还开发系统的一个变型 ConceptGraphs-Detector (CG-D)，其中用图像标记（tagging）模型 (RAM [54]) 列出图像中存在的目标类，并使用开放词汇 2D 检测器 (Grounding DINO [34]) 获取目标边框。在这个变型中，需要分别处理检测到的背景模板（墙壁、天花板、地板），无论它们的相似度得分如何，都要合并它们。

如图所示，Jackal 机器人使用 ConceptGraphs 表示实验室环境来回答用户查询。首先查询 LLM 以确定与用户查询最相关的目标，然后使用 LVLM 验证目标对象是否在预期位置。如果不在，再次查询 LLM 以找到丢失目标的可能位置或容器。（蓝色）当提示要穿什么去参加太空派对时，Jackal 会尝试寻找一件带有 NASA 标志的灰色衬衫。在未能在预期位置检测到衬衫后，LLM 推断它很可能在洗衣袋中。（红色）在收到用户查询 “Ronald McDonald 服装的鞋子”后，Jackal 搜索红白相间的运动鞋。在未能检测到最初出现在地图上的运动鞋后，LLM 将机器人重定向到鞋架。
请添加图片描述