VLM与行为树

最新推荐文章于 2025-06-05 16:53:26 发布

JackieZeng527

最新推荐文章于 2025-06-05 16:53:26 发布

阅读量1k

点赞数 32

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/weixin_48850780/article/details/145669448

版权

一本研究的创新

VLM-driven Behavior Tree for Context-aware Task Planning

使用VLM生成带有视觉条件节点的行为树(BT)
开发了一个交互式BT编辑器界面
采用"自我提示"(self-prompting)方式进行视觉条件检查
在真实咖啡厅场景中进行了验证

二相关概念

1 有视觉条件节点的行为树(BT)

视觉条件节点(Visual Condition Node)是这篇论文提出的一个重要创新。让我来详细解释：

1. 基本概念：
- 这是一种特殊的行为树节点，可以根据机器人实时看到的场景来做出决策
- 节点中包含用自然语言描述的视觉条件，比如"桌子上是否有杯子"、"杯子里是否有液体"等

2. 工作方式：
- 生成阶段：VLM会在生成行为树时，自动加入这些视觉条件节点
- 执行阶段：
- 当机器人执行到这个节点时，会拍摄当前场景的图片
- 将图片和条件描述一起发送给VLM进行判断
- VLM返回Yes/No的结果，决定下一步行为

3. 具体例子：
论文中展示了一个处理杯子的例子（图8）：

条件节点："cup contains liquid"（杯子是否含有液体）
- 如果VLM判断有液体：机器人会先倒掉液体
- 如果VLM判断无液体：机器人直接丢弃杯子

这种设计的优势是：

灵活性：可以用自然语言描述各种视觉条件。

通用性：不需要为每种条件专门训练视觉模型。

这是因为系统使用了Vision-Language Models (VLM)，特别是GPT-4V，它具有强大的零样本视觉理解能力。让我详细解释：

1. 传统方法的局限：
- 需要为每种视觉条件专门收集数据
- 需要训练特定的视觉模型
- 缺乏灵活性，增加新条件需要重新训练

2. VLM方法的优势：
例如判断"杯子是否有液体"：
- 传统方法：需要收集大量带/不带液体的杯子图片，训练专门的分类器
- VLM方法：直接用自然语言描述条件，VLM可以理解并判断

3. 关键技术：Self-prompting
- 系统会自动生成提示词：
- 输入：当前场景图片 + 条件描述（如"cup contains liquid"）
- VLM：基于通用视觉理解能力做出判断
- 输出：Yes/No + 判断原因

4. 优势：
- 零样本泛化：无需训练就能理解新的视觉条件
- 灵活性：只需修改文本描述就能更改判断条件
- 可解释性：VLM会解释其判断理由

这种方法充分利用了VLM的通用视觉理解能力，避免了为每个具体任务训练专门模型的开销。