RoboFlamingo：视觉-语言基础模型作为有效的机器人模拟器-CSDN博客

本文链接：https://blog.csdn.net/yorkhunter/article/details/142428855

24年2月来自字节、清华、上海交大和新加坡国立大学的论文“Vision-language foundation models as effective robot imitators”。

视觉-语言基础模型的最新进展表明，它们能够理解多模态数据并解决复杂的视觉语言任务，包括机器人操作。寻求一种直接利用现有视觉-语言模型 (VLM) 的方法，并对机器人数据进行简单的微调。为此，基于开源 VLM OpenFlamingo 构建了一个简单的视觉-语言操作框架，称为 RoboFlamingo。与之前的研究不同，RoboFlamingo 利用预训练的 VLM 进行单步视觉语言理解，使用明确的策略头对连续历史信息进行建模，并且仅通过模仿学习对语言条件操作数据集进行微调。这种分解为 RoboFlamingo 提供开环控制和低性能平台部署的灵活性。在测试基准上大幅超越最先进的性能，RoboFlamingo 成为一种有效且具有竞争力的替代方案，使 VLM 适应机器人控制。

视觉-语言基础模型 (VLM) 的最新进展，展示了其在建模和对齐图像和文字表示方面的能力，以及使用多模态数据解决各种下游任务的无限潜力，例如视觉问答 (Li et al., 2023; Zhou et al., 2022)、图像字幕 (Zeng et al., 2022; Wang et al., 2022; Li et al., 2021)、人机交互 (Liu et al., 2022b; Oertel et al., 2020; Seaborn et al., 2021)。不可否认，这些成功鼓励人们想象一个具备这种视觉-语言理解能力的通才机器人，可以自然地与人类互动并执行复杂的操作任务。

因此，旨在探索集成视觉-语言基础模型作为机器人操作策略。虽然之前有一些研究将大语言模型 (LLM) 和视觉-语言模型 (VLM) 作为高级规划器纳入机器人系统（Ahn，2022；Driess，2023），但直接将它们用于低级控制仍然存在挑战。大多数 VLM 都是在静态图像语言对上进行训练的，而机器人任务需要视频理解才能实现闭环控制。此外，VLM 输出主要由语言token组成，与机器人动作相比，其表示形式有显著不同。最近的一项研究（Brohan，2023），即 Robotics Transformer 2 (RT-2)，展示了一种将 VLM 适应低级机器人控制的可能解决方案。然而，向所有机器人从业者普及如此昂贵的框架是困难的，因为它使用了私有模型，并且需要在大量视觉-语言数据上进行共同微调才能充分展示其有效性。因此，机器人社区迫切需要一种低成本的替代解决方案，以有效地实现使用 VLM 的机器人操纵策略。

语言是人机交互中最直观、最关键的界面，它使非专家人类能够无缝地向机器人传达指令，以完成各种任务。因此，语言条件下的多任务操作领域近年来引起了广泛关注。直观地说，这样的任务要求机器人不仅要很好地理解外部世界的视觉捕捉，还要很好地理解单词所代表的指令。由于预训练的视觉和语言模型具有强大的表示能力，许多先前的研究已将预训练模型纳入学习框架。其中，粗略地分为以下三类：从零开始训练，微调，零样本LLM规划器和协同微调，如图所示。

请添加图片描述

如上图底部所示，RoboFlamingo 是一种通用机器人智体，擅长解决语言条件下的操作任务。其关键思想是借助预训练的视觉-语言模型 (VLM) 并使其适应操作策略，获得目标落地、语言理解、视觉-语言对齐和长期规划的能力。具体来说，RoboFlamingo 研究流行的 VLM 之一 Flamingo (Alayrac，2022)，并以其开源模型 Open-Flamingo (Awadalla，2023) 作为主干。

RoboFlamingo 的概览如图所示。为了使大规模视觉-语言模型适应机器人操作，RoboFlamingo 只是添加了一个用于端到端微调的策略头。它解决了三个主要挑战：1) 它将静态图像输入的视觉-语言模型适应视频观察； 2）它生成机器人控制信号而不是纯文本输出；3）它需要有限数量的下游机器人操作数据来实现具有数十亿可训练参数的高性能和通用性。

请添加图片描述

总体而言，Flamingo 通过视觉编码器将视觉观察结果编码为潜tokens；然后通过特征融合解码器将其与语言目标融合。

在 RoboFlamingo 中，利用 OpenFlamingo (Awadalla，2023) 中预训练的解码器，并按照（Awadalla 2023) 中的方式对解码器模块进行微调。具体而言，解码器由 L 层组成，每层都涉及一个Transformer解码器层和一个交叉注意层。Transformer 层直接从预训练的语言模型（例如 LlaMA (Touvron，2023)、GPT-Neox (Black，2022) 和 MPT (Team，2023)）复制而来，并在整个训练过程中保持冻结状态；交叉注意层将语言tokens作为Q，将编码的视觉tokens作为K和V，并对操纵数据的模仿学习目标进行微调。

特征融合解码器的输出 XtL 被训练为视觉观察和语言指令的表示，然后进一步转换为低级控制信号。为此，只需采用额外的策略头 pθ 来预测动作，例如 7 DoF 末端执行器姿势和夹持器状态。测试各种策略来对历史观察序列进行建模并充当策略头，例如长短期记忆 (LSTM)（Hochreiter & Schmidhuber, 1997）网络与 MLP 进行最终预测；类似地，仅解码器的Transformer（Brown, 2020）与 MLP 一起使用；或者，仅对单步信息进行建模的单个 MLP。

利用最大似然模仿学习目标，来微调所提出的预训练主干和策略头。在训练过程中，遵循 OpenFlamingo 的微调范式，仅训练重采样器、每个解码器层的门控交叉注意模块和策略头的参数，同时冻结所有其他参数。

四个策略头：（a）MLP 无历史（w/o hist），仅将当前观察作为输入来预测动作，而忽略了观察历史。（b）MLP 带历史（w hist），将历史帧带入具有位置嵌入的视觉编码器，并通过特征融合解码器中的交叉注意层对历史信息进行编码。（c）GPT 和（d）LSTM 都利用 VLM 主干来处理单帧观察并将历史记录与策略头相结合。GPT 明确将视觉历史作为输入来预测下一个动作。LSTM 隐式维护隐藏状态来编码记忆并预测动作。

请添加图片描述