通过具身思维链推理实现机器人控制_robotic control via embodied chain-of-thought reas-CSDN博客

本文链接：https://blog.csdn.net/yorkhunter/article/details/145398351

24年7月来自伯克利分校、华沙大学和斯坦福的论文“Robotic Control via Embodied Chain-of-Thought Reasoning”。

学习机器人控制策略的一个关键限制，是它们无法在训练数据之外进行泛化。最近关于视觉-语言-动作模型 (VLA) 的研究表明，使用大型、互联网预训练的视觉语言模型作为学习机器人策略的主干，可以显著提高其稳健性和泛化能力。然而，其他域的大型视觉-语言模型最令人兴奋的能力之一，是它们能够迭代推理复杂问题。是否可以将同样的能力引入机器人技术，让策略通过在行动前推理给定任务来提高性能？由于可用的训练示例相对简单，因此在标准 VLA 中，单纯使用“思维链”(CoT) 式提示的效果会大大降低。此外，对于需要将推理建立在感官观察和机器人状态基础上的机器人策略而言，常规 CoT 中常见的关于子任务纯语义推理是不够的。

为此，为 VLA 引入具身思维链推理 (ECoT)，在预测机器人动作之前，训练 VLA 对规划、子任务、运动和视觉基础特征（如目标边框和末端执行器位置）执行多步推理。我们设计了一个可扩展的流水线，用于在大型机器人数据集上为 ECoT 生成合成训练数据。ECoT 在具有挑战性的泛化任务中将当前最强大的开源 VLA 策略 OpenVLA 的绝对成功率提高 28%，而无需任何额外的机器人训练数据。此外，ECoT 使人类更容易解释策略的失败并以自然语言交互方式纠正其行为。最后，该模型学会了将 ECoT 推理转移到未见过的具身和任务上。

经过端到端训练的机器人策略可输出响应感官观察的原始低级动作，为机器人控制提供了一种强大且有吸引力的基于学习法，无需复杂的传感和控制栈，并将复杂的观察处理为灵巧的低级控制 [1, 2, 3]。然而，这种“反应性”控制在需要广泛泛化的环境中并不一定是最佳选择，例如新场景或与不熟悉目标的交互。在这种情况下，一个人可能需要更仔细地思考——如果要求他们把水果放在一个盘子里，把蔬菜放在另一个盘子里，他们可能首先试图弄清楚哪些是水果，哪些是蔬菜，而不是简单地执行从“肌肉记忆”中学到的技能。同样，希望机器人策略既能执行经过良好练习的端到端控制，又能在将命令付诸行动之前“推理”新情况。这种推理可能包括识别和定位与任务相关的目标、制定完成任务的规划以及将子任务和观察结果转化为动作。

视觉-语言-动作模型 (VLA) - 经过微调以产生机器人动作的预训练视觉-语言模型 (VLM) - 作为一种利用大型基础模型 [4] 捕获互联网数据多样性的方法，在简单且可扩展的策略学习方法中广受欢迎。尽管在广泛的任务和机器人实现中实现了最先进的性能 [5、6、7]，但 VLA 通常学习从观察动作的直接映射，而无需任何中间推理。然而，最近有许多研究探索如何促使语言模型（作为 VLA 的主干）以文本形式“逐步思考”给定任务。这种思维链推理 (CoT) [8] 显着提高它们在复杂推理任务上的表现，现在已成为语言建模中的一种事实上的标准做法 [9]。

因此，假设可以通过训练 VLA 对其规划、环境和动作进行文本推理，从而让它们做出更准确、更稳健的机器人动作，从而同样提高 VLA 的性能。然而，将语言建模中的 CoT 技术简单地应用到机器人领域面临着几个挑战。首先，当前的 VLA 建立在相对较小的开源 VLM 上，这些 VLM 在简单地提示一步一步思考时，无法与封闭模型相比，无法进行有意义的推理 [8]。此外，语言模型中最常见的 CoT 推理，即将任务分解为子任务，虽然很有帮助，但不足以推理机器人任务。VLA 策略需要将其规划和推理建立在其对环境和机器人状态的观察之上。只有这样，推理才能将智体的注意力引向细粒度的空间或语义感知特征，而这些特征对于解决机器人操作任务至关重要。简而言之，需要 VLA 不仅“仔细思考”，还要“仔细观察”。

机器人学习规模化。机器人学习的一个长期目标是训练可以泛化到各种非结构化现实世界环境的策略。为了实现这一目标，最近的研究探索在不同的机器人数据集 [18、19、10、20、21、22、23、24、13、14、25、15、26、6] 上训练“通用机器人策略”[10、11、12、13、14、15、16、17]。由于其多样化的机器人训练数据集，许多这些策略可以用自然语言提示来解决各种操作任务，一些通用策略甚至可以控制多个机器人具身 [16、27、6]。重要的是，这些研究表明，在大型和多样化的数据集上训练机器人策略是一种有前途的方法，可以提高策略的鲁棒性和泛化能力。

用于机器人泛化的视觉语言模型。为了推动机器人数据集中观察到的泛化能力，最近开发了强大的开源视觉语言模型，这些模型可以学习视觉语言表征 [28, 29]、从文本生成图像 [30] 或根据图像和提示生成文本 [31, 32, 33, 34, 35]，这导致了大量研究探索将这些模型集成到机器人学习流水线中，例如生成目标 [36]、提供奖励信号 [37, 38, 39] 或学习视觉状态表征 [40, 41, 42]。由于收集上述大规模机器人数据集具有挑战性，使用在互联网规模数据上预先训练的模型是实现稳健机器人策略的一种有吸引力替代方法，这些策略可以在各种非结构化的现实世界环境中发挥作用。最近将预训练的视觉语言模型集成到学习的机器人策略中方法。虽然一些研究在其策略中使用了强大的结构先验来实现这种集成 [43, 44, 45]，但视觉-语言-动作模型 (VLA) 最近被提出作为一种简单但可扩展的替代方案 [5, 6, 7]，实现了通用机器人策略最先进的性能 [7]，并展示了对新目标和场景令人印象深刻的泛化水平。然而，现有的 VLA 并没有充分利用底层语言和视觉语言模型的一些最吸引人的特性，特别是它们推理解决给定任务所需步骤的能力。

语言和控制的推理。这种循序渐进的推理是大语言模型 (LLM) 能够解决各种复杂任务的关键因素。提示 LLM（直接 [46] 或通过上下文示例 [8]）在制定答案之前“逐步思考”问题，可以显著提高它们的性能，这种思维链推理技术已成为语言建模和（视觉）语言模型训练的标准做法 [9, 47]。许多研究已经在机器人高级任务规划的背景下探索了类似的技术 [48、49、50、51、52、53、54、55、56]。这些方法使用预训练或微调的 LLM 将任务分解为高级子任务，但依靠预训练的低级策略来执行它们。然而，（1）谨慎的推理对于高级子任务推理和低级控制都有益处，（2）所有这些级别的推理都应该以对场景和智体状态的视觉观察为基础。

如图所示，本文提出针对视觉-语言-动作模型 (VLA) 的具身思维链推理：先前的 VLA 直接预测机器人在给定任务时的下一步动作（左），而这里训练 VLA 策略以“逐步”思考（右）。至关重要的是，除了纯文本 CoT 元素（如子任务规划）之外，通过低级视觉和具身特征（如目标边框和夹持器位置）进行推理，迫使策略在行动前“仔细思考”和“仔细观察”。具身 CoT 推理将最先进的 OpenVLA 策略 [7] 在具有挑战性的泛化任务中绝对成功率提高了 28%。

请添加图片描述

利用 VLA 作为具身思维链策略的支柱。VLA 使用一个简单的策略学习方法：从预训练的视觉语言模型开始，它们直接微调模型，以在给定当前图像观察 I 和任务指令 T 的情况下自回归地预测下一个机器人动作。为了实现这一点，连续的机器人动作通常通过每维度动作离散化方案转换为视觉语言模型词汇表中的离散动作token Ta，该方案将每个连续值分配给 256 个濒死中的一个 [5, 7]。

使用最近发布的 OpenVLA 模型 [7]（如图所示），因为它实现最先进的性能并且完全开源。该模型基于 Prismatic VLM [35]，由融合视觉编码器（结合预训练的 SigLIP [57] 和/或 DinoV2 [58] 特征）和 Llama 2 7B [59] LLM 主干组成。在训练期间，使用预训练的视觉编码器将输入图像编码为视觉token嵌入，使用 Llama 2 的文本token化器将任务指令映射到任务token，然后训练模型将这些输入映射到目标动作token。

请添加图片描述

训练 VLA，以便在预测下一个机器人动作之前对规划、子任务、动作和视觉特征进行具身的思维链推理。与许多专有的大语言模型不同，当前 VLA 中使用的相对较小 LLM 主干在简单地提示逐步思考时难以执行复杂的推理 [8]。相反，本文训练 VLA 模型来执行具身的 CoT 推理。具体来说，事后用从各种预训练模型中提取特征的推理链，标记现有机器人数据集中的数据，并使用生成的观察-推理-动作三元组数据集进行训练。在实践中，确保生成的推理数据所有元素都可以表示为字符串，这样就可以使用 Llama 2 文本token化器将它们转换为推理tokens。然后，简单地训练 VLA 以自回归方式预测这些token，然后直接预测动作token。

虽然这种方法在概念上很简单，但其实施需要回答多个关键问题：（1）哪些推理步骤适合指导解决具身机器人操作任务的策略（如图所示）？（2）如何在现有机器人数据集上大规模生成这些推理步骤的训练数据？在使用 ECoT 策略进行机器人控制时，训练之后还会出现另一个实际考虑：仔细推理每个动作会显著减慢策略推理的速度。

请添加图片描述

设计具身思维链推理链步骤

在设计具身思维链推理链的步骤时，有两个目标：鼓励模型 (A) 推理手头任务所需的高级步骤并确定下一步需要执行哪个步骤，以及 (B) 在预测机器人动作之前，将这种推理逐渐建立在场景和机器人状态的低级特征上。

上图可视化了训练 VLA 执行示例任务的 ECoT 推理步骤。从左到右，模型首先被训练为重新表述任务指令 (TASK) 并预测实现指令任务的高级步骤规划 (PLAN)。接下来，它推理在当前步骤应该执行哪些子任务 (SUBTASK)，这项任务需要了解场景和机器人的当前状态。然后，该模型预测一个甚至更低级的语言命令，如“向左移动”或“向上移动”(MOVE)，它与机器人需要执行的低级动作密切相关。最后，要求模型预测描述场景的精确、空间基础特征，从而迫使模型密切关注输入图像的所有元素——具体来说，机器人末端执行器 (GRIPPER) 的像素位置以及场景中所有目标 (OBJECTS) 的名称和边框像素坐标。

大规模生成具身思维链数据

获得高质量推理链的黄金标准是直接人工注释。然而，这种方法对于大型机器人学习数据集 [6] 来说是不切实际的，因为这些数据集包含数百万个单独的转换。因此，利用预训练的视觉和/或语言基础模型来自动生成 ECoT 训练数据，类似于 NLP 中的合成数据生成 [63]。

如图所示提供数据生成流水线的概述。对于给定的图像指令对，首先提示 Prismatic-7B VLM [35] 生成场景的详细描述。然后，将原始指令和生成的描述连接起来，并将生成的字符串输入到 Grounding DINO [29]（一个开放词汇目标检测器）中。它会检测所有相关的目标实例及其边框，并将它们与输入文本中的相应语言片段相关联。根据提供的置信度分数过滤预测，仅保留框置信度和文本置信度分别大于 0.3 和 0.2 的检测结果以用于 OBJECT 特征。

请添加图片描述

接下来，在 MOVE 中生成每步低级动作原语（例如，“向左移动”、“向上移动”）。按照 Belkhale [64] 的方法，用机器人本体感受来确定接下来 4 个时间步骤的移动方向（假设相机固定），并将其转换为 729 个模板化移动原语之一。用 OWLv2 [60] 和 SAM [61] 检测训练图像（GRIPPER）中的 2D 末端执行器位置，并与从机器人状态中提取的 3D 位置配对，以使用 RANSAC [65] 拟合投影矩阵的稳健估计。然后，将机器人末端执行器位置的 2D 投影用于训练。该过程针对每条轨迹独立重复，无需假设固定的相机参数。

为了生成最终的推理链，将每集的任务指令、场景描述和每一步的运动原语输入 Gemini 1.0 [62]，并提示它根据任务指令和观察的运动原语以及每个步骤的当前子任务生成子任务的高级规划。还要求它简要解释每个步骤中的原语运动和所选子任务，将其包含在 ECoT 训练数据中。在 7 天内在完整的 Bridge v2 数据集 [13] 上运行数据生成管道，其中包含超过 250 万次转换。

机器人策略的高效思维链推理

推理速度是 ECoT 策略面临的一个关键挑战。模型需要预测的额外推理tokens，可以通过将每个时间步长要预测的tokens数量从 OpenVLA 的 7 个增加到 ECoT 的 350 个来显著降低可实现的控制频率。探索一种加快推理速度的简单解决方案：将推理链的各个部分（如高级规划或当前子任务）保持在多个步骤中不变。至关重要的是，对于基于 Transformer 的策略（如 OpenVLA），编码先前预测的tokens比生成token要快得多。比较两种这样的策略：（1）同步执行，每 N 步预测一次高级推理，以及（2）异步执行，其中一个 ECoT 策略实例不断更新高级推理链，而第二个策略实例使用最新的推理链来预测低级推理步骤和机器人动作。注：这些运行时改进与广泛用于提高大语言和视觉=语言模型吞吐量的方法是正交的，例如优化的计算内核 [66] 和推测解码 [67]，将这些方法留待将来的研究。

机器人设置和训练数据如下。

用 Bridge V2 论文 [13] 中的 6-DoF WidowX 机械臂进行评估，这是一种用于评估可推广机器人策略的常用设置 [16, 7]。给定一个第三人称摄像头和自然语言指令，该策略可预测末端执行器速度动作以控制机器人。Walke [13] 提供了一个包含 60k 个演示的大型多样化遥控数据集。在此数据集上应用本文思维链数据合成生成流程，以获得训练数据集。