25年3月来自北大、北京智源和 BeingBeyond 的论文“Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills”。
构建能够在现实世界具身任务中达到人类水平表现的自主机器人智体,是人形机器人研究的终极目标。近期,基于基础模型 (FM) 的高级认知和人形机器人的低级技能开发取得显著进展。然而,直接组合这些组件通常会导致鲁棒性和效率下降,因为在长周期任务中会出现复合误差,并且不同模块的延迟各不相同。引入 Being-0,一个集成基础模型和模块化技能库的分层智体框架。基础模型负责处理指令理解、任务规划和推理等高级认知任务,而技能库则为低级控制提供稳定的运动和灵巧的操作。为了弥合这些层次之间的差距,提出一个连接器模块,它由轻量级视觉语言模型 (VLM) 驱动。连接器通过将基于语言的规划转化为可操作的技能命令,并动态协调运动和操作来提高任务成功率,从而增强 FM 的具身能力。由于 Being-0 的所有组件(FM 除外)均可部署在低成本的机载计算设备上,因此它能够在配备灵巧手和主动视觉的全尺寸人形机器人上实现高效的实时性能。在大型室内环境中进行的大量实验证明, Being-0 在解决包括具有挑战性的导航和操作子任务的复杂、长视域任务方面,具备有效性。
在不断发展的具身人工智能领域,人形机器人代表着实现人类水平智能的理想平台,能够以类似人类的方式与现实世界进行物理交互。为了实现人形机器人能够像人类一样自主执行任务的最终目标,当前的研究主要集中于提升个体技能,包括运动能力(Radosavovic,2024;Zhuang,2024)、双手操作能力(Ze,2024a;Li,2024a;Zhou,2024)以及全身控制能力(He,2024a;Fu,2024a)。然而,为人形机器人构建完全自主的智体仍然是一项重大且尚未得到充分探索的挑战。
自主机器人智体必须通过将语言指令转化为可行的规划,并可靠地整合技能以完成长期任务,从而解决现实世界中各种具身任务。近期,机器人智体领域的研究(Firoozi,2023;Hu,2023)已将基础模型 (FM) 与基于学习的机器人技能相结合,利用 FM 在通用视觉语言理解方面的能力进行技能规划(Ahn,2022;Chen,2024)、成功检测(Huang,2022 年)和推理。虽然这些方法在构建机械臂(Liang,2023 年)、轮式机器人(Ahn,2022 年)和四足机器人(Chen,2024)智体方面取得一些成功,但同样的成功能否在人形机器人上复制?本文介绍 Being-0,一个专为人形机器人设计的分层智体框架。
首先为一个基于FM的通用智体框架(Tan et al., 2024)配备一个模块化机器人技能库。该技能库包含基于操纵杆指令的鲁棒运动技能,以及一组带有语言描述的操控技能,这些技能是通过最先进的遥操作(Cheng et al., 2024b)和模仿学习(Zhao et al., 2023)方法获得的。这些技能使机器人能够根据语言指令行走和操控物体。原则上,FM 智体可以基于图像观察以闭环方式调用这些技能来解决长周期任务。然而,人形机器人给这样的系统带来了独特的挑战。
与轮式机器人不同,轮式机器人可以精确地遵循规划的导航轨迹并在特定位置停止以进行物体操作,而人形机器人在双足运动中面临着固有的不稳定性。这种不稳定性需要频繁调整运动命令以纠正错误。然而,现有的FM(例如GPT-4o)在推理效率和具身场景理解方面存在局限性,这使得人形智体在长视域任务的导航和操作交替阶段中反应迟钝、鲁棒性较差。
为了应对这些挑战,提出一个新连接器模块,它充当Being-0中FM和技能库之间的中间层。
如图所示,设想一个拥有 41 个自由度 (DoF) 的人形机器人,包括 13 个自由度的下肢(两条腿和一个躯干)、两个 7 个自由度的手臂、两个 6 个自由度的灵巧手和一个 2 个自由度的颈部。多指灵巧手可实现复杂的类人操作,而配备双目 RGB 摄像头的驱动颈部则提供主动视觉。这种硬件配置赋予机器人在视觉感知、导航和物体交互方面达到人类水平的灵活性。
自主智体的目标是通过控制机器人的全身关节来完成用自然语言描述的真实世界任务。形式上,智体可以随时访问任务描述 l(例如“煮一杯咖啡”),并可以查询机器人的观测数据,包括:(1)本体感觉:(ql,qu,qh;q.;ω),其中 ql、qu、qh 分别表示下半身、上半身和颈部的关节位置;q̇. 表示关节速度;ω 是从 IMU 获取的根速度和角速度。(2)视觉输入:来自左右摄像头的双目 RGB 图像 ol、or。智体可以采取动作(al,au,a^h),其分别为下半身、上半身和颈部的 PD 控制器指定目标关节位置。
人类依靠分层系统来解决现实世界的任务,而不是将任务描述和观测数据直接映射到肌肉驱动上。例如,“煮咖啡”的任务首先根据先前经验分解为“找到杯子、抓住杯子、找到咖啡机……”等详细规划。然后,重复利用已练习过的运动技能(例如行走和抓取)来按顺序执行任务。机器人智体领域的最新进展(Ahn,2022;Huang,2022)采用这种方法,将高级规划器与低级技能库相结合。
模块化技能库
面临的第一个挑战是:如何为人形机器人获取多样化、稳健的低级技能,以支持其解决现实世界中的长期任务?在全身控制的文献中(Fu et al., 2024a; He et al., 2024a),针对单个技能的策略,通常将观察结果映射到全身目标关节位置,同时控制腿部运动和手臂操控。然而,由于通过单一策略实现精确操控、稳定运动和模拟到现实的部署十分复杂,这些方法尚未开发出广泛的操控技能。
对于大多数任务,下半身和上半身具有不同的功能:下半身主要用于导航,而上半身用于操控(Cheng et al., 2024a)。这一观察促使基于近期研究进展(Kim,2024;Cheng,2024b),分别开发稳定下肢运动和上肢操控的技能,这些进展证明在保持下肢固定的同时获得丰富上肢操控技能的可行性。
基于操纵杆指令的稳定运动。控制下肢关节的运动技能必须能够在各个方向上导航,并在操控任务中保持稳定站立。采用强化学习 (RL) 方法(Ha,2024)在模拟(Makoviychuk,2021)中训练目标条件化的本体感受策略 πL(al | ql, qu, q., ω; vg),然后以 50 Hz 的控制频率进行模拟-到-现实的部署。其中,v^g 表示操纵杆速度指令。通过在模拟过程中融入域随机化和外力,该技能使机器人能够根据操纵杆指令行走并保持平衡。为了将其集成到技能库中,定义一组基于不同操纵杆指令的运动技能,以及用于调整头部以进行主动视觉的技能:{无动作、直行、后退、左转、右转、左闪、右闪、倾斜头部、转动头部}。
获取操控技能。遥操作和模仿学习已成为一种低成本获取各种机器人操控技能的有效方法。为了为配备两只灵巧手和主动视觉的人形机器人收集高质量的类人操控数据,参考近期的研究成果 (Cheng et al., 2024b),使用 Apple VisionPro 进行遥操作。双目图像观测 o_l 或 被投射到 VisionPro 上,捕捉的人体头部、手腕和手指运动以 10 Hz 的控制频率重定位到机器人动作。对于每项技能,记录遥操作轨迹 τ = {(ol_t, or_t, q_tu, q_th, a_tu, a_th)},包括机器人的观测和动作(不包括下半身)。用 ACT(Zhao,2023),一种基于 Transformer 架构的行为克隆方法,来为每个操作技能 M_i 训练策略 πM_i([a_ju, a_jh] | q_tu, q_th, a_tu, a_t^h),并与诸如“抓取瓶子”之类的语言描述相关联。预测动作序列的长度 K 在训练期间设置为 30,在部署期间设置为 10。这种方法确保技能库的可扩展性,因为通过 50 ∼ 150 条轨迹即可获取一项新技能,并且所需的遥操作时间不到 1 小时。
基础模型
智体的高级规划器,负责在不同任务和环境中做出技能层面的决策,这需要强大的通用视觉语言理解和推理能力。基础模型 (FM) 在这些领域表现出色,并在近期的 AI 智体研究中得到广泛应用 (Wang et al., 2024; Tan et al., 2024)。例如,基于 GPT-4o 构建的智体框架 Cradle (Tan et al., 2024) 已成功应用于开放世界游戏和软件开发,能够根据图像观察操作键盘和鼠标技能。受此工作的启发,改进 Cradle 框架,为类人机器人构建一个通用智体,使机器人能够运用技能库中的技能并解决现实世界的任务。
给定一条指令 l 和一个图像观察 o^l,FM(GPT-4o)执行三项关键决策功能:(1)推理:FM 生成观察的图像和指令的描述,帮助理解任务并确定当前的执行阶段。(2)检测:FM 评估最近执行的技能成功程度,识别失败和异常,以便为任务规划提供信息。(3)规划:根据推理和检测结果,FM 从技能库中选择下一个要执行的技能。
然而,在将 FM 与技能库直接集成时,遇到一些严重阻碍系统性能的挑战。双足运动固有的不稳定性,使得人形机器人在短时间行走后的位置变得难以预测,因此需要频繁调整操纵杆命令,而不是执行开环命令序列。此外,包括 GPT-4o 在内的现有 FM 难以准确理解 3D 场景,通常无法正确估计导航目标的方向和深度,从而导致技能规划错误。即使智体成功导航到目标位置(例如桌子),其最终站立位置也可能无法为后续操作技能(例如“抓取杯子”)提供合适的初始状态,从而导致任务失败(如图所示)。
此外,大型 FM 的推理速度较慢,显著降低系统效率,导致机器人移动缓慢,对动态环境的反应不够迅速。
为了应对这些挑战,在 Being-0 中提出一个连接器模块,它弥 FM 与技能库之间的差距,增强实时的具身决策能力。
连接器的主要目标,是将 FM 生成的基于高级语言规划可靠高效地转换为可执行的技能命令。连接器的核心,是一个轻量级的视觉-语言模型 (VLM),该模型基于带注释的导航数据进行训练,以增强智体的具身能力。该 VLM 支持多种下游功能,包括扎实的技能规划、闭环导航以及在执行长视域任务期间改进导航和操作之间的转换。
训练视觉语言模型
为了使 VLM 具备空间和物体理解能力,以及根据上下文预测未来技能的能力,基于第一人称导航图像数据集对其进行训练。这些图像带有语言描述、技能、目标标签和边框的注释。采用 VideoLLaMA2 (Cheng et al., 2024c) 作为主干架构,使用图像观测值和文本指令作为输入。该模型通过多任务学习进行优化,涵盖图像描述、技能预测和物体检测。经过训练的 VLM,在机载设备上所有任务的平均推理时间约为 1 秒,显著优于 GPT-4o 在云服务上的延迟。
落地的技能规划
VLM 的主要用途是将 FM 基于语言的规划和实时图像观测转化为可执行的技能规划,例如导航目标或操作技能。通过利用其对相对 3D 目标位置的增强理解,VLM 不仅可以将 FM 的规划扎实转化为可执行的技能,还可以在必要时对其进行修正或优化。例如:如果 FM 生成“抓取杯子”的规划,但机器人距离桌子仍然较远,则 VLM 会将“抓取杯子”解读为长期目标,并输出可行的技能(例如,“移向(桌子)”)。相反,如果 FM 规划“找一张桌子”,但机器人已经在桌子旁了,VLM 的导航功能会向 FM 发出成功信号,提示其通过推理执行下一个技能。此功能可确保计划的技能始终基于物理环境,从而减少错误并提高任务成功率。
结合运动技能的视觉导航
为了使机器人能够到达视觉导航目标(例如,桌子),连接器 (Connector) 会利用 VLM 的视觉理解和物体检测功能。当目标物体位于机器人的视野范围内时,连接器会使用检测的边框和双目图像的合成深度来估计其相对位置。基于此估计,VLM 会选择最合适的运动技能朝物体方向移动。如果物体未见过,VLM 会触发探索程序,结合运动技能和主动摄像机运动来搜索目标。与采用固定摄像头的系统相比,该方法显著增强机器人定位物体的能力。
通过将 VLM 的高效推理能力与模块化运动技能相结合,该方法加速人形机器人的导航,同时保持动态环境中的鲁棒性。
协调导航和操作
为了解决导航过程可能因后续操作技能未达到最佳姿态而终止的难题,提出一种使用 VLM 的姿态调整方法。在导航过程中,VLM 不仅预测物体的边框,还会预测机器人相对于物体的最佳对准方向。如果机器人当前的朝向与该对准方向偏离,VLM 会触发结合头部旋转和前向运动的复合技能来调整机器人的姿态。这使得机器人能够沿着弧形路径接近目标物体,确保其到达最佳操作位置。
总结
如图展示 Being-0 的工作流程,突出连接器模块的作用。总而言之,具身的连接器在执行长周期任务方面提供了多项关键优势。通过利用轻量级的VLM,连接器确保实时响应能力,使机器人能够动态地适应环境变化。这种实时能力对于高效执行任务至关重要,因为连接器能够动态地选择和排序模块化技能,从而显著降低操作延迟。与 FM 不同,VLM 增强的空间理解能力使机器人能够准确地感知和响应周围环境,并将基于语言的抽象规划基于实时视觉输入。
真实世界设置
在 Unitree H1-2 人形机器人上进行实验,该机器人配备两个 Inspire 机械手用于操控,两个 Dynamixel 电机用于颈部运动,以及一个安装在颈部用于主动视觉的 ZED-mini 摄像头。NVIDIA Jetson AGX 板载设备用于部署连接器和所有模块化技能。
实验环境是一个 20×20 米的大型办公场景,包含多个办公隔间、一张木桌、一台咖啡机以及连接接待室和会议室的走廊。这种复杂且人员密集的环境为评估机器人的导航和长距离任务执行能力提供了一个极具挑战性的基准。
为了构建操控技能库,收集了各种日常操控任务的数据,包括单手和双手操作任务,例如抓取和放置物体、操作装有物品的篮子、使用咖啡机以及玩积木和下棋。
通过一系列多样化的长线任务来评估智体,旨在测试系统在任务规划和技能执行方面的稳健性。这些任务包括:
• 取瓶和送篮:这些任务要求机器人导航至远处的木桌并执行操作任务。
• 准备咖啡、冲泡咖啡和送咖啡:这些任务极具挑战性,由多个子任务组成,需要精确的操作技能,例如按下咖啡机上的按钮并将杯子放置在正确的位置。
如图所示:在长期任务“准备咖啡”中,去除连接器的 Being-0 与完整 Being-0 的比较。