25年5月来自北京大学和北京智源的论文“RoboOS: A Hierarchical Embodied Framework for Cross-Embodiment and Multi-Agent Collaboration”。
具身智能的兴起,为下一代工业生态系统带来前所未有的挑战,即需要具备韧性、认知驱动的多智体协作,从而彻底改变自主制造、自适应服务机器人和信息物理融合生产架构的范式。然而,当前的机器人系统面临着诸多限制,例如跨具身适应性有限、任务调度效率低下以及动态纠错能力不足。端到端视觉-语言-动作 (VLA) 模型在长期规划和任务泛化方面存在不足,而分层 VLA 模型则缺乏跨具身兼容性和多智体协调能力。为了应对这些挑战,RoboOS 基于大脑-小脑分层架构构建的开源具身系统,实现从单智体到多智体的范式转变。具体来说,RoboOS 由三个关键组件组成:(1)具身大脑模型(RoboBrain),一种为全局感知和高级决策而设计的多模态大语言模型(MLLM);(2)小脑(Cerebellum)技能库,一种模块化、即插即用的工具包,可促进多种技能的无缝执行;(3)实时共享内存,一种用于协调多智体状态的时空同步机制。通过整合分层信息流,RoboOS 连接具身大脑和小脑技能库,促进长期任务的稳健规划、调度和纠错,同时通过实时共享内存确保高效的多智体协作。此外,还增强了边云通信和基于云端的分布式推理,以促进高频交互并实现可扩展部署。 RoboOS 在餐厅、家庭和超市等各种场景下进行的大量真实世界实验,证明其在支持单臂、双臂、人形和轮式等异构具身机器人方面的多功能性。这种能力为跨具身协作提供可扩展且实用的解决方案,推动具身智能的前沿发展。
如图所示