如何让机器人在任务指引和实时观测的基础上规划未来动作,一直是具身智能领域的核心科学问题。然而,这一目标的实现受两大关键挑战制约:模态对齐:需在语言、视觉和动作等多模态空间中建立精确的对齐机制。数据稀缺:缺乏规模化、多模态且具备动作标签的数据集。针对上述难题,智元机器人团队提出了EnerVerse架构,通过自回归扩散模型(autoregressive diffusion),在生成未来具身空间的同时引导机器人完成复杂任务。不同于现有方法简单应用视频生成模型,EnerVerse深度结合具身任务需求,创新性地引入稀疏记忆机制(Sparse Memory)与自由锚定视角(Free Anchor View, FAV),在提升4D生成能力的同时,实现了动作规划性能的显著突破。实验结果表明,EnerVerse不仅具备卓越的未来空间生成能力,更在机器人动作规划任务中实现了当前最优(SOTA)表现。项目主页与论文已上线,模型与相关数据集即将开源:主页地址:https://sites.google.com/view/enerverse/home
论文地址:https://arxiv.org/abs/2501.01895![
如何让未来空间生成赋能机器人动作规划?机器人动作规划的核心在于基于实时观测和任务指令,预测并完成一系列复杂的未来操作。然而,现有方法在应对复杂具身任务时存在如下局限:通用模型局限性ÿ