当我们拿起一个机械手表时,从正面会看到表盘和指针,从侧面会看到表冠和表链,打开手表背面会看到复杂的齿轮和机芯。每个视角都提供了不同的信息,将这些信息综合起来才能理解操作对象的整体三维。
想让机器人在现实生活中学会执行复杂任务,首先需要使机器人理解操作对象和被操作对象的属性,以及相应的三维操作空间,包括物体位置、形状、物体之间的遮挡关系,以及对象与环境的关系等。
其次,机器人需要理解自然语言指令,对未来动作进行长期规划和高效执行。使机器人具备从环境感知到动作预测的能力是具有挑战性的。
近期,中国电信人工智能研究院(TeleAI)李学龙教授团队联合上海人工智能实验室、清华大学等单位,模拟人「感知—记忆—思维—想象」的认知过程,提出了多视角融合驱动的通用具身操作算法,为机器人学习复杂操作给出了可行解决方案,论文被国际机器学习大会ICML 2024录用,为构建通用三维具身策略奠定了基础。
近年来,视觉基础模型对图像的理解能力获得了飞速发展。然而,三维空间的理解还存在许多挑战。能否利用视觉大模型帮助具身智能体理解三维操作场景,使其在三维空间中完成各种复杂的操作任务呢?受「感知—记忆—思维—想象」的认知过程启发,论文提出了全新的基于视觉分割模型Segment Anything(SAM)的具身基座模型SAM-E。
首先,SAM- E具有强大可提示(promptable)「感知」能力,将SAM特有的分割结构应用在语言指令的具身任务中,通过解析文本指令使模型关注到场景中的操作物体。
随后,设计一种多视角Transformer,对深度特征、图像特征与指令特征进行融合与对齐,实现对象「记忆」与操作「思考」,以此来理解机械