RT-1
2022年 Google 机器人研究团队历时17个月基于13个机器人得到了 130k episodes 以及超过700个任务的数据,这些数据可以使机器人能够形成很好的泛化能力,从而使机器人能够发现结构相似任务之间的模式,且应用到新任务上。该数据集不仅仅规模很大,而且广度很大。在该数据集的基础之上,基于模仿学习中行为克隆学习范式,把 Transformer 应用机器人的操纵任务上,提出了 RT-1模型。
RT-1,它可以把相机图片、指令与电机命令作为输入,即可对高维的输入与输出进行编码。RT-1 的架构、数据集、以及评估概览,可见图1所示。
最终,实验表明 RT-1 可以展示较强的泛化能力和鲁棒性,可见图1.b,且可以执行长期任务。
该系统主要的贡献:RT-1 是一个高效的模型,可以吸收大量的数据,可高效的泛化,且可实时对机器人进行控制。RT-1 的输入由图片序列、自然语言指令构成,输出由机械臂运动的目标位姿( roll , pitch yaw , gripper status)、基座的运动 、模式转换指令构成。机器人有三个模式,分别是:控制机械臂、基座、或者终止。
RT-2
2023年 Google 的 DeepMind 团队基于互联网上数据训练视觉-语言模型(VLM),使其能够学习到更多关于视觉和语言之间映射关系的知识后,在机器人操纵任务上微调,提出了 RT-2 。
与 RT-1 关注模型的泛化能力相比, RT-2 的目标是训练一个机器人观测到动作的端到端模型,且能够利用大规模预训练视觉语言模型的益处。最终,提出了一个在机器人轨迹数据和互联网级别的视觉语言任务联合微调视觉语言模型的学习方式。这类学习方法产生的模型被称为 vision-language-action(VLA) 模型。经过评估,发现该类模型获得了涌现能力,包括泛化到新对象的能力、解释命令的能力、根据用户指令思维推理的能力。如图所示,
简单来说, RT-1 是利用预训练模型对视觉与语言进行编码,然后再通过解码器输出动作。与之不同, RT-2 把语言、动作、图片放在一个统一的输出空间,利用 VLMs 产生语言,也可以理解为“动作”为特殊的语言。总的来说, RT-2 分 为两步:首先对 VLMs 在大规模互联网数据进行预训练(基于PaLM-E和PaLI-X),然后在机器人任务上微调(RT-2 直接把动作tokens当作语言tokens)。
为了能够实时控制机器人,把模型部署在云服务上,机器人通过服务请求的方式获取控制指令。
RT-H
参考《RT-H:谷歌的端到端视觉-语言-动作机器人大模型-CSDN博客》
RT-H也是个端到端的框架,单一模型同时处理语言动作和行动查询。
其主要贡献是:
1. 将复杂任务分解成简单的语言指令
2. 将语言指令转化为机器人行动
3. 支持对模型进行语言动作干预的微调
4. 开发了一种自动化方法,从机器人本体感受中提取简化的语言动作集,建立了超过2500个语言动作数据库,无需手动标注
参考:
1. RT-1: Robotics Transformer (robotics-transformer1.github.io)
2. RT-2: Vision-Language-Action Models (robotics-transformer2.github.io)
3. RT-H: Action Hierarchies Using Language (rt-hierarchy.github.io)