RT-1、RT-2、RT-H:谷歌具身智能系列工作

RT-1

2022年 Google 机器人研究团队历时17个月基于13个机器人得到了 130k episodes 以及超过700个任务的数据,这些数据可以使机器人能够形成很好的泛化能力,从而使机器人能够发现结构相似任务之间的模式,且应用到新任务上。该数据集不仅仅规模很大,而且广度很大。在该数据集的基础之上,基于模仿学习中行为克隆学习范式,把 Transformer 应用机器人的操纵任务上,提出了 RT-1模型。

RT-1,它可以把相机图片、指令与电机命令作为输入,即可对高维的输入与输出进行编码。RT-1 的架构、数据集、以及评估概览,可见图1所示。

最终,实验表明 RT-1 可以展示较强的泛化能力和鲁棒性,可见图1.b,且可以执行长期任务。

该系统主要的贡献:RT-1 是一个高效的模型,可以吸收大量的数据,可高效的泛化,且可实时对机器人进行控制。RT-1 的输入由图片序列、自然语言指令构成,输出由机械臂运动的目标位姿( roll , pitch  yaw , gripper  status)、基座的运动 、模式转换指令构成。机器人有三个模式,分别是:控制机械臂、基座、或者终止。

RT-2      

2023年 Google 的 DeepMind 团队基于互联网上数据训练视觉-语言模型(VLM),使其能够学习到更多关于视觉和语言之间映射关系的知识后,在机器人操纵任务上微调,提出了 RT-2 。

与 RT-1 关注模型的泛化能力相比, RT-2 的目标是训练一个机器人观测到动作的端到端模型,且能够利用大规模预训练视觉语言模型的益处。最终,提出了一个在机器人轨迹数据和互联网级别的视觉语言任务联合微调视觉语言模型的学习方式。这类学习方法产生的模型被称为 vision-language-action(VLA) 模型。经过评估,发现该类模型获得了涌现能力,包括泛化到新对象的能力、解释命令的能力、根据用户指令思维推理的能力。如图所示, 

简单来说, RT-1 是利用预训练模型对视觉与语言进行编码,然后再通过解码器输出动作。与之不同, RT-2 把语言、动作、图片放在一个统一的输出空间,利用 VLMs 产生语言,也可以理解为“动作”为特殊的语言。总的来说, RT-2 分 为两步:首先对 VLMs 在大规模互联网数据进行预训练(基于PaLM-E和PaLI-X),然后在机器人任务上微调(RT-2 直接把动作tokens当作语言tokens)。

为了能够实时控制机器人,把模型部署在云服务上,机器人通过服务请求的方式获取控制指令。

RT-H

参考《RT-H:谷歌的端到端视觉-语言-动作机器人大模型-CSDN博客

RT-H也是个端到端的框架,单一模型同时处理语言动作和行动查询。

其主要贡献是:

1. 将复杂任务分解成简单的语言指令

2. 将语言指令转化为机器人行动

3. 支持对模型进行语言动作干预的微调

4. 开发了一种自动化方法,从机器人本体感受中提取简化的语言动作集,建立了超过2500个语言动作数据库,无需手动标注

参考:

1. RT-1: Robotics Transformer (robotics-transformer1.github.io)

2. RT-2: Vision-Language-Action Models (robotics-transformer2.github.io)

3. RT-H: Action Hierarchies Using Language (rt-hierarchy.github.io)

  • 29
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要在RT-Thread中添加Google Test,可以按照以下步骤进行操作: 1. 下载Google Test库:首先,从Google Test的官方仓库(https://github.com/google/googletest)下载最新的Google Test库。 2. 将Google Test库添加到RT-Thread项目中:将下载的Google Test库解压缩,并将其添加到您的RT-Thread项目的源代码目录中。 3. 配置Google Test:进入Google Test库的目录,找到"CMakeLists.txt"文件并打开它。根据您的RT-Thread项目配置,对"CMakeLists.txt"文件进行必要的修改。例如,您可能需要更改编译器设置、链接器脚本等。 4. 生成Google Test库:使用CMake工具生成适用于您的RT-Thread项目的Google Test库。可以使用命令行或图形界面工具来运行CMake。 5. 配置测试代码:在RT-Thread项目中创建一个新的文件夹,用于存放测试代码。在该文件夹中创建一个新的C++源文件,例如"test.cpp"。 6. 编写测试代码:在"test.cpp"文件中编写您的测试代码。使用Google Test提供的宏来定义测试用例和断言。确保包含Google Test头文件,并链接Google Test库。 7. 配置测试构建选项:打开您的RT-Thread项目的构建选项,并确保已经配置了适当的编译器和链接器设置。将Google Test库的头文件目录添加到“Include Paths”中,并将Google Test库的库文件目录添加到“Libraries Paths”中。然后,在“链接器”设置中,将Google Test库添加到链接的库文件列表中。 8. 构建并执行测试:构建并下载您的RT-Thread项目到目标设备。然后,运行测试代码以执行Google Test测试。 这样,您就成功将Google Test添加到您的RT-Thread项目中,并可以使用它来编写和执行测试用例。请注意,移植Google Test到RT-Thread项目可能需要进行一些额外的配置和调整,以适应特定的硬件和编译环境。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值