视觉机器人操控的大规模视频生成式预训练

23年12月来自字节的论文“Unleashing Large-Scale Video Generative Pre-Training For Visual Robot Manipulation”。

通过学习有用的表示,生成式预训练模型在语言和视觉领域表现出了显著的有效性。本文扩展这种有效性的范围,表明视觉机器人操作可以显著受益于大规模视频生成式预训练。GR-1,​​是一个简单的 GPT 风格模型,专为多任务语言条件视觉机器人操作而设计。GR-1 将语言指令、观测图像序列和机器人状态序列作为输入。它以端到端的方式预测机器人动作以及未来的图像。由于设计灵活,GR-1 可以在大规模视频数据集上进行预训练后,无缝地在机器人数据上进行微调。该方法对具有挑战性的 CALVIN 基准和真实机器人进行大量实验。一个统一的 GPT 风格Transformer,加上大规模视频生成预训练,在多任务视觉机器人操作中表现出显著的泛化能力。

GR-1 架构如图所示:

请添加图片描述

如下是GR-1中编码器和解码器的架构:

请添加图片描述

输入包括:

  • 语言输入。语言 l 通过文本编码器进行编码(图(a))。按照(Shridhar,2022;2023),用 CLIP(Radford,2021)作为语言编码器。
  • 视觉输入。视觉观察 o 通过已使用 MAE 进行预训练的 Vision Transformer (ViT) 进行编码(He,2022)(图©)。输出 CLS tokens zCLS 用作图像的全局表示。输出patch tokens zp1:i 用作局部表示,o 使用感知器重采样器(Jaegle,2021)进一步处理以减少tokens数量。
  • 机器人状态输入。机器人状态 s 包含机器人末端执行器的 6D 位姿 sarm 和夹持器的二进制状态 sgripper。用线性层对它们进行编码(图(b))。

视频预测附加一个由自注意块和多层感知器 (MLP) 组成的 Transformer 解码器。解码器对对应于 [OBS] token和掩码token的输出进行操作(图(d))。每个掩码tokens都是一个共享且可学习的嵌入,并添加相应的位置编码。对应于掩码tokens的输出重建预测的未来图像patches。按照 (He2022)的研究,损失函数 Lvideo 计算像素空间中重建图像和原始图像之间的均方误差 (MSE)。从[ACT]token的输出通过线性层来预测手臂和夹持器的动作(图(e))。由于手臂动作是连续的,用 Smooth-L1 损失 Larm 进行训练。使用二元交叉熵 (BCE) 损失 Lgripper 优化夹持器动作。

CALVIN 是一个具有挑战性的基准,专注于学习语言条件策略,实现长远的机器人操作(如图所示)。它包含 34 项任务,具有不受约束的语言指令。环境包含一个带有平行钳口夹持器的 Franka Emika Panda 机器人和一张带滑动门的桌子、一个可以打开或关闭的抽屉、不同颜色的积木、一个 LED 和一个可以打开或关闭的灯泡。

请添加图片描述

实验设置。对于动作预测,与 (Mees 2022c) 类似,训练 GR-1 来预测手臂动作和二元夹持器动作的 XYZ 位置增量和欧拉角增量。训练数据集包含超过 20,000 条与语言指令标签配对的专家轨迹。注:CALVIN 数据集包含 24 小时遥控无目的游戏数据。为了模拟真实场景,只有 1% 的数据包含众包语言指令标签,在此基础上训练方法。对两部分数据进行实验:ABCD→D 和 ABC→D。A、B、C 和 D 代表四种不同的环境(如图所示)。

请添加图片描述

这四种环境在桌子颜色和物体配置方面有所不同。在 ABCD→D 中,用来自所有四种环境的数据训练模型,并在环境 D 中进行评估。在 ABC→D 中,使用来自环境 A、B 和 C 的数据训练模型,并在训练期间未见过的环境 D 中进行评估。

基线方法。与四种基线方法进行比较:MCIL(Lynch & Sermanet,2020)、RT-1(Brohan,2022)、HULC(Mees,2022b)和 R3M 的多任务版本(Nair,2022)。 RT-1 (Brohan, 2022) 是一种最先进的方法,它使用卷积层和转换器以端到端的方式生成动作。它使用 FiLM 层通过语言指令的预训练嵌入来调节卷积层。MCIL 和 HULC 采用分层方法,首先生成潜规划,然后根据策略调节规划,预测动作。这两种方法将语言指令和从静态和夹持器相机拍摄的观察图像作为输入。为了展示视频生成预训练的有效性,将其与另一种预训练方法 R3M (Nair et al., 2022) 进行比较,该方法也是在 Ego4D 数据集上进行预训练的。用 R3M 对观测图像进行编码,并利用 GPT 样式的Transformer输出动作。可训练参数的数量与 GR-1 中的数量相同。在训练期间冻结 R3M 图像编码器,就像 (Nair et al. 2022) 一样。将这种多任务方法称为 MT-R3M。MCIL 和 HULC, 在包含带语言注释数据和不带语言注释数据的完整 CALVIN 数据集上进行训练。RT-1、MT-R3M 和GR-1方法在带语言注释的数据上进行训练,这些数据占整个数据集的 1%。

  • 10
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值