RT-2(robotics-transformer2)论文--阅读笔记

论文地址:arxiv.org/pdf/2307.15818.pdf

论文的中文翻译可参考本专栏的另两篇文章。论文笔记是笔者对文章的理解,仅供参考。

作者单位:Google

文章概要

众所周知,transformer架构已经成为了GPT、LLaMa等大语言模型的基本形态。应用该架构可以帮助模型具有很好的文本理解和生成能力,并表现出很好的few-shot乃至zero-shot能力及泛化性能。同时,ViT和CLIP等工作将trasnformer架构用于图像识别,从而构建出了横跨NLP和CV两个模态的多模态大模型VLM(vision-language-model)。

RT-2的作者希望把LLM模型杰出的文本理解能力进行借鉴,将其应用于机器人领域。使机器人更能理解人的指令并作出反应。作者这里提出的VLA(vision-language-action)是在VLM模型基础上用机器人动作数据进行微调得到的。该模型的输入是自然语言指令和图像,输出是一系列的动作表示tokens。

机器人平台:EDR 7DOF

模型架构

模型的输入是语言和图像。语言经过embedding变成一个个token,图像经过ViT的方式变成token输入VLM。这里VLM经过微调的输出是一个数字序列,用于表示机器人的动作信息(速度、转动角度、机械爪是否伸展和命令终止,如下图)。作者把每个动作信息分成256份进行离散表示,这样每一个变量都可以用int8来表示。

其他很多将LLM用于机器人的工作是只把LLM用于指令分解;机器人再根据分解后的指令生成动作信息(比如要机器人拿一瓶冰可乐,LLM只是分解并告诉机器人"首先打开冰箱门","再拿出可乐"这两个更具体的指令)。这里作者用LLM直接生成动作序列,省略了中间环节。

作者分别使用PaLM-E和PaLI-X两个VLM模型在机器人数据上进行微调,并比较这两个模型的最终效果。其中作者的RT-2-PaLI-X模型有5B和55B两个版本,RT-2-PaLM-E模型参数是12B。

微调&数据集

作者这里使用了两类数据集。一类是互联网上的图像-文本配对信息,用于训练VLM图文匹配能力;这个大小是10B。另一类是机器人的动作数据集,这里用到的一个是之前RT1模型收集的数据集,另一个是language-table开源数据集。二者规模的数量级都是10万+场景;比图文的10B小很多。

作者采用了两种微调方式。一种是直接对预训练后的VLM利用机器人数据集进行微调。另一种是同时使用机器人数据集和互联网上的图片-文本数据集进行联合微调(co-fine-tuning)。这个计算量要大很多;由于网上的图像-文本数据集规模远大于机器人动作数据集,作者在训练时设置了二者的权重,让机器人动作数据大约占50~70%。

部署

由于RT-2的模型规模太大(55B或5B),这使得它无法在机器人本地运行。因此作者把模型在云服务器上运行,通过网络通信来控制机器人动作。对于5B版本的交互频率是5Hz,55B版本的频率只有1~3Hz。

因此作者在论文中也提出后续可以用模型蒸馏等方式缩小模型规模,争取使之能够在本地运行。另外作者呼吁有更多的开源VLM模型公布,以便作者进行微调训练,测试机器人的效果。

泛化能力

作者的机器人动作数据集其实只包含了七类动作场景,对应机器人的七种技能,包括"Pick Object”、“Move Object Near Object”、“Place Object Upright”、“Knock Object Over”、“Open Drawer”、“Close Drawer”、“Place Object into Receptacle”和“Pick Object from Receptacle and place on the counter”。

但是最终的机器人可以对训练集中未出现的物品/场景进行操纵,还能够进行一些更复杂的指令。这说明了机器人具备很好的泛化能力。能够“举一反三”,具备few-shot。

模型效果

作者分别与RT-1,VC-1,R3M,MOO的结果进行了比较。结果表明RT-2模型的表现均为SOTA,尤其对陌生物品、场景下的表现进步极大。

作者发现同时使用机器人动作数据和图-文数据集进行联合微调(co-fine-tuning)的效果要优于单纯使用机器人动作数据。此外,PaLI-X-55B的模型表现要优于PaLI-X-5B。

作者将RT-2的能力分为三类:推理、符号识别和人物识别:

此外,作者还使用了LLM中常用的CoT(chain of thought,思维链)技术进行提示,发现这能提高机器人的推理能力。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值