RT-2(robotics-transformer2)论文--阅读笔记

论文地址:arxiv.org/pdf/2307.15818.pdf

论文的中文翻译可参考本专栏的另两篇文章。论文笔记是笔者对文章的理解,仅供参考。

作者单位:Google

文章概要

众所周知,transformer架构已经成为了GPT、LLaMa等大语言模型的基本形态。应用该架构可以帮助模型具有很好的文本理解和生成能力,并表现出很好的few-shot乃至zero-shot能力及泛化性能。同时,ViT和CLIP等工作将trasnformer架构用于图像识别,从而构建出了横跨NLP和CV两个模态的多模态大模型VLM(vision-language-model)。

RT-2的作者希望把LLM模型杰出的文本理解能力进行借鉴,将其应用于机器人领域。使机器人更能理解人的指令并作出反应。作者这里提出的VLA(vision-language-action)是在VLM模型基础上用机器人动作数据进行微调得到的。该模型的输入是自然语言指令和图像,输出是一系列的动作表示tokens。

机器人平台:EDR 7DOF

模型架构

模型的输入是语言和图像。语言经过embedding变成一个个token,图像经过ViT的方式变成token输入VLM。这里VLM经过微调的输出是一个数字序列,用于表示机器人的动作信息(速度、转动角度、机械爪是否伸展和命令终止,如下图)。作者把每个动作信息分成256份进行离散表

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值