RT-2: Vision-Language-Action Models论文详解

最新推荐文章于 2024-06-07 22:24:10 发布

ZJ_NB

最新推荐文章于 2024-06-07 22:24:10 发布

阅读量463

点赞数

分类专栏：大模型论文阅读文章标签： python 语言模型机器人

本文链接：https://blog.csdn.net/zj_nb/article/details/134243869

版权

大模型论文阅读专栏收录该内容

1 篇文章 0 订阅

订阅专栏

RT-2 视觉语言动作模型

code：https://github.com/kyegomez/RT-2

Contributions

-RT-2模型：这是一系列的模型，在网络规模数据上对大型视觉-语言模型进行微调，实现具有泛化能力和语义意识的机器人策略。
-实验研究了在互联网数据和带有指令注释的机器人轨迹上训练的含55B参数量的模型。6,000个机器人的评估过程表现出RT-2能够显著改善对物体、场景和指令的泛化能力，并且可以从web-scale vision-language预训练中继承到多样化新兴能力。

Method：Vision-Language-Action Models

在这里插入图片描述

预训练VLM

RT-2模型是建立在视觉语言模型（VLM）主干上的，如PaLM-E或PaLI-X。

机器人动作微调：在大规模Web数据上预训练的 VLM —>>可以直接输出机器人动作的 VLA 模型

为了确保VLM能控制机器人，必须要训练输出动作，具体做法是将动作（action）当作language tokens处理。
这里参照了RT-1中将动作编码离散化：action space包括机器人末端执行器的6个自由度（位置和旋转位移）、机器人夹持器的伸展程度、一个特殊的离散命令（用于终止该回合，应该由成功完成的信号触发）。（具体离散化为256维度的做法？）
在这里插入图片描述
实验中用到的两个VLM用不同的方法 tokenization：PaLI-X模型，整数值在1000以内都有唯一的标记，可以将动作箱子与表示相应整数的标记关联起来；而对于PaLM-E模型，它没有提供这种方便的数字表示方式，因此简单地覆盖了最不常使用的256个标记，以表示动作词表。

得到动作表示后，可以将robot data转化为VLM微调的数据。输入为：robot camera image + textual task description 输出为：数字字符串/最不常用的 tokens 来代表动作

改善机器人性能的一个关键技术细节是将原始网络数据和机器人数据进行协同微调，而不是仅仅对机器人数据进行朴素微调。
RT-2和标准的VLMs之间的一个重要区别在于，RT-2必须输出适用于在真实机器人上执行的有效动作标记。

实时推理

论文开发了一种协议，允许在云服务中部署RT-2模型，并通过网络查询此服务以在机器人上运行它们。使用这个解决方案，可以实现合适的控制频率，同时还可以使用同一云服务为多个机器人提供服务。

Experiment

RT-2在已知任务上的表现如何?在新的物体、背景和环境上泛化表现怎么样？
泛化评估主要分为以下几种情况：分为见过和未见过的类别（物体、背景和环境），进一步分为容易和困难：对于未见过的物体，困难情况包括难以抓取和更独特的物体（如玩具）；对于未见过背景，困难情况包括更多样化的背景和新颖的物体；对于未见过的环境，困难情况是更具视觉差异的办公桌环境，有显示器和配件，而较容易的环境是一个厨房水槽。

评估结果如图和表所示。在可见任务上，RT-2模型和RT-1模型的性能相似，而其他baseline的成功率较低。RT-2模型和baseline之间的差异在各种泛化实验中最为明显，这表明VLA模型的优势在于将更具泛化性的视觉和语义概念从其互联网规模的预训练数据中提取出来。

平均而言，RT-2的两个模型实例表现相似，比RT-1和MOO的性能提高了约2倍，比其他基线模型提高了约6倍。RT-2的PaLM-E版本在更难的泛化场景中似乎表现更好，而在更容易的场景中表现不佳。
我们能观察和测量RT-2的任何新兴能力吗？
除了评估视觉-语言-行为模型的泛化能力之外，文章还想要评估这些模型能够从网络中转移知识，从而实现超越机器人数据所示能力的程度。（这种转移不能够实现新的机器人动作）
新兴能力的定性评估。
新兴能力的定量评估。为了量化这些新兴能力，选择了前期评估中排名前两位的基线模型，即RT-1和VC-1，并将它们与论文的两个模型进行比较：RT-2-PaLI-X和RT-2-PaLM-E。
泛化性能随参数数量和训练方式的变化
论文比较了两种不同的模型大小，5B和55B，以及三种不同的训练流程：从头开始训练模型，不使用任何来自VLM预训练的权重；仅使用机器人动作数据对预训练模型进行微调；以及共同微调（与微调共同训练）：

Limitations

通过VLM包括网络规模的预训练可以提高语义和视觉概念的泛化能力，但机器人并没有因为包括这种额外的体验而获得任何执行新运动的能力。
尽管论文展示了可以实时运行大型VLA模型，但这些模型的计算成本很高，而且由于这些方法应用于需要高频控制的设置，实时推理可能会成为一个主要瓶颈。未来研究的一个方向是探索量化和蒸馏技术，使这些模型能够以更高的速率或在更低成本的硬件上运行。

ZJ_NB

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
RT-2: Vision-Language-Action Models论文详解

实验中用到的两个VLM用不同的方法 tokenization：PaLI-X模型，整数值在1000以内都有唯一的标记，可以将动作箱子与表示相应整数的标记关联起来；这里参照了RT-1中将动作编码离散化：action space包括机器人末端执行器的6个自由度（位置和旋转位移）、机器人夹持器的伸展程度、一个特殊的离散命令（用于终止该回合，应该由成功完成的信号触发）。-RT-2模型：这是一系列的模型，在网络规模数据上对大型视觉-语言模型进行微调，实现具有泛化能力和语义意识的机器人策略。
复制链接

扫一扫