SmolVLA：经济高效的机器人视觉-语言-动作模型

最新推荐文章于 2025-08-27 17:54:07 发布

原创最新推荐文章于 2025-08-27 17:54:07 发布 · 1.2k 阅读

29 ·

CC 4.0 BY-SA版权

文章标签：

#机器人 #人工智能 #深度学习 #语言模型 #计算机视觉

大模型同时被 3 个专栏收录

943 篇文章

订阅专栏

智能体

725 篇文章

订阅专栏

计算机视觉

666 篇文章

订阅专栏

25年6月来自 Hugging Face 的论文“SmolVLA: A vision-language-action model for affordable and efficient robotics”。

在大规模多模态数据集上预训练的视觉-语言模型 (VLM) 能够编码丰富的视觉和语言知识，为机器人技术奠定坚实的基础。近期的方法并非从零开始训练机器人策略，而是将 VLM 改编成视觉-语言-动作 (VLA) 模型，从而实现自然语言驱动的感知和控制。然而，现有的 VLA 通常规模庞大——通常包含数十亿个参数——导致训练成本高昂，且在实际应用中受限。此外，它们依赖于学术和工业数据集，忽略来自社区收集的、价格实惠机器人平台的日益普及的数据。本研究中 SmolVLA，是一款小型、高效且由社区驱动的 VLA，它能够大幅降低训练和推理成本，同时保持竞争性的性能。SmolVLA 旨在在单个 GPU 上进行训练，并部署在消费级 GPU 甚至 CPU 上。为了进一步提高响应速度，引入一个异步推理堆栈，将感知和动作预测与动作执行解耦，从而通过分块动作生成实现更高的控制速率。尽管 SmolVLA 小巧，但其性能却可与规模大 10 倍的 VLA 相媲美。在一系列模拟和现实世界的机器人基准测试中对 SmolVLA 进行评估，并发布所有代码、预训练模型和训练数据。

SmolVLA 如图所示：SmolVLA 由一个紧凑的预训练视觉语言模型组成，丢弃最后的 L − N 层（剪刀图标）。其余层嵌入三个输入：(i) 语言指令，(ii) RGB 图像，以及 (iii) 机器人感觉运动状态。它们合并的 token 输入给一个由交替的交叉注意（金色）和自注意（浅黄色）块组成的动作专家，该专家经过流匹配训练，输出 n 个低级动作块 a_t,…,a_t+n。SmolVLA 在公共社区数据集上进行预训练，并在低成本机器人上进行评估。

请添加图片描述

近年来，该领域已转向开发基础模型，即能够执行广泛任务的通用模型。这一趋势的一个突出例子是大语言模型 (LLM)，它们在理解和生成自然语言、复杂主题推理以及知识锚定方面表现出与普通人类相当的性能 (Brown，2020；Achiam，2023；Dubey，2024；Team，2023；Jiang，2023)。基于文本模型的成功已扩展到其他模态，引发人们对多模态视觉语言 (VLM)（Alayrac，2022；Chen，2023；Huang，2023；Liu，2023b；Chen，2024；Shukor，2023b）和音频语言模型 (ALM)（Défossez，2024；Das，2024；Borsos，2023）的兴趣。虽然在模态方面互补，但开发多模态基础模型的这些进展源于 (i) 采用可扩展架构，例如 Transformer (Vaswani，2017) 和 (ii) 互联网规模的训练数据集。

尽管基础模型在数字世界中取得显著成就，但在现实世界中的应用——尤其是在机器人领域——仍然有限。尤其是机器人策略（Zhao，2023；Chi，2024；Lee，2024；Hansen，2022）在跨物体类型、位置、环境和任务（Xie，2024；Ebert，2021）的泛化方面仍然面临挑战。机器人应该能够适应新的环境和新的物体，这需要强大的技能和对世界的常识性理解。然而，这方面的进展似乎常常受到高质量和多样化数据可用性的限制。

为了突破这一局限性，越来越多的研究开始探索以视觉-语言-动作 (VLA) 模型形式构建的机器人基础模型 (Team，2024；O’Neill，2024；Brohan，2023；Kim，2024；Black，2024；Bjorck，2025；Li，2024；Huang，2024)。VLA 旨在将抽象推理、世界知识和决策技能融入预训练的大语言模型和视觉-语言模型中。这些模型接受多模态输入（例如视觉观察和自然语言指令），并预测相应的机器人动作。早期结果表明，VLA 的泛化能力有望提升 (Black，2024；Brohan，2023)。

VLA 模型仍处于早期开发阶段，尚未像 LLM 和 VLM 那样成熟或被广泛采用。许多具有影响力的 VLA 进展仍处于专有阶段，许多模型仅共享权重，而未提供完整的训练细节和必要的方法论组件。虽然 VLA 模型在应对学术基准测试方面卓有成效，但要实现机器人技术达到人类水平，需要更加致力于开源工作。尤其需要指出的是，透明、可复现的开源模型和训练方案对于加速机器人研究社区的进步和促进更广泛的参与至关重要。

提倡开发价格合理、高效且可供更广泛社区使用的模型。虽然像 OpenVLA（Kim，2024）和 RT-2-X（O’Neill，2024）这样的项目证明开放式 VLA 系统的可行性，但它们仍然规模庞大、资源密集，并且依赖于昂贵的机器人平台，这阻碍了其普及性。
在这项工作中，SmolVLA，作为一项开源计划，其特点是紧凑但功能强大的 VLA 模型，与可重复且高效的训练和推理方案一起发布。SmolVLA 是一个轻量级 VLA，由一个紧凑的预训练 VLM 和一个经过流匹配训练的动作专家组成。给定多幅图像和一条描述任务的语言指令，该模型会输出一组动作。它首先在社区收集的数据集上进行模仿学习预训练，然后在真实世界和模拟环境中进行评估。预训练数据旨在涵盖各种任务和行为，使模型能够学习可在不同场景下迁移的通用身体技能。在推理阶段，引入一个异步执行堆栈，将动作执行与感知和预测分离，从而实现更快、更灵敏的控制。

模型架构

SmolVLA 由两个主要组件组成：(i) 一个预训练的 VLM，负责感知；(ii) 一个经过训练的行动专家。这两个组件相互关联，VLM 处理状态输入以生成特征，这些特征用于指导行动专家，而行动专家则生成行动，进而改变输入到 VLM 的状态。具体而言，VLM 处理感觉运动状态，包括来自多个 RGB 摄像头的图像以及描述任务的语言指令。反过来，VLM 输出特征，直接输入给行动专家，行动专家输出最终的连续动作。

视觉-语言模型 (VLM)。利用预训练的 VLM 作为感知机器人环境的主干。VLM 经过多种多模态数据的预训练，能够捕捉丰富的世界知识。为了保证效率和可访问性，选择 SmolVLM-2 (Marafioti et al., 2025)，这是一个针对多图像和视频输入进行优化的高效模型。 SmolVLM-2 依赖 SigLIP（Zhai，2023）为 SmolLM2 语言解码器（Allal，2025）编码视觉特征。在 SmolVLA 中，VLM 组件使用视觉编码器处理图像序列，并通过 token-shuffling 技术减少 token 数量以提高效率。语言指令被 token 化为文本 token。感知运动状态通过线性层投影为单个 token，以匹配语言模型的 token 维度。最后，视觉、语言和状态 token 被连接并传递给语言解码器。解码器层获得的结果随后用于调节动作专家。
状态、动作和特征投影器。在 SmolVLA 内部的各个点使用线性投影层。具体而言，用线性投影层来 (i) 投影状态以匹配 VLM 维度；(ii) 投影动作以匹配动作专家维度；以及 (iii) 调整 VLM 特征以与动作专家的维度保持一致。

视觉 token 减少。高分辨率图像已被证明对 VLM 性能至关重要，但它会增加推理成本。为了保证效率，SmolVLM-2 采用图像平铺 (Lin et al., 2023b) 进行训练，这是一种流行的技术，除了全局图像外，还涉及处理同一图像的多个裁剪区域。然而，为了缩短推理时间，这里没有使用平铺。仅使用全局图像，并进行像素重排操作，将视觉 token 限制为每帧 64 个。

通过层跳跃加快推理速度。为了缩短推理时间，跳过 VLM 中的计算。先前的研究 (Shukor and Cord, 2024; Tang et al., 2023) 证明在预训练模型中跳层的可能性，而不会导致性能显著下降。最近，(El-Nouby，2024；Bolya，2025；Rajasegaran，2025) 表明，下游任务的最佳特征不一定来自 VLM 的最后一层。因此，动作专家可以使用直到指定层数 N 的所有特征，而不是使用最后一层的特征。在实践中，将 N 设置为总层数的一半 (N = L/2) 可以在速度和性能之间取得良好的平衡，有效地将 LLM 和动作专家的计算成本减半。

流匹配动作专家。动作专家 v_θ 经过训练，可以根据 VLM 特征去预测动作块 A_t = (a_t, …, a_t+n)。与前人工作一致，对 v_θ 的实现依赖于 Transformer 架构 (Vaswani, 2017)。与之前的 VLA 架构不同，这里交错使用交叉注意层和自注意层，因此使用条件流匹配 Transformer (Esser，2024；Liu，2022；Lipman，2022) 作为 v_θ。动作专家的训练目标如下：

请添加图片描述

具体来说，训练 v_θ 输出向量场 u(A^τ_t ∣ A_t) = ε − A_t，该向量场由 VLM 特征和噪声动作 A^τ_t 组成。与 Black (2024) 的研究一致，从 Beta 分布中采样 τ。为了提高推理效率，将 v_θ 的隐藏层大小减小为 0.75 × d，其中 d 是 VLM 的隐藏层维度。

交错交叉及因果自注意层。动作专家 v_θ 生成以 VLM 特征为条件的动作块，SmolVLA 中 VLM 与动作专家之间的交互由注意机制促进。与以往仅依赖自注意 (SA)（Black，2024）或交叉注意 (CA)（Bjorck，2025）的研究不同，本文采用交错方法，其中每个块包含 CA 层或 SA 层。这种设计选择也不同于标准 VLM 架构，在标准 VLM 架构中，每个解码器块通常同时包含 SA 层和 CA 层（Laurençon，2023；Alayrac，2022；Chen，2022）。在动作专家的前向传递中，动作与 VLM 特征之间的交互通过注意机制进行，将 token 投射到 Q、K 和 V 中（Vaswani，2017）。在设置中，CA 层交叉关注 VLM 的 K 和 V，而 SA 层则允许 v_θ 中的动作 token 相互关注。其为 SA 层使用因果注意掩码，确保每个动作 token 只能关注块中过去的 token，从而避免未来动作的依赖性。经验表明，CA 层和 SA 层交错使用可以提高成功率并缩短推理时间。特别是，自注意机制有助于使动作块 A 更加流畅，这在实际机器人上进行评估时尤为明显。

社区收集的预训练数据

在机器人技术领域，可用于大规模预训练的数据量仍然比推动视觉和语言领域近期突破的数据量小几个数量级。例如，虽然自然语言基础模型可以受益于独特的文本界面和海量互联网数据，但由于 (i) 数据集之间的差异以及 (ii) 数据收集依赖于人类专家的遥操作，机器人数据集的集成和扩展显得十分复杂。此外，机器人形态、传感器、驱动模式、控制频率和数据格式的高度异构性导致“数据孤岛”（Bjorck，2025）——分散的机器人数据集，其集成极具挑战性。

在此背景下，低端机器人平台和标准化机器人库的出现直接缓解这种数据异构性，为从业者提供进入机器人领域的独特切入点。此外，个体从业者收集的开源数据贡献，为更大的机器人社区提供社区数据集，这些数据集收集自各种现实环境——从学术实验室到家庭——这是通过开源技术实现机器人学习去中心化和规模化的更大努力的一部分。与遵循标准化协议的学术数据集不同，社区数据集自然涵盖各种机器人实例、控制方案、摄像机视角和任务。此外，社区数据集通过嘈杂的演示、异构环境和多样化的目标交互反映了现实世界的复杂性，可提供宝贵的预训练数据。本研究选择从 Hugging Face 获得的 481 个社区数据集的子集，并根据实例类型、事件数量、整体数据质量和帧覆盖率进行筛选（如表所示）。

请添加图片描述

使用 VLM 进行任务注释。依赖社区贡献的数据集会带来标准化挑战。具体而言，任务注释（即对给定数据集中机器人预期行为的自然语言描述）中存在大量噪声。

至关重要的是，各种数据集包含模棱两可的占位符（例如任务描述）、过于模糊的命令（例如“按住”或“抬起”），或者完全缺乏指令。为了提高注释质量，用现成的 VLM (Qwen2.5-VL-3B-Instruct) 来自动生成简洁的任务描述。对于每个数据集，采样具有代表性的帧，并将它们与原始指令一起提供。模型被要求生成一个简短的、以行动为导向的句子来总结行为。

相机视点规范化。使用社区数据集的另一个挑战在于所使用的相机命名约定的高度可变性。例如，数据集指的是图像。笔记本电脑可能指的是顶视图、侧视图或腕戴式视图，具体取决于具体情况。这种不一致性在预训练期间是有害的，而一致的相机排序对于在这种数据环境下的训练非常有益。为了应对这一标准化挑战，手动将每个摄像头映射到一个标准化的视图类型（优先考虑顶部、腕部和侧面视角），并分别将它们重命名为 OBS_IMAGE_1、OBS_IMAGE_2 和 OBS_IMAGE_3。对于包含其他视图的数据集，保留原始顺序，但在训练过程中丢弃未使用的视图。未来的工作可能会使用 VLM 实现此过程的自动化，或者提出/采用标准化的数据收集指南。

异步推理

现代视觉运动策略 (Zhao et al., 2023; Chi et al., 2023; Black et al., 2024) 输出动作块序列 π(o_t) = A_t，其中 A_t = (a_t, a_t+1, …, a_t+n) 是由 n 个（远大于 1）低级命令组成的序列，这些命令被放入动作队列中，源自环境观测 o_t。通常，机器人会执行整个动作块 A_t，然后将新的观测 o_t+n 传递给策略 π 来预测下一个动作块。这会导致在每 n 个时间步捕获的观测值之间进行开环推理。相关研究，包括 Zhao et al. (2023) 和 Chi et al. （2023），采用了一种不同的策略，机器人控制器交错执行块预测 A_t ← π(o_t) 和块消费 a_t ← PopFront(A_t)，在每个时间步 t 计算一个新的动作块，并在重叠部分聚合预测的块。虽然自适应——每个时间步 o_t 的每个观测值都会被处理——但这种方法依赖于持续运行推理，这在资源受限的场景（例如边缘部署）中可能会受到限制。

一种资源密集程度较低的方法是在预测新的动作块之前完全完成块 A，将这种策略称为同步 (sync) 推理。此外，同步推理每 n 个时间步高效分配计算，从而降低控制时的平均计算负担。相反，它本质上会阻碍机器人系统的响应能力，由于机器人在计算 A 时处于空闲状态而引入盲滞（blind lags）。

将动作块预测 A 与动作执行 a_t ← PopFront(A_t) 解耦，开发一个异步 (async) 推理堆栈（如下算法 1 总结），直接评估由于开环动作导致的机器人系统自适应性不足以及运行时滞后的存在，其中 RobotClient 将观察 o_t 发送到 PolicyServer，在推理完成后接收动作块 A_t（如图所示）。

请添加图片描述

在此过程中，在控制循环仍在使用先前可用的队列时触发块预测来避免执行滞后，并在新传入的队列可用时将其聚合。反过来，异步推理通过提高处理观察数据进行块预测的频率，从而加强动作预测和动作执行之间的循环。至关重要的是，将动作预测与动作执行分离还可以直接在通过网络向机器人客户端发送动作的远程策略服务器上分配更多计算资源，这在资源受限的场景（例如低功耗机器人）中可能非常有效。
实现细节。异步推理 (i) 通过更频繁地捕获观测值来收紧控制回路，直接消除运行时的空闲间隙，以及 (ii) 允许在比自主机器人平台上通常可用的计算资源更强大的计算资源上运行推理。

从算法上讲，在 RobotClient 端实现异步推理 (i)，方法是使用现有队列中的操作，直到满足队列中剩余操作数量的阈值条件 (|A_t|/n < g)。触发此条件后，将捕获新的环境观测值并将其发送到（可能位于远程）PolicyServer。

为了避免冗余的服务器调用和运行时的不稳定行为，会在关节空间中比较观测值，并丢弃近似重复项。如果两个观测值在关节空间中的距离低于预定阈值 ε，则它们被视为近似重复项。重要的是，当机器人客户端可用的队列最终为空时，无论相似性如何，都会处理最新的观测值。

有趣的是，异步推理的行为可以通过分析来研究。首先，令 l 为一个随机变量，用于模拟发送观测 o 后接收动作块 A 所需的时间，即 (i) 在 RobotClient 和 PolicyServer 之间发送观测 o 的时间 t_C→S (ii) PolicyServer 上的推理延迟 l_S 和 (iii) 在 PolicyServer 和 RobotClient 之间发送 A 的时间 t_S→C 之和。假设独立性，E[l] = E[t_C→S] + E[l_S] + E[t_S→C] 可进一步简化为 E[l] ≃ E[l_S]，假设通信时间 (i) 在两个方向上相等且 (ii) 相对于推理延迟可忽略不计。其次，令 ∆t 为环境的控制周期。在实际帧速率为每秒 30 帧的情况下，∆t = 33 毫秒。因此，运行时 E[l ]/∆t 处的执行过队列，即当 g ≥ E[l_S]/∆t/n 时，可以避免因等待新数据块而导致的空闲。其中，队列阈值 g 对 RobotClient 的操作可用性起着重要作用。

如图 (A) 展示 g 三个代表性值的动作块 |A_t| 大小随时间的变化，详细说明以下关键场景：
• 顺序限制 (g = 0)。客户端在将新的观测值转发到服务器之前会用完整个数据块。在计算下一个数据块所需的往返延迟期间，队列为空，导致机器人无法执行动作。这重现完全顺序部署的行为，平均空闲时间为 E[lS] 秒。
• 异步推理 (g = 0.7)。允许客户端在触发新动作队列 A_t 的推理之前用掉队列 A_t-1 中大约 1 − g = 0.3 的一小部分，从而分摊计算成本并防止队列清空。连续块之间的重叠提供一个缓冲，可以避免建模错误，而无需承担 g = 1 方案的全部成本。更新后的队列 A_t 是通过聚合 A_t-1 和进入的 A ̃ _t 之间重叠时间步上的队列获得的。
• 计算密集型限制 (g = 1)。作为一种极端情况，并与 Zhao (2023)；Chi (2024) 的研究一致，每个时间步都会发送一个观测值。因此，队列几乎总是处于满状态，只有由于 ∆t/E[ls] < 1 而产生的轻微锯齿状波动。虽然这种设置具有最大的响应性，但它会导致每个控制周期进行一次前向传递，并且在有限的硬件上可能会非常昂贵。重要的是，由于客户端在服务器计算下一个块时正在执行操作，因此可用队列永远不会再次被填满。

图 (A) 强调 g 所决定的权衡：较小的值会导致空闲时间，而 g ≈ 1 则假设模型精度较高，并需要付出高昂的计算代价。在实践中，选择 g ∈ (0, 1) 可以在反应性和资源预算之间取得平衡。如果没有前面提到的相似性过滤器，RobotClient 平均每 (1-g) n⋅∆t 秒就会发送一次观察以供处理，每 (1-g)n⋅∆t + E[lS] 就会收到一个新的动作块。观察相似性过滤器的存在会延长此处理时间，并有助于避免机器人因队列不断与传入的几乎相同的动作块集成而停顿。具体而言，图 (B) 会导致队列中充满传入的动作，除非从处理流水线中过滤掉近似重复的观察。为清楚起见，图 (B) 中的红色箭头突出显示绕过观察相似性机制的时间步，当队列为空时，强制处理（几乎相同的）观察。

请添加图片描述

实验设置

在模拟和现实世界的机器人操作任务上评估模型。为了在模拟环境中评估 SmolVLA，为 MetaWorld 收集一个新数据集 (Yu et al., 2020)，其中包含 50 个任务中每个任务的 50 个演示。为了进行现实世界的评估，收集三个使用 SO-100 机械臂的数据集 (Knight et al.) 和 1 个使用 SO-101 机械臂的数据集 (Knight et al.)，每个数据集对应一个不同的操作任务。每个数据集包含与一项任务相关的演示，5 个不同的起始位置各有 10 条轨迹，因此每个数据集总共包含 50 个演示。除非另有说明，否则 SmolVLA 始终在多任务设置中训练，除非数据集记录的是相对于任务的轨迹。

评估指标。成功率 (SR) 作为所有基准测试的主要指标。对于基于模拟的评估，SR 是二进制的——如果任务成功完成，则设置为 1，否则设置为 0。对于真实世界的评估，采用更细粒度的评分方法，将每个任务分解为子任务。例如，在拾取和放置任务中，为成功拾取魔方赋予 0.5 分，为正确将其放入目标容器中额外赋予 0.5 分。

模拟环境。在两个成熟的多任务模拟基准测试中评估 SmolVLA：LIBERO（Liu，2023a）和 Meta-World（Yu，2020）。LIBERO 评估四类——空间、物体、目标和长距离——的多种视觉运动技能，每个类别包含 10 个任务（共 40 个）。用一个包含 1,693 个情节的数据集（Kim，2024；Pertsch，2025），涵盖所有任务，并评估每个任务 10 次试验，基于二元补全准则，报告平均成功率。 Meta-World 评估 50 个不同难度任务的泛化能力：简单、中等、困难和非常困难 (Seo et al., 2023)。用包含 2,500 个 episode 的数据集（每个任务 50 个 episode），并参考了 LIBERO 的评估方案：每个任务进行 10 次试验，只有任务完全完成才计为 1 分。

真实世界任务。在真实环境中的 4 个数据集上评估 SmolVLA，这些数据集已在 Hugging Face 上开源（如图所示）。具体而言，针对 SO100 机器人的真实世界拾取和放置能力、堆叠能力和排序能力，以及 SO101 平台的真实世界拾取和放置能力进行基准测试。至关重要的是，SmolVLA 并未使用任何 SO101 平台的数据集进行预训练。请添加图片描述
在拾取和放置任务中，SmolVLA 被指示拾起魔方并将其放入盒子中。盒子体积小且位置固定，而魔方的起始位置在 5 种不同的起始条件下会变化。用细粒度的分数来评估任务的完成情况，成功抓取魔方得 0.5 分，成功将其放入盒子得 0.5 分。

对于堆叠任务，SmolVLA 需要将一个魔方叠放在另一个魔方上。指示机器人拾起红色魔方并将其放在蓝色魔方上。两个魔方的初始位置在不同场景中会有所不同。用细粒度的分数来评估任务的完成情况，成功抓取顶部魔方得 0.5 分，成功将其放在底部魔方上得 0.5 分。

机器人

在模拟和现实环境中，用各种机器人平台。
• SO100 和 SO101（Cadene，2024）。标准开放式 SO-100 是一款低成本、可 3D 打印的机械臂，旨在提高机器人技术和机器人学习研究的可及性。SO-100 及其升级版 SO-101 均为用于基本操作任务的开源平台。每个机械臂具有六个自由度，并使用由位置指令控制的低成本伺服电机。SO101 拥有更优化的机械臂设计，可加快组装速度，并配备不同的电机，使其运动更流畅，更适合需要更高精度的任务。
• Panda（Haddadin，2022）。Franka Emika Panda 是一款单 7 自由度扭矩控制机械臂，专为安全精确的操作而设计。其高分辨率关节传感和柔顺控制使其非常适合在模拟和现实环境中执行基于学习的操作任务。该机器人用于 LIBERO 模拟器。
• Swayer（Yu，2020 年）。是一款单 4 自由度控制机械臂，专为操作任务而设计。它用于 Meta-World 模拟器，策略控制夹持器的位置和状态。

实施细节

用 LeRobot (Cadene et al., 2024) 进行实验，这是一个基于 PyTorch 的现实世界机器人框架。在预训练期间，在所有社区数据集上训练 200,000 步，全局批次大小为 256。在 100 步预热后，使用余弦学习率策略，从 1e-4 开始衰减至最低 2.5e-6。用 AdamW 优化器，β1 = 0.9，β2 = 0.95。为了与 VLM 输入大小保持一致，将图像大小调整为 512×512 后进行训练。用 SmolVLM-2 (Marafioti et al., 2025) 作为 VLM 主干模型。动作专家使用流匹配进行训练，输出 n = 50 个动作块。对于真实世界的评估，执行同步推理：模型仅在执行完所有动作后才会对新的观测值进行采样。在模拟中，对新观测值进行采样并在每次执行动作后预测新动作来进行推理。在推理过程中，流匹配固定为 10 步。仅训练动作专家模块，保持 VLM 冻结。主模型包含 4.5 亿个参数，其中约 1 亿个参数专用于动作专家。仅使用 VLM 中大语言模型 (LLM) 的前 16 层。对于模拟基准测试的微调，以 64 的批次大小训练 100,000 步；而对于真实世界任务，以 200,000 步进行微调。然而，在实践中观察到，该模型可以在不牺牲显著性能水平的情况下以更少的步骤进行训练。

除了保持紧凑的模型和减少的 token 数量外，还采用多种优化措施来提高训练效率。具体来说，用 bfloat16 精度和 torch.compile() (Paszke, 2019)，将 PyTorch 代码 JIT 编译为优化的内核。为了确保与这些优化兼容，保持固定的序列长度和批次大小，丢弃单个 episode 中任何无法容纳完整批次的多余帧。对于多 GPU 和多节点训练，利用 Hugging Face 的加速库 (Gugger et al., 2022) 和混合精度，提供可扩展且内存高效的训练设置。预训练使用 4 个 GPU 以适应大批次大小，但由于模型规模较小，因此可以轻松地在单个 GPU 上进行训练。总体而言，该项目耗时约 3 万 GPU 小时。

基准

将模型与两个流行且强大的基准进行比较，这两个基准均在 LeRobot 库 (Cadene et al., 2024) 中提供：

π0 (Black et al., 2024)。 π0 是一个 VLA，它利用 VLM 和流匹配 (Flow Matching) 进行动作块预测。其模型总大小为 33 亿个参数，并基于 10,000 小时的跨具身机器人数据进行预训练。该模型架构基于 Paligemma (Beyer，2024)，接受三幅 RGB 图像、感觉运动状态和一条语言指令作为输入。

ACT (Zhao，2023)。ACT 是一个条件变分自编码器 (CVAE) (Sohn，2015) 策略模型，其编码器-解码器 Transformer 架构包含约 8000 万个参数。ACT 使用在 ImageNet 上预训练的 ResNet 视觉编码器，而 CVAE 则从头开始训练。该模型生成动作块，并使用回归目标进行优化，直接预测连续动作。该模型接受一系列 RGB 图像和感觉运动状态。