在线强化学习改进VLA模型

25年1月来自清华、伯克利分校和上海姚期智研究院的论文“mproving Vision-Language-Action Model with Online Reinforcement Learning”。

最近的研究已成功地将大型视觉-语言模型 (VLM) 通过使用专家机器人数据集进行监督微调 (SFT) 集成到低级机器人控制中,从而产生视觉-语言-动作 (VLA) 模型。虽然 VLA 模型功能强大,但如何在与环境交互的过程中改进这些大型模型仍是一个悬而未决的问题。本文探讨如何通过强化学习 (RL) 进一步改进这些 VLA 模型,强化学习是一种常用的大型模型微调技术。然而,直接将在线 RL 应用于大型 VLA 模型存在重大挑战,包括严重影响大型模型性能的训练不稳定性,以及超出大多数本地机器能力的计算负担。为了应对这些挑战, iRe-VLA 框架在强化学习和监督学习之间进行迭代,有效改进 VLA 模型,利用 RL 的探索性优势,同时保持监督学习的稳定性。

VLA 模型的微调通常采用SFT,该方法的优点是稳定性和可规模化。但是,SFT 以来高质量的专家数据集,而这些数据集在机器人领域成本高昂且难以获取。由于分布漂移,监督学习无法完全使 VLA 模型与物理环境对齐。受 RLHF 的启发,尝试使用在线 RL 改进 VLA 模型,使其与物理环境更好地对齐。机器人需要在线探索具有长范围任务和稀疏奖励的任务。之前的研究表明,在线 RL 应用于大型神经网络时训练极其不稳定,并且性能会下降,如图(动机直观图)右侧所示。

请添加图片描述

为了稳定 RL 过程并有效增强 VLA 模型,iRe-VLA 方法,在在线 RL 阶段和 SFT 阶段之间 迭代。在 RL 阶段,冻结VLM参数,只训练轻量级的动作头以保持训练稳定性。在随后的 SFT 阶段,对成功的轨迹进行全参微调,以充分利用大型模型的表达能力。根据经验,这种两阶段方法提高 VLA 的性能,稳定训练,并且计算效率更高。

如图所示模型架构:

请添加图片描述

利用标准的深度 RL 部分观察马尔可夫决策过程 (POMDP) 框架,其中任务可以建模为 M = (S, A, P/T, R, γ, O, P/E)。S 和 A 是任务的状态空间和动作空间,O 是机器人观察,例如视觉图像。P/T : S × A × S → [0, 1] 是状态转换概率函数,R : S × A × S → R 是任务的奖励函数。在机器人任务中,奖励信号总是稀疏的,因此考虑二元奖励,其中如果机器人成功完成任务,则 R = 1,否则 R = 0。P/E : S × O → [0,1] 是观察发射概率。策略 π/θ : O → A 定义由 θ 参数化的动作空间概率分布。参数 θ 的目标是最大化策略 π/θ 的预期回报,其中折扣 γ:

请添加图片描述

VLA 模型将视觉输入 o 和自由形式语言指令 i 转换为低级机器人动作 a,表示为 O × L → A。该模型包含一个预训练的大型 VLM 和一个轻量级动作头,如图左侧所示。

使用BLIP-2 3B模型作为主干VLM。 由于预训练的VLM在语言空间中输出文本token,因此设计一个动作头来产生低级的控制动作。 这些动作通常包括末端执行器姿态和夹爪状态的变化。 遵循[11, 34]中提出的设计,将VLM的全连接层替换为一个初始化的动作头。

遵循[47]中描述的方法,利用 LoRA 微调 VLM。 可训练参数总数包括 LoRA 参数 θ 和动作头参数ϕ。

训练中,首先对VLA模型进行基于机器人数据集的监督微调(阶段 0),然后迭代进行在线RL(阶段 1)和监督学习(阶段 2)。

阶段 0: 基于专家数据集的监督学习

首先使用专家机器人数据集 D/e={(o/1,l1/,a/1),(o/2,l/2,a/2),…,(o/i,l/i,a/i)} 对 VLA 模型 π/θ 进行标准的监督微调。损失函数为 MSE:

请添加图片描述

经过监督微调,得到初始的 VLA 模型 π0/θ,φ。π0/θ,φ 的性能与专家数据集 D/e 的规模和质量高度相关。然后开始在线 RL 来改进 π^0/θ,φ。

阶段 1: 使用冻结 VLM 的在线 RL

引入一个与动作头结构相同的批评头,但输出维度设置为1。 为了防止模型崩溃并加速学习过程,在这一阶段冻结 VLM 参数 θ。 因此,只有动作头的参数ϕ被优化:

请添加图片描述

在线 RL 后,机器人可能会发现新的轨迹 x/i 来解决新任务。然后将这些成功的轨迹收集到一个在线数据集 D/RL = D/RL ∪ x/i 中。

阶段 2: 基于专家数据和在线收集数据的监督学习

第一阶段,当智体对新任务进行RL时,它有可能会忘记先前学习的任务。 因此,在第二阶段,使用新收集的在线数据D/RL和原始专家数据集D/e来监督整个模型,以减轻灾难性遗忘[49]。 目标可以写成:

请添加图片描述

迭代阶段 1 和阶段 2

阶段 1 中的智体探索新任务的新解决方案,而在阶段 2 中,它模仿所有可用的成功轨迹。 通过在阶段 1 和阶段 2 之间交替,大型 VLA 模型逐渐解决更广泛的任务,同时也能防止在已知任务上发生灾难性遗忘。整个流程在如下算法概述。

请添加图片描述

在两个模拟基准 Metaworld 和 FrankaKitchen 以及现实世界的 Panda 操作任务中进行实验,以验证 iRe-VLA 框架的有效性。

实验设置如下。

使用单个文本条件 VLA 模型来解决一个域中的所有任务。每个域都涉及分为三组的任务(如图所示):演示数据集观察的专家任务、通过在线 RL 增强的 RL 训练任务、以及在先前训练中未见过的保留任务。

请添加图片描述

实世界实验遵循 SERL 中描述的设置,如图所示,这是一个用于真实世界RL的有用软件套件。首先在一个包含 2000 条人类收集的专家数据(涵盖各种任务类别,包括 抓取、放置、按下按钮、电缆布线和打开抽屉的集合上训练一个 VLA模型。

请添加图片描述

由于VLA模型的泛化能力,学习的VLA模型在未见过目标上显示出确定的成功率。然后采用在线 RL 来进一步提高在未见过目标上的成功率。在 VLA 模型的背景下,实施了一些关键的设计选择,以提高样本效率并确保计算的可负担性。为了提高样本效率,采用 SACfD 算法。具体来说,当引入一项新任务时,最初利用零样本迁移的VLA模型来收集一个包含 20 条成功轨迹的演示缓冲区。在训练过程中,从演示缓冲区和在线缓冲区分别采样50%的转移,如[52]中所述。为了控制计算成本,每个图像观察只由VLM处理一次,并将生成的潜在输出存储在缓冲区中。随后,在该潜在空间中实现 SACfD 算法。

<think>好的,用户现在问的是目前最好的VLA模型,也就是视觉语言动作模型。我需要先确认VLA的具体定义,因为可能有不同的解释。通常VLA指的是结合视觉、语言和动作的模型,用于机器人或其他智能体,能够根据视觉和语言输入生成动作。不过有时候可能会有不同的缩写,比如Vision-Language-Action,但需要确保准确。 接下来,我需要回顾当前最先进的模型。例如,Google的RT-2(Robotic Transformer 2)和Meta的VC-1(可能是某个模型),还有OpenAI的GPT-4结合机器人控制的部分。此外,DeepMind的RoboCat也可能相关。需要确认这些模型是否属于VLA范畴,并比较它们的性能、应用场景以及优缺点。 然后要考虑用户的需求。用户可能对机器人领域感兴趣,之前讨论过机器人领域的概况,现在想深入技术细节。用户可能是研究人员、学生或工程师,希望了解当前最先进的模型以便进一步研究或应用。需要判断用户是否需要技术细节、比较,还是更关注应用案例。 还要注意是否有最新的模型发布,比如2023年下半年或2024年的新进展,比如RT-2是在2023年7月发布的,可能目前仍然是领先的。需要确保信息的时效性。同时,可能需要解释VLA模型的基本结构,比如如何整合视觉、语言和动作模块,是否端到端训练等。 另外,用户可能对“最好”的定义有不同的标准,比如泛化能力、计算效率、实际应用中的表现等,需要明确说明这些模型的优势所在。例如,RT-2强调从网络数据中学习,提升泛化能力,而RoboCat通过多任务学习提高适应性。 需要组织回答的结构,可能分为模型介绍、关键技术、应用场景、挑战与未来方向。同时,要使用用户熟悉的术语,但避免过于晦涩,保持解释清晰。可能还需要提到开源项目,比如Open X-Embodiment,作为资源供用户参考。 最后,检查是否有遗漏的重要模型或信息,确保覆盖主流和最新的研究成果,并保持回答的客观性,指出不同模型的适用场景和限制,帮助用户根据自身需求选择合适的模型。</think>视觉-语言-动作模型(Vision-Language-Action, VLA)是近年来机器人领域的前沿方向,旨在将视觉感知、语言理解和动作决策整合到一个统一框架中,使机器人能够通过自然语言指令理解任务目标,结合视觉输入自主规划动作。以下是目前该领域的代表性模型及其技术特点: --- ### **1. 当前领先的VLA模型** #### **(1) RT-2(Robotic Transformer 2)** - **开发者**:Google DeepMind(2023年7月发布) - **核心能力**: - 基于视觉-语言大模型(如PaLM-E)的扩展,直接从图像和文本输入生成机器人动作指令。 - 利用互联网规模的视觉-语言数据预训练,显著提升泛化能力(例如从未见过的任务成功率提升3倍)。 - 支持零样本(zero-shot)任务执行,如“将可乐罐扔进回收箱”。 - **优势**:端到端学习,无需传统手工编程的动作规则,适应开放场景。 #### **(2) RoboCat** - **开发者**:DeepMind(2023年6月发布) - **核心能力**: - 首个能通过自我训练快速学习新任务的通用机器人模型。 - 基于多模态模型架构,结合视觉、语言和动作数据,可在不同机械臂上迁移学习。 - 仅需100次演示即可学会新任务(如堆叠积木)。 -1)** - **开发者**:Meta AI(2023年) - **核心能力**: - 通过统一表征学习(Unified Representation)将视觉和动作编码到同一空间。 - 支持跨任务(如抓取、导航)和跨机器人平台(如无人机、机械臂)的泛化。 - **优势**:模块化设计,易于适配不同机器人形态。 #### **(4) GPT-4 + 机器人系统** - **开发者**:OpenAI与第三方合作(如Figure 01人形机器人) - **核心能力**: - 将GPT-4的推理能力与机器人动作控制结合,通过语言指令解析复杂任务(如“整理桌子并解释步骤”)。 - 依赖额外模块(如视觉编码器、动作规划器)完成闭环控制。 - **优势**:语言理解能力极强,适合人机协作场景。 --- ### **2. 关键技术突破** - **多模态对齐**:将视觉、语言和动作映射到同一语义空间(如通过对比学习)。 - **仿真到现实迁移**:利用大规模仿真训练(如NVIDIA Isaac Sim)降低真实环境数据需求。 - **层级化决策**:将任务分解为“语言理解→视觉定位→动作序列生成”的层级结构。 - **记忆与上下文学习**:通过Transformer架构实现长时任务记忆(如持续多步骤操作)。 --- ### **3. 应用场景** - **家庭服务**:执行“把脏衣服放进洗衣机并启动”等自然语言指令。 - **工业柔性生产**:快速适应新产品装配任务(如手机零件组装)。 - **医疗辅助**:根据医生语音指令操作手术器械。 - **灾难救援**:通过指令控制机器人进入危险区域搜救。 --- ### **4. 挑战与局限** - **数据稀缺**:真实机器人动作数据获取成本高,依赖仿真补充。 - **安全性与可靠性**:开放环境中意外干扰(如光线变化、物体移动)可能引发错误动作。 - **计算成本**:实时运行需平衡模型规模与计算效率(如RT-2需约10Hz控制频率)。 --- ### **5. 未来方向** - **开源社区推动**:如Open X-Embodiment项目整合多机构机器人数据集。 - **具身智能(Embodied AI)**:让模型通过物理交互主动学习,而非被动接受数据。 - **低成本硬件适配**:轻量化模型部署至消费级机器人(如家庭陪伴机器人)。 --- 目前,**RT-2和RoboCat**在学术界和工业界认可度较高,但实际落地需结合具体场景(如工业场景更关注可靠性,家庭场景需侧重安全与交互)。若需进一步探讨某模型的技术细节或应用案例,可继续深入讨论!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值