Embodied-R:通过强化学习激活基础模型中具身空间推理能力的协作框架

25年4月来自清华大学的论文“Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning”。

人类可以从连续的视觉观察(例如以自我为中心的视频流)中感知和推理空间关系。然而,预训练模型如何获得这种能力,尤其是高级推理能力,仍不清楚。本文介绍 Embodied-R,这是一个协作框架,它结合用于感知的大规模视觉-语言模型 (VLM) 和用于推理的小语言模型 (LM)。该模型使用强化学习 (RL) 和考虑思考-回答逻辑一致性的新型奖励系统,在有限的计算资源下实现了慢思考能力。在仅使用 5k 个具身视频样本进行训练之后,带有 3B LM 的 Embodied-R,在分布内和分布外具身空间推理任务上都与最先进的多模态推理模型(OpenAI-o1、Gemini-2.5-pro)相匹配。Embodied-R 还表现出系统分析和上下文整合等新思维模式。

在迈向通用人工智能 (AGI) [17] 的道路上,希望预训练的基础模型不仅能够在网络世界中执行对话和图像理解等任务 [2, 44],还能在三维物理世界中发展出类似人类的具身空间认知,使其能够感知、思考和运动 [4, 32]。人类实现空间认知的基本方式是通过连续、动态的视觉观察,类似于视频流 [26, 30]。例如,通过观察周围环境,人类可以推断出自己相对于附近物体的位置。同样,基于历史视觉观察,人类可以确定到达目标地点应采取的行动。

视觉空间认知可以分为两个层次:感知和推理 [51]。感知是指“所见之物”,其特点是直接的、低级的任务,例如物体识别、边缘检测或颜色区分 [52]。另一方面,推理涉及“理解什么”和“采取什么行动”,这些是间接且更高层次的任务,需要逻辑推理和知识整合[62]。推理的例子包括“我从哪里来?”(例如,回忆历史运动轨迹[36]),“我在哪里?”(例如,推断附近物体的空间关系和距离[5]),以及“我想去哪里?”(例如,规划行动并决定到达目的地的移动方式[8])。虽然现有研究大多侧重于提升基础模型的感知能力[6, 11],并取得了显著进展,但它们的空间推理能力仍然有限[9, 58],而且增强方法也大多未被探索。具体而言,基于视频的空间推理面临着以下几个挑战:

• 推理始终建立在感知的基础上[19, 32]。对于所研究的问题,连续的视觉观察对感知提出了更高的要求。如果感知错误或出现幻觉,推理就无法很好地实现[53]。如果视频本身就难以感知,那么推理就更具挑战性。
• 视频数据本身就包含复杂的时空关系,需要发现跨帧的目标关联,并提取与推理任务相关的语义[16]。例如,要导航到当前视野之外的目的地,必须根据历史视觉观察推断其位置,构建环境的思维导图(mental map),制定确定方向的高级规划,并最终决定要执行的具体操作。现有的监督微调 (SFT) 训练方法缺乏对推理过程的监督,因此难以处理此类推理任务[62]。
• 具身视觉观察具有鲜明的特征。首先,理解非具身视频(例如电影或电视节目)主要强调视频中的内容,通常从广泛而客观的视角进行[27]。相比之下,以自我为中心的视频,则侧重于理解观察者与周围环境之间的关系,通常从受限的第一人称视角进行[22]。其次,具身的连续视觉观察是随着时间的推移而产生的,这表明具身感知应该依赖于连续的输入,而不是在长时间后将所有视觉观察聚合为单个输入[31]。最后,由于物理世界中运动的连续性,以自我为中心的视觉观察也表现出空间连续性,这意味着帧之间存在明显的冗余和重复。因此,将现有的多模态大型语言模型(MLLM)直接应用于具身视频会导致一些问题,包括泛化能力的丧失以及过多的冗余帧导致的输入标记限制[1, 29]。

近期,OpenAI 的 o1/o3 [38] 和 DeepSeek-R1 [24] 在解决复杂推理问题(例如数学、编程、科学等)方面的出色表现,引发了人们对强化学习 (RL) 技术的关注。大语言模型 (LLM) 通过将思维链 (CoT) 推理过程融入训练后阶段,展现出一种“慢思考”模式,即在生成响应之前进行彻底的推理 [45, 55]。受此启发,尝试将“慢思考”引入基于具身视频的空间推理任务中,如图所示。

请添加图片描述

大语言模型推理。近年来,增强推理能力已成为大模型技术的重点关注领域,并在数学和逻辑问题解决等任务上展现出卓越的性能 [25, 47, 57]。OpenAI 的 o1 [38] 发布后,众多研究提出了各种技术方法来实现类似的功能,包括思维链 (CoT) [54]、蒙特卡洛树搜索 (MCTS) [23, 60]、模型蒸馏 [35]、结合监督微调的拒绝采样 (SFT) 或直接偏好优化 (DPO) [40] 等。此外,Deepseek-r1 [24] 提出了一种方法,通过基于规则的奖励结合强化学习来促进大语言模型 (LLM) 推理能力的提升。同样,Kimi k1.5 [45] 提出了一种类似的方法,并介绍了各种训练技术,例如课程学习。这种强化学习范式引起了人们的浓厚兴趣,后续研究成功复现了相关结果 [55, 59]。

基于 VLM 的具身空间推理。受各领域基础模型的普遍性 [2, 3] 的启发,具身智能旨在开发能够利用大型多模态模型作为“大脑”的智体,以实现在三维物理世界中的感知、导航和操控 [15, 41]。就输入而言,人类的视觉空间感知更类似于连续的 RGB 观测,类似于视频流 [12, 42],而不是静态图像 [48] 或点云 [52]。多个具身视频基准测试 [58] 表明,虽然感知任务相对比较完善,但空间推理任务(例如空间关系推理、导航和规划)仍然极具挑战性。然而,现有的视频推理研究 [16,43] 主要集中于非具身内容推理,很少关注涉及实体连续视觉输入的场景。

大型模型和小型模型的协作。现有的研究主要集中于解决与大模型相关的资源消耗和隐私风险,以及小模型在特定场景下的效率和性能优势 [50]。小模型可以协助大模型进行数据选择、快速优化和推理增强 [28,61]。[49,63] 探索了使用小模型来检测幻觉和隐私泄露,从而提高整体系统的可靠性。

这带来了一个新的挑战:模型大小和计算成本之间的权衡。现有研究表明,多模态理解/感知能力与模型大小之间存在很强的相关性 [7, 20, 56]。由于推理建立在感知的基础上,因此应该使用更大的视觉-语言基础模型作为训练的起点。然而,增加模型规模通常会导致不可接受的计算成本。此外,视频输入会映射到较长的 token 序列,进一步提高了计算需求。有没有一种方法,既能充分利用大规模模型的感知能力,又能以更低的计算成本开发具身推理能力?

受神经科学 [64] 的启发,空间感知和推理涉及不同的大脑区域:视觉感知发生在枕叶(occipital lobe)[13] 的视觉区域,基本的空间理解发生在顶叶(parietal lobe) [18],而复杂的空间推理则发生在前额叶皮层(prefrontal cortex) [14]。这启发了本文设计一个协作框架,该框架包含两个主要组件:用于感知的大规模视觉-语言模型 (VLM) 和用于推理的小规模语言模型 (LM)。基于观测的连续性,其提出一个关键帧提取器,以在降低计算成本的同时保留关键信息。使用 VLM,按顺序从帧中提取语义信息,这模拟现实世界的在线推理,同时有效地管理了 VLM 对于长视频输入的输入 token 长度。最后,语义信息和推理问题被输入到小规模语言模型中,该模型输出推理过程和最终答案。小规模语言模型采用强化学习进行训练,其中的奖励模型不仅融合了受 Deepseek-R1-Zero [24] 启发的基于规则的奖励,更重要的是,引入了一种奖励机制,以提升推理过程的逻辑一致性。在实验中,探讨七个研究问题,涵盖框架的性能、强化学习在激活具身空间推理方面的作用,以及跨分布泛化能力。

该协作框架如图所示:Embodied-R 是一个协作式具身空间推理框架,它集成视觉语言模型 (VLM) 和语言模型 (LM)。感知与推理的分离能够利用大规模 VLM 的感知能力,同时训练资源高效的小型 LM,通过强化学习激活具身推理。值得一提的是,其引入一种逻辑一致性奖励机制,以引导 LM 生成逻辑连贯的推理和答案。

请添加图片描述

问题表述

在物理世界中,智体在空间中移动,生成一系列视频帧(连续的视觉观察)f = [𝑓_0, 𝑓_1, …, 𝑓_𝑇]。假设一个空间推理问题表示为 𝑞。目标是建立一个以 𝑞 和 f 作为输入并输出答案 𝑎 的模型。如果答案 𝑎 在语义上与真值 𝑔 一致,则认为答案 𝑎 正确;否则,则认为答案 𝑎 错误。

基于大规模 VLM 的感知

关键帧提取器

由于智体在空间中连续移动,高采样频率会导致连续帧之间存在显著的重叠。一方面,VLM 依赖于环境中静态物体在帧间的变化来推断智能体的姿态变化。另一方面,帧间过度重叠会增加 VLM 和 LLM 的推理成本。为了解决这个问题,设计一个针对具身视频特点的关键帧提取器,在确保关键帧之间有足够的信息增益的同时,选择保留重叠的关键帧。

关键帧的提取基于运动连续性导致的视野重叠。当智能体向前移动时,后一帧的视觉内容预计会与前一帧的部分重叠,而向后移动时则相反。同样,在左转或右转时,后一帧应该在水平方向上与前一帧部分重叠;在向上或向下旋转时,重叠发生在垂直方向上。鉴于视觉观察的采样频率通常远高于智体的运动速度,帧间通常会表现出明显的重叠。

具体来说,用透视变换来建模帧之间的几何关系。假设𝑓_𝑡是关键帧,为了确定𝑓_𝑡+1是否也应被视为关键帧,利用 ORB,从𝑓_𝑡和𝑓_𝑡+1计算关键点和描述符。接下来,使用特征匹配算法(例如暴力匹配器)来匹配两帧之间的描述符,并使用随机样本一致性算法 (RANSAC) 来估计单应性矩阵。然后计算两帧之间的重叠率。如果重叠率小于预定义阈值,则表示帧之间存在显著的视觉变化,并将𝑓_𝑡+1标记为关键帧。否则,算法继续计算𝑓_𝑡和𝑓_𝑡+2之间的重叠率。此过程持续进行,直到找到新的关键帧,并将其作为后续帧的参考。考虑到视点变化的影响,旋转(水平和垂直)会导致更大的视野变化,从而导致在这些移动过程中记录更多的帧。如果提取的关键帧的索引表示为f′=[𝑓_k_0,𝑓_k_1,…,𝑓_k_n],则关键帧提取过程可以概括为:f′=K-Extractor(f)。

具身语义表示

由于感知能力与模型大小呈正相关 [27, 58, 62],采用大规模 VLM 来处理视觉输入,以确保高质量的感知。每个关键帧的差异信息按顺序描述。这种方法有两个主要优点:1)顺序和动态处理更符合具身场景的特点,在具身场景中,视觉观察会随时间不断生成。在每个时刻,模型应将历史语义表示与最新的视觉观察相结合,快速更新对空间感知的语义理解。2)它通过避免 VLM 同时处理所有帧时出现的输入 token 限制,从而简化了长视频的处理。具体而言,对于第一帧,VLM 会识别场景中存在的目标、它们的属性及其空间位置。对于后续帧,前一帧和当前帧均输入 VLM,以提取关键语义表示 𝑠_𝑘_𝑗:

𝑠_𝑘_𝑗 ∼ 𝜓_𝜃(𝑠|𝑓_𝑘_𝑗−1,𝑓_𝑘_𝑗;𝑞),𝑗 =1,2,…,𝑛,

其中 𝑠_𝑘_𝑗 包含三项:
• 动作:根据连续帧之间视觉观察的变化推断智体的动作。
• △ 信息:确定智体与已知目标之间的空间关系变化,并识别视野中是否出现新目标。
• 与 𝑞 相关的内容:检测与推理任务相关的目标或信息是否出现在最新的视野中。

这样,可以从关键帧 f′ 中提取空间语义表示 s = [𝑠_𝑘_0,𝑠_𝑘_1, …,𝑠_𝑘_𝑛 ]。

基于小规模语言模型(LM)的推理

基于语义感知,可以训练一个易于训练的小规模语言模型,该模型能够执行具身空间推理。假设小规模语言模型 (LM) 表示为 𝜋_𝜃,则从模型推断的响应 𝑜 可以表示为:𝑜 ∼ 𝜋_𝜃 (𝑜 | 𝑞, s)。

训练目标是确保模型遵循“先思考后回答”的范式,即思考过程合乎逻辑,答案正确。遵循 DeepSeek-R1-Zero 的原则,并采用一种计算高效的强化学习 (RL) 训练策略——组相对策略优化 (GRPO)。除了基于规则的格式和准确率奖励之外,还提出一种针对具身推理任务定制的推理过程奖励,以减少奖励黑客攻击,并增强推理过程与最终答案之间的逻辑一致性。

组相对策略优化。对于给定的查询 𝑞 和语义注释 s,GRPO 使用参考策略𝜋_ref 生成一组输出 {𝑜_1, 𝑜_2, . . , 𝑜_𝐺 }。参考策略通常指的是未经过 GRPO 训练的原始模型。然后,通过优化以下目标函数来更新策略模型𝜋_𝜃:

请添加图片描述

奖励模型。奖励模型是强化学习算法的重要组成部分,因为它们的设计决定了模型优化的方向。在此提出了三种类型的奖励:格式奖励、准确度奖励和逻辑一致性奖励。它们分别旨在引导模型学习“思考-回答”推理模式、准确的具身空间推理以及推理与答案之间的逻辑一致性。
格式奖励:目标是让模型输出𝑜_𝑖,首先生成一个具身推理过程𝑝_𝑖,然后生成最终答案𝑎_𝑖。推理过程和答案分别包含在 和 标签中:

使用正则表达式评估 𝑜_𝑖 是否满足指定要求,从而生成格式奖励𝑟_𝑖′:
请添加图片描述
准确率奖励:准确率奖励𝑟_i ′′ 模型评估答案𝑎_𝑖 在语义上是否与基本事实𝑔 一致。例如,多项选择题通常具有精确且独特的答案,当答案符合指定格式时,可以轻松提取这些答案。

请添加图片描述

逻辑一致性奖励:当仅使用格式奖励和准确率奖励时,我们始终观察到黑客行为。具体来说,对于可能答案有限的空间推理任务(例如,物体相对于智能体身体的相对位置),会出现错误的推理过程 𝑝_𝑖 得出正确答案 𝑎_𝑖 的情况,而正确答案 𝑎_𝑖 会被错误地赋予正奖励。随着此类情况的积累,模型响应的逻辑一致性会下降。为了解决这个问题,我们引入了一个简单而有效的过程奖励机制。我们的目标是确保逻辑一致性的下限,使 𝜋_𝜃 的推理能力不低于参考模型 𝜋_ref。因此,当模型答案正确时(𝑎_𝑖 = 𝑔),我们将问题𝑞和推理过程𝑝𝑖输入到参考模型中,无需提供视频帧,即可得到答案:𝑎′_i∼𝜋_ref (𝑎|𝑞,𝑝_i)。

如果𝑎’_𝑖与𝑎_𝑖一致,则表明推理过程在逻辑上可以得出答案;否则,则表明推理过程与答案之间存在逻辑不一致:

请添加图片描述

总奖励为:𝑟_𝑖 = 𝜔_1 𝑟′ + 𝜔_2 𝑟′′ + 𝜔_3 𝑟′′′。

数据准备。主要关注在三维物理空间内运动过程中的空间推理问题,以评估方法的有效性。为此,选择两个具体视频数据集作为主要的训练和测试集:VSI-Bench [58],包含室内第一人称导航数据,以及 UrbanVideo-Bench [62],它由在空中导航无人机捕获的户外具身数据组成。这些数据集通过结合室外和室内视频数据提供了场景的多样性。根据任务内容,从每个数据集中专门选择了四种不同类型的任务,其特点是空间推理链长且准确率低。这些任务被表述为多项选择问答问题,确保答案的确定性以促进 RL 训练,并允许直接计算准确率以评估性能。在八个任务类别中,该数据集涵盖了多个级别的空间推理,总共包含 5,415 个 QA 对和 1,492 个视频。此外,在 MVBench [27] 中纳入了两个分布外的数据集:EgoSchema [34] 和 Egocentric 任务。EgoSchema 专为第一人称视角的任务级推理而设计,其完全开源部分包含 500 个问答对和 500 个视频。MVBench 则涵盖了以自我为中心导航的具体任务,包含 200 个问答对和 200 个对应的视频。这些数据集用于评估训练模型的泛化能力。

为了确保评估的全面性,进行五次重复实验。将数据集随机分成五等份,并采用五折交叉验证。最终测试结果取五次实验的平均值。此外,还解决了数据集中可能存在的语义偏差问题。例如,在动作生成任务中,向前移动的正确率可能天生就高于调整云台角度,这是该任务本身的一个特性。为了防止测试性能受到模型学习文本分布而非真正理解视频中空间信息的影响,对测试集实施了额外的过滤步骤。具体而言,通过监督微调来训练 LLM,仅使用训练集中的文本 QA 对,不使用视频输入。如果测试集中的问题可以被微调后的 LLM 正确回答,而原始 LLM 无法回答,则表明该 QA 对存在语义偏差。这些有偏差的 QA 对被排除在测试集之外,因为它们无法准确评估模型的空间推理能力。
实现细节。用 Qwen2.5-3B-Instruct [57] 作为小型 LM,使用 Qwen2.5-VL-72B-Instruct [6] 作为大型 VLM。训练和推理过程均使用 8 块 NVIDIA A800-SXM4-40GB GPU 进行,每次 RL 训练大约需要 90 GPU 小时。其他关键训练超参数如下:学习率:5e-7,温度:0.5。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值