论文笔记(九十二)RLVR-World: Training World Models with Reinforcement Learning

文章概括

引用:

@article{wu2025rlvr,
  title={RLVR-World: Training World Models with Reinforcement Learning},
  author={Wu, Jialong and Yin, Shaofeng and Feng, Ningya and Long, Mingsheng},
  journal={arXiv preprint arXiv:2505.13934},
  year={2025}
}
Wu, J., Yin, S., Feng, N. and Long, M., 2025. RLVR-World: Training World Models with Reinforcement Learning. arXiv preprint arXiv:2505.13934.

主页: https://thuml.github.io/RLVR-World
原文: https://arxiv.org/abs/2505.13934
代码、数据和视频:

系列文章:
请在 《 《 文章 》 》 专栏中查找



宇宙声明!


引用解析部分属于自我理解补充,如有错误可以评论讨论然后改正!


摘要

世界模型的作用,是根据动作来预测环境状态的变化。如今,它们已经被广泛应用到各种不同的模态和任务中。不过,目前常用的训练方法(比如最大似然估计,MLE)往往和具体任务的目标对不上。换句话说,训练时优化的目标,和我们真正关心的预测指标(比如准确性、画面质量)并不一致。为了解决这个问题,本文提出了一种新的统一框架——RLVR-World。它利用带有“可验证奖励”的强化学习(RLVR),直接针对这些真正重要的指标来优化世界模型。虽然世界建模通常被设定为对“标记化序列”的自回归预测,但RLVR-World并不是只在序列层面上比较,而是会把解码后的预测结果拿出来,用相应的指标来评估,并把这些指标作为奖励信号。通过实验,我们发现在多个领域中,基于语言和视频的世界模型都得到了明显的性能提升,这些领域包括文字类游戏、网页操作和机器人操作等。我们的研究表明,除了最近在推理型语言模型方面的突破之外,RLVR还可以作为一种有前景的“后训练”方法,更广泛地提升生成模型的实用价值。


1 引言

世界模型 [16, 30] 用于在动作干预下预测状态转变,为智能体的行为策略提供了自主评估和优化的可能性 [19, 20]。通过在不同模态(如文本 [57, 8, 14]、视频 [6, 1] 和感官数据 [46, 65])上扩展世界模型,人们已经在游戏 [7, 27]、机器人学 [64] 和自动驾驶 [22, 44] 等领域取得了显著进展。

有效扩展世界模型需要在大规模数据上训练具有强大表达能力的模型(如 Transformer),这在很大程度上依赖于可微分、丰富且稳定的训练信号。在实践中,世界模型通常使用替代目标(如最大似然估计,MLE)来训练。例如,语言模型依赖“下一标记预测” [59],扩散模型优化对数似然的变分下界 [21]。此外,非端到端的架构会引入单独训练的组件(如视觉分词器 [10, 43]),以提升效率和稳定性。这些方法共同推动了强大的概率世界模型以及其他基础模型的发展 [4]。

然而,世界模型的最终目标不仅是捕捉复杂的数据分布,而是要满足预测任务中的指标要求,例如高准确率或感知质量。替代目标和非端到端的优化往往对此不敏感,甚至偏离这一目标。比如,视频模型用均方误差训练会产生模糊预测 [37](视频模型容易输出模糊的帧 [37]);语言模型基于似然的目标则导致重复和幻觉问题 [31, 26, 56](语言模型会出现重复甚至“幻觉” [31, 26, 56])。

一种新的解决方案是 RLVR(带可验证奖励的强化学习) [29, 15]。它不再依赖RLHF [40] 那种“学出来的奖励模型”,而是直接用基于规则的奖励函数,让模型能直接针对目标任务进行优化。语言模型社区已经借此在数学推理和代码生成上取得了很大进展。

本文提出了 RLVR-World,探索如何用RLVR来训练世界模型。我们把不同模态的世界建模统一为一个“自回归生成框架”:当前状态和动作作为“问题”,下一个状态作为“回答”。然后,我们在两类典型任务上做了实验:

  • 语言类世界模型:我们将世界建模任务作为RLVR在LLMs中的新测试平台,任务目标是预测语言化世界状态的转变,并以预测准确率作为可验证奖励。实验结果显示,RLVR显著提升了性能:在文本游戏状态预测 [57] 上准确率提升30.7%,在网页状态预测 [8] 上F1分数提升15.1%。

  • 视频类世界模型:我们首次在自回归视频世界模型 [61] 中引入RLVR微调方法,通过比较预测帧与真实帧的感知指标来优化性能。结果显示,仅需几百步RLVR训练,就能在机器人操作轨迹预测 [5] 上显著改进(LPIPS 提升9.2% [68]),而MLE训练需要数十万步。此外,RLVR还缓解了模型的重复问题,这在LLMs [31] 和预训练视频模型中都常见。

最后,我们展示了强化后的世界模型在下游应用中的实用性,包括策略评估 [32] 和模型预测控制 [8]。我们希望本文的方法、实验和分析能够启发未来研究,把RLVR作为一种通用的后训练范式,用以大幅提升世界模型乃至生成模型的实用性。


 图1:强化学习如何帮助训练世界模型。在左边,可以看到传统做法:世界模型一般用最大似然估计(MLE)等间接目标来训练,但这些目标和我们真正关心的任务指标(比如预测准确率、画面质量)并不对齐。在右边,是我们的方法:通过RLVR(带可验证奖励的强化学习)在模型预训练之后进行优化,让模型直接面向真正重要的指标进行改进。



2 相关工作

世界模型。 学习准确的世界模型以预测动作作用下的环境状态转变,是基于模型的规划与强化学习的核心基础 [52]。由于真实环境的固有复杂性和不确定性,世界模型更常被实现为生成模型 [9, 16],而不是确定性模型 [45, 20]。在视觉观测方面,序列变分自编码器被广泛采用 [25, 18, 17, 60],而近期则出现了基于扩散的世界模型 [64, 2, 7],在视觉保真度上表现突出。另一类研究路线是将视觉输入离散为标记序列 [39, 22, 61, 1],以自回归方式进行建模。这种方法自然可以扩展到更多模态,例如基于语言的状态表示 [57] 已被用于网页智能体中的互联网世界模型 [8, 14],而本体传感器和执行器的轨迹也可以量化为标记序列 [46, 65]。受到多模态世界模型 [28, 34] 前景以及大语言模型(LLM)生态潜力的启发,我们的工作在统一的自回归框架下探索了RLVR范式在世界模型训练中的应用。

生成模型的强化学习。 强化学习已经成为生成模型后训练的重要范式,使其更好地对齐人类偏好或任务特定目标。在语言模型中,InstructGPT [40] 采用RLHF来提升无害性、有用性和诚实性,但RLHF容易受到奖励模型过度优化的影响 [13]。相比之下,DeepSeek-R1 [48, 15] 采用RLVR,在数学、代码和逻辑推理领域取得了显著进展。对于视觉生成模型,文本到图像的扩散模型也通过强化学习 [3, 11] 微调,以优化可度量指标(如可压缩性)或人类评价 [62]。我们的工作认为,世界建模是RLVR的一个自然契合点,尽管这一方向尚未被充分研究。在这一任务中,预测准确率可以作为与任务对齐的可验证奖励,从而使生成模型作为世界模型,在不同模态下得到直接优化。


3 预备知识

本节简要介绍视觉标记化的背景,用于统一视觉和语言的状态表示,并介绍本文所使用的强化学习算法。

视觉标记化。 给定一张图像 x ∈ R H × W × 3 x \in \mathbb{R}^{H \times W \times 3} xRH×W×3,离散视觉分词器 [55] 的编码器将 x x x 映射为潜在表示 h ∈ R h × w × d h \in \mathbb{R}^{h \times w \times d} hRh×w×d。随后,通过在嵌入词典 C = { e i } i = 1 K C = \{e_i\}_{i=1}^K C={ei}i=1K 中执行最近邻查找将其量化,得到离散表示 z ∈ [ K ] h × w z \in [K]^{h \times w} z[K]h×w,并通过解码器重建原始图像 x x x。标记图 z z z 可以展平成长度为 h × w h \times w h×w 的一维序列,进而由自回归模型(如仅解码器的 Transformer [10])建模。

假设:

  • 图像经过编码器后变成 h ∈ R 16 × 16 × 256 h \in \mathbb{R}^{16 \times 16 \times 256} hR16×16×256,即 16 × 16 16 \times 16 16×16 个位置,每个是 256 维向量。
  • 词典大小 K = 1024 K=1024 K=1024,每个 e i ∈ R 256 e_i \in \mathbb{R}^{256} eiR256

过程:

  • 对每个位置的向量 h u v h_{uv} huv,计算它和 C C C 中所有 e i e_i ei 的距离。
  • 找到最近的那个,比如最近的是 e 37 e_{37} e37
  • 就把 h u v h_{uv} huv 替换成索引 37 37 37
  • 最后,整张图像就变成了 16 × 16 = 256 16\times16=256 16×16=256 个离散 token,取值范围是 [ 1 , 1024 ] [1,1024] [1,1024]

对于视频 R T × H × W × 3 \mathbb{R}^{T \times H \times W \times 3} RT×H×W×3,一种直接方法是使用图像分词器 [39, 7, 34] 独立地对每帧进行标记化。然而,这会导致标记序列过长。为此,Wu 等人 [61] 提出了一种压缩标记化方法,利用视频的时间冗余,将每帧标记化为较少的 n n n 个标记 z t ∈ [ K 1 ] n z_t \in [K_1]^n zt[K1]n,并依赖共享的 N N N 个上下文标记 z c ∈ [ K 2 ] N z_c \in [K_2]^N zc[K2]N

视觉标记化

  • 图像本来是像素矩阵 x ∈ R H × W × 3 x \in \mathbb{R}^{H \times W \times 3} xRH×W×3

  • 先用编码器把它压缩成潜在表示 h h h

  • 再用“码本”把每个位置匹配到一个离散 token z z z,最后解码可以还原图像。

  • 这样图像就变成了一串 token 序列,可以用 Transformer 来逐个预测(自回归)。

  • 视频直接逐帧做的话,token 太多了。Wu 等人 [61] 提出了压缩方法:每帧只保留少量 token( n n n 个),同时用共享的上下文 token( N N N 个)捕捉时间信息。

群相对策略优化(GRPO)。 GRPO [48] 最初是为使用强化学习对大语言模型进行后训练而提出的。与 PPO [47] 不同,GRPO 不需要价值函数,而是通过组相对方式估计优势。具体来说,给定一个问题 q q q,GRPO 从行为策略 p θ old p_{\theta_{\text{old}}} pθold 中采样一组响应 { o i } i = 1 G \{o_i\}_{i=1}^G {oi}i=1G,并通过在组内归一化奖励 R i R_i Ri 来计算每个响应的优势:

A ^ i , t = R i − mean ( { R i } i = 1 G ) std ( { R i } i = 1 G ) (1) \hat{A}_{i,t} = \frac{R_i - \text{mean}(\{R_i\}_{i=1}^G)}{\text{std}(\{R_i\}_{i=1}^G)} \tag{1} A^i,t=std({Ri}i=1G)Rimean({Ri}i=1G)(1)

与 PPO 类似,GRPO 使用带有 KL 散度惩罚的截断目标函数:

J GRPO ( θ ) = E q ∼ D , { o i } i = 1 G ∼ p θ old ( ⋅ ∣ q ) [ 1 G ∑ i = 1 G 1 ∣ o i ∣ ∑ t = 1 ∣ o i ∣ ( min ⁡ ( p θ i , t p θ old i , t A ^ i , t ,      clip ( p θ i , t p θ old i , t , 1 − ϵ , 1 + ϵ ) A ^ i , t ) − β D KL [ p θ   ∥   p ref ] ] (2) \mathcal{J}_{\text{GRPO}}(\theta) = \mathbb{E}_{q \sim \mathcal{D}, \{o_i\}_{i=1}^G \sim p_{\theta_{\text{old}}}(\cdot|q)} \Bigg[ \frac{1}{G} \sum_{i=1}^G \frac{1}{|o_i|} \sum_{t=1}^{|o_i|} \Bigg(\min\Bigg( \frac{p^{i,t}_{\theta}}{p^{i,t}_{\theta_{\text{old}}}} \hat{A}_{i,t}, \;\; \text{clip}\Big(\frac{p^{i,t}_{\theta}}{p^{i,t}_{\theta_{\text{old}}}}, 1-\epsilon, 1+\epsilon\Big)\hat{A}_{i,t} \Bigg) - \beta D_{\text{KL}}[p_\theta \,\|\, p_{\text{ref}}] \Bigg] \tag{2} JGRPO(θ)=EqD,{oi}i=1Gpθold(q)[G1i=1Goi1t=1oi(min(pθoldi,tpθi,tA^i,t,clip(pθoldi,tpθi,t,1ϵ,1+ϵ)A^i,t)βDKL[pθpref]](2)

其中, p θ i , t p^{i,t}_{\theta} pθi,t 表示 p θ ( o i , t ∣ q , o i , < t ) p_\theta(o_{i,t} \mid q, o_{i,<t}) pθ(oi,tq,oi,<t)(为简化表示)。更多细节请参见 Shao 等人 [48]。

1. GRPO 的背景

  • 它是 一种强化学习算法,最早是为 后训练大语言模型(LLMs) 设计的 [48]。

  • 和常见的 PPO(Proximal Policy Optimization)[47] 相比,GRPO 有两个重要区别:

    1. 不需要价值函数(value function),因此训练更简单。
    2. 优势函数(advantage) 的计算方式不同,它是通过 组相对比较 来算的。

2. 核心思想

  • 给定一个输入问题 q q q(比如一段提示),我们从旧的策略 p θ old p_{\theta_{\text{old}}} pθold 里采样 G G G 个回答 o i i = 1 G {o_i}_{i=1}^G oii=1G
  • 每个回答 o i o_i oi 都有一个奖励分数 R i R_i Ri(可能来自任务指标,比如准确率、F1分数等)。
  • 问题:不同问题的奖励尺度可能差很多,直接用奖励训练会不稳定。
  • GRPO 的解决方法:在同一个问题下,把这 G G G 个答案放在一起比较,做一个标准化:

A ^ i , t = R i − mean ( { R i } i = 1 G ) std ( { R i } i = 1 G ) (1) \hat{A}_{i,t} = \frac{R_i - \text{mean}(\{R_i\}_{i=1}^G)}{\text{std}(\{R_i\}_{i=1}^G)} \tag{1} A^i,t=std({Ri}i=1G)Rimean({Ri}i=1G)(1)

意思是:

  • 如果 R i R_i Ri 高于平均值, A ^ i , t \hat{A}_{i,t} A^i,t 就是正的 → 说明答案比组里其他答案好。
  • 如果 R i R_i Ri 低于平均值, A ^ i , t \hat{A}_{i,t} A^i,t 就是负的 → 策略应该少生成这样的答案。

这样,优势是 相对的,不用担心奖励本身的绝对大小。


3. 目标函数

GRPO 的目标函数(式 (2))和 PPO 很像,主要包括两部分:

(a) 主项(策略更新)

min ⁡ ( p θ i , t p θ old i , t A ^ i , t ,      clip ( p θ i , t p θ old i , t , 1 − ϵ , 1 + ϵ ) A ^ i , t ) \min\Bigg( \frac{p^{i,t}_{\theta}}{p^{i,t}_{\theta_{\text{old}}}} \hat{A}_{i,t}, \;\; \text{clip}\Big(\frac{p^{i,t}_{\theta}}{p^{i,t}_{\theta_{\text{old}}}}, 1-\epsilon, 1+\epsilon\Big)\hat{A}_{i,t} \Bigg) min(pθoldi,tpθi,tA^i,t,clip(pθoldi,tpθi,t,1ϵ,1+ϵ)A^i,t)

  • p θ i , t p^{i,t}_{\theta} pθi,t = 当前策略在时刻 t t t 生成 token o i , t o{i,t} oi,t 的概率。

  • p θ old i , t p^{i,t}_{\theta_{\text{old}}} pθoldi,t = 旧策略的概率。

  • 这个比值 p θ i , t p θ old i , t \frac{p^{i,t}_{\theta}}{p^{i,t}_{\theta_{\text{old}}}} pθoldi,tpθi,t 用来调整策略:

    • 如果优势是正的,模型就应该提升这个 token 的概率。
    • 如果优势是负的,模型就应该降低这个 token 的概率。
  • “clip”操作是防止更新过大(跟 PPO 一样)。

(b) 正则项(惩罚项)

− β D KL [ p θ   ∥   p ref ] - \beta D_{\text{KL}}[p_\theta \,\|\, p_{\text{ref}}] βDKL[pθpref]

  • 用 KL 散度来约束新策略 p θ p_\theta pθ 不要偏离参考策略 p ref p_{\text{ref}} pref 太远。
  • 这个惩罚保证了训练的稳定性。

4. 总结直白地说

这段话讲的是:

  • GRPO 是一种强化学习算法,用来微调模型。

  • 它通过 比较同一问题下不同答案的相对好坏 来计算优势,而不是依赖绝对奖励值。

  • 更新的时候,它的目标函数基本和 PPO 一样:

    • 让好的答案生成概率变大,坏的答案概率变小;
    • 加上 KL 惩罚,避免模型训练跑偏。

📌 一句话总结: GRPO 就是一个“比拼式”的强化学习算法 —— 把一堆回答放一起比较,相对优秀的就奖励,相对差的就惩罚,用类似 PPO 的目标函数更新模型。


4 RLVR-World:使用RLVR训练世界模型

如图2所示,本节介绍RLVR-World,这是一个统一的框架,用于通过带有可验证奖励的强化学习(RLVR)在不同模态下训练世界模型。


在这里插入图片描述图2:RLVR-World 框架示意图。不同模态下的世界模型在序列建模范式下被统一,任务特定的预测度量作为可验证的奖励信号。(上)基于语言的世界模型对语言动作作出响应,预测语言状态的转移。(下)基于视频的世界模型配备视觉分词器(visual tokenizer),在动作向量的条件下预测未来的视觉观测。


4.1 问题表述

由世界模型模拟的环境通常被表述为马尔可夫决策过程(Markov decision process, MDP) M = ( S , A , p , r , γ ) \mathcal{M} = (\mathcal{S}, \mathcal{A}, p, r, \gamma) M=(S,A,p,r,γ)。根据任务的不同,状态空间 S \mathcal{S} S 可以灵活地包含语言、视觉或本体感受等模态。在每个时间步,智能体观察到状态 s t ∈ S s_t \in \mathcal{S} stS,采取动作 a t ∈ A a_t \in \mathcal{A} atA,然后根据分布 p ( s t + 1 ∣ s t , a t ) p(s_{t+1} \mid s_t, a_t) p(st+1st,at) 转移到新的状态,并获得即时奖励 r t ∼ r ( s t , a t ) r_t \sim r(s_t, a_t) rtr(st,at)。更一般地,状态可以是部分可观测的,转移过程可以被建模为 k k k 阶马尔可夫过程 p ( s t + 1 ∣ s t − k + 1 : t , a t − k + 1 : t ) p(s_{t+1} \mid s_{t-k+1:t}, a_{t-k+1:t}) p(st+1stk+1:t,atk+1:t) (尽管在经典强化学习文献中,部分观测通常记为 o t o_t ot,但在我们的RLVR语境下,为避免与生成的输出 { o i } i = 1 G \{o_i\}_{i=1}^G {oi}i=1G混淆,我们继续使用 s t s_t st)。世界模型需要准确地逼近状态转移 p p p 和奖励函数 r r r。由于奖励可以视为状态空间的扩展维度 [9],我们主要关注于建模转移分布 p ( s t + 1 ∣ s t − k + 1 : t , a t − k + 1 : t ) p(s_{t+1} \mid s_{t-k+1:t}, a_{t-k+1:t}) p(st+1stk+1:t,atk+1:t)

4.2 序列建模视角下的世界模型

尽管已经提出了多种针对不同模态的世界模型架构,但基于仅解码器 Transformer 的“下一标记预测”已成为一种通用的表述,可应用于跨模态的任务。我们将世界模型统一到这一通用的序列建模框架中。不同模态的标记化方式如下:

1. 背景:为什么要用“序列建模”?

  • 世界模型的目标是:给定当前状态 s s s 和动作 a a a,预测下一个状态 s ′ s′ s
  • 不同模态的数据差别很大:文本是一串词,图像是像素矩阵,视频是时间序列帧,传感器信号是连续数值。
  • 如果每种模态都设计不同的模型,太复杂、不统一。

👉 一个聪明的想法:把这些不同模态都 转成“序列 token”(就像语言里的词),然后用统一的模型来处理。

  • 语言通过标准分词技术(如 BPE [12])处理;

  • 图像和视频通过学习到的视觉分词器编码;

  • 低维连续值(如本体感受信号或关节力矩)通过在固定区间内的均匀量化实现。

类似于语言模型,我们使用人工设计的模板,将输入标记序列 q ( s , a ) q(s, a) q(s,a) 构造成“问题”,输出标记序列 o ( s ′ ) o(s′) o(s) 构造成“回答”。为简便起见,我们以一阶马尔可夫情况 p ( s ′ ∣ s , a ) p(s′ \mid s, a) p(ss,a) 为例,但该表述可自然推广至高阶情况。

我们假设已有一个通过最大似然估计(MLE)预训练的世界模型:

J MLE ( θ ) = log ⁡ p θ ( o ( s ′ ) ∣ q ( s , a ) ) = ∑ t = 1 ∣ o ( s ′ ) ∣ log ⁡ p θ ( o t ( s ′ ) ∣ q ( s , a ) , o < t ( s ′ ) ) . (3) \mathcal{J}_{\text{MLE}}(\theta) = \log p_\theta(o(s′) \mid q(s, a)) = \sum_{t=1}^{|o(s′)|} \log p_\theta(o_t(s′) \mid q(s, a), o_{<t}(s′)). \tag{3} JMLE(θ)=logpθ(o(s)q(s,a))=t=1o(s)logpθ(ot(s)q(s,a),o<t(s)).(3)

2. 通用的框架:下一标记预测(next-token prediction)

  • 在语言模型(比如 GPT)里,我们输入一串词,然后预测下一个词。

  • 这个思路可以推广到世界模型:

    • 输入:当前状态 + 动作,转成 token 序列 q ( s , a ) q(s,a) q(s,a)(视为“问题”)。

    • 输出:下一个状态 s ′ s′ s,转成 token 序列 o ( s ′ ) o(s′) o(s)(视为“回答”)。

  • 模型的训练目标就是:逐个预测下一个 token,直到生成完整的 o ( s ′ ) o(s′) o(s)

公式 (3) 正是这个思想的数学表达:
J MLE ( θ ) = log ⁡ p θ ( o ( s ′ ) ∣ q ( s , a ) ) = ∑ t = 1 ∣ o ( s ′ ) ∣ log ⁡ p θ ( o t ( s ′ ) ∣ q ( s , a ) , o < t ( s ′ ) ) . (3) \mathcal{J}_{\text{MLE}}(\theta) = \log p_\theta(o(s′) \mid q(s, a)) = \sum_{t=1}^{|o(s′)|} \log p_\theta(o_t(s′) \mid q(s, a), o_{<t}(s′)). \tag{3} JMLE(θ)=logpθ(o(s)q(s,a))=t=1o(s)logpθ(ot(s)q(s,a),o<t(s)).(3)
意思是:

  • 模型参数 θ \theta θ 要最大化 在输入 q ( s , a ) q(s,a) q(s,a) 条件下,生成正确输出序列 o ( s ′ ) o(s′) o(s) 的概率。
  • 展开来看,就是每一步 t t t 的预测 o t ( s ′ ) o_t(s′) ot(s) 要依赖:
    • 输入“问题” q ( s , a ) q(s,a) q(s,a)
    • 之前已经预测出的 token o < t ( s ′ ) o_{<t}(s′) o<t(s)

这就是标准的 自回归训练。

4.3 将预测指标作为可验证奖励

随后,我们使用RLVR对世界模型进行后训练,以直接优化状态转移预测的可验证指标。具体来说,给定输入 q ( s , a ) q(s, a) q(s,a),预训练模型生成一组样本 { o i } i = 1 G \{o_i\}_{i=1}^G {oi}i=1G,并通过模态特定的解码方式(如语言的基于规则的提取器、视频的视觉解码器)提取预测的下一个状态 s ^ i ′ \hat{s}^′_i s^i。奖励通过将预测与真实的下一个状态 s ′ s^′ s 进行比较来计算:

R i = sign ( D ) ⋅ D ( s ^ i ′ , s ′ ) , (4) R_i = \text{sign}(D) \cdot D(\hat{s}^′_i, s^′), \tag{4} Ri=sign(D)D(s^i,s),(4)

其中,如果指标 D D D 的较小值表示更好的预测(例如视觉观测的均方误差或感知损失),则 sign ( D ) = − 1 \text{sign}(D) = -1 sign(D)=1;否则 sign ( D ) = 1 \text{sign}(D) = 1 sign(D)=1。利用这种面向任务的奖励,我们可以根据公式 (2) 的强化学习目标对世界模型进行微调。

说明:
(1) 我们并不直接求解第4.1节的原始环境MDP,而是通过将下一个状态预测过程表述为另一个MDP,并使用RLVR进行优化,专注于学习其转移分布。
(2) RLVR-World 是一个通用框架,输入/输出序列和奖励函数可以根据具体领域进行设计(将在实验部分说明)。
(3) 我们的框架兼容多种强化学习算法 [47, 66],不仅限于GRPO。

1. 预测过程当作一个新的 MDP

  • 我们不是直接去解决现实里的原始环境(那太复杂)。
  • 而是把“预测下一个状态”本身看作一个马尔可夫决策过程(MDP),用 RLVR 来优化。
  • 也就是说,我们训练的是模型的预测能力,而不是直接在真实环境里跑实验。

2. RLVR-World 是通用的

  • 这个框架不限制输入/输出的形式,也不限制奖励函数。
  • 在不同领域(语言、视觉、机器人),可以设计不同的 token 化方式和奖励指标。
  • 比如语言可以用准确率,视觉可以用感知损失,机器人可以用物理轨迹误差。

3. 兼容多种RL算法

  • RLVR-World 不依赖单一算法,比如 GRPO。
  • 它同样能和 PPO [47]、其他 RL 算法 [66] 一起使用。
  • 所以它是一个 上层框架,不是局限于某种实现。

5 使用RLVR评估语言类世界模型

在本节中,我们评估了本文框架在不同模态下训练世界模型的有效性,尤其是语言(第5节)和视频(第6节)。受数学与代码生成领域成功经验的启发,我们首先将世界建模作为LLMs的一项新的可验证任务进行评估,主要聚焦于两个领域:文字游戏(5.1节)和网页导航(5.2节)。实验细节见附录A。

5.1 文本游戏状态预测

Dataset and task. 我们使用 ByteSized32-State-Prediction [57] 数据集,它包含来自31个文本游戏的76,369个状态转移,其中2954个高质量转移被选作测试集。在该任务中,LLM需要建模世界模拟器函数

F : C × S × A → S × R × T \mathcal{F : C \times S \times A \to S \times R \times T} F:C×S×AS×R×T

其中 C \mathcal{C} C 表示自然语言上下文, S \mathcal{S} S 为以JSON对象编码的状态空间, A \mathcal{A} A 为动作空间, R \mathcal{R} R 为任务奖励,KaTeX parse error: Expected 'EOF', got '}' at position 105: …4c603e254.png) }̲ 表示任务是否完成。

World model. 我们以 DeepSeek-R1-Distill-Qwen-1.5B [15, 63] 为基础模型。由于其能力有限,我们首先用 DeepSeek-R1 [15] 生成的响应进行监督微调(SFT),然后用RLVR进一步微调。奖励函数可以是简单的二元准确率:

R = I ( ( s ^ ′ , r ^ , w ^ ) = ( s , r , w ) ) R = \mathbb{I}((\hat{s}^′, \hat{r}, \hat{w}) = (s, r, w)) R=I((s^,r^,w^)=(s,r,w))

也可以是结合任务结构的特定奖励(见附录A.1)。

Results. 结果(见表1)显示,当动作改变状态时,预测更难,因此所有模型在“状态未改变”的情况上表现更好。与SFT相比,RLVR-World在仅使用简单二元奖励时即可显著提升性能:未改变的准确率提高+34.7%,改变的准确率提高+8.9%。进一步结合人工知识设计特定奖励后,性能提升更大:未改变+44.8%,改变+9.6%。这些结果使得我们的1.5B模型整体性能可与GPT-4相当,尽管在“改变”的情况上准确率仍然不足,这是基础模型能力有限的结果。

在这里插入图片描述

5.2 网页状态预测

Dataset and task. 我们在网页导航场景下进一步评估该方法,使用由WMA [8] 从WebArena基准 [69] 收集的网页状态转移数据集。训练和测试中,我们选取了一个7K样本的子集(包含较短序列),以避免训练过程中的内存不足。在该任务中,网页状态由其可访问性树表示,该树是DOM树的简化形式。LLM需要预测用户动作(如点击)后的状态转移。条目的变化通过匈牙利算法提取,使模型能直接预测这些变化。与WMA不同,WMA生成自然语言来描述状态变化,而我们的设计选择则便于在RLVR阶段进行明确验证。

世界模型。 按照之前的设定,我们采用 DeepSeek-R1-Distill-Qwen-1.5B 作为基础模型。我们首先使用WMA [8] 提供的链式思维(CoT)数据进行监督微调(SFT)。随后,我们应用RLVR,使用预测条目变化 Δ s ^ \Delta\hat{s} Δs^ 与真实变化 Δ s \Delta s Δs 之间的F1分数作为奖励函数:

R = F 1 ( Δ s ^ , Δ s ) R = \text{F}1(\Delta\hat{s}, \Delta s) R=F1(Δs^,Δs)

F1分数被定义为精确率和召回率的调和平均数。这里,精确率是指在所有生成的条目变化中正确预测的比例,召回率是指相对真实条目变化的正确预测比例。只有当预测的条目变化与真实值完全匹配时,才被视为正确。

结果。 如表2所示,互联网的世界模型同样可以通过RLVR(由于我们的新方法是预测精确的物品变化,而不是生成自然语言描述,因此无法与诸如 WMA 这样的既有方法直接比较。我们因此只与我们的基础模型进行对比。)显著增强,从而得出了我们实验的第一个关键发现:

关于语言类世界模型的发现: 除了在数学和代码领域的成功之外,RLVR还可以提升LLMs在涉及语言状态转移的世界建模任务中的性能。

在这里插入图片描述

5.3 应用:用于网页智能体的模型预测控制

最后,我们展示了强化后的语言类世界模型如何赋能更强大的网页智能体。

设置。 根据WMA [8],我们为WebArena基准 [69] 构建了网页智能体,它由三个组件组成:策略模型、世界模型和值模型。模型预测控制流程如下:首先,策略模型提出多个候选动作;然后,世界模型预测这些动作的结果;最后,值模型根据任务目标对每个预测结果进行评分。得分最高的动作被选中执行。对于策略模型和值模型,我们使用 DeepSeek-V3 [33],而世界模型则来自上一节中我们训练的模型。更多细节见附录A.3。

结果。 在表2中,我们比较了基于SFT训练与RLVR训练的世界模型所构建的网页智能体,结果表明性能有显著提升。我们预计,通过引入更强大的策略模型和值模型,以及在世界模型训练中延长最大上下文长度,可以获得进一步的性能提升。


6 使用RLVR评估视频世界模型

接下来,我们率先评估RLVR在训练自回归视频世界模型中的应用,提供了超越推理模型范围的生成模型分析与见解。

6.1 Setup

数据集与任务。 我们使用 RT-1 机器人操作数据集 [5],其中包含87,212条由Google机器人收集的桌面远程操作轨迹,保留1%用于测试。每一帧视觉观测的分辨率为256×320,动作空间由13个维度组成,包括机械臂和底座的运动。我们在两种任务设置下评估世界模型:(1) 单步预测,表示为 p ( s t + 1 ∣ s t − 3 : t , a t − 3 : t ) p(s_{t+1} \mid s_{t-3:t}, a_{t-3:t}) p(st+1st3:t,at3:t):根据过去四步的观测和动作预测下一步观测;(2) 多步预测,表示为 p ( s t + 1 : t + 7 ∣ s t , a t : t + 6 ) = ∏ i = t + 1 t + 7 p ( s i ∣ s t : i − 1 , a t : i − 1 ) p(s_{t+1:t+7} \mid s_t, a_{t:t+6}) = \prod_{i=t+1}^{t+7} p(s_i \mid s_{t:i-1}, a_{t:i-1}) p(st+1:t+7st,at:t+6)=i=t+1t+7p(sist:i1,at:i1):即在给定当前观测和未来动作序列的情况下预测接下来的七步观测。预测结果通过与真实观测对比,使用帧级别的指标进行评估:MSE、PSNR [24]、SSIM [58] 和 LPIPS [68]。

世界模型。 由于没有现成的视频世界模型可用,我们自行预训练了 iVideoGPT [61] 的变体作为基础模型。对于每个轨迹片段,我们将观测和动作进行标记化,并拼接为统一的标记序列。我们训练了一个图像分词器来独立标记化视频帧以进行单步预测,但在多步预测中则使用来自 iVideoGPT 的压缩分词器,以缓解序列长度爆炸的问题。每个动作维度被离散化为256个均匀区间,这些区间是根据整个数据集中的取值范围确定的。在RLVR微调中,我们将奖励函数定义为解码后预测帧与真实帧之间的 L1 损失和感知损失之和:

R = − ∑ τ = t + 1 T [ L 1 ( s ^ τ , s τ ) + LPIPS ( s ^ τ , s τ ) ] R = -\sum_{\tau = t+1}^{T} \big[ L_1(\hat{s}_\tau, s_\tau) + \text{LPIPS}(\hat{s}_\tau, s_\tau) \big] R=τ=t+1T[L1(s^τ,sτ)+LPIPS(s^τ,sτ)]

这种定义在视觉分词器训练中常被采用 [10]。实现细节见附录A.4。

6.2 Main Results

如表3所示,RLVR-World在所有视觉指标上都显著优于基础模型,展示了更准确且感知效果更佳的视频预测,示例见图6。 值得注意的是,这些性能提升仅通过几百次RLVR梯度更新即可实现,而MLE预训练则需要数十万次(见图3的训练曲线)。 即使在多步预测中继续进行额外15万步的预训练(比RLVR微调多1000倍),其LPIPS得分仍为14.5,明显落后。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

6.3 模型分析

减轻重复。 先前研究 [31] 指出,似然目标是大语言模型(LLM)生成中重复现象的主要原因。 我们在多步视频预测中也观察到类似现象,如图6所示。 其原因可能在于,每帧中大约20%的标记保持与前一帧不变,从而促使模型利用这一“捷径”。 通过直接优化视频级预测指标而非下一标记似然,RLVR有效缓解了这一问题,将重复率从48.6%降至9.9%。 为了确保改进不仅仅是因为减少重复,在表3中,我们增加了一个基线:不断查询基础模型直到采样到一个非重复输出为止。

面向指标的优化。 为了进一步展示直接指标优化的效果,我们基于五种不同的指标(MAE、MSE、PSNR、SSIM和LPIPS)作为奖励函数,对基础模型进行了五种变体的后训练。 如图4所示,用某一指标微调的模型通常在该指标上表现最佳。

在这里插入图片描述

测试时扩展。 我们在图4中评估了基础模型和RLVR训练模型在测试时的扩展行为,即报告在 N N N 个样本中取得的最佳指标 [36]。 RLVR-World 提升了一次性(one-shot)性能,甚至超过了基础模型的5次采样最佳结果。 这在实际场景中尤其有价值,因为生成大量样本计算成本高昂,且通常无法获得与真实值的比较。 然而,当 N N N 增加到100时,基础模型会追上并最终超过RLVR训练的模型,这与 Yue 等人 [67] 的发现相呼应。 这表明当前RLVR方法仍有限制,为未来研究提供了广阔空间。

RL训练扩展。 尽管在测试时生成更多样本开销较大,但图4表明这在训练中是必不可少的。 具体而言,在GRPO中增加组大小可以提升样本多样性、扩大探索空间,从而提高收敛速度和最终性能。

关于视频世界模型的发现: RLVR弥合了预训练目标与视觉预测指标之间的差距,实现了更准确的预测、更高效的训练,并减少了重复等伪影。

6.4 Application: Real2Sim Policy Evaluation

我们最后展示了,我们的模型可以作为真实世界的模拟器,从而改进策略评估。

设置。 参考 SIMPLER [32],我们在六个任务上评估了来自 RT-1 [5] 和 RT-1-X [41] 的四个策略检查点,这些任务涉及打开和关闭顶层、中层和底层抽屉。 从一个真实世界的观测帧开始,策略可以与视频世界模型交互,生成神经模拟轨迹,从而在无需真实部署的情况下进行策略评估。 由于我们基于 VLM 的自动评估尝试 [53] 未能提供可靠的判断,因此我们依赖人工标注者来评估模拟轨迹的成功与否。 除了我们的基础模型外,我们还与 SIMPLER 开发的模拟器进行了比较。 实验细节见附录 A.5。

结果。 如图5所示,与手工构建的 SIMPLER 模拟器相比,视频世界模型在真实成功率与模拟成功率之间的差异更小,这表明世界模型是一种可扩展的方法,有助于缩小仿真到现实(sim-to-real)的差距。 在视频世界模型中,RLVR-World 在基础模型的基础上进一步改进,实现了更准确的策略评估。

关于基于模型的应用的发现: 使用 RLVR 训练的世界模型能够改进下游任务,包括策略评估和模型预测控制。


7 Discussion and Limitations

在本研究中,我们率先将 RLVR 应用于跨语言和视频模态的世界模型训练,并展示了其在网页导航和机器人操作中的实际应用。 我们认为,RLVR 有潜力成为生成模型的一种通用后训练范式。 为此,未来仍有若干挑战需要探索:(1) 任务对齐的奖励: 尽管经典的视觉指标比MLE更符合世界建模任务,但它们仍无法完全捕捉用户期望的特性。将物理规律和时间一致性等约束纳入其中,将需要更复杂的奖励设计。 (2) 突破性能瓶颈: 尽管RLVR带来了显著提升,但训练通常在数百步内就收敛。要实现持续改进,需要更深入地分析模型、数据和算法中的瓶颈。 (3) 分布外(OOD)泛化: 受RLVR在帮助LLMs泛化到训练域之外任务 [49] 的成功启发,有必要研究类似的好处是否能够扩展到世界模型,尤其是在顺序决策中对OOD动作进行反事实推理时。

v

### DRL-TransKey Paper Overview The **DRL-TransKey** paper focuses on the application of deep reinforcement learning (DRL) techniques to achieve policy gradient-based motion representation transfer, specifically transitioning from keyframe animations to more dynamic and adaptive motions[^1]. This approach leverages advanced machine learning models that allow for a seamless integration between traditional hand-crafted animations and AI-driven procedural generation. In this context, the method utilizes policy gradients as an optimization technique within the framework of reinforcement learning. The primary goal is to learn policies that can generalize across different scenarios while preserving the artistic intent embedded in original keyframes[^2]. #### Key Concepts Discussed in the Paper One significant aspect highlighted involves representing complex movements through latent space embeddings derived via autoencoders or variational methods before applying them into RL environments where agents interactively refine their behaviors over time steps under reward signals defined by task objectives such as smoothness, realism preservation etc.[^3] Additionally, it introduces mechanisms like curriculum learning which gradually increases difficulty levels during training phases ensuring stable convergence towards optimal solutions without falling prey common pitfalls associated naive implementations involving high dimensional continuous action spaces typical character control problems found video games industry applications among others areas requiring sophisticated motor skills simulation tasks performed virtual characters controlled autonomously using learned strategies rather than scripted sequences alone thus enhancing overall flexibility adaptability real world conditions encountered various domains including robotics autonomous vehicles beyond mere entertainment purposes only but also extending scientific research experimental setups needing precise manipulations objects environments alike depending upon specific requirements set forth each individual case study considered throughout entire document length covering multiple aspects ranging theoretical foundations practical implementation details alongside empirical evaluations demonstrating effectiveness proposed methodologies against baseline comparisons established literature review sections provided earlier parts text body itself too! ```python import gym from stable_baselines3 import PPO env = gym.make('CustomMotionEnv-v0') # Hypothetical environment setup model = PPO("MlpPolicy", env, verbose=1) def train_model(): model.learn(total_timesteps=100_000) train_model() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值