测试-时间规模化定律可以改进世界基础模型吗？-CSDN博客

本文链接：https://blog.csdn.net/yorkhunter/article/details/147395239

25年3月来自 UT Austin、UW Madison 和 Nvidia 的论文“Can Test-Time Scaling Improve World Foundation Model?”。

世界基础模型（WFM）通过根据当前的观察和输入预测未来状态来模拟物理世界，已成为许多物理智能（PI）应用的核心，包括自动驾驶和机器人技术。然而，这些模型需要大量的计算资源进行预训练，并且在训练后受到可用数据的限制。因此，在测试-时规模化计算量成为传统模型扩大或重训练的关键且实用的替代方案。本文介绍 SWIFT，一个为 WFM 量身定制的测试-时规模化框架。SWIFT 将可规模化的 WFM 评估工具包与流程级推理策略相结合，包括快速token化、基于概率的 Top-K 剪枝和高效的集束搜索。在 COSMOS 模型上的经验结果表明，即使以计算最优的方式，测试-时规模化也存在。研究结果表明，测试-时规模化规律适用于 WFM，并且 SWIFT 提供一种可规模化且有效的途径，无需重训练或增加模型大小，即可改进 WFM 推理。

测试-时规模化已显示出充分利用模型容量的潜力，在推理阶段分配更多计算资源可以显著提升性能，甚至超过单纯增加模型规模所带来的益处（Snell，2024）。

世界基础模型 (WFM) 模拟现实世界的动态，连接物理世界和数字世界，在为自动驾驶和机器人等应用生成特定领域的合成数据方面发挥着关键作用。为了探究 WFM 是否也能从测试-时规模化中获益，重点介绍两个关键驱动因素：
1）. 训练更大规模的 WFM 在计算和数据方面都极其昂贵！与 LLM 的训练（主要涉及文本）不同，WFM 需要处理海量视频数据，需要耗费大量资源。例如，即使对于 130 亿小时的模型，使用 2000 万小时的素材训练 COSMOS 自回归视频模型也需要 1 万块 NVIDIA H100 GPU 耗时 3 个月。此外，规模化定律表明，更大的模型需要更多的数据。收集如此大规模、特定领域的视频非常困难。这就产生了一个“先有鸡还是先有蛋”的问题：旨在生成数字孪生合成视频的模型需要高质量的数据——然而，此类数据通常只有在开发出功能强大的 WFM 之后才能获得。
2）. 更大规模 WFM 的推理成本几乎与运行多个较小模型一样高。即使经过训练，WFM 的推理仍然是一个瓶颈。使用自回归模型生成长篇高分辨率视频的计算成本很高，因为每一步都需要完整的 Transformer 传递。此过程导致生成速度慢且内存占用高，使得大规模部署具有挑战性。在这些限制下，测试-时规模化（在推理过程中投入额外的计算资源）成为构建更大模型的一种有吸引力的替代方案。例如，运行 12B 模型所需的 FLOPs 大约是 4B 模型的三倍，这意味着可以将 4B 模型运行两到三次。

所以本文目标是：在测试-时增强 WFM，而无需扩大或重新训练它们。

世界基础模型 (WFM) 最近发展到将视频生成作为构建数字孪生（模拟物理世界的合成视频表征）的一种手段。此功能可在自动驾驶和机器人等领域实现强大的仿真、分析和智体训练应用。

尽管取得了这些进展，但目前仍然没有针对 WFM 独特目标量身定制的标准化评估器。1）通用视频生成基准（例如 VBench （Huang 2024)、VideoScore （He 2024)）侧重于美观或文本条件输出，这与世界建模的核心物理真实感和动态一致性不一致。2）特定任务的基准（例如 ACT-Bench （Arai 2024)）衡量下游控制性能，但忽略了视频生成的关键方面，例如时间连贯性。

为了弥补这一差距，本文推出一个针对世界基础模型的通用评估工具包，专门用于评估其在不同领域的能力。与特定任务或通用视频指标不同，工具包定义一个模块化、可扩展的框架，支持特定领域的评估，同时保持广泛的适用性。

评估工具包目前包含以下关键指标：
3D 一致性：评估生成场景的几何一致性（如图左），这对于自动驾驶等任务至关重要。用（Wang 2025）提出的 3D 基础模型 CUT3R，该模型以前馈方式从视频重建 3D 结构，从而实现高效的评估。
时间一致性：评估生成的视频序列是否保持连贯的时间动态——保持平滑的背景过渡和跨帧的物体永久性，这对于机器人技术和规划等任务至关重要（如图右）。用 CLIP 和 DINO 相似度得分来衡量这一点。
空间关系感知：衡量实体之间的空间关系（尤其是人与环境的交互）是否在物理上合理。例如，在工厂模拟中，受（Huang 2024) 的启发，评估提示所暗示的左右和上下关系的遵循情况。
感知质量：评估生成内容的视觉保真度和美学吸引力。由于 WFM 必须生动逼真地模拟世界，注重色彩的丰富性、和谐度和艺术性。用 LAION 美学预测器对每一帧进行单独评估。低级失真（例如噪声或模糊）不会受到惩罚，因为它们可以反映现实世界传感器的自然属性。
文本-到-视频对齐：测量生成的视频与其相关文本提示之间的语义对齐。同时使用 CLIPScore（提示和视觉特征之间的帧级余弦相似度）和 X-CLIPScore（使用跨模态嵌入的视频级对齐）。

请添加图片描述

正如 COSMOS 工作中所述，由于 WFM 的通用性和复杂性，对其进行评估本身就具有挑战性。虽然工具包并非详尽无遗，但它特意设计为模块化且可扩展，以便随着该领域的成熟而纳入新的指标和任务。为了支持进一步的研究和可重复性，该工具包将开源。

全面评估不同领域的 WFM 极具挑战性，因为生成数千个视频需要大量的时间和 GPU 资源。（Hu 2023）的大多数现有世界建模工作都集中在自动驾驶领域，而在这个领域，生成真实且多样化的数据（尤其是针对罕见的极端情况）既至关重要又困难重重。本研究也将自动驾驶作为研究测试-时间规模化策略的主要测试平台，这与 COSMOS 模型的目标应用场景相一致。

基于评估工具包，提出 SWIFT，这是一个用于 WFM 的测试时间扩展框架，如图所示，旨在解决以下几个重要且紧迫的问题：

请添加图片描述

问题 1）：测试-时间规模化能否以计算优化的方式提升 WFM 的性能？除了验证测试-时间规模化之外，还旨在探索在固定计算预算下，较小的模型在测试-时间规模化后，是否能够匹敌甚至超越较大的模型。
问题 2）：如何设计一个针对 WFM 视频生成的有效且实用的测试-时间规模化策略？并非直接借鉴 LLM 的测试-时间规模化技术，而是致力于设计能够应对 WFM 独特挑战的策略——例如顺序自回归视频生成和基于扩散解码的高成本。

通过测试-时间验证器进行规模化：框架

为了证明测试-时间规模化对于世界基础模型的有效性，重点研究其自回归视频生成范式。基于扩散的视频生成因其测试-时间规模化行为已被广泛研究（例如，(Ma 2025)），而自回归视频模型的测试-时间规模化特性仍未得到充分探索。这一范式尤其重要，因为它提供一种统一的多模态生成方法——最近以 GPT-4o 的图像功能为例（这被认为是其背后的秘诀）。

首先形式化自回归 WFM 中的生成过程。令 p_Θ 表示带有参数 Θ 的预训练 WFM。该模型处理由视频块 v_0 组成的输入，并提示 c 生成表示为 V = {v_1, v_2, …, v_N} 的视频，其中 V 由 N 阶响应组成。为了提高效率和时间一致性，每个步骤响应 vi 包含 k 个帧，而不是单个帧，并以自回归方式生成：

v_i = p_Θ(v_i | c,v_0,v_1,v_2,…,v_i−1)

将视频生成表述为马尔可夫决策过程 (MDP)：借鉴先前将顺序决策任务转化为 MDP 框架的研究成果。由于 WFM 以自回归方式生成视频的每个步骤——以输入和所有先前生成的帧为条件——因此其生成自然映射到由元组 (S , A, R) 表示的 MDP。每个状态 s ∈ S 对应于一个部分生成的视频片段，从包含输入帧和任何文本条件的初始状态 s_0 开始。奖励函数 R(s, a)，或称为验证器 (Snell 2024)，评估生成内容的质量或对齐方式，而动作空间 A 指示如何在给定搜索算法的情况下优化模型的输出。

通过测试-时验证器进行规模化：验证器 R 设计

在测试-时规模化的背景下，验证器（奖励）在评估生成的候选集是否符合需求方面发挥着核心作用。广义上，奖励设计分为两类：(1) 基于偏好的奖励旨在通过利用现实世界的反馈来模拟人类偏好。但收集大规模的人工注释需要耗费大量人力，这促使人们最近努力将奖励模型训练为人类判断的智体模型（Guo，2025b）；(2) 基于规则的奖励依赖于基于特征的指标。由于它们不包含外部偏差，因此通常更加客观，并且不受归纳偏差的影响。

设计选择：基于规则的奖励，以实现稳健性和可扩展性：为了确定更适合自回归 WFM 的奖励公式，用 N 个最佳采样策略进行初步分析。对于每个提示，生成 N 个候选视频，并使用两种奖励类型对其进行评估。对于基于偏好的奖励，采用 VideoScore（He，2024），该评估涵盖多个方面（例如，视觉质量、时间一致性）。鉴于使用 COSMOS-4B 进行自动驾驶中的非条件视频生成任务，仅保留相关维度——视觉质量和时间一致性——并排除与条件信号相关的维度。

对于基于规则的奖励，选择与这两个方面相对应的既定指标（例如，视觉质量的美学质量和一致性的物体永久性得分）。

如图所示，基于规则的奖励在稳定性和与定性检查的一致性方面始终优于基于偏好的奖励。这证实 DeepSeek r1 （Guo 2025a）的研究结果，他们也报告称，基于规则的评估更稳健，且不易受到奖励黑客攻击。除了可靠性之外，基于规则的奖励更易于扩展。WFM 评估工具包采用模块化设计，可将新指标无缝集成到验证流程中，从而可扩展以满足未来的评估需求。

请添加图片描述

通过测试-时验证器进行规模化：动作 A 设计

在 LLM 中，两种常用策略用于提升输出质量：
(1) 修改输入提示以改变提议分布；
(2) 采样多个候选完成并选择或优化最佳完成。

然而，将策略 (1) 直接应用于视频生成具有挑战性。首先，整合文本反馈进行“反思”通常需要一个专门的奖励模型来检测偏差并提供校正信号——而这些工具目前还不适用于 WFM。其次，目前的 WFM 尚未经过训练，无法在不进行额外微调的情况下理解或处理此类反馈。因此，专注于策略 (2)——测试-时搜索——作为探索测试-时规模化规律的主要动作。鼓励 WFM 通过从其输出分布中进行独立同分布采样来探索多种可能的延续，这遵循了（Snell 2024) 和（Guo 2025b) 的先前研究。这种方法无需生成基于反思的反馈，也无需训练 WFM 来解释和处理此类反馈。

另一种在视频生成中引入随机性的可能方法是，在采样不同的输入帧的同时保持提示固定，例如使用文本-转-图像或文本-转-视频模型来初始化不同的起始条件。然而，这种策略并不适用。首先，它会在输入中引入固有的差异，导致生成的图像无法直接比较。例如，一个输入可能生成较小的物体，而另一个输入可能生成较大的物体，这会显著影响 3D 一致性等评估指标。其次，WFM 可能仅依赖视频作为输入，就像在 COSMOS 4B 中一样。

通过测试-时验证器进行规模化：搜索算法

在 SWIFT 框架内，可以无缝地调整各种测试-时规模化方法。

从最简单的测试-时规模化（TTS）策略开始：N 个取最佳的搜索。对于每个输入，采样 N 个独立的视频连续体，完整生成每个视频，使用基于规则的验证器 R 对其进行评分，然后选择得分最高的视频（如图左）。这种方法与 LLM 研究 (ORM) 中常用的“N 个最佳”输出选择方法相似。虽然概念上很简单，但 N 个取最佳搜索对于研究 WFM 中的测试-时规模化规律至关重要。

请添加图片描述

从这个实验中，得出两个关键观察结果：

观察结果 1：WFM 中存在测试-时规模化：即使采样连续体的数量略有增加，也能在大多数评估指标上持续提高生成质量。只需在推理阶段投入更多计算资源，即可生成更高保真度的视频，这表明 WFM 表现出清晰的测试-时间规模化规律。
观察 2：测试-时间规模化出人意料地实现了计算优化。除了证实测试-时间规模化能够提升视频质量之外，还想探究：较小的模型需要多少额外的推理计算才能与较大的模型相媲美？令人惊讶的是，4B 模型只需额外进行两到四次推理，就能达到或超过 13B 模型单次推理的输出质量。就 FLOPs 而言，这相当于运行一次较大的模型。这凸显 WFM 中一个引人注目的趋势：测试-时间规模化可以提供一种比增加模型规模更高效的计算方案——这与 LLM （Snell 2024) 的最新研究结果相呼应。

简单的 N 个取最优采样可以提高视频质量，但它未能充分利用自回归视频生成固有的顺序性。直观地讲，可以逐步检查视频质量并选择最佳路径来生成后续帧，类似于 LLM （Ma 2023) 中的过程奖励模型 (PRM)。

然而，简单的 PRM 实现会遇到一个致命的低效率问题，原因如下：

挑战：通过基于扩散的解码器进行解码成本高昂：WFM 依赖于基于扩散的去噪token化器来生成最终的高质量帧——该过程在 A6000 上大约需要 137.2 秒，大致相当于自回归生成这些帧的时间。因此，逐步执行完整的扩散解码会产生巨大的开销。虽然测试-时间规模化本质上会以额外的计算来换取更好的输出质量，但高效的策略必须避免解码浪费，而将计算集中在探索有希望的候选轨迹上。

为了应对这一挑战，本文引入几项关键创新，为 WFM 设计一个实用的测试-时间规模化框架，如上图所示：

快速token化器加速决策过程。为避免在每个生成步骤都运行扩散解码器，利用 WFM 的离散token化解码器作为轻量级智体。这个“快速token化器”仅需 ≈0.015 秒即可将中间潜在输出转换为视频帧，而完整的扩散解码则需要 ≈130 秒。从快速token化输出计算出的奖励分数与扩散解码器的奖励分数呈现出很强的相关性（见下图）。这种紧密的一致性证实了快速token化器提供了可靠且成本极低的反馈信号，从而能够及早修剪低质量轨迹，并使计算能够专注于更有希望的候选路径。

请添加图片描述

基于概率的 N 个样本 Top-K 修剪。视频生成本质上是连续的：早期帧会影响（但不能保证）后续帧的质量。并非像在基本 PRM 中那样在每一步贪婪地选择单个得分最高的延续，而是维护一小部分有希望的候选。具体而言，在每个时间步，采样 N 个下一步延续 {s_t^i} 并计算它们的验证者得分 {r_t^i}。并非根据得分确定性地选择前 K 个，而是使用基于验证器得分的 softmax 函数进行基于概率的选择。这种随机前 K 个策略引入受控探索，从而始终比前 1 个采样和确定性前 K 个排序获得更好的性能（如图所示）。

请添加图片描述

保持效率的集束搜索算法。为防止候选轨迹呈指数级爆炸式增长，采用一种受集束搜索启发的程序，该程序在每一步都限制搜索复杂度。具体而言，维护一个由 K 个部分视频序列组成的固定集束。在每个时间步，每个集束成员都会生成 M 个新的延续，从而产生 M × K 个候选。使用快速token化器验证器对所有候选进行评分，然后修剪回前 K 个候选，用于下一步。通过限制集束的大小，这种方法使分支增长与序列长度保持线性关系，从而大幅减少计算浪费，并确保推理成本保持可预测。