25年3月来自 Nvidia 的论文“Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning”。
物理 AI 系统需要感知、理解和执行物理世界中的复杂动作。Cosmos-Reason1 模型,可以理解物理世界并通过长链思维推理过程以自然语言生成适当的具身决策(例如,下一步动作)。首先定义物理 AI 推理的关键能力,重点关注物理常识和具身推理。为了表示物理常识,用分层本体(ontology)来捕获有关空间、时间和物理的基本知识。对于具身推理,依赖于跨不同物理具身进行泛化的二维本体。基于这些能力,开发两个多模态大语言模型,Cosmos-Reason1-8B 和 Cosmos-Reason1-56B。分四个阶段整理数据并训练模型:视觉预训练、一般监督微调 (SFT)、物理 AI 监督微调(SFT) 和物理 AI 强化学习 (RL) 作为后训练。为了评估模型,根据本体论建立物理常识和具身推理的综合基准。评估结果表明,物理 AI 监督微调(SFT) 和强化学习(RL)带来显著的改进。
。。。。。。。继续。。。。。。。
本文采用四个训练阶段来将预训练的视觉编码器和 LLM 主干网络适配到物理 AI 推理模型。这些训练阶段包括:视觉预训练、通用 SFT、物理 AI SFT 和物理 AI RL。经过微调后,使用 RL 对物理 AI 重点任务进行后训练,以进一步增强其物理常识和具身推理能力。
视觉预训练
视觉预训练的目的,是通过将图像和视频 tokens 映射到文本 tokens 嵌入空间来对齐视觉和文本模态。在此阶段,保持 LLM 主干网络和视觉编码器冻结,并仅训练两层 MLP 投影器。对于预训练,策划一个多样化的图像文本预训练数据集,其中包含各种任务,例如字幕和视觉问答(Dai,2024)。视觉预训练数据集包含 1.3 亿个样本,包括人工注释的数据和模型生成的字幕。
通用监督微调
在第二阶段,在各种面向任务的监督微调数据上训练视觉编码器、MLP 投影器和 LLM 主干。由于模型是端到端训练的,因此这一阶段对于建立核心能力至关重要,从而实现跨视觉和语言模式的联合理解。对于通用 SFT,整理两种类型的数据集——通用图像文本数据集和通用视频文本 SFT 数据集,以增强基础模型在与其他模型类似的广泛视觉语言任务中的能力(Alayrac,2022;Liu,2023;Chen,2024;Bai,2025;Dai,2024)。总体而言,通用 SFT 数据集由 600 万个图像文本样本和 200 万个视频文本样本组成。
物理 AI 监督微调
在此阶段,根据特定域的数据对上一阶段的模型进行微调,以专注于物理 AI。此过程旨在实现两个关键结果:(1)增强模型在物理 AI 特定数据上的视觉语言能力;(2)发展两种关键推理能力——物理常识推理和具身推理。与前两个训练阶段不同,现有数据源不能直接用于物理 AI SFT。为了应对这一挑战,开发一个专门的流水线,以策划物理常识和具身推理应用的 SFT 数据集。与预训练和通用 SFT 阶段不同,物理 AI SFT 数据的一部分,特别是视觉问答 (VQA) 对,是通过模型-在-环(MIL)方法生成的,而不是直接来自人工策划。对于物理常识,构建 VQA 数据集来回答视频中的自由形式和多项选择题。对于具身推理,对现有数据集进行子采样并将其转换为 SFT 数据集,其中涵盖不同实施中的广泛任务,包括人类、机械臂、人形机器人和自动驾驶汽车。对于每个数据集,收集两种类型的注释:理解和推理。理解注释包含视频的常识问题和答案以及视频中状态和动作的详细描述(结构化视频字幕)。推理注释包含给定文本提示和输入视频的长思维链轨迹 (CoT)。此外,进一步策划特定的推理 SFT 数据集,以增强模型理解时空视觉刺激(通过谜题和视频中的时间箭头)以及物体永久性(通过基于物理的模拟)的能力。这些数据集统称为直观物理学。下表总结用于物理 AI SFT 的数据集:
下图展示来自物理 AI SFT 数据集的视频帧示例:
物理常识 SFT
如前所述,对于物理常识,收集由自由形式和多项选择题 (MCQ) 组成的 VQA 数据集。物理常识数据策划流程包括五个阶段:
- 人机协作视频策划。根据人类偏好策划一组高质量视频。从这些视频中提取短片并将其用作训练样本。
- 详细字幕。采用可靠的人工注释者或预训练的视觉语言模型 (VLM) 来提取视频的详细描述。这些充当“字幕”,用它们来构建视频片段的理解和推理注释。
- 策划 QA 对。提示 LLM 根据详细的片段描述构建自由形式或多项选择题。构建两种问题:(1)涵盖视频内容(通过字幕观察)的“理解”问题和(2)假设性的“推理”问题,这些问题需要字幕中的信息来构建问题,但不能直接根据详细字幕回答。“推理”问题需要更多的思考,而不仅仅是感知剪辑中的事件和目标。推理问题侧重于视频中的常识推理、空间推理和时间推理。
- 提取推理痕迹。为了获得完整的“推理”注释,提示 DeepSeek-R1(DeepSeek-AI,2025)使用详细字幕作为上下文来回答推理子集问题。然后,将 DeepSeek-R1 的响应解析为思考痕迹和答案。提出无法从字母直接回答的问题很重要。否则,R1 可以直接从提供的字幕中检索答案,从而使思维痕迹对模型训练无效。“推理”注释包括推理问题、相应的剪辑、思维痕迹和答案。
- 清理和重写。最后,对“推理”注释采用基于规则的清理和重写阶段,以生成有效的 SFT 样本。由于将剪辑的视觉上下文压缩为文本,因此重写有助于删除 SFT 训练样本中不需要的引用,例如“描述”或“字幕”。
使用上述流水线,整理由自由形式和多项选择题组成的物理常识 VQA 数据集,并考虑以下几点:
自由形式问题:使用精选的“高质量”剪辑集中的 9.9K 个视频,并获得相应的人工注释详细描述。人工注释字幕的平均长度为 297.4 ± 46.4 个字。对于自由形式问题,通过上述流水线获得 ∼99k 个理解 SFT 样本和 ∼59.4k 个推理 SFT 样本。
多项选择题 (MCQ):为了确保模型能够回答多项选择题 (MCQ),另外为高质量精选剪辑收集一组“理解”和“推理” MCQ。与自由形式问题不同,首先使用来自 VLM 的详细字幕注释 ∼1.2M 个高质量剪辑集。利用这些字幕,构建 ∼2.4M 个“理解” MCQ。然后,选取 ∼356k 个片段的子集,并使用详细的字幕来生成 ∼600k 个“推理 MCQ”。
具身推理 SFT
具身推理 SFT 数据管理流水线,专注于物理 AI 智体决策所必需的三个关键属性:(1)“任务完成验证”:确定任务或子任务是否已成功完成的能力;(2)“行动 affordance”:评估是否有可能执行特定行动或朝着目标前进的能力;(3)“下一个合理行动预测”:确定最合理的下一个行动或子任务,以朝着指定目标前进的能力。这些属性对于跨各种具身和任务配置进行有效决策至关重要。为了开发这些推理能力,从公共和专有数据集中整理 SFT 样本。使用的具身推理 SFT 数据集包含具有四个组件的结构化条目:视觉字幕、问题、相应的答案和详细的推理轨迹。
展示物理 AI 智体追求目标导向任务的视频,是具身推理数据的主要来源。从展示人类、机器人或车辆执行特定任务演示的来源收集 SFT 数据。对于具身推理,特别关注与感兴趣关键属性相关的短期推理——确定智体是否可以在给定目标( affordance 和下一个合理行动预测)情况下推理下一个子任务或行动,或评估短期任务的成功完成情况(验证任务完成情况)。由于现有的物理 AI 演示数据集可能缺乏提取此类局部动作或子任务序列所需的密集注释,使用一系列专门的步骤来提取此类片段。确保策划的数据集在多样性、短期粒度(下一个行动或下一个子任务)、具身化和推理提示方面丰富。使用的策划流程具有以下一般步骤(如图所示):
- 提取短期片段。由于对短期推理任务感兴趣,将长视频演示分解为专注于短期推理任务的简洁片段。这些片段捕获单个动作(例如“向左移动”)或不同的子任务(例如“打开冰箱门”)。当现有数据集已经提供适当分段的剪辑或时间戳时,会直接使用它们。否则,利用互补注释(例如动作原语和计划)来提取这些短期片段。
- 注释状态-动作上下文。对于每个短期剪辑,用 VLM 生成结构化字幕,详细说明当前目标、它们的属性和相关动作。当数据集提供可以提高此类结构化字幕质量的补充注释时,会将此信息合并到 VLM 提示中。这些构成了对具身推理 SFT 的“理解”注释。对于 AV 数据,直接使用人工注释的字幕。
- 策划推理 QA 对。根据可用的子任务和动作注释,开发专注于感兴趣关键属性的推理问答对。对于已经包含解决目标属性的合适 QA 对数据集,会应用最少的基于规则预处理,然后再将它们添加到具身推理 SFT 数据池中。
- 提取推理痕迹 - 利用 DeepSeek-R1 (DeepSeek-AI, 2025) 为精选的 QA 对生成推理痕迹。由于 R1 缺乏视觉处理能力,构建包含状态动作上下文、问题和其他信息(例如子任务说明或总体目标)的提示,以引出适当的推理痕迹。上图演示了此过程。
- 清理和重写 - 最后,使用基于规则的清理和重写来仅保留有效且有用的推理痕迹。由于将剪辑的视觉背景压缩为文本,因此重写有助于删除对“描述”或“字幕”的不必要引用。
策划流程中每个步骤的具体细节,在不同的数据集中略有不同,但整体流程保持不变。
BridgeData V2:BridgeData V2(Walke,2023)旨在通过提供广泛的机器人操作行为来推进可扩展的机器人学习。该数据集强调基础目标操作任务,例如拾取和放置、推动和清扫,以及更复杂的活动,例如堆叠积木和折叠衣服。它包含 60,096 条轨迹,包括 50,365 个遥控演示和 9,731 个脚本化的拾取和放置部署,涵盖 24 种不同环境中的 13 种不同技能。每条轨迹都用与机器人执行的任务相对应自然语言指令进行注释。环境分为四类(玩具厨房、桌面、玩具水槽和其他),其中很大一部分数据是从七个独特的玩具厨房收集的,这些厨房有水槽、炉灶和微波炉的组合。首先从数据集“训练”分割中分割视频,并获得 129.5K 视频片段。然后使用 VLM 为视频片段添加字幕作为理解注释。在字幕提示中,还提供其他信息,例如检测的物体和来自 ECoT 的动作序列(Zawalski,2024)。仅为 BridgeData V2 生成“下一个合理动作预测”推理 QA 对,其中答案对应于动作原语,例如向左移动。推理注释是通过将字幕和问题提供给 DeepSeek-R1 生成的。
RoboVQA:RoboVQA(Sermanet,2024)是一个以机器人为中心的大型视觉问答数据集。它由视频、说明和执行任务的智体(机器人、人类、带有抓取工具的人类)的问答对组成。RoboVQA 有 6 种不同的问题类型,涵盖与规划、验证任务完成、判别 affordance、生成 affordance、过去描述和未来预测相关的方面(这些对应于之前概述的属性)。直接使用 RoboVQA 中的片段而不进行任何剪辑,以获得约 220k 个片段的数据集。用 VLM 为这些片段添加字幕,并通过将任务上下文、字幕和问题组合成合适的用户提示,从 DeepSeek-R1 中提取推理痕迹。这产生了约 930k 个具有推理痕迹的 QA 对。在清理后过滤出一个合适的子集,并在 SFT 的数据集“训练”分割中使用片段和 QA 对。来自 RoboVQA 的 SFT 样本,涵盖具身推理策划流水线中的所有 3 个所需属性。
AgiBot:AgiBot World (AgiBot, 2024) 是一个高保真机器人操作数据集。数据是使用 AgiBot G1 硬件平台收集的,涵盖广泛的现实任务。它由 36 个任务组成。每个任务包含多个episodes,在环境和目标方面各不相同。为每个任务对部分 episodes 进行子采样,总共得到 3,300 个视频。每个视频都标注了总体任务信息和多个子任务注释,包括开始和结束帧。利用这些动作注释将视频分割成剪辑,最终得到 19.8K 个剪辑的数据集。这些剪辑由 VLM 配上字幕,将视觉信息转换为场景/目标描述及其运动。只为 AgiBot 生成“下一个合理的子任务预测”问题,其中答案对应于子任务(“将黄瓜放入袋子”)。然后,使用 DeepSeek-R1 根据生成的字幕推断完成任务所需的下一个可能的子任务。
HoloAssist:以自我中心数据集捕捉关键的第一人称视角,提供对人类行为的自然和沉浸式理解,但也带来了独特的挑战,包括相机运动、细微动作、遮挡、视野外的物体、空间视角问题以及对全局场景理解的需求。尽管存在这些挑战,但它们对于开发物理 AI 系统中的具体决策能力仍然很有价值,有可能实现对现实世界环境的类似人类的解释和响应。选择以 HoloAssist(Wang,2023)为基础,其中包含 166 小时的自我中心视频,专注于以目标为中心的操作任务。值得注意的是,HoloAssist 独特地包含人为错误以及为解决这些错误而采取的纠正步骤。这些见解可以帮助物理人工智能以模仿人类学习的方式进行学习,并完善他们对现实世界中物体的理解。使用 HoloAssist 中带时间戳的粗粒度和细粒度动作注释,将 1,758 个视频拆分为 139,653 个剪辑的最终数据集。使用 VLM 来生成字幕注释。只为 HoloAssist 生成“下一个合理的子任务预测”问题,其中答案对应于子任务。使用 DeepSeek-R1 生成推理轨迹,根据生成的字幕预测完成任务所需的下一个可能子任务。在每个流水线中,提供任务注释作为总体目标,并提供细粒度注释作为当前子任务来补充字幕。
自动驾驶汽车 (AV):作为物理人工智能的关键领域,自动驾驶汽车 (AV) 依靠大规模和高质量的数据来实现安全可靠的自动驾驶体验,尤其是在端到端系统快速扩展的时代。在这项工作中,为了避免字幕幻觉——尤其是在微妙的行为和复杂的互动中——使用专有数据集,其中包含由人类注释的高质量字幕。数据集由 ∼12.4K 个视频组成,每个视频时长 20 秒,总计约 70 小时。
每个字幕包含三个类别:(1)一般描述,详细说明自我行为、环境条件(例如场景类型、一天中的时间、天气、道路状况)和关键物体(例如车辆、行人、骑自行车的人、交通信号灯、交通标志);(2)驾驶难度,根据所需的驾驶员注意力水平和场景的独特性或风险,提供对驾驶复杂性的简明评估;(3)通知,突出显示值得注意的事件,例如标志和信号、道路使用者互动和异常行为。利用这些字幕,将驾驶视频转换为结构化描述。然后使用 DeepSeek-R1 生成推理轨迹,根据这些结构化描述预测自我车辆将采取的下一个最有可能的即时行动。
直观物理 SFT:空间谜题、时间-箭头和物体永久性
虽然先前的 SFT 阶段为物理 AI 应用提供域特定推理,但本文结合额外的 SFT 阶段来开发以直观物理为中心的基本推理能力。虽然直观物理推理能力涵盖广泛的分类法,但在此特别关注三个关键方面:推理空间连续性(通过空间谜题)、推理时间箭头(通过视频中事件的时间顺序)和推理物体性(通过评估物体永久性的基于模拟设置)。这些任务本质上是由构造自我监督的,这简化了数据管理过程。尽管在更复杂的任务上取得了重大进展,但目前最先进的 VLM 在这些更简单的基本推理目标上仍然表现不佳。为了解决这些限制,策划专门的 SFT 数据集,目标是空间连续性、时间箭头和物体永久性。
推理空间连续性:空间谜题。除了空间关系之外,理解空间连续性对于物理 AI 任务也至关重要。为了让模型对空间连续性有基本的了解,进一步对它们进行微调,以解决空间谜题。具体来说,整理 3000 个视频,这些视频具有不同的背景、动作和相机姿势。对于每个视频,提取第一帧并将其分成 2×2 个补丁(patches)。然后对这些补丁进行打乱以创建一个新剪辑,其中一帧是一个补丁。提示模型识别相对于原始帧的左、上、下和右位置。为了进一步增加任务的复杂性,引入七个额外的干扰图像,每个图像也分成 2×2 个补丁。这导致单个样本总共有 32 个打乱的帧,这些帧被提供给模型以推理正确的位置。此外,设计一些“身份(identity)”驱动的补充任务——确定哪两帧或三帧来自与第一帧相同的图像。与对比学习类似,这项任务要求模型开发强大的空间推理能力,同时区分相关和不相关的样本,但现在有了推理。
为了生成高质量的空间连续性推理数据,首先使用 VLM 为 32 个补丁中的每一个添加字幕,并将这些描述输入 DeepSeek-R1 以解决三个任务之一。只保留 R1 做出正确预测的样本。3,000 张图像中的每一张都经过多次处理,干扰项和打乱顺序各不相同。经过筛选后,最终数据集包含 11k 个视频。
关于时间的推理:时间之箭 (AoT)。与空间类似,还为模型注入推理时间的能力,特别是宏观尺度上事件的时间顺序。时间在宏观尺度上本质上是不可逆的,并且可以通过视频中的运动和活动模式来感知。能够推理时间的单向箭头对于物理 AI 至关重要,因为它与熵、重力和因果关系等基本物理现象密切相关。此外,它可以作为学习直觉物理的代理(proxy)监督信号。特别是,时间改变或反转的视频包含违反物理规律的伪影,物理 AI 推理模型应该能够评估这些伪影。
使用来自 Agarwal (2025) 训练数据集的视频子集,构建一个包含 30,000 个短视频片段及其反转版本的 SFT 数据集。这个子集包含包含各种复杂任务的视频,这些任务经常涉及显著的运动。优先考虑具有大动作的视频,因为它们是区分时间箭头最具代表性的例子。与之前的阶段不同,使用 VLM 直接提取正向和反向播放片段的推理轨迹。应用与具身推理 SFT 相同的程序,会导致使用 R1 进行思维轨迹提取的结果不理想。为了改进策划,在用户提示中明确指出视频是正向播放还是反向播放,从而帮助 VLM 生成更合理的理由。此外,设计提示,以确保推理轨迹在两个播放方向上保持一致的风格和长度。为了鼓励推理的多样性,为每个正向和反向视频策划两个不同的推理轨迹。
关于物体性的推理:物体永久性。虽然空间连续性和时间顺序为理解物理关系和序列提供了基础,但物体永久性(即理解物体即使无法直接观测也会继续存在)代表了物理 AI 智体的基本推理能力。如果没有强大的物体永久性推理,VLM 甚至会难以应对现实世界中物体频繁进出视野或被遮挡的基本场景,这严重限制了它们在需要一致物体跟踪和预测能力的物理 AI 应用中实用性。
对于目标永久性,构建一个 SFT 数据集,其中包含由机器人模拟平台 Libero (Liu et al., 2023) 合成的 10K 个剪辑。Libero 提供 130 个机器人手臂目标操作任务,涵盖不同的环境、桌面目标和预先录制的手臂动作序列。为了增强场景多样性,将其定位为面向桌子中心,并通过在球体上选择随机的起点和终点来围绕场景旋转。在播放预先录制的手臂动作时,摄像机会从起点平滑地插入到终点,然后返回到起始位置附近。在此过渡过程中,某些目标可能会暂时被遮挡,一旦完全被遮挡,某些目标可能会被随机从场景中移除。用适当的上下文提示模型,并要求它分析每个剪辑并确定是否有任何目标意外消失,从而违反目标永久性。为了确保模型生成的推理痕迹始终能够导致正确答案,在提示中包含线索(hints),指示哪些目标消失并且不会重新出现。但是,在最终的 SFT 数据集中,这些线索已从提示中删除。对于目标永久性,将视觉上下文压缩成字幕的标准流程,对于提取 SFT 有用的推理痕迹而言并非最佳选择。为了解决这个问题,从 Cosmos-Reason1-8B 的中间版本中提取思考痕迹。
物理 AI 强化学习
虽然微调建立了基础的物理常识和具身推理能力,但通过强化学习后训练进一步增强了这些能力。这种方法需要有效的奖励机制,根据 DeepSeek-AI (2025) 使用经考验的基于规则和可验证奖励来实现。与数学和编码等 LLM 领域不同(其中正确答案和格式是精确定义的),物理常识和具身推理通常涉及自由形式、开放式的响应,这会使奖励分配变得复杂。
为了应对这一挑战,将来自推理 SFT 数据源(不包括思维痕迹)的样本转换为具有单个正确答案的多项选择题(样本数量见下表所示)。这种转换本质上可以实现简单的基于规则的响应验证。
RL 后训练数据集包含来自所有物理 AI SFT 数据源的样本,其中某些子集(特别是空间拼图、AoT 和目标持久性数据)已经以二进制问题格式存在,使它们无需修改即可直接用作 MCQ。在此手动地验证用于 RL 后训练的样本质量。
物理常识 RL 数据。从 1989 个视频中收集 5133 个人工注释的二进制和多项选择题。为了帮助控制问题的难度,使用带注释的问题来评估四个模型,包括 GPT-4o、Gemini Flason 2.0、Qwen2.5-VL-7B 和本文 8B 模型。根据评估结果,进一步将收集的数据分为两个子集:(1)简单子集,所有模型都答对问题;(2)困难子集,其中至少一个模型答错问题。
具身推理 RL 数据。从每个具身推理数据源中选择 200-250 个 SFT 样本,并将其转换为多项选择题 (MCQ)。为了确保高质量的 RL 后训练,仔细验证这些样本没有答案和指令歧义,同时保持 MCQ 选项之间的平衡分布,以防止潜在的奖励黑客攻击。这个过程需要一些人工干预,特别是对于非二元问题,必须选择适当的干扰选项,这些选项是合理但明显不正确的。需要人为干预来确保问题质量,这使得生成大规模 MCQ 数据进行训练变得困难。
直观物理 RL 数据。自监督直观物理 SFT 数据在设计上自然存在于 MCQ 格式中,使其可扩展以生成各种问题。对于这些任务,实施额外的质量保证措施,以确保所有样本的选项分布平衡。小心地避免与 SFT 期间使用的剪辑重叠,以防止 RL 后训练期间过早饱和。对于 RL 后训练阶段,在空间连续性、时间箭头和物体持久性任务中精选了 24079 个高质量样本。
将本文训练过的模型与其他模型在一个基准上进行比较,该基准专门用于衡量有关物理常识、具体决策的推理能力。构建常识和具体推理基准的过程如表所示:
通过基于视频上下文询问二元是/否问题或多项选择题 (MCQ) 来评估模型。该基准需要通过构造进行推理(以得出正确答案),并且只测量最终答案的准确性。