英伟达开源物理理解与决策长链推理模型：Cosmos-Reason1-7B

Open-source-AI

于 2025-05-25 18:47:09 发布

阅读量496

点赞数 9

分类专栏：前沿文章标签：语言模型人工智能自然语言处理大模型开源

本文链接：https://blog.csdn.net/weixin_52582710/article/details/148211977

版权

前沿专栏收录该内容

173 篇文章

订阅专栏

一、模型概述

Cosmos-Reason1 模型系列是由 NVIDIA 开发的物理 AI 模型，旨在理解物理常识并通过长链推理过程以自然语言生成适当的具身决策。这些模型经过监督微调和强化学习，基于物理常识和具身推理数据进行后训练，能够理解空间、时间及基础物理知识，可作为规划模型来推理具身代理的下一步行动，且已准备好投入商业使用。

二、模型版本

目前该系列包含 Cosmos-Reason1-7B 模型，能够在给定文本提示和输入视频（或图像）的情况下，结合文本提示和视频内容进行思考并生成回答。

三、许可证

Cosmos-Reason1 模型遵循 NVIDIA 开放模型许可证，允许商业使用，用户可自由创建和分发衍生模型，且 NVIDIA 不主张对使用模型或衍生模型生成的任何输出的所有权。但需注意，若绕过、禁用、降低模型中任何安全防护机制的有效性或规避这些机制，且未采用适合使用场景的类似安全防护机制，用户在该许可协议下的权利将自动终止。

四、部署地域

该模型的部署地域为全球。

五、应用场景

主要应用于物理 AI 领域，包括对空间、时间、基础物理的理解以及具身推理，涵盖机器人技术和自动驾驶汽车（AV）等领域。

六、模型架构

属于多模态大型语言模型（LLM），由用于视觉编码的视觉Transformer（ViT）和用于 LLM 的密集 Transformer 模型构成。其网络架构为 Qwen2.5-VL-7B-Instruct，Cosmos-Reason-7B 基于此进行后训练，遵循相同的模型架构。

七、输入与输出

输入：支持文本（字符串格式，一维）、视频（mp4 格式，三维）和图像（jpg 格式，二维）三种输入类型。对于输入视频，建议使用帧率 FPS=4 来匹配训练设置，并在系统提示中添加指定格式的文本，以鼓励生成长链推理响应。
输出：输出类型为文本（字符串格式，一维）。推荐使用 4096 或更多输出最大令牌数，以避免长链推理响应被截断。该模型在 NVIDIA GPU 加速系统上运行效果更佳，借助 NVIDIA 的硬件和软件框架，可实现比仅使用 CPU 更快的训练和推理速度。

八、软件集成

运行时引擎为 vLLM，支持 NVIDIA Blackwell 和 NVIDIA Hopper 两种硬件微架构，但仅测试过使用 BF16 精度进行推理，操作系统为 Linux（尚未在其他操作系统上进行测试）。

九、使用与评估

使用：可参考 Cosmos-Reason1 获取详细信息，其提供了在具身推理数据集上进行监督微调和强化学习的示例。
评估：详细评估请参阅技术论文，部分评估数据集已整合至 Cosmos-Reason1-Benchmark。具身推理数据集和基准测试重点关注机器人技术、以自我为中心的人类示范以及自动驾驶汽车驾驶视频数据等领域。其中，自动驾驶汽车数据集由 NVIDIA 收集和标注，所有数据集均按照技术论文中描述的数据标注流程来准备训练和评估数据及标注信息。

十、数据收集与标注

RoboVQA、BridgeDataV2、AgiBot、RoboFail 数据集采用混合（自动 / 传感器）收集方式，HoloAssist 数据集通过人类收集，AV 数据集采用自动 / 传感器收集方式；在标注方法上，RoboVQA、BridgeDataV2、AgiBot、RoboFail 以及 HoloAssist 数据集均采用混合（人工 / 自动）标注，AV 数据集同样采用混合（人工 / 自动）标注。

十一、模型性能

在具身推理基准测试中，模型在 RoboVQA、AV、BridgeDataV2、Agibot、HoloAssist、RoboFail 等不同数据集上的准确率分别为 87.3%、70.8%、63.7%、48.9%、62.7%、57.2%，平均准确率为 65.1%。

十二、伦理考量

NVIDIA 认为可信 AI 是共同的责任，已建立相关政策和实践，以支持广泛的人工智能应用开发。用户在下载或使用模型时需遵守服务条款，与内部模型团队合作，确保模型满足相关行业和使用场景的要求，并解决意外的产品滥用问题。用户对模型的输入和输出负责，并需在部署前确保安全地集成该模型，包括实施安全防护措施及其他安全机制。

十三、数据集格式与量化

数据集包含视频（mp4 格式）和文本两种模态。发布的具身推理数据和基准测试中，每个数据样本由视频和文本配对组成，文本标注包括 Cosmos-Reason1 论文中描述的理解和推理标注，每个视频可能有多个文本标注。文中给出了不同数据集的视频和文本配对数量等情况，部分数据集如 AV 数据暂不可用，将后续上传，且已发布 RoboFail 基准测试用于衡量泛化能力。