51c大模型~合集102

我自己的原文哦~     https://blog.51cto.com/whaosoft/13035686

#Wonderland

单张图像探索3D奇境:让高质量3D场景生成更高效

本文的主要作者来自多伦多大学、Snap Inc.和UCLA的研究团队。第一作者为多伦多大学博士生梁汉文和Snap Inc.的曹军力,他们专注于视频生成以及3D/4D场景生成与重建的研究,致力于创造更加真实、高质量的3D和4D场景。团队成员期待与更多志同道合的研究者们交流与合作。

在人类的认知中,从单张图像中感知并想象三维世界是一项天然的能力。我们能直观地估算距离、形状,猜想被遮挡区域的几何信息。然而,将这一复杂的认知过程赋予机器却充满挑战。最近,来自多伦多大学、Snap Inc. 和 UCLA 的研究团队推出了全新的模型 ——Wonderland,它能够从单张图像生成高质量、广范围的 3D 场景,在单视图 3D 场景生成领域取得了突破性进展。

  • 论文地址: https://arxiv.org/abs/2412.12091
  • 项目主页:https://snap-research.github.io/wonderland/

图片

技术突破:从单张图像到三维世界的关键创新

传统的 3D 重建技术往往依赖于多视角数据或逐个场景 (per-scene) 的优化,且在处理背景和不可见区域时容易失真。为解决这些问题,Wonderland 创新性地结合视频生成模型和大规模 3D 重建模型,实现了高效高质量的大规模 3D 场景生成:

  1. 向视频扩散模型中嵌入 3D 意识:通过向视频扩散模型中引入相机位姿控制,Wonderland 在视频 latent 空间中嵌入了场景的多视角信息,并能保证 3D 一致性。视频生成模型在相机运动轨迹的精准控制下,将单张图像扩展为包含丰富空间关系的多视角视频。
  2. 双分支相机控制机制:利用 ControlNet 和 LoRA 模块,Wonderland 实现了在视频生成过程中对于丰富的相机视角变化的精确控制,显著提升了多视角生成的视频质量、几何一致性和静态特征。
  3. 大规模 latent-based 3D 重建模型(LaLRM):Wonderland 创新地引入了 3D 重建模型 LaLRM,利用视频生成模型生成的 latent 直接重构 3D 场景(feed-forward reconstruction)。重建模型的训练采用了高效的逐步训练策略,将视频 latent 空间中的信息转化为 3D 高斯点分布(3D Gaussian Splatting, 3DGS),显著降低了内存需求和重建时间成本。凭借这种设计,LaLRM 能够有效地将生成和重建任务对齐,同时在图像空间与三维空间之间建立了桥梁,实现了更加高效且一致的广阔 3D 场景构建。

效果展示 — 视频生成

基于单张图和 camera condition,实现视频生成的精准视角控制:

,时长00:06

,时长00:06

,时长00:06

,时长00:06

Camera-guided 视频生成模型可以精确地遵循轨迹的条件,生成 3D-geometry 一致的高质量视频,并具有很强的泛化性,可以遵循各种复杂的轨迹,并适用于各种风格的输入图片。

更多的例子:

不同的输入图片,同样的三条相机轨迹,生成的视频:

图片

图片

,时长00:11

图片

,时长00:11

给定输入图片和多条相机轨迹,生成视频可以深度地探索场景:

效果展示 —3D 场景生成

基于单张图,利用 LaLRM, Wonderland 可以生成高质量的、广阔的 3D 场景:

(以下展示均为从建立的3DGS Rendering出的结果)

基于单张图和多条相机轨迹,Wonderland 可以深度探索和生成高质量的、广阔的 3D 场景:

,时长00:07

,时长00:12

,时长00:12

,时长00:07

卓越性能:在视觉质量和生成效率等多个维度上表现卓越

Wonderland 的主要特点在于其精确的视角控制、卓越的场景生成质量、生成的高效性和广泛的适用性。实验结果显示,该模型在多个数据集上的表现超越现有方法,包括视频生成的视角控制、视频生成的视觉质量、3D 重建的几何一致性和渲染的图像质量、以及端到端的生成速度均取得了优异的表现:

  1. 双分支相机条件策略:通过引入双分支相机条件控制策略,视频扩散模型能够生成 3D-geometry 一致的多视图场景捕捉,且相较于现有方法达到了更精确的姿态控制。
  2. Zero-shot 3D 场景生成:在单图像输入的前提下,Wonderland 可进行高效的 3D 场景前向重建,在多个基准数据集(例如 RealEstate10K、DL3DV 和 Tanks-and-Temples)上的 3D 场景重建质量均优于现有方法。
  3. 广覆盖场景生成能力:与过去的 3D 前向重建通常受限于小视角范围或者物体级别的重建不同,Wonderland 能够高效生成广范围的复杂场景。其生成的 3D 场景不仅具备高度的几何一致性,还具有很强的泛化性,能处理 out-of-domain 的场景。
  4. 超高效率:在单张图像输入的问题设定下,利用单张 A100,Wonderland 仅需约 5 分钟即可生成完整的 3D 场景。这一速度相比需要 16 分钟的 Cat3D 提升了 3.2 倍,相较需要 3 小时的 ZeroNVS 更是提升了 36 倍。

应用场景:视频和 3D 场景内容创作的新工具

Wonderland 的出现为视频和 3D 场景的创作提供了一种崭新的解决方案。在建筑设计、虚拟现实、影视特效以及游戏开发等领域,该技术展现了广阔的应用潜力。通过其精准的视频位姿控制和具备广视角、高清晰度的 3D 场景生成能力,Wonderland 能够满足复杂场景中对高质量内容的需求,为创作者带来更多可能性。

未来展望

尽管模型表现优异,Wonderland 研发团队深知仍有许多值得提升和探索的方向。例如,进一步优化对动态场景的适配能力、提升对真实场景细节的还原度等,都是未来努力的重点。希望通过不断改进和完善,让这一研发思路不仅推动单视图 3D 场景生成技术的进步,也能为视频生成与 3D 技术在实际应用中的广泛普及贡献力量。

#vivo万字综述探讨大模型手机自动化

手机「自动驾驶」大揭秘

1. 导言

你是否想过,手机能像电影钢铁侠中的智能管家贾维斯那般,一句话就能顺畅自如地完成各种复杂任务。

最近国内外的手机厂商和 AI 公司纷纷发布了手机 AI 智能体相关产品,让曾经的幻想逐渐有了可行性。

vivo 作为行业领跑者,在十月的开发者大会上推出了其手机智能体产品 “PhoneGPT",能帮用户实现一句话点咖啡、订外卖、甚至能够一句话找到最近的私房菜馆并通过 AI 实现电话预定包厢,被网友们称作 “i 人救星”。

图片

图 1 vivo PhoneGPT订座(蓝心小V对话或小V主界面下滑探索-智能体广场体验)

与此同时,各大厂家似乎提前约好一样,都瞄准了一句话订咖啡的场景,颇有当年乔布斯使用初代 iPhone 订星巴克的即视感。更有坊间戏称,今年秋天第一杯咖啡是手机智能体帮你点的。

图片

图 2 vivo PhoneGPT订咖啡(蓝心小V对话或小V主界面下滑探索-智能体广场体验)

尽管行业发展迅速,最近关于手机 AI 智能体的论文井喷,相关技术路线迭代发展迅速,但这一领域仍缺少系统性的综述。此次 vivo AI Lab 联合香港中文大学 MMLab 等团队发布了 “大模型驱动的手机 AI 智能体” 综述论文,该论文长达 48 页,覆盖 200 余篇文献,对基于大模型的手机自动操作智能体相关技术展开了全面且深入的研究,希望给学界和产业界作为参考,共同推进行业发展。

图片

  • 论文标题:LLM-Powered GUI Agents in Phone Automation: Surveying Progress and Prospects
  • 论文地址:https://www.preprints.org/manuscript/202501.0413/v1

1.1 研究背景

  • 手机 GUI 自动化旨在通过编程模拟人类与手机界面的交互,以完成复杂任务,传统方法包括自动化测试、快捷指令和机器人流程自动化(RPA),但存在通用性、灵活性、维护成本、意图理解和屏幕感知等方面的挑战。
  • 大语言模型(LLM)的出现为手机自动化带来了新的范式,基于 LLM 的手机 GUI 智能体能够理解自然语言指令,感知界面并执行任务,有望实现更智能、自适应的自动化操作。

1.2 研究目的

  • 系统总结 LLM 驱动的手机 GUI 智能体的研究成果,包括框架、模型、数据集和评估方法。
  • 分析 LLM 在手机自动化中的应用现状,探讨其优势和面临的挑战。
  • 指出未来研究的方向,为相关领域的研究人员和从业者提供参考。

1.3 主要贡献

图片

图 3  大模型驱动的手机 GUI 智能体文献分类

  • 对 LLM 驱动的手机 GUI 智能体进行全面系统的综述,涵盖发展轨迹、核心技术和应用场景。
  • 提出多视角的方法论框架,包括框架设计、模型选择与训练、数据集与评估指标。
  • 深入分析 LLM 赋能手机自动化的原因,探讨其在自然语言理解、推理和决策等方面的优势。
  • 介绍和评估最新进展、数据集和基准,为研究提供资源支持。
  • 识别关键挑战并提出未来研究的新视角,如数据集多样性、设备端部署效率和安全问题。

2. 手机自动化的发展历程

2.1 LLM 时代之前的手机自动化

  • 自动化测试:为解决手机应用复杂度增加带来的测试难题,经历了从随机测试到基于模型的测试、基于学习的测试,再到强化学习测试的发展,但仍面临测试覆盖范围、效率、成本和模型泛化能力等挑战。
  • 快捷指令:如 Tasker 和 iOS Shortcuts,通过预定义规则或触发条件实现任务自动化,但范围和灵活性有限。
  • 机器人流程自动化(RPA):在手机上模拟人类执行重复性任务,但在处理动态界面和脚本更新方面存在困难。

2.2 传统方法的挑战

  • 通用性有限:传统方法针对特定应用和界面,难以适应不同应用和动态环境,缺乏灵活性和上下文适应能力。
  • 维护成本高:编写和维护自动化脚本需要专业知识,且随着应用更新,脚本需频繁修改,耗时费力,入门门槛高限制了用户使用。
  • 意图理解能力差:基于规则和脚本的系统只能执行预定义任务,难以理解复杂自然语言指令,无法满足用户多样化需求。
  • 屏幕 GUI 感知能力弱:传统方法难以准确识别和交互不同应用中的各种 GUI 元素,对动态内容和复杂界面的处理能力有限。

2.3 LLM 推动手机自动化

图片

图 4  大模型驱动的手机 GUI 智能体发展里程碑

  • 发展历程与里程碑:LLM 在手机自动化中的应用不断演进,通过自然语言理解、多模态感知和推理决策能力的提升,逐步实现更复杂任务的自动化。
  • LLM 解决传统挑战的方式
  • 上下文语义理解:从大量文本语料库学习,理解复杂语言结构和领域知识,准确解析多步骤命令。
  • 屏幕 GUI 多模态感知:利用多模态感知能力,统一文本和视觉感知信息,实现对屏幕元素的准确定位和交互。
  • 推理和决策制定:基于语言、视觉上下文和历史交互进行复杂推理、多步骤规划和上下文感知适应,提高任务执行成功率。

2.4 新兴商业应用

  • Apple Intelligence:2024 年 6 月推出,集成 AI 能力到 iOS、iPadOS 和 macOS,通过智能总结、优先级通知和上下文感知回复增强通信、生产力和专注功能,保障用户隐私和安全。
  • vivo PhoneGPT:2024 年 10 月推出,OriginOS 5 操作系统中的个人 AI 助手,具备自主拆解需求、主动规划路径、实时环境识别和动态反馈决策的能力,能帮用户实现一句话点咖啡、订外卖、甚至能够一句话找到最近的私房菜馆并通过 AI 实现电话预定包厢等任务。
  • Honor YOYO Agent:2024 年 10 月发布,适应用户习惯和复杂指令,通过语音或文本命令自动化多步骤任务,如购物比价、自动填表、定制饮品和会议静音,提升用户体验。
  • Anthropic Claude Computer Use:2024 年 10 月推出 Claude 3.5 Sonnet 模型的 Computer Use 功能,使 AI 智能体能像人类一样操作计算机,观察屏幕、移动光标、点击按钮和输入文本,改变人机交互范式。
  • Zhipu.AI AutoGLM:2024 年 10 月推出,通过简单命令模拟人类操作智能手机,如点赞评论、购物、订票和点餐,能导航界面、解读视觉线索并执行任务,展示 LLM 驱动的手机自动化在商业应用中的潜力。

3. 手机 GUI 智能体框架

3.1 基本框架

图片

图 5  大模型驱动的手机 GUI 智能体基础框架

  • 感知模块
  • UI 信息:包括 UI 树(如 DroidBot - GPT 将其转换为自然语言句子)、截图(如 AutoUI 依赖截图进行 GUI 控制)、Set - of - Marks(用于标注截图,如 MM - Navigator)和 Icon & OCR 增强(如 Mobile - Agent - v2 集成 OCR 和图标数据)。
  • 手机状态:如键盘状态和位置数据,用于上下文感知操作。
  • 大脑模块
  • 存储:包括记忆(如记录历史屏幕任务相关内容)和知识(来自预训练知识、领域特定训练和知识注入)。
  • 决策制定:包括规划(如 Mobile - Agent - v2 的规划智能体生成任务进度)、推理(可以利用 Chain - of - thought 增强推理能力)和反思(如 Mobile - Agent - v2 的反思智能体评估决策并调整)。
  • 行动模块:通过执行触摸交互、手势操作、输入文本、系统操作和媒体控制等类型的动作,实现与手机 UI 和系统功能的交互,确保决策转化为设备上的实际操作。

3.2 多智能体框架

图片

图 6  多智能体框架分类

  • 角色协调多智能体框架(Role-Coordinated Multi-Agent Framework):如 MMAC - Copilot 中多个具有不同功能的智能体协作,包括规划、决策、记忆管理、反思和工具调用等,通过预定义工作流程共同完成任务。
  • 基于场景的任务执行框架(Scenario-Based Task Execution Framework):如 MobileExperts 根据特定任务场景动态分配任务给专家智能体,每个智能体可以具有针对特定场景(如购物、编码、导航)的能力,提高任务成功率和效率。

3.3 计划 - 然后 - 行动框架(Plan-Then-Act Framework)

  • 如 SeeAct、UGround、LiMAC 和 ClickAgent 等工作展示了该框架的有效性,通过先生成动作描述,再根据动作描述定位到要操作的控件位置,提高了任务执行的清晰度、可靠性和适应性,允许独立改进规划和 UI 定位模块。

4. 用于手机自动化的大语言模型

图片

图 7  模型分类

4.1 提示工程(Prompt Engineering)

图片

图 8  提示词设计

  • 纯文本提示词(Text-Based Prompt):主要架构为单文本模态 LLM,通过解释 UI 树信息进行决策,如 DroidBot - GPT、Enabling Conversational 等,在不同应用中有一定进展,但存在对屏幕的全局信息理解利用不足等问题。
  • 多模态提示词(Multimodal Prompt):多模态大语言模型(MLLM)集成视觉和文本信息,通过截图和补充 UI 信息进行决策,包括基于 SoM 输出索引方法(如 MM - Navigator、AppAgent)和直接坐标输出方法(如 VisionTasker、Mobile - Agent 系列),提高了准确性和鲁棒性,但在 UI 定位准确性方面仍面临挑战。

4.2 基于训练的方法(Training-Based Methods)

  • GUI 任务专用模型架构(Task Specific Model Architectures)
  • 通用目的:如 Auto - GUI、CogAgent、ScreenAI、CoCo - Agent 和 MobileFlow 等,旨在增强直接 GUI 交互、高分辨率视觉识别、全面环境感知和条件行动预测能力,以应对不同应用和界面的任务。

图片

图 9  不同的 UI 理解任务

  • 特定领域:专注于屏幕理解任务,包括 UI 定位(如 LVG、UI - Hawk)、UI 引用(如 Ferret - UI、UI - Hawk)和屏幕问答(如 ScreenAI、WebVLN、UI - Hawk),通过特定技术提升智能体在复杂用户界面中的交互能力。
  • 监督微调(Supervised Fine-Tuning)
  • 通用目的:通过在特定任务数据集上微调,增强模型在 GUI 定位、OCR、跨应用导航和效率等方面的能力,如 SeeClick、GUICourse、GUI Odyssey 和 TinyClick 等工作。
  • 特定领域:应用于特定任务,如 ReALM 解决参考分辨率问题,IconDesc 用于生成 UI 图标替代文本,提高了模型在特定领域的性能。
  • 强化学习(Reinforcement Learning)
  • 手机智能体:如 DigiRL、DistRL 和 AutoGLM,通过强化学习训练智能体适应动态手机环境,提高决策能力和成功率,AutoGLM 还实现了跨平台应用。
  • 网页智能体:ETO、Agent Q 和 AutoWebGLM 利用强化学习使智能体适应复杂网页环境,通过学习交互和改进决策,提高在网页导航和操作任务中的性能。
  • Windows 智能体:ScreenAgent 通过强化学习使智能体在 Windows 环境中与真实计算机屏幕交互,完成多步骤任务,展示了在桌面 GUI 自动化中的潜力。

5. 数据集和基准

5.1 相关数据集

图片

表1  数据集

  • 早期数据集:如 PixelHelp 将自然语言指令映射到 UI 动作,UIBert 通过预训练提升 UI 理解,Meta - GUI 收集对话与 GUI 操作痕迹,UGIF 解决多语言 UI 指令跟随问题,MoTIF 引入任务可行性和不确定性。
  • 大规模数据集:Android In The Wild(AITW)和 Android In The Zoo(AITZ)提供大量设备交互数据,GUI Odyssey 用于跨应用导航训练和评估,AndroidControl 研究数据规模对智能体性能的影响,AMEX 提供详细注释增强智能体对 UI 元素的理解。

5.2 基准

图片

表 2  Benchmarks

  • 评估方法(Evaluation Pipelines):MobileEnv 提供通用训练和评估平台,AndroidArena 评估 LLM 智能体在复杂 Android 环境中的性能,LlamaTouch 实现移动 UI 任务的设备端执行和评估,B - MoCA 评估不同配置下的移动设备控制智能体,AndroidWorld 提供动态可参数化任务环境,MobileAgentBench 为移动 LLM 智能体提供高效基准,AUITestAgent 实现自动 GUI 测试,AndroidLab 提供系统框架和基准。
  • 评估指标(Evaluation Metrics)
  • 任务完成指标:如任务完成率、子目标成功率和端到端任务完成率,评估智能体完成任务的有效性。
  • 行动执行质量指标:包括行动准确性、正确步骤、正确轨迹、操作逻辑和推理准确性,衡量智能体行动的精确性和逻辑性。
  • 资源利用和效率指标:如资源消耗、步骤效率和反向冗余比,评估智能体资源利用效率。
  • 任务理解和推理指标:如 Oracle 准确性、点准确性、推理准确性和关键信息挖掘能力,考察智能体的理解和推理能力。
  • 格式和合规性指标:验证智能体输出是否符合格式约束。
  • 完成意识和反思指标:评估智能体对任务边界的识别和学习能力。
  • 评估准确性和可靠性指标:确保评估过程的一致性和可靠性。
  • 奖励和整体性能指标:如任务奖励和平均奖励,综合评估智能体性能。

6. 挑战与未来方向

6.1 数据集开发与微调可扩展性

  • 现有数据集缺乏多样性,未来需开发大规模、多模态且涵盖广泛应用、用户行为、语言和设备类型的数据集。
  • 解决微调在域外性能方面的挑战,探索混合训练方法、无监督学习、迁移学习和辅助任务,以减少对大规模数据的依赖。

6.2 轻量级和高效的设备端部署

  • 克服移动设备在计算和内存方面的限制,采用模型剪枝、量化和高效 transformer 架构等方法,如 Octopus v2 和 Lightweight Neural App Control 的创新。
  • 利用专门硬件加速器和边缘计算解决方案,减少对云的依赖,增强隐私保护并提高响应速度。

6.3 用户中心适应:交互与个性化

  • 提高智能体对用户意图的理解能力,减少手动干预,支持语音命令、手势和持续学习用户反馈。
  • 实现智能体的个性化适应,通过集成多种学习技术,使其快速适应新任务和用户特定上下文,无需大量重新训练。

6.4 模型定位、推理等能力提升

  • 改进语言指令到 UI 元素的精确映射,集成先进视觉模型、大规模注释和有效融合技术,提升多模态定位能力。
  • 增强智能体在复杂场景中的推理、长程规划和适应性,开发新架构、内存机制和推理算法,超越当前 LLM 能力。

6.5 标准化评估基准

  • 建立统一的基准,覆盖多种任务、应用类型和交互模态,提供标准化指标、场景和评估协议,促进公平比较和全面评估。

6.6 确保可靠性和安全性

  • 开发强大的安全协议、错误处理技术和隐私保护方法,防范对抗攻击、数据泄露和意外行为,保护用户信息和信任。
  • 实施持续监测和验证过程,实时检测和缓解风险,确保智能体行为可预测、尊重隐私并在各种条件下保持稳定性能。

7. 总结

  • 综述了 LLM 驱动的手机自动化技术发展,包括多种框架(单智能体、多智能体、计划 - 然后 - 行动)、模型方法(提示工程、基于训练)和数据集 / 基准。
  • 分析了 LLM 在提升手机自动化效率、智能性和适应性方面的作用,以及面临的挑战和未来发展方向。
  • 强调了标准化基准和评估指标对推动领域发展的重要性,有助于公平比较不同模型和方法。

展望未来,随着模型架构改进、设备端推理优化和多模态数据集成,基于大模型的手机 GUI 智能体有望在复杂任务中实现更高自主性,融合更多 AI 范式,为用户提供无缝、个性化和安全的体验。

#黄仁勋圈重点的世界模型平台是个啥

技术报告全解析,华人贡献中坚力量

AI 的下一个前沿是物理。在昨天的 CES 发布会上,英伟达 CEO 黄仁勋通过一个名为「Cosmos」的平台点明了这一主题。

简单来说,Cosmos 是一个世界模型平台,上面有一系列开源、开放权重的视频世界模型,参数量从 4B 到 14B 不等。这些模型的作用非常明确,就是为机器人、自动驾驶汽车等在物理世界中运行的 AI 系统生成大量照片级真实、基于物理的合成数据,以解决该领域数据严重不足的问题。

,时长02:22

图片

英伟达的 Cosmos 平台一次发布了 8 个模型。

这些模型在 2000 万小时的视频数据上进行训练,分为扩散(连续 token)和自回归(离散 token)模型两类,支持文本生成视频和文本 + 视频生成视频两种生成方式。

生成效果如下:

图片

图片

英伟达表示,已经有许多领先的机器人和汽车公司成为 Cosmos 的首批用户,包括 1X、Agile Robots、Agility、Uber 等等。

黄仁勋表示:「机器人技术的 ChatGPT 时刻即将到来。与大型语言模型一样,世界基础模型对于推动机器人和自动驾驶汽车开发至关重要,但并非所有开发者都具备训练自己的世界模型的专业知识和资源。我们创建 Cosmos 是为了让物理 AI 普及化,让每个开发者都能用上通用机器人技术。」

Cosmos 模型已经公开发布,下面是相关地址:

  • 英伟达 API 目录:https://build.nvidia.com/explore/simulation
  • Hugging Face:https://huggingface.co/collections/nvidia/cosmos-6751e884dc10e013a0a0d8e6

除了模型,英伟达还公开了 Cosmos 的技术报告。从贡献者名单来看,华人学者承担了该项目的大量工作,有些小组(比如 Prompt Upsampler)甚至出现了全员华人的现象(文末可见完整名单)。

图片

技术报告地址:https://d1qx31qr3h6wln.cloudfront.net/publications/NVIDIA%20Cosmos_4.pdf

以下是技术报告的核心内容。

技术报告概览

技术报告主要介绍了用于构建物理 AI 的 Cosmos 世界基础模型(WFM)平台。作者主要关注的是视觉世界基础模型。在这种模型中,观察结果以视频形式呈现,扰动可以以各种形式存在。

如图 2 所示,作者提出了一个预训练,然后后训练的范式,将 WFM 分成预训练 WFM 和后训练 WFM。为了建立预训练 WFM,他们利用大规模的视频训练数据集,让模型接触到各种不同的视觉体验,使其成为一个通才。

图片

为了建立后训练 WFM,他们使用从特定物理 AI 环境中收集的数据集,对预训练 WFM 进行微调,以建立专门的 WFM,用于目标明确的专门物理 AI 设置。图 1 展示了预训练和后训练 WFM 的结果示例。

图片

图片

数据决定了 AI 模型的上限。为了构建一个高上限的预训练 WFM,作者开发了一个视频数据整理 pipeline。他们用它来定位具有丰富动态效果和高视觉质量的视频部分,以促进模型学习编码在视觉内容中的物理知识。

作者使用该 pipeline 从长达 2000 万小时的视频集合中提取了约 1 亿个视频片段,片段长度从 2 秒到 60 秒不等。对于每个片段,他们使用视觉语言模型(VLM)为每 256 帧提供一个视频描述。视频处理是计算密集型工作。作者利用现代 GPU 硬件实现的 H.264 视频编码器和解码器进行解码和转码。这个视频数据整理 pipeline 利用了许多预训练的图像 / 视频理解模型。这些模型具有不同的吞吐量。为了最大限度地提高生成可训练视频数据的总体吞吐量,作者构建了一个基于 Ray 的协调 pipeline。

在报告中,作者探讨了两种用于构建预训练 WFM 的可扩展方法。这两种方法是基于 transformer 的扩散模型和自回归模型。扩散模型通过逐步去除高斯噪声视频中的噪声来生成视频。自回归模型基于之前的生成内容,按照预设顺序逐段生成视频。

这两种方法都能将困难的视频生成问题分解为更容易解决的子问题,从而使问题更加容易解决。作者利用 SOTA transformer 架构来提高其可扩展性。在第 5.1 节中,他们介绍了一种基于 Transformer 的扩散模型设计,它具有强大的世界生成能力。在第 5.2 节中,他们介绍了一种基于 Transformer 的自回归模型设计,用于生成世界。

基于 Transformer 的扩散模型和基于 Transformer 的自回归模型都使用 token 来表示视频,前者使用向量形式的连续 token,后者使用整数形式的离散 token。作者注意到,视频 token 化 —— 一个将视频转换为 token 集的过程 —— 是一个非常复杂的过程。视频包含丰富的视觉世界信息。然而,为了便于学习世界基础模型,我们需要将视频压缩为紧凑的 token 序列,同时最大限度地保留视频中的原始内容,因为世界基础模型训练的计算复杂度会随着 token 数量的增加而增加。在很多方面,构建视频 tokenizer 与构建视频编解码器类似。作者开发了一种基于注意力的编码器 - 解码器架构,用于学习连续和离散 token 的视频 token 化(见第 4 章)。

在第 6 章中,作者对预训练的 WFM 进行微调,以获得适用于各种物理 AI 任务的后训练 WFM。在第 6.1 节中,作者对预训练的扩散 WFM 进行微调,使其成为相机姿态条件。这种后训练创建了一个可导航的虚拟世界,用户可以通过移动虚拟视点来探索所创建的世界。在第 6.2 节中,他们在由视频动作序列组成的各种机器人任务中对 WFM 进行微调。结果表明,通过利用预训练的 WFM,可以根据机器人采取的行动更好地预测世界的未来状态。在第 6.3 节中,作者演示了如何针对各种自动驾驶相关任务对预训练的 WFM 进行微调。

英伟达开发的 WFM 的预期用途是物理 AI 构建者。为了在使用 WFM 时更好地保护开发人员,作者开发了一个功能强大的防护系统,其中包括一个用于阻止有害输入的前置防护系统和一个用于阻止有害输出的后置防护系统。详情见第 7 章。

英伟达的目标是建立一个世界基础模型平台,帮助物理 AI 构建者推进他们的系统。为了实现这一目标,他们根据 NVIDIA 开放模型许可,分别在 NVIDIA Cosmos 和 NVIDIA Cosmos Tokenizer 目录下提供预训练的世界基础模型和 tokenizer。预训练脚本和后训练脚本将与视频数据整理 pipeline 一起在 NVIDIA Nemo Framework 目录下提供,以帮助构建者制作微调数据集。

  • NVIDIA Cosmos:https://github.com/NVIDIA/Cosmos
  • NVIDIA Cosmos Tokenizer:https://github.com/NVIDIA/Cosmos-Tokenizer
  • NVIDIA Nemo Framework:https://github.com/NVIDIA/Nemo

世界基础模型平台

设𝑥_0:𝑡为从时间 0 到𝑡对现实世界的一系列视觉观察,𝑐_𝑡为世界的扰动。如图 3 所示,WFM 是一个为 W 的模型,它基于过去的观察

图片

, 和当前的扰动 c_t 来预测时间 t+1 的未来观察

图片

。在示例中,𝑥_0:𝑡 是 RGB 视频,而 𝑐_𝑡 是一种可以采取多种形式的扰动。它可以是物理 AI 采取的动作、随机扰动、扰动的文本描述等。

图片

图 4 直观地展示了 Cosmos WFM 平台中可用的功能,包括视频 curator、视频 tokenization、世界基础模型预训练、世界基础模型后训练和护栏(guardrail)。

图片

具体而言:

视频 curator。本文开发了一个可扩展的视频数据 pipeline。每个视频被分割成没有场景变化的独立镜头。随后,对这些片段应用一系列过滤步骤,以筛选出高质量且富含动态信息的子集用于训练。这些高质量镜头随后使用视觉语言模型(VLM)进行标注。接着执行语义去重,以构建一个多样但紧凑的数据集。

视频 tokenization。本文开发了一系列具有不同压缩比的视频 tokenizer。这些 tokenizer 是因果性的,当前帧的 token 计算不依赖于未来的观测。这种因果设计有几个优点。在训练方面,它使得联合图像和视频训练成为可能,因为当输入是单张图像时,因果视频 tokenizer 也可以作为图像 tokenizer 使用。这对于视频模型利用图像数据集进行训练非常重要,因为图像数据集包含了丰富的世界外观信息,并且往往更加多样化。

WFM 预训练。本文探索了两种可扩展的方法来构建预训练的世界基础模型 —— 扩散模型和自回归模型。

  • 对于基于扩散的 WFM,预训练包括两个步骤:1)Text2World 生成的预训练,以及 2)Video2World 生成的预训练;
  • 对于基于自回归的 WFM,预训练包括两个步骤:1)基础的下一 token 生成,以及 2)文本 - 条件 Video2World 生成。

世界模型后训练。本文展示了经过预训练的 WFM 在多个下游物理 AI 应用中的应用。本文以相机姿态作为输入提示对预训练的 WFM 进行微调,因而模型能够在创建的世界中自由导航。此外,本文还展示了如何针对人形机器人和自动驾驶任务对预训练 WFM 进行微调。

护栏。为了安全使用所开发的世界基础模型,本文开发了一个护栏系统,用于阻止有害的输入和输出。

Tokenizer

tokenizer 是现代大模型的基本构建块,能将原始数据转换为更有效的表征。具体来说,视觉 tokenizer 将原始和冗余的视觉数据(例如图像和视频)映射为紧凑的语义 token,这使得它们对于处理高维视觉数据至关重要。这种能力不仅能够有效训练大规模 Transformer 模型,而且还使有限计算资源上的推理民主化。

图片

tokenizer 有两种类型:连续型和离散型。连续型 tokenizer 将视觉数据编码为连续的潜在嵌入,如 Stable Diffusion 或 VideoLDM 等潜在扩散模型。这些嵌入适用于通过从连续分布中采样生成数据的模型。离散 tokenizer 将视觉数据编码为离散潜在编码,将其映射为量化索引,如 VideoPoet 等自回归 transformer。这种离散表征对于像 GPT 这样用交叉熵损失训练的模型来说是必要的。

图片

tokenizer 的成功在很大程度上依赖于它们提供高压缩率而不影响后续视觉重建质量的能力。一方面,高压缩减少了存储和计算需求。另一方面,过度压缩可能会导致重要视觉细节丢失。这种权衡对 tokenizer 的设计提出了重大挑战。

英伟达推出了 Cosmos Tokenizer,这是一组视觉 tokenizer,其中包括用于图像和视频的连续和离散 tokenizer。Cosmos Tokenizer 提供卓越的视觉重建质量和推理效率。并提供一系列压缩率来适应不同的计算限制和应用程序需求。

图片

英伟达使用轻量级且计算高效的架构和时间因果机制来设计 Cosmos Tokenizer。具体来说,Cosmos Tokenizer 采用因果时间卷积层和因果时间注意力层来保留视频帧的自然时间顺序,确保使用单一统一网络架构对图像和视频进行无缝 tokenization。

图片

如图 8 所示,评估结果表明,Cosmos Tokenizer 的性能明显优于现有 tokenizer:

图片

世界基础模型预训练

经过预训练的 WFM 是通才模型,可以捕捉现实世界物理和自然行为的一般知识。本文利用两种不同的可扩展深度学习范式 —— 扩散模型和自回归模型,构建了两类 WFM。

扩散模型和自回归模型都将复杂的生成问题分解为一系列更简单的子问题,并极大地推动了生成模型的发展。

对于扩散模型,复杂的生成问题被分解为一系列去噪问题;而对于自回归模型,复杂的生成问题则被分解为一系列下一个 token 预测问题。

本文在三个月的时间内,使用一个由 10,000 个 NVIDIA H100 GPU 组成的集群,训练了论文中报告的所有 WFM。

表 10 展示了预训练 WFM 及其配套模型的概览。

对于基于扩散的 WFM 家族,本文首先构建了两个 Text2World 模型,分别为 7B 和 14B 参数,分别命名为 Cosmos-1.0-Diffusion-7B-Text2World 和 Cosmos-1.0-Diffusion-14B-Text2World。

对于基于自回归的 WFM 家族,本文首先构建了两个基础模型,分别为 4B 和 12B 参数,命名为 Cosmos-1.0-Autoregressive-4B 和 Cosmos-1.0-Autoregressive-12B。这些模型纯粹基于当前视频观测预测未来视频。

图片

Cosmos-1.0-Diffusion WFM 的整体架构:

图片

Cosmos-1.0-Diffusion 模型的配置细节。

图片

本文采用渐进式训练策略,每个阶段的具体情况见表 12:

图片

基于自回归的 WFM 架构如图 14 所示。本文对标准的 Transformer 模型架构进行了几项修改,以适应视频生成任务,包括添加了:1)3D 感知的位置嵌入,2)交叉注意力机制以支持文本输入,从而实现更好的控制,以及 3)QK-Normalization。

图片

Cosmos-1.0-Autoregressive 模型配置细节。

图片

技术报告演示了如何微调 Cosmos WFM 以支持不同的物理 AI 应用,包括:

图片

以用于相机控制的后训练 WFM 为例,通过相机姿态调节,英伟达将相机控制集成到 Cosmos-1.0-Diffusion-7B-Video2World 中,使其成为有效的 3D 世界模拟器。训练后的 WFM 结果被称为 Cosmos-1.0-Diffusion-7BVideo2World-Sample-CameraCond。

图片

图片

为了安全使用 WFM,英伟达还开发了一套全面的安全系统(护栏)。它由两个阶段组成:Pre-Guard 阶段和 Post-Guard 阶段。Pre-Guard 阶段利用 Aegis(Ghosh 等人,2024)和关键字列表来阻止有害提示。Post-Guard 阶段使用视频内容安全分类器和面部模糊过滤器来阻止有害的视觉输出。

图片

核心贡献者

论文最后还列出了贡献者名单,占据了整整一页的篇幅。

名单分为核心贡献者和贡献者,粗略看下来,华人学者几乎占据了半壁江山。在这份名单中,我们看到了许多熟悉的研究者,比如:

平台架构唯一贡献者 Ming-Yu Liu,他是 NVIDIA 的研究副总裁和 IEEE Fellow。他现在领导 NVIDIA 的深度想象研究(Deep Imagination Research)团队,专注于深度生成模型及其在内容创作中的应用。

多次出现名字的凌欢,是 Nvidia Toronto AI Lab 的人工智能科学家。博士毕业于多伦多大学 PhD,博士期间师从 Sanja Fidler 教授。他的研究方向主攻大规模图像视屏生成模型,和生成模型在计算机视觉领域的应用。

完整名单如下所示,里面有你熟悉的学者吗?

图片

#MeCo 

少用33%数据,模型性能不变,陈丹琦团队用元数据来做降本增效

除了提升数据效率之外,本文方法 MeCo 保证了计算开销与复杂性也几乎不会增加。

普林斯顿大学计算机科学系助理教授陈丹琦团队又有了新论文,这次将重点放在了「使用元数据来加速预训练」上来。

我们知道,语言模型通过在大量网络语料库上进行训练来实现卓越的通用能力。多样性训练数据凸显了一个根本性挑战:人们自然地根据数据源来调整他们的理解,与之不同,语言模型将所有内容作为等效样本来处理。

这种以相同方式处理异构源数据的做法会带来两个问题:一是忽略了有助于理解的重要上下文信号,二是在专门的下游任务中阻碍模型可靠地展示适当的行为,比如幽默或事实。

面对以上这些挑战,并为了提供每个文档来源的更多信息,陈丹琦团队在本文中提出通过在每个文档之前添加广泛可用的源 URL,从而在预训练期间使用文档相应的元数据进行调节。并且为了确保模型在推理过程中无论有无元数据都能高效地运行,在最后 10% 的训练中实施了冷却(cooldown)。他们将这种预训练方法称为 Metadata Conditioning then Cooldown(MeCo)。

先前的工作中已经有人使用元数据条件来引导模型生成并提高模型对恶意提示的稳健性,但研究者通过关键的两点确认了所提方法的通用实用性。首先,他们证明这一范式可以直接加速语言模型的预训练并提高下游任务性能。其次,MeCo 的冷却阶段确保模型在没有元数据的情况下可以执行推理,这点与以往的方法不同。

本文的主要贡献包括如下:

一、MeCo 大大加速了预训练过程。研究者证明,MeCo 使得 1.6B 的模型在少用 33%训练数据的情况下,实现与标准预训练模型相同的平均下游性能。MeCo 在模型规模(600M、1.6B、3B 和 8B)和数据源(C4、RefinedWeb 和 DCLM)表现出了一致的增益。

二、MeCo 开辟了一种引导模型的新方法。在推理过程中,在提示之前添加合适的真实或合成 URL 可以诱导期望的模型行为。举个例子,使用「factquizmaster.com」(并非真实 URL)可以增强常识知识任务的性能,比如零样本常识问题绝对性能可以提升 6%。相反,使用「wikipedia.org」(真实 URL)可以将有毒生成的可能性比标准无条件推理降低数倍。

三、MeCo 设计选择的消融实验表明,它能与不同类型的元数据兼容。使用散列 URL 和模型生成主题的消融实验表明,元数据的主要作用是按照来源对文档进行分组。因此,即使没有 URL,MeCo 也可以有效地合并不同类型的元数据,包括更细粒度的选项。

研究结果表明,MeCo 可以显著提高语言模型的数据效率,同时几乎不会增加预训练过程的计算开销和复杂性。此外,MeCo 提供了增强可控性,有望创建更可控的语言模型,并且它与更细粒度和创造性的元数据的普遍兼容性值得进一步探索。

总之,作为一种简单、灵活、有效的训练范式,MeCo 可以同时提高语言模型的实用性和可控性。

图片

  • 论文标题:Metadata Conditioning Accelerates Language Model Pre-training
  • 论文地址:https://arxiv.org/pdf/2501.01956v1
  • 代码地址:https://github.com/princeton-pli/MeCo

论文一作高天宇(Tianyu Gao)还在评论区与读者展开了互动,并回答了一个问题「MeCo 是否需要平衡过拟合和欠拟合」。他表示,本文的一个假设是 MeCo 进行隐式数据混合优化(DoReMi、ADO)并上采样欠拟合和更多有用域。

图片

OpenAI 一位研究人员 Lucas Beyer 表示,他很久之前就对视觉语言模型(VLM)做过类似的研究,很有趣,但最终用处不大。

图片

方法概览

本文方法包括以下两个训练阶段,如下图 1 所示。

图片

使用元数据条件进行预训练(前 90%):模型在串接的元数据和文档上进行训练,并遵循以下模板「URL: en.wikipedia.org\n\n [document]」。使用其他类型的元数据时,URL 替换为相应的元数据名称。研究者仅计算文档 token 的交叉熵损失,而忽略出自模板或元数据的 token。他们在初步实验中发现:使用这些 token 训练会损害下游任务性能。

使用标准数据进行冷却(后 10%):对于仅使用元数据增强的数据进行训练的模型,在没有元数据的情况下性能会下降(具体可见下表 4)。为了确保通用性,研究者在冷却阶段,使用了没有任何元数据的标准预训练文档来训练模型,该阶段涵盖了预训练过程最后 10% 的步骤。

冷却阶段继承了来自元数据条件阶段的学习率计划和优化器状态,即它从上一个阶段的最后一个检查点初始化学习率、模型参数和优化器状态,并继续根据计划来调整学习率。

图片

研究者还在所有实验中采用了以下两项技术,并且初步实验表明它们提高了基线预训练模型的性能:

  • 禁用了跨文档注意力,此举既加快了训练速度(1.6B 模型的速度提升了 25%),又提高了下游任务的性能;
  • 将多个文档打包成一个序列时,确保每个序列都从一个新文档开始,而不是从一个文档的中间开始,这可能会导致在将文档打包为一个固定长度时丢弃一些数据,但被证明有利于提高下游任务性能。

实验结果

研究者在所有实验中使用了 Llama 系列模型使用的 Transformer 架构和 Llama-3tokenizer,使用了四种规模的模型大小,分别是 600M、1.6B、3B 和 8B。他们对语言模型采用了标准优化设置,即 AdamW 优化器和余弦学习率计划。

少用 33% 数据,MeCo 性能与标准预训练方法相当 

下表 1 显示了研究者在 DCLM 上的 160B token 上,对 1.6B 语言模型进行预训练的主要结果。他们首先观察到,在大多数任务中,MeCo 的性能显著优于标准预训练方法。MeCo 还超越了数据挑选基线。并且与数据挑选方法不同的是,MeCo 不会产生任何计算开销,它利用了预训练数据中随时可用的 URL 信息。

图片

更重要的是,MeCo 实现了与标准预训练方法相当的性能,同时使用的数据和计算量减少了 33%,代表了数据效率的显著提高。

下表 1 为困惑度指标,表明了验证困惑度与下游性能无关。值得注意的是,当将 240B 基线模型与 160B MeCo 模型比较时,由于数据量较大,基线模型表现出的困惑度要低得多,但这两个模型实现了类似的平均性能。

研究者在下图 2 中展示了整个预训练过程中下游任务的性能变化。对于 MeCo,图中的每个检查点都包含使用 16B token(占总训练 token 的 10%)的冷却阶段。例如,80B 检查点包含了 64B token 的条件训练和 16B token 的冷却。他们观察到,MeCo 始终超越了基线模型,尤其是在训练后期。

图片

MeCo 在所有模型规模下均提升了性能

下图 3 显示了不同模型规模(600 M、1.6B、3B 和 8B)的结果。研究者使用相同的优化超参数和相同的数据量(DCLM 上的 160B)来训练所有模型,其中 8B 模型是个个例,它使用 80B token 进行训练,由于资源限制和训练不稳定而导致学习率较低。

研究者观察到,MeCo 在所有规模下均提升了模型性能。并且 MeCo 看起来可以为更大的模型带来更多的改进,十亿级参数的模型与 600M 相比显示出更显著的收益。不过需要注意,这是一个定性观察,与预训练损失相比,下游任务性能的扩展不太平稳。

图片

MeCo 提升了不同训练语料库的性能

研究者基于三个不同的数据源(C4、RefinedWeb 和 DCLM),在 160B token 上训练了 1.6B 模型,结果如下图 4 所示。如果将平均下游性能作为数据质量指标,三个数据源的排序为 DCLM > RefinedWeb > C4。他们观察到,MeCo 在不同数据源上实现了一致且显著的增益,平均准确率和单个任务均是如此。

图片

更多技术细节请参阅原论文。

#Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs

o1也会「想太多」?腾讯AI Lab与上海交大揭秘o1模型过度思考问题

本文的共同通讯作者为涂兆鹏和王瑞,涂兆鹏为腾讯专家研究员,研究方向为深度学习和大模型,在国际顶级期刊和会议上发表学术论文一百余篇,引用超过9000次。担任SCI期刊NeuroComputing副主编,多次担任ACL、EMNLP、ICLR等国际顶级会议领域主席。王瑞为上海交通大学副教授,研究方向为计算语言学。共同第一作者为上海交通大学博士生陈星宇、何志威,腾讯AI Lab高级研究员徐嘉豪、梁添。

本文将介绍首个关于 o1 类长思维链模型过度思考现象。该工作由腾讯 AI Lab 与上海交通大学团队共同完成。

  • 论文题目:Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs
  • 论文地址:https://arxiv.org/pdf/2412.21187

背景与动机

自 OpenAI 发布 o1 模型以来,它超强的逻辑推理以及难题解决能力就引发了广泛关注。o1 模型通过模拟人类的深度思考过程,在思维链中运用如自我反思、纠错以及探索多种解法等推理策略,展现了强大的长时间推理(Inference-Time Scaling)性能。依靠这种机制,o1 模型能够不断优化自身的答案质量。然而,在 o1 成功的光环下,一个潜在问题逐渐被放大 —— 过度思考。

随着 o1 模型的问世,许多类似的模型也陆续出现,比如 Qwen 团队开源的 QwQ-32B-Preview [1] 以及 Deepseek 推出的 R1-Preview [2] 模型。这些模型在推理时同样具备 “深度思考” 的特性,但也暴露出了类似的问题:在不必要的情况下生成过长的思维链反而浪费了计算资源。举一个简单的例子,对于问题 “2+3=?”,不同模型的回答长度如下图所示:

图片

传统模型的回答通常只需要极少的 token 就能给出答案,然而对于 o1 模型,其消耗的推理 token 直接达到了 200 以上。更极端的是,Deepseek-R1-Preview 和 QwQ-32B-Preview 的 token 消耗甚至达到了 900!为什么 QwQ 模型会产生如此之长的输出?研究团队进一步分析了 QwQ 对这个问题的答案,结果见下图右栏:

图片

QwQ-32B-Preview 模型会在推理过程中尝试多种不同的解题策略。对于简单的加法问题,模型探索了直接使用数学计算、数轴移动模拟,以及类比数苹果等方法,经历了多轮推理后才最终确定结果。尽管这种思维链策略对于复杂问题的解答非常有帮助,但在应对简单问题时,反复验证已有的答案和进行过于宽泛的探索显然是一种计算资源的浪费。为了更好地研究这个问题,研究团队对这类 o1 模型的过度思考现象进行了更细致的定义和深入分析。

过度思考现象

文章首先定义了模型回复中的独立解答(Solution):每当模型完整地得到一次对输入问题的答案(无论对错),这就被认为是一个独立解答。如例子所示,每一个解答都包含了答案 “5”。基于这个定义,研究人员在三个不同的数据集上统计了 Qwen-QwQ-32B-Preview 模型和 Deepseek-R1-Preview 模型的解答数量分布(解答的判断和抽取由 Llama-3.3-70B 模型完成):

图片

其中,ASDIV [3] 是一个包含小学难度数学题的测试集,GSM8K [4] 是常用的初级难度数学题测试集,MATH500 [5] 是高中数学竞赛难度的测试集。如图所示,无论是对于 QwQ 模型还是 R1 模型,包含 2-4 个解答的样本占了所有样本的 70% 以上,可见这种 Solution-Level 的反思行为在当前的类 o1 模型中十分普遍。那么这些解答本身是否都是必须的呢?下图展示了在不同数据集上,模型首次得到正确答案的解答位置:

图片

令人惊讶的是,对 QwQ 模型和 R1 模型的实验分析显示,它们在超 90% 的情况下,都能在第一次尝试中就成功输出正确答案。也就是说,后续多轮思考对答案正确率的提升几乎没有实质性贡献。这一现象进一步验证了此前对模型过度思考的观察:绝大多数情况下,模型的多轮反思可能只是在反复验证已有的答案,从而造成了资源浪费。

然而,这种现象也引发了不同观点的争论。一些研究者认为,o1 类模型的一个核心特性在于其能够自主探索问题的不同解法。从这一角度来看,如果模型在推理过程中使用了多种不同的思路来解决问题,那么这种多样化的探索不仅有助于加深模型对问题的理解,还体现了模型的自主探索能力,不应简单地视为 “过度思考”。为了更深入地剖析这一问题,研究团队进一步提出了一种分析方法。他们利用 GPT-4o 对模型的回答进行分类,具体包括以下步骤:  

  1. 推理策略分类:对每一个解答进行推理策略的标注,将采用相同推理方式的回答归为同一类。例如,对于 “2+3=?” 这样的问题,可能涉及的推理策略包括数学运算模拟、数轴移动和实物类比等。  
  2. 多样性分析:在归类的基础上,分析并统计不同解答之间的推理策略多样性。 

通过这一方法,研究者能够量化推理过程中是否存在真正意义上的 “多样化探索”。这种分析为我们提供了衡量模型行为的一种新视角:当模型的不同解答策略高度相似甚至重复时,可以说明多轮推理的贡献是有限的;而当推理策略的多样性伴随着思考层次的提升而增加时,则反映了模型对问题理解的进一步加深。这种视角能够帮助我们更准确地区分 “有效的自主探索” 和 “低效的重复推理”。如下图所示:

图片

图中展示了每个位置的解答引入新推理思路的可能性。第一个位置的解答总会是 “新的思路”,因此其概率为 100%。但随着推理位置的后移,解答中带来新推理思路的可能性逐渐降低。这一趋势表明,越到后续位置,模型越倾向于重复先前的推理思路,从而导致其推理行为变得冗余且低效。从这个角度来看,模型的后续解答更多是一种无效的重复思考。

通过上述分析,我们可以发现这些过度思考所产生的解答往往具备以下两个关键特征:  

  1. 新解答对答案的正确性没有贡献:模型往往在一开始就已经成功得出正确答案,后续的多轮反复检验是多余且不必要的。  
  2. 新解答未能引入实质性新思路:模型后续的解答仅以不同的表述方式重复了早先已有的结论,而没有真正扩展推理的深度或视角。  

过度思考指标

基于这一发现,研究团队进一步定义了两个衡量模型 “过度思考” 现象的核心指标:

1. 产出效率(Outcome Efficiency):用于衡量模型回复中每一个解答对最终答案的贡献,等于正确解答中的 token 数除以完整回复的总 token 数。计算公式为:

图片

其中,N 为样本数,

图片

为模型第 i 个样本的回复中第一个正确解答的 token 数目,

图片

为第i个样本的整个回复的 token 数量,

图片

代表第i个样本是否正确。直观地看,一个模型得到正确解答之后进行反思的轮数越少,正确解答在整个回复中的占比就越大,产出效率就越高。

2. 过程效率(Process Efficiency):用于衡量模型回复中每一个解答对推理策略多样性的贡献,等于回复中属于不同思路的总 token 数目除以整个回复的 token 数目,计算公式为:

图片

其中 N 为样本数,

图片

为第i个样本的整个回复 token 数量,

图片

为第i个样本中所有属于不同推理策略的 token 总数。该指标衡量的是模型进行多轮反思的有效性,回答中涉及的不同的推理策略越多,

图片

就会越大,那么过程效率就会越高。

基于这两个指标,研究者们统计了 QwQ 模型和 R1 模型在 MATH500 数据集上的效率指标表现:

图片

从图中可以观察到,R1 模型在效率上略优于 QwQ 模型,但两个模型都不同程度地暴露出 “过度思考” 的问题。对于难度最低的等级 1 问题,研究者发现两个模型的表现都有如下特点:  

  1. 产出效率不足一半:两个模型在这种简单任务上的产出效率均未超过 50%,意味着模型在取得正确答案后,依然生成了超过必要推理步骤至少一倍的额外推理内容。这符合上文的研究发现:正确答案通常在推理的较早阶段得到,但模型的后续行为中存在大量冗余推理。  
  2. 思考过程效率较低:模型的整体过程效率只有 70% 左右,这意味着约 30% 的思考步骤是在重复无效的推理。这种重复的行为不仅未能提升正确率,也没有引入新的解题思路,从而造成了计算资源的浪费。

从以上分析可见,现有的 o1 类模型都普遍存在不同程度的 “过度思考” 现象,且这一问题在应对简单任务时尤为严重。这些现象突显了当前 o1 类模型推理机制中的不足,也意味着在模型的长思维链优化和推理资源分配方面仍有较大的改进空间。为此,研究者们提出了几种方法,旨在缓解模型的过度思考现象,提升推理效率。

缓解过度思考

由于目标是减少模型的过度思考但不损害模型的推理能力,因此最直接的想法就是通过偏好优化算法来鼓励模型生成更精简的回复。研究者们使用开源的 Qwen-QwQ-32B-Preview 模型作为实验的基座模型,基于该模型在 PRM12K [10] 的数据集上的多次采样结果,选择最长的模型回复作为偏好优化的负样本,而对于正样本的选择,有如下几种策略:

  • 最短回复(Shortest Response):使用模型采样结果中最短的生成结果作为正样本。
  • 首个正确回答(First-Correct Solutions, FCS):使用模型采样结果中最短的首次得到正确答案的解答作为正样本,抛弃所有后续的思考。
  • 首个正确回答 + 验算(FCS+Reflection):由于绝大多数的采样结果都是在第一个解答中就出现了正确答案,仅保留首个正确回答可能会使得模型退化,因此研究者们在第一次得到正确答案后,额外保留了一轮反思的内容。
  • 最多样回复(Greedily Diverse Solutions,GDS):除了单纯地对长度进行控制,另一个优化思路是尽可能保留更多样化的思考轨迹,因此研究者们在 FCS 方法的基础上,尽可能多地保留了包含不同推理策略的解答。

基于以上几种偏好数据,研究者们尝试了最基础的 SFT 以及多种偏好优化算法,如 DPO [6],RPO [7][8] 以及 SimPO [8]。实验结果如下:

图片

表格中的 SFT 方法是指仅使用正样本进行微调。从表格中可以看出,在同样的 “最短回复” 设置下,SimPO 有着最好的优化效果,而基于 SimPO 的进一步实验表明,使用首个正确回答 + 验算作为正样本的策略能够很好地取得效率和性能的平衡,能够在保持模型性能的同时大幅度地减少输出的 token 数目以及平均解答轮数,并有效地提高产出效率和过程效率。为了进一步分析方法的有效性,研究者们分析了 MATH500 测试集的不同难度下 SimPO+FCS+Reflection 方法的表现,如下图所示:

图片

有意思是,文中提出的方法在最简单的难度 1 的问题上,仅使用了相比于原来 63.6% 的 token 数目便达到了 100% 的正确率,而且在难题(难度 4 和 5)上,文中的方法能够在提升性能的同时大幅度减少输出的冗余,这展示了提出的方法在减缓过度思考上的有效性。

总结

这篇论文聚焦于 o1 类推理模型面临的一个核心挑战:如何合理控制推理过程中的计算量,提升思考效率。文章通过分析实验揭示了一个普遍问题 ——o1 类模型在处理简单问题时容易陷入过度思考,从而增加了不必要的计算消耗。基于对此现象的详细分析,研究者提出了一系列有效的优化方法,能够在保持模型性能的同时,大幅减少冗余推理,提升推理效率。这些方法的实验结果表明,它们显著优化了模型在简单任务上的资源利用情况,为实现 “高效思考” 的目标迈出了重要一步。未来的研究将重点探索以下方向:

  1. 自适应调控策略:开发让模型根据问题复杂程度动态调整推理深度的机制,更智能地分配计算资源;
  2. 更精细的效率评估指标:设计能够覆盖更广泛推理轨迹的指标,从而更全面地评估模型的思考效率。

这项研究不仅提升了 o1 类模型的推理,同时也为未来更高效、更智能的推理机制提供了重要的理论基础与实践参考。

#大模型推理加速新范式

加速比高达3.51倍、成本降至1/3

近日,中国电信翼支付针对大模型推理加速的最新研究成果《Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree》已被 AAAI 2025 接收。

论文中提出的 Falcon 方法是一种增强半自回归投机解码框架,旨在增强 draft model 的并行性和输出质量,以有效提升大模型的推理速度。Falcon 可以实现约 2.91-3.51 倍的加速比,在多种数据集上获得了很好的结果,并已应用到翼支付多个实际业务中。

论文地址:https://arxiv.org/pdf/2412.12639

1. 研究背景

大型语言模型 (LLMs) 在各种基准测试中展现了卓越的表现,然而由于自回归 (AR) 解码方式,LLMs 在推理过程中也面临着显著的计算开销和延迟瓶颈。

为此,研究学者提出 Speculative Decoding (投机采样) 方法。Speculative Decoding 会选择一个比原始模型 (Target Model) 轻量的 LLM 作为 Draft Model,在 Draft 阶段使用 Draft Model 连续生成若干个候选 Token。在 Verify 阶段,将得到的候选 Token 序列放入到原始 LLM 做验证 & Next Token 生成,实现并行解码。通过将计算资源导向于验证预先生成的 token,Speculative Decoding 大大减少了访问 LLM 参数所需的内存操作,从而提升了整体推理效率。

现有的投机采样主要采用两种 Draft 策略:自回归 (AR) 和半自回归 (SAR) draft。AR draft 顺序生成 token,每个 token 依赖于前面的 token。这种顺序依赖性限制了 draft 模型的并行性,导致显著的时间开销。相比之下,SAR draft 同时生成多个 token,增强了 draft 过程的并行化。然而,SAR draft 的一个重要局限是它无法完全捕捉相同 block 内 draft tokens 之间的相互依赖关系,可能导致生成的 token 接受率较低。

因此,在投机采样中,平衡低 draft 延迟与高推测准确性以加速 LLMs 的推理速度,是一个重大挑战。

为此,翼支付提出了 Falcon,一个增强的半自回归(SAR)投机解码框架,旨在增强 draft model 的并行性和输出质量,从而提升 LLMs 的推理效率。Falcon 集成了 Coupled Sequential Glancing Distillation(CSGD)方法,提高了 SAR draft model 的 token 接受率。

此外,Falcon 还设计了一种专门的 decoding tree 来支持 SAR 采样,使得 draft model 可以在一次前向传播中生成多个 token,并且也能够支持多次前向传播。这种设计有效提升 LLMs 对 token 的接受率,进一步加快了推理速度。

2. 研究方法

Falcon 的架构如图 1 所示,可以看到,该半自回归解码框架主要由三个组件构成:Embedding Layer、LM-Head 和半自回归解码 Head。

图片

图 1 Falcon 框架图

具体来讲,Falcon 将一个时间步长之前的连续特征序列和当前 token 序列连接起来,以同时预测接下来的 k 个标记。例如,当 k = 2 时,Falcon 使用初始特征序列 (f1, f2) 和提前一个时间步长的标记序列 (t2, t3) 来预测特征序列 (f3, f4)。随后,将预测得到的特征 (f3, f4) 与下一个标记序列 (t4, t5) 连接,形成新的输入序列。这个新输入序列用于预测后续的特征序列 (f5, f6) 和标记序列 (t6, t7),从而促进 draft 过程的继续。Draft model 多次 forward 之后生成的 token 被组织成树结构,输入到大模型中进行 verify,通过 verify 的 token 被大模型接收,并基于此基础开始下一个循环。

2.1 Coupled Sequential Glancing Distillation

当前推测解码方法的准确性相对较低,主要原因是 token 之间的上下文信息不足。CSGD 通过用真实 token 和 hidden states 替换一些初始预测来改善这一点,将正确信息重新注入解码过程中,从而提高后续预测的准确性和连贯性。模型结构及训练流程如下图:

图片

图 2 CGSD 方法示意图

在训练过程中,一个时间步长之前的连续特征序列和当前 token 序列连接起来,并输入到 draft model 中,形成一个融合序列,其维度为 (bs, seq_len, 2 * hidden_dim)。

draft model 由一个混合 Transformer 网络组成,该网络包括两层 LSTM、Relaxed Causal-Masked 多头注意力机制,以及 MLP 网络。其中 LSTM 网络将融合序列的维度减少到 (bs, seq_len, hidden_dim),并保留关于过去 token 的信息,从而提高模型的准确性。Relaxed Causal-Masked 多头注意力机制能够在保持因果关系的同时,专注于输入序列的相关部分。MLP 层进一步处理这些信息,以做出最终预测。

当序列首次通过 draft model 后,会生成初始的 token 预测

图片

。然后,我们计算 draft model 的预测与真实 token Y 之间的汉明距离,以此来衡量预测的准确性。接下来,我们将一定数量连续预测的 token 序列

图片

和特征序列

图片

替换为来自 LLMs 的正确 token 序列

图片

和特征序列

图片

CSGD 与传统的 glancing 方法不同,后者仅随机替换 token。相反,CSGD 选择性地同时替换预测之前的连续 token 和特征序列,如图 2 中虚线框标注的 choice 1、choice 2、choice3 所示。这种方法增强了对 token 间的关系的理解,并确保 draft model 能够有效利用提前时间步长的 token 序列,这在 SAR 解码中尤为重要。随后,修正后的 token 和特征序列被重新输入到 draft model 中以计算训练损失。

在训练过程中,我们采用了知识蒸馏,损失函数包括 draft model 的输出特征与真实特征之间的回归损失以及蒸馏损失,具体的损失函数如下:

图片

2.2 Custom-Designed Decoding Tree

当前基于树的推测解码方法通过在每个起草步骤生成多个 draft token 来提升推测效率。然而,这些方法仍然需要 draft model 按顺序生成 token,这限制了推测效率的进一步提高。为了解决这一局限性,CDT (Custom-Designed Decoding Tree) 支持 draft model 在一次前向传递中生成多个 token (k 个),并且在每个 draft 步骤中支持多次前向传递。因此,与现有方法相比,CDT 生成的草稿标记数量是其 k 倍。

Draft model 多次 forward 之后,生成的 token 被组织成树结构,输入到大模型中进行 verify。LLM 使用基于树的并行解码机制来验证候选 token 序列的正确性,被接受的 token 及其相应的特征序列会在后续继续进行前向传递。在传统的自回归(AR)解码中,使用因果掩码,其结构为下三角矩阵。它确保了前面的 token 不能访问后面的信息。

相比之下,Falcon 采用了一种 causal 因果掩码 (如图 3 所示),允许模型访问同一 k*k 的 block 内的 token 以及相应的之前的连续 token。这一增强显著提高了 drafter 生成 token 的效率,使 LLM 能够同时验证更多的 token,从而加快了 LLM 的整体推理速度。

图片

图 3 Custom-Designed Decoding Tree 方法示意图

3. 实验结果

我们在多个数据集和多个模型上进行了广泛的实验,验证了本文方法的有效性。和现有的方法相比,Falcon 展现了优越的性能,具体如下图:

图片

图 4 Falcon 实验结果图

4. 业务潜力

Falcon 大模型可以实现约 2.91-3.51 倍的加速比,相当于同等条件下推理成本下降至约原先的 1/3,从而大幅降低了大模型推理计算相关成本。

当前,Falcon 技术已转化至翼支付大模型产品 InsightAI 平台,并已服务诸如翼支付数字人客服、借钱-翼小橙、人力-翼点通、财务-翼小财等多个业务应用。

5. 总结

投机采样是大模型推理加速的一个核心方法。当前,主要的挑战是如何提升 draft model 的准确率、采样效率,并提升大模型的验证效率。文章提出了 Falcon 方法,一种基于增强半自回归投机解码框架。Falcon 通过 CSGD 这种训练方法以及半自回归的模型设计,显著提升了 draft model 的预测准确率以及采样效率。此外,为了让大模型能验证更多的 token,本文精心设计了一个 decoding tree,有效提升了 draft model 的效率,从而提升了验证效率。Falcon 在多种数据集上可以实现约 2.91-3.51x 的加速比并应用到翼支付的众多业务中,获得了很好的效果。

#英伟达「世界基础模型」诞生

引爆物理AI革命!75页报告出炉,GitHub狂飙2k星

昨天,英伟达官宣了首个「世界基础模型」Cosmos。从此,物理AI数据不够的问题将有望解决!而就在刚刚,75页技术报告火热出炉,GitHub项目更是冲破了2k星。

CES大会上,老黄称,「AI下一个前沿就是物理AI」。

为此,英伟达重磅官宣了世界基础模型开发平台——Cosmos,其模型基于在200万小时视频上完成训练。

它一共包含了四大功能模块:扩散模型自回归模型视频分词器,以及视频处理与编辑流程

用英伟达高级科学家Jim Fan的话来总结:

  • 两种形式:扩散模型(生成连续的token);自回归模型(生成离散的token)
  • 两种生成模式:文本->视频;文本+视频->视频

Cosmos诞生就是为了拯救物理AI数据不够的问题!现如今,开发者们可以直接生成合成数据,将其用于自动驾驶和机器人研究中。

它一共包含了三种规格的模型:NanoSuperUltra

与VideoLDM基准相比,Cosmos世界模型在几何准确性方面表现更优,而且在视觉一致性方面持续超越VLDM,姿态估计成功率最高飙升14倍。

GitHub项目仅开源不到一天的时间,星标飙升至2k。

与此同时,关于Cosmos 75页最详细的技术报告也发布了。

开源项目:https://github.com/NVIDIA/Cosmos

论文地址:https://research.nvidia.com/publication/2025-01_cosmos-world-foundation-model-platform-physical-ai

Cosmos,定制世界模型

本文介绍了Cosmos世界基础模型平台,旨在帮助开发者构建定制化的世界模型。

在预训练中,研究者利用大规模的视频数据集,让模型接触到多样化的视觉数据,训练一个通用型模型。预训练的Cosmos世界基础模型(WFM)能够生成高质量、具有一致性的3D视频。

在后训练中,研究者从特定环境收集数据集,对预训练模型进行微调,从而得到适用于特定目标的专用WFM。

预训练的世界基础模型(WFM)是通用的世界模型,通过大规模、多样化的视频数据集进行训练。后训练的数据集是从目标环境中收集的提示-视频对。提示可以是动作指令、轨迹、说明等形式。

预训练和后训练相结合策略为构建物理AI系统提供了一种高效的方法。由于预训练WFM提供了良好的基础,后训练的数据集可以相对较小。​

世界基础模型平台

设𝑥_0:𝑡为从时间0到𝑡的真实世界视觉观测序列。

设𝑐为对世界的扰动。如图3所示,WFM是一种模型𝒲,它根据过去的观测𝑥_0:𝑡和当前扰动𝑐𝑡,预测时间𝑡+1的未来观测值

图片

在本案例中,𝑥_0:𝑡是一个RGB视频(即彩色图像视频),而𝑐𝑡是可以采取多种形式的扰动。例如,物理AI的动作、随机扰动或描述扰动的文本等。

世界基础模型(WFM)𝒲是一种模型,它根据过去的观测𝑥_0:𝑡和当前扰动𝑐𝑡生成世界的未来状态𝑥_𝑡+1

视频编辑

研究者开发了一条可扩展的视频数据编辑流程。

其中,每段视频被分割为无场景变化的独立镜头。通过过滤步骤定位高质量、动态且信息丰富的片段用于训练。

这些高质量镜头随后通过VLM(视觉语言模型)进行标注。接着执行语义去重,以构建一个多样但紧凑的数据集。

视频分词

研究者开发了一系列具有不同压缩比的视频分词器。这些分词器是因果性的(即当前帧的token计算不依赖未来帧)。

这种因果性设计带来了多个好处。在训练方面,它使得联合图像和视频训练成为可能,因为当输入为单张图像时,因果性视频分词器也可以作为图像分词器。

这对于视频模型利用图像数据集进行训练非常重要,因为图像数据集包含丰富的世界外观信息,且通常更加多样化。

在应用方面,因果性视频分词器更适合生活在因果世界中的物理AI系统。

WFM预训练

研究者探索了两种可扩展的预训练世界基础模型的方法——扩散模型和自回归模型。他们使用了Transformer架构,以实现可扩展性。

对于基于扩散的WFM,预训练包括两个步骤:

1. 文本到世界生成预训练(Text2World generation pre-training)

2. 视频到世界生成预训练(Video2World generation pre-training)

具体来说,他们训练了模型根据输入的文本提示词生成一个视频世界。然后对其进行微调,使其能够根据过去的视频和输入的文本提示词生成未来的视频世界,这被称为视频到世界生成任务(Video2World generation task)。

对于基于自回归的 WFM,预训练包括两个步骤:

1. 基本的下一个token生成(vanilla next token generation)

2. 文本条件的视频到世界生成(text-conditioned Video2World generation)

他们首先训练模型根据过去的视频输入生成未来的视频世界(前瞻生成)。然后对其进行微调,使其能够根据过去的视频和文本提示词生成未来的视频世界。

视频到世界生成模型是一种基于当前观测和提示词预测未来的预训练世界模型。

对于扩散模型和自回归模型的WFM,研究者构建了一系列具有不同容量的模型,并研究了其在各种下游应用中的有效性。

他们进一步微调了预训练的扩散WFM,以开发一个扩散解码器来增强自回归模型的生成结果。

为了更好地控制WFM,他们还基于LLM构建了一个提示词上采样器。

WFM后训练

团队展示了预训练WFM在多个下游物理AI应用中的应用。

他们将预训练的WFM微调为以相机姿态作为输入提示词,这让他们能够在创建的世界中自由导航。此外他们还展示了如何微调预训练的WFM,以用于人形机器人和自动驾驶任务。

安全机制

为了安全使用开发的世界基础模型,研究者开发了一个安全机制,用于阻止有害的输入和输出。

Cosmos世界基础模型平台由几个主要组件组成:视频编辑器、视频分词器、预训练的世界基础模型、世界基础模型后训练样本,以及安全机制

他们相信,WFM对物理AI构建者有多种用途,包括(但不限于):

策略评估

与其通过在真实世界中运行物理AI系统来评估训练后的策略,不如让物理AI系统的数字副本与世界基础模型交互。基于WFM的评估更加经济高效且节省时间。

通过WFM,构建者可以在未见过的环境中部署策略模型,这些环境在现实中可能无法获得。WFM帮助开发者快速排除不合格的策略,聚焦于潜力更大的策略。

策略初始化

策略模型根据当前观测和给定任务,生成物理AI系统需要执行的动作。建模世界动态模式的高质量WFM,可以作为策略模型的良好初始化。

这有助于解决物理AI中的数据稀缺问题。

策略训练

在强化学习设置中,WFM与奖励模型配对,可以作为物理世界的代理,为策略模型提供反馈。智能体通过与WFM的交互,逐步掌握解决任务的能力。

规划或模型预测控制

WFM可用于模拟物理AI系统在执行不同动作序列后,可能出现的未来状态,然后通过成本/奖励模块量化这些不同动作序列的表现。

物理AI可以根据整体模拟结果执行最佳动作序列(如在规划算法中),或以递归视界的方式执行(如在模型预测控制中)。

世界模型的准确性决定了这些决策策略的性能上限。

合成数据生成

WFM不仅可用于生成用于训练的合成数据,还可以微调为基于渲染元数据(如深度图或语义图)进行条件生成。条件 WFM可用于Sim2Rea 场景。​

数据编辑

研究者提出了一种视频处理流程,用于为分词器和WFM生成高质量训练数据集。

如下图所示,流程包括5个主要步骤:1)分割,2)过滤,3)标注,4)去重,以及5)分片。

这些步骤均经过专门的优化,从而提高数据质量并满足模型训练的需求。

预训练数据集

研究者积累了大约2000万小时的原始视频,分辨率从720p到4k不等,并为预训练生成了大约10^8个视频片段,为微调生成了大约10^7个视频片段。

其中,涵盖了各种物理AI应用,并将训练视频数据集划分为以下类别:

  1. 驾驶(11%)
  2. 手部动作和物体操作(16%)
  3. 人体动作和活动(10%)
  4. 空间意识和导航(16%)
  5. 第一人称视角(8%)
  6. 自然动态(20%)
  7. 动态相机运动(8%)
  8. 合成渲染(4%)
  9. 其他(7%)​

Tokenizer(分词器)

分词器是大模型的基础构建模块,它通过学习瓶颈式的潜空间,以无监督方式将原始数据转换为更高效的表示形式。

下图以示意图形式展示了分词训练流程,其目标是训练编码器和解码器,使瓶颈式token表示能够最大程度保留输入的视觉信息。

视频分词流程:输入视频被编码为token,解码器随后从这些token中重建输入视频。分词器的训练目标是学习编码器和解码器,尽可能保留token中的视觉信息

连续分词器将视觉数据编码为连续的潜嵌入,并用于通过从连续分布中采样生成数据的模型。

离散分词器将视觉数据编码为离散的潜代码,并将其映射为量化索引。这种离散表示对于使用交叉熵损失训练的模型(如GPT)是必要的。

分词器的成功很大程度上取决于其在不损害后续视觉重建质量的情况下提供高压缩率的能力。

在此,研究者提出了一套视觉分词器——包括用于图像和视频的连续和离散分词器。它们可以提供卓越的视觉重建质量和推理效率,并支持多种压缩率,以适应不同的计算限制和应用需求。

连续和离散分词器的可视化:(左)连续潜嵌入,嵌入大小为C;(右)量化索引,每种颜色代表一个离散的潜编码

具体来说,Cosmos分词器采用轻量化且计算高效的架构,并结合时间因果机制。

通过使用因果时间卷积层和因果时间注意力层,可以保留视频帧的自然时间顺序,从而通过单一统一的网络架构实现图像和视频的无缝分词。

通过在高分辨率图像和长时视频上直接训练分词器,可以不受类别或宽高比的限制,包括1:1、3:4、4:3、9:16和16:9等。

在推理阶段,它对时间长度不敏感,能够处理超出训练时时间长度的视频分词。

不同视觉分词器及其功能的比较

评估结果表明,Cosmos分词器在性能上显著超越了现有分词器——不仅质量更高,而且运行速度最高可快12 倍。

此外,它还可以在单块NVIDIA A100 GPU(80GB显存)上一次性编码长达8秒的1080p视频和10秒的720p视频,且不会耗尽内存。

连续分词器(左)和离散分词器(右)在时空压缩率(对数刻度)与重建质量(PSNR)上的比较。每个实心点表示一种分词器配置,展示了压缩率与质量之间的权衡关系​

世界基础模型预训练

研究者利用两种不同的深度学习范式——扩散模型和自回归模型——来构建两类WFM。

本文中所有WFM模型都是在一个包含10,000个NVIDIA H100 GPU的集群上训练的,训练周期为三个月。

基于扩散模型和自回归模型的世界基础模型(WFM)

自回归世界基础模型生成的视频

研究者展示了如何将Cosmos WFM进行微调,以支持多种场景,包括3D视觉导航,让不同的机器人执行任务,以及自动驾驶。​

世界基础模型后训练

用于机器人的WFM后训练

世界模型具有支持机器人操作的强大潜力,这里展示了两个任务:(1)基于指令的视频预测,(2)基于动作的下一帧预测。

对于基于指令的视频预测,输入是机器人当前视频帧以及文本指令,输出是预测的视频。基于动作的下一帧预测,输入是机器人的当前视频帧以及当前帧与下一帧之间的动作向量,输出是预测的下一帧,展示机器人执行指定动作的结果。

对于基于指令的视频预测,研究者创建了一个名为Cosmos-1X的数据集。该数据集包含大约200小时的由EVE(1x.Tech公司的一款人形机器人)捕捉的第一视角视频,包括导航、折叠衣物、清洁桌面、拾取物体等。

对于基于动作的下一帧生成,团队使用了一个名为Bridge的公开数据集。Bridge数据集包括大约20,000个第三人称视角的视频,展示了机器人手臂在厨房环境中执行不同任务的过程。

用于自动驾驶的后训练

研究者展示了如何对预训练的WFM进行微调,从而创建一个适用于自动驾驶任务的多视角世界模型。

研究者策划了一个内部数据集,称为真实驾驶场景(RDS)数据集。该数据集包含大约360万个20秒的环视视频片段,这些视频是通过英伟达的内部驾驶平台录制的。

研究者使用RDS数据集对Cosmos-1.0-Diffusion-7B-Text2World进行微调,打造出一个多视角的世界模型。

Cosmos-1.0-Diffusion-7B-Text2World-Sample-MultiView-TrajectoryCond模型结果

一些演示

从GitHub主页中,我们能够看到Cosmos家族的所有模型系列:扩散模型和自回归模型各4个。

扩散模型7B和14B(Text2World)根据同一提示,生成效果如下:

图片

扩散模型7B和14B(Video2World)根据同一提示,生成效果如下:

自回归模型4B和12B生成效果如下:

图片

自回归模型5B和13B根据同一提示,生成效果如下:

图片

此外,后训练世界基础模型还能实现「相机控制」,如下机器人在车厂的生成视频中,通过移动能够看到四周环境全貌。

提示:这段视频展示了一座先进的制造设施,其中多台机器人手臂协同工作。这些机器人配备了特殊的抓取装置,正在中央平台上处理和组装组件。环境干净且井然有序,背景中可以看到各种机械和设备。整个机器人系统高度自动化,体现了高科技的生产流程。

更惊喜的是,Cosmos还能根据提示,生成出各种机器人在不同环境中的预测场景。比如,把书放在书架上,煮咖啡、分拣物品......

也就是说,以后机器人的模拟训练,直接在物理世界就能实操了!

图片

还有针对自动驾驶场景,Cosmos进行的多视图视频生成。

要知道,以下这些场景是完全不存在的。

有网友调侃道,我们一定生活在模拟世界中,99%情况下是由英伟达撑着这个系统。

物理AI,不能没有WFM

为什么说世界模型,对于物理AI的实现非常关键?

老黄在大会上,从大模型工作原理生动地阐释了世界模型的重要性——

大模型通常是根据提示一次生成一个token,但也仅限内容token的输出。若要实现从「内容token」转向「动作token」的输出,语言模型早已无法满足。

我们需要的是,一个能够理解物理世界的模型,简之WFM。

昨天,英伟达研究副总Ming-Yu Liu在最新播客中同样表示,WFM是一种能够模拟物理世界的强大神级网络。

它可以从文本/图像输入数据,生成详细的视频,并通过将其的当前状态(图像/视频)与动作(提示/控制信号)相结合来预测场景的演变。

WFM能够想象许多不同的环境,并可以模拟未来,帮助物理AI开发者做出更好的决策。

图片

另一方面,构建世界模型通常需要大量的数据集。

数据收集不仅耗时,成本也高,WFM便可以生成合成数据,从而增强训练的过程。

此外,物理测试风险巨大,比如一台价值数十万美元的机器人原型的任何失误都可能带来重大损失。

有了WFM模拟的3D环境,研究者就可以在受控环境中训练和测试物理AI系统。

图片

物理模拟世界的一切,英伟达Cosmos都能帮你生成出来。

假设你要测试一台机器人,长传一个原视频,然后输入:

「以人形机器人的第一人称视角拍摄在一个老旧工厂中工作的场景。机器人周围有许多工业机械设备。地板是老旧的木质地板,破旧且具有丰富的纹理。摄像机在距离地面2米的高度向右平移。照片风格要求逼真」。

然后,一个机器人在工厂工作的虚拟画面就出现了。

图片

包括如下自动驾驶场,都是由Cosmos完全生成。

不仅如此,英伟达还将Cosoms与Omniverse搭配使用,虚实结合,让虚拟世界的设计搬到现实世界训练。

一直以来,老黄都在强调一个新概念「三台计算机」:一台是DGX用来训练AI,另一台AGX用来部署AI,最后一台便是Omniverse+Cosmos。

若是连接前两者,我们就需要一个数字孪生。

老黄认为,「未来,每一个工厂都有数字孪生,你可以将Omniverse和Cosoms结合,生成一大批未来场景」。

参考资料:

​https://github.com/NVIDIA/Cosmos​

​https://x.com/DrJimFan/status/1876516972512559170​

​https://research.nvidia.com/publication/2025-01_cosmos-world-foundation-model-platform-physical-ai​

​https://www.nvidia.com/en-us/ai/cosmos/​

​https://research.nvidia.com/labs/dir/cosmos1/​

#通义万相视频生成重磅升级

成功登顶VBench,运镜、质感直达专业级

025 才刚开始,AI 视频生成就要迎来技术突破了?

今天上午,阿里旗下通义万相视频生成模型宣布了 2.1 版重磅升级。

新发布的模型有两个版本,分别是通义万相 2.1 极速版和专业版,前者注重高效性能,后者瞄准卓越表现力。

据介绍,通义万相此次全面升级了模型整体性能,尤其是在处理复杂运动、还原真实物理规律、提升电影质感及优化指令遵循方面取得了显著进展,为 AI 的艺术创作打开了新的大门。

我们先来一睹视频生成效果,看看能不能惊艳到你。

先以经典的「切牛排」为例,可以看到,牛排的纹理清晰可见,表面覆盖着一层薄薄的油脂,闪烁着光泽,刀锋沿着肌肉纤维缓缓切入,肉质 Q 弹,细节拉满。

图片

Prompt: 在餐厅里,一个人正在切一块热气腾腾的牛排。在特写俯拍下,这个人右手拿着一把锋利的刀,将刀放在牛排上,然后沿着牛排中心切开。这个人穿着黑色衣服,手上涂着白色指甲油,背景是虚化的,有一个白色的盘子,里面放着黄色的食物,还有一张棕色的桌子。

再来看一个人物特写生成效果,小女孩的面部表情、手部和肢体动作都很自然协调,风掠过头发也符合运动规律。

图片

Prompt:可爱少女站在花丛中,双手比心,周围跳动着各种小爱心。她穿着粉色连衣裙,长发随风轻扬,笑容甜美。背景是春日花园,鲜花盛开,阳光明媚。高清写实摄影,近景特写,自然光线柔和。

模型强不强,再来跑个分。目前,在权威视频生成评测榜单 VBench Leaderboard 上,升级后的通义万相以总分 84.7% 的成绩登上榜首位置,超越了 Gen3、Pika、CausVid 等国内外视频生成模型。看起来,视频生成的竞争格局又迎来了一波新变化。

图片

榜单链接:https://huggingface.co/spaces/Vchitect/VBench_Leaderboard

即日起,用户就可以在通义万相官网用上最新一代模型了。同样地,开发者也可以在阿里云百炼调用大模型 API。

官网地址:https://tongyi.aliyun.com/wanxiang/

一手实测

表现力提升,还能玩转特效字体

最近一段时间,视频生成大模型的迭代速度很快,新版本的通义万相有没有实现代差级别的提升?我们进行了一番实际测试。

AI 视频会写字了

首先,AI 生成的视频终于能告别「鬼画符」了。

此前,市面上主流 AI 视频生成模型一直无法准确地生成中英文,只要是该有文字的地方,就是一堆难以辨认的乱码。如今这一行业难题被通义万相 2.1 破解了。

它成为了首个具备支持中文文字生成能力、且同时支持中英文文字特效生成的视频生成模型。

现在,用户只需输入简短的文字描述,即可生成具有电影级效果的文字和动画。

比如一只小猫正在电脑前打字,画面依次跳出「不工作就没饭吃」7 个大字。

,时长00:05

通义万相生成的视频中,猫咪坐在工位上一本正经地敲键盘、按鼠标,模样像极了当代打工人,弹出的字幕再加上自动生成的配乐,让整个画面都更具诙谐感。

再比如从一个橘色的正方体小盒子里跳出英文单词「Synced」。

,时长00:05

无论是生成中文还是英文,通义万相都能搞定,没有错别字,也没出现「鬼画符」。

不仅如此,它还支持多种场景下的字体应用,包括特效字体、海报字体以及真实场景中的字体展示等。

比如在塞纳河畔的埃菲尔铁塔附近,绚烂的烟花在空中绽放,随着镜头拉近,粉色数字「2025」逐渐变大,直到充斥整个画面。

,时长00:05

大幅度运动不再「鬼畜」

复杂的人物运动一度是 AI 视频生成模型的「噩梦」,以往 AI 生成的视频要么手脚乱飞、大变活人,要么出现「只转身不转头」的诡异动作。

图片

而通义万相通过先进的算法优化和数据训练,能够在多种场景下实现稳定的复杂运动生成,特别是在大幅度肢体运动和精确的肢体旋转方面。

比如下面这则生成视频中,男子奔跑时动作流畅自然,没有出现左右腿不分或者扭曲变形的问题。而且它还很注重细节,男子每一次脚尖触地都会留下印迹,并微微扬起细沙。

,时长00:05

Prompt:日落时分,金色的阳光洒在波光粼粼的海面上,一名年轻帅气的男子沿着沙滩奔跑,稳定跟踪镜头。

难度较大的滑雪视频它也能生成。

女孩身着滑雪装备,在阿尔卑斯山的雪坡上滑行。她灵活地控制着滑雪板,时而加速,时而转弯,高速运动下甩起的马尾辫、卷起的积雪让镜头更加逼真。

,时长00:05

Prompt:一个年轻女孩在阿尔卑斯山滑雪

由此可见,它在物理规律理解方面也有着显著提升,能够模拟出真实感十足的视频,避免出现「一眼假」的情况。

运镜媲美电影大师

大导演斯皮尔伯格曾说过:一场好电影的秘诀就在于镜头语言。为了拍出震撼的电影镜头,摄影师们恨不得上天入地、飞檐走壁。

图片

不过在这个 AI 时代,「拍」电影就容易了许多。

我们只需输入一句简单的文本指令,比如镜头左移、镜头拉远、镜头推进等,通义万相就能自动根据视频的主体内容和运镜需求输出合理的视频。

我们输入 Prompt:摇滚乐队在前院草坪上演出,随着镜头的推进,画面聚焦到吉他手身上,他身穿皮夹克,一头凌乱的长发随节奏摆动。吉他手的手指在琴弦上快速跳跃,背景中其他乐队成员也在全情投入。

,时长00:05

通义万相 2.1 严格遵循了指令。视频一开始,吉他手、鼓手激情演奏,随着摄影机缓慢拉近,背景逐渐模糊,画面放大,突出了吉他手的神态和手部动作。

再来一个拉远镜头的视频。

一个年轻侦探的眼睛特写,镜头拉远,男子正站在一条繁华的街上,身后是摩天大楼和静止的汽车,仿佛时间被定格一般。

,时长00:05

长文本指令不会丢三落四

要想 AI 生成的视频效果达到惊艳水准,必然离不开精准的文本提示。

然而,有时大模型「记性」有限,面对包含各种场景切换、角色互动和复杂动作的文本指令,它就容易丢三落四,不是遗漏细节,就是搞不清逻辑顺序。

上新后的通义万相在长文本指令遵循方面就有了较大的进步。

Prompt: 一位摩托车骑手在狭窄的城市街道上以极快的速度疾驰,避开了附近建筑物发生的大爆炸,火焰猛烈地咆哮着,投射出明亮的橙色光芒,碎片和金属碎片在空中飞舞,加剧了现场的混乱。身着深色装备的车手,弯腰紧握车把,神情专注,他以极快的速度向前冲去,丝毫不畏惧身后的火光冲天。爆炸留下的浓浓黑烟弥漫在空中,将背景笼罩在世界末日般的混乱之中。然而,骑手依然不屈不挠,准确无误地在混乱中穿梭,极富电影感,超精细细节,身临其境,3D,动作连贯。

,时长00:05

在以上这段长篇大论般的文本描述中,狭窄的街道、明亮的火焰、弥漫的黑烟、乱飞的碎片以及身着深色装备的骑手…… 这些细节都被通义万相捕捉到。

通义万相还具备更强大的概念组合能力,能够准确理解各种不同的想法、元素或者风格,并将其组合在一起,创造出全新的视频内容。

一位穿着西装的老人从鸡蛋中破壳而出,瞪大双眼紧盯镜头的白发老头,再配上公鸡咯咯叫的声音,画面相当搞笑。

,时长00:05

擅长卡通油画等多种风格

新版通义万相还能生成电影质感的视频画面,同时对各类艺术风格也有很好的支持,比如卡通、电影色、3D 风格、油画、古典等风格。

造型奇特的外星船锈迹斑驳,背着氧气瓶的宇航员摆动双腿在水下沉潜,整个镜头都很有科幻电影的 feel。

,时长00:05

Prompt:电影质感,一名宇航员正在探索一艘水下外星船残骸。

再来看这个 3D 动画风格的小怪兽,站在葡萄藤上手舞足蹈,甚是可爱。

图片

Prompt:一只毛茸茸的快乐的青提小怪兽站在葡萄树树枝上快乐的歌唱,逆时针旋转镜头。

此外,它还支持不同长宽比,涵盖 1:1、3:4、4:3、16:9 和 9:16 五个比例,能够更好适配电视、电脑、手机等不同终端设备。

图片

从以上表现来看,我们已经可以使用通义万相进行一些创作,把灵感转化为「现实」了。

当然这一系列进步,还得归功于阿里云在视频生成基础模型上的升级。

基础模型大幅优化

架构、训练、评估全方位「变身」

去年 9 月 19 日,阿里云在云栖大会上发布了通义万相视频生成大模型,带来了影视级高清视频的生成能力。作为阿里云全自研的视觉生成大模型,它采用了 Diffusion + Transformer 的架构,支持图像和视频生成类任务,在模型框架、训练数据、标注方式和产品设计上均有诸多创新,提供了业界领先的视觉生成能力。

此次升级后的模型中,通义万相团队(以下简称团队)进一步自研了高效的 VAE 和 DiT 架构,针对时空上下文关系的建模进行了增强,显著优化了生成效果。

Flow Matching(流匹配)是近年来新兴的一种生成模型训练框架,其训练过程更简单,通过连续正则化流(Continuous Normalizing Flow)可以取得与扩散模型相当甚至更优的生成质量,并且推理速度更快,也因而逐渐开始应用于视频生成领域,比如 Meta 此前推出的视频模型 Movie Gen 便使用了 Flow Matching。

在训练方法选择上,通义万相 2.1 采用了基于线性噪声轨迹的 Flow Matching 方案,并针对该框架进行了深度设计,使得模型收敛性、生成质量和效率均得到提升。

图片

通义万相 2.1 视频生成架构图

针对视频 VAE,团队结合缓存机制与因果卷积,设计了一种创新的视频编解码方案。其中缓存机制可以在视频处理中保持必要的信息,从而减少重复计算,并提升计算效率;因果卷积能够捕获视频的时序特征,适应视频内容的递进变化。

在具体实现中,通过将视频拆分为若干块(Chunk)并缓存中间特征,代替了直接对长视频的 E2E 解码过程,使显卡的使用仅与 Chunk 大小相关,而无需考虑原始视频长度,让模型可以对无限长的 1080P 视频进行高效编解码。团队表示,这一关键技术为任意时长视频的训练提供了一种可行路径。

下图显示了不同 VAE 模型的结果对比。从模型计算效率(帧 / 延迟)和视频压缩重构(峰值信噪比,PSNR)指标来看,通义万相采用的 VAE 在参数不占优的情况下,依然实现了业内领先的视频压缩重构质量。

图片

注:圆圈面积代表了模型参数大小。

团队在 DiT(Diffusion Transformer)上的核心设计目标是实现强大的时空建模能力,同时保持高效的训练过程。做到这些需要进行一些创新性改变。

首先,为了提高时空关系的建模能力,团队采用了时空全注意力机制,使模型能够更准确地模拟现实世界的复杂动态。其次,参数共享机制的引入,在提升性能的同时有效降低了训练成本。此外,团队针对文本嵌入做了性能优化,使用交叉注意力机制来嵌入文本特征,既达成了更优的文本可控性,也降低了计算需求。

得益于这些改进和尝试,在相同计算成本的情况下,通义万相的 DiT 结构实现了更明显的收敛优越性。

除了模型架构上的创新,团队在超长序列训练与推理、数据构建管线与模型评估方面同样进行了一些优化,使模型可以高效处理复杂生成任务,并具备更强的效率优势。

百万超长序列的高效训练如何炼成

在处理超长视觉序列时,大模型往往面临着计算、内存、训练稳定性、推理延迟等多个层面的挑战,因而要有高效的应对方案。

为此,团队结合了全新模型工作负载的特点和训练集群的硬件性能,制定出了分布式、显存优化的训练策略,在保证模型迭代时间的前提下优化训练性能,最终达到了业界领先的 MFU,并实现了 100 万超长序列的高效训练。

一方面,团队创新分布式策略,采用了 DP、FSDP、RingAttention、Ulysses 混合的 4D 并行训练,训练性能和分布式扩展性双双得以增强。另一方面,为了实现显存优化,团队基于序列长度带来的计算量和通信量,采用分层的显存优化策略来优化 Activation 显存并解决了显存碎片问题。

另外,计算优化可以提高模型训练效率并节省资源,为此团队采用 FlashAttention3 进行时空全注意力计算,并结合训练集群在不同尺寸上的计算性能,选择合适的 CP 策略进行切分。同时针对一些关键的模块去除计算冗余,并通过高效的 Kernel 实现来降低访存开销、提升计算效率。在文件系统方面,团队充分利用阿里云训练集群中高性能文件系统的读写特性,通过分片 Save/Load 方式提升读写性能。

图片

4D 并行分布式训练策略

与此同时,针对训练中因 Dataloader Prefetch 、CPU Offloading 和 Save Checkpoint 导致的内存溢出(OOM)问题,团队选择错峰内存使用方案。并且,为了保证训练稳定性,团队借助了阿里云训练集群的智能化调度、慢机检测以及自愈能力,实现了自动识别故障节点并快速重启任务。

数据构建与模型评估引入自动化

视频生成大模型的训练离不开规模化的高质量数据和有效的模型评估,前者可以确保模型学习到多样化的场景、复杂的时空依赖关系并提高泛化能力,构成模型训练的基石;后者有助于监督模型表现,使其更好地达到预期效果,成为模型训练的风向标。

在数据构建上,团队以高质量为准绳,打造出了一套自动化的数据构建管线,在视觉质量、运动质量等方面与人类偏好分布保持高度一致,从而可以自动构建高质量的视频数据,并呈现出高多样性、均衡分布等特征。

在模型评估上,团队同样设计了一套全面的自动化度量机制,将美学评分、运动分析和指令遵循等二十几个维度纳入其中,并针对性地训练出了能够对齐人类偏好的专业打分器。在这些度量指标的有效反馈下,模型迭代和优化过程显著加快。

可以说,架构、训练和评估等多个方面的协同创新,让升级后的通义万相视频生成模型在实际体验中收获了显著的代际提升。

视频生成的 GPT-3 时刻

还有多久?

自去年 2 月,OpenAI 的 Sora 问世以来,视频生成模型成为了科技界竞争最为激烈的领域。国内到海外,创业公司到科技大厂都在纷纷推出自家的视频生成工具。然而相对于文字的生成,AI 视频想要做到人们可以接受的程度,难度高了不止一个等级。

如果像 OpenAI CEO 山姆・奥特曼说的那样,Sora 代表了视频生成大模型的 GPT-1 时刻。那么我们在此基础上实现文本指令对 AI 的精准化控制、角度和机位的可调整、保证角色的一致性等视频生成该有的能力,再加上快速变换风格场景这样 AI 独有的功能,或许就可以很快迎来新的「GPT-3 时刻」。

从技术发展的路径来看,视频生成模型是一个验证 Scaling Laws 的过程。随着基础模型能力的提升,AI 将会越来越懂人类的指令,并能创造出越来越真实合理的环境。

从实践的角度看,我们其实早就已经迫不及待了:自去年起,不论短视频、动画领域,甚至影视行业的人们都已经开始利用视频生成 AI 进行创作探索。如果我们可以突破现实的限制,用视频生成 AI 做以前无法想象的事,新一轮行业变革就在眼前。

现在看来,通义万相已经率先迈出了一步。

#智元机器人推出全球首个4D世界模型EnerVerse

如何让机器人在任务指引和实时观测的基础上规划未来动作,一直是领域的核心科学问题。然而,这一目标的实现受两大关键挑战制约:

  1. 模态对齐:需在语言、视觉和动作等多模态空间中建立精确的对齐机制。
  2. 数据稀缺:缺乏规模化、多模态且具备动作标签的数据集。

针对上述难题,智元机器人团队提出了 EnerVerse 架构,通过自回归扩散模型(autoregressive diffusion),在生成未来空间的同时引导机器人完成复杂任务。不同于现有方法简单应用视频生成模型,EnerVerse 深度结合任务需求,创新性地引入稀疏记忆机制(Sparse Memory)与自由锚定视角(Free Anchor View, FAV),在提升 4D 生成能力的同时,实现了动作规划性能的显著突破。实验结果表明,EnerVerse 不仅具备卓越的未来空间生成能力,更在机器人动作规划任务中实现了当前最优(SOTA)表现。

项目主页与论文已上线,模型与相关数据集即将开源:

  • 主页地址:https://sites.google.com/view/enerverse/home
  • 论文地址:https://arxiv.org/abs/2501.01895

图片

如何让未来空间生成赋能机器人动作规划?

机器人动作规划的核心在于基于实时观测和任务指令,预测并完成一系列复杂的未来操作。然而,现有方法在应对复杂任务时存在如下局限:

  • 通用模型局限性:当前通用视频生成模型缺乏对场景的针对性优化,无法适应任务中的特殊需求。
  • 视觉记忆泛化能力不足:现有方法依赖稠密连续的视觉记忆,容易导致生成长程任务序列时逻辑不连贯,动作预测性能下降。

为此,EnerVerse 通过逐块生成的自回归扩散框架,结合创新的稀疏记忆机制与自由锚定视角(FAV)方法,解决了上述瓶颈问题。

技术方案解析

逐块扩散生成:Next Chunk Diffusion

EnerVerse 采用逐块生成的自回归扩散模型,通过逐步生成未来空间来引导机器人动作规划。其关键设计包括:

  • 扩散模型架构:基于结合时空注意力的 UNet 结构,每个空间块内部通过卷积与双向注意力建模;块与块之间通过单向因果逻辑(causal logic)保持时间一致性,从而确保生成序列的逻辑合理性。
  • 稀疏记忆机制:借鉴大语言模型(LLM)的上下文记忆,EnerVerse 在训练阶段对历史帧进行高比例随机掩码(mask),推理阶段以较大时间间隔更新记忆队列,有效降低计算开销,同时显著提升长程任务的生成能力。
  • 任务结束逻辑:通过特殊的结束帧(EOS frame),实现对任务结束时机的精准监督,确保生成过程在合适节点终止。

图片

灵活的 4D 生成:Free Anchor View (FAV)

针对操作中复杂遮挡环境和多视角需求,EnerVerse 提出了自由锚定视角(FAV)方法,以灵活表达 4D 空间。其核心优势包括:

  • 自由设定视角:FAV 支持动态调整锚定视角,克服固定多视角(fixed multi-anchor view)在狭窄场景中的局限性。例如,在厨房等场景中,FAV 可轻松适应动态遮挡关系。
  • 跨视角空间一致性:基于光线投射原理(ray casting),EnerVerse 通过视线方向图(ray direction map)作为视角控制条件,并将 2D 空间注意力扩展为跨视角的 3D 空间注意力(cross-view spatial attention),确保生成视频的几何一致性。
  • Sim2Real 适配:通过在仿真数据上训练的 4D 生成模型(EnerVerse-D)与 4D 高斯泼溅 (4D Gaussian Splatting) 交替迭代,EnerVerse 构建了一个数据飞轮,为真实场景下的 FAV 生成提供伪真值支持。

图片

高效动作规划:Diffusion Policy Head

EnerVerse 通过在生成网络下游集成 Diffusion 策略头(Diffusion Policy Head),打通未来空间生成与机器人动作规划的全链条。其关键设计包括:

  • 高效动作预测:生成网络在逆扩散的第一步即可输出未来动作序列,无需等待完整的空间生成过程,确保动作预测的实时性。
  • 稀疏记忆支持:在动作预测推理中,稀疏记忆队列存储真实或重建的 FAV 观测结果,有效提升长程任务规划能力。

实验结果

1. 视频生成性能

在短程与长程任务视频生成中,EnerVerse 均展现出卓越的性能:

  • 在短程生成任务中,EnerVerse 表现优于现有微调视频生成模型,如基于 DynamiCrafter 与 FreeNoise 的扩散模型。
  • 在长程生成任务中,EnerVerse 展现出更强的逻辑一致性与连续生成能力,这是现有模型无法实现的。

图片

此外,EnerVerse 在 LIBERO 仿真场景和 AgiBot World 真实场景中生成的多视角视频质量也得到了充分验证。

图片

其对应的生成视频如下所示:

,时长00:09

,时长00:05

2. 动作规划能力

在 LIBERO 基准测试中,EnerVerse 在机器人动作规划任务中取得显著优势:

  • 单视角(one FAV)设定:EnerVerse 在 LIBERO 四类任务中的平均成功率已超过现有方法。
  • 多视角(three FAV)设定:进一步提升任务成功率,在每一类任务上均超越当前最佳方法。

图片

图片

值得注意的是,LIBERO-Long上均为需要机器多步执行的任务,如下视频所示:

,时长00:11

3. 消融与训练策略分析

稀疏记忆机制:消融实验表明,稀疏记忆对长程序列生成的逻辑合理性及长程动作预测精度至关重要。

图片

图片

二阶段训练策略:先进行未来空间生成训练,再进行动作预测训练的二阶段策略,可显著提升动作规划性能。

图片

4. 注意力可视化

通过可视化 Diffusion 策略头中的交叉注意力模块,研究发现 EnerVerse 生成的未来空间与预测的动作空间具有较强的时序一致性。这直观体现了 EnerVerse 在未来空间生成与动作规划任务中的相关性与优势。

图片

智元机器人通过 EnerVerse 架构开创了未来的新方向。通过未来空间生成引导动作规划,EnerVerse 不仅突破了机器人任务规划的技术瓶颈,还为多模态、长程任务的研究提供了全新范式。

#SPAR3D

一秒内从单个图像生成3D对象,支持实时编辑,Stability AI推出3D生成新方法SPAR3D

2D 升维成 3D 的过程中,可见部分和不可见部分可以分开建模。

2025 年来了,3D 生成也迎来了新突破。

刚刚,Stability AI 在 CES 上宣布为 3D 生成推出一种两阶段新方法 ——SPAR3D(Stable Point Aware 3D),旨在为游戏开发者、产品设计师和环境构建者开拓 3D 原型设计新方式。

无论是精致的艺术品,还是纹理复杂的日常用品,SPAR3D 都能提供精确的几何形状和完整的 360 度视图的详细预测,包括通常隐藏的区域(例如物体的背面):

图片

值得一提的是,SPAR3D 还引入了实时编辑功能,能在不到一秒的时间内从单个图像生成 3D 对象的完整结构。

图片

SPAR3D 是一种新颖的两阶段方法:第一阶段使用轻量级点扩散模型生成稀疏 3D 点云,采样速度快;第二阶段使用采样点云和输入图像来创建高度详细的网格。

这种两阶段设计能够对不适定的单图像 3D 任务进行概率建模,同时保持高计算效率和出色的输出保真度。使用点云作为中间表征还进一步允许交互式用户编辑。在不同的数据集上进行评估后,SPAR3D 表现出了优于 SOTA 方法的性能。

  • 论文标题:SPAR3D: Stable Point-Aware Reconstruction of 3D Objects from Single Images
  • 论文链接:https://static1.squarespace.com/static/6213c340453c3f502425776e/t/677e3bc1b9e5df16b60ed4fe/1736326093956/SPAR3D+Research+Paper.pdf

简单来说,SPAR3D 具有如下优势:

  • 前所未有的控制:允许用户通过删除、复制、拉伸、添加特征或重新着色点来直接编辑点云。
  • 完整的结构预测:通过提供精确的几何形状和完整的 360 度视图的详细预测来增强 3D 构建。
  • 闪电般快速生成:仅需 0.3 秒即可将编辑后的点云转换为最终网格,实现无缝实时编辑。从单个输入图像,SPAR3D 仅需 0.7 秒即可为每个对象生成高度详细的 3D 网格。

SPAR3D

基于点云采样的单图像三维物体重建

从一张图像重建 3D 物体是一个具有挑战性的逆向工程问题:尽管可以通过分析图像中的光影来推测物体的可见表面形状,但要准确预测被遮挡的部分,需要丰富的 3D 先验知识作为支撑。

目前该领域主要有两个发展方向:前馈回归和基于扩散的生成。基于回归的模型虽然推理速度快,但对重建有遮挡的区域效果不佳。而基于扩散的方法通过迭代采样可以生成多样化的 3D 结果,但计算效率低且与输入图像的对齐效果较差。

为了既能充分利用扩散模型在分布式学习方面的优势,又能避免输出质量差和计算效率低的问题,Stability AI 的研究团队设计了一个两阶段重建系统:SPAR3D。这个系统将 3D 重建过程分为点采样和网格化两个阶段,实现了高效率与高质量的平衡。

当输入一张图像

图片

时,该方法可以生成一个包含 PBR 材质的 3D 网格模型,其中包括反照率、金属度、粗糙度和表面法线等属性。

该团队设计了一个包含点采样和网格化两个阶段的模型(如图 2 所示)。在点采样阶段,系统将使用点扩散模型来学习输入图像对应的点云分布。由于点云的分辨率较低,这个阶段能快速完成迭代采样。

图片

在网格化阶段,系统通过回归方法将采样得到的点云转换为高细节网格,并利用局部图像特征确保与输入图像的准确匹配。

这种设计将复杂的不确定性计算集中在点采样阶段,让网格化阶段能够专注于生成高质量的细节。这不仅提升了整体效果,有效减少了纹理中不必要的光照影响,特别是在处理反光表面时效果更好。

选择点云作为连接两个阶段的中间表示是该方法的关键设计。点云不仅是计算效率最高的 3D 表示,因为所有信息都用于表示表面,其缺乏连接性的特点还为用户编辑提供了优势。

当 3D 生成的结果与用户期望不符时,可以在低分辨率点云上轻松进行局部编辑,无需担心拓扑结构。将编辑后的点云输入网格化阶段即可生成更符合用户需求的网格。这也使得 SPAR3D 在保持高计算效率和输入观察保真度的同时,显著优于以往的回归方法。

实验

主要结果

该团队在 GSO 和 Omniobject3D 数据集上对 SPAR3D 与其他基线方法进行了定量比较。如表 1 和表 2 所示,SPAR3D 在两个数据集的大多数评估指标上都显著优于其他回归或生成式基线方法。

图片

图 5 展示了不同方法的定性结果对比:基于回归的方法 (如 SF3D、TripoSR) 生成的 3D 资产虽然与输入的图像保持了较好的一致性,但背面过于平滑;基于多视图扩散的方法(如 LGM、CRM)生成的 3D 资产虽然在背面保留了较多细节,但存在明显伪影;而纯生成方法(如 Shap-E、LN3Diff)虽然能生成清晰的表面轮廓,但细节经常出错。

图片

相比之下,SPAR3D 不仅能忠实重现输入图像,还能合理生成被遮挡部分的细节。

图 6 进一步展示了其在真实场景图像上的出色泛化性能。

图片

可编辑的结果

SPAR3D 采用显式点云作为中间表示,为用户提供了进一步编辑模型的能力。通过点云,用户可以灵活地修改重建网格的不可见部分。

图 7 展示了几个编辑示例,比如为 3D 模型添加关键组件,还能优化生成效果不理想的细节部分。

图片

这种编辑方式简单高效,让用户能够根据需求轻松调整重建结果。

消融实验

研究团队通过消融实验验证了点采样阶段的关键作用。他们将 SPAR3D 简化为纯回归模型 SPAR3D w/o Point(移除点采样阶段),并在 GSO 和 Omniobject3D 数据集上进行对比。

图片

实验结果显示,完整的 SPAR3D 明显优于简化版本,验证了该设计的有效性。

分析

该团队设计了实验来进一步理解 SPAR3D 的工作原理。在设计 SPAR3D 时,其核心假设是两阶段设计能有效分离单目 3D 重建中的不确定部分 (背面建模) 和确定性部分 (可见表面建模)。

理想情况下,网格化阶段应主要依靠输入图像重建可见表面,同时依靠点云生成背面。为验证这一点,研究团队进行了一个特殊的实验:故意将不匹配的数据输入系统(一张松鼠的图片配上一匹马的点云数据),以测试系统如何处理这种冲突的输入。

图片

如图 8 所示,实验结果很有意思:重建模型的正面与松鼠对齐,而背面则遵循了点云马的形状。这个结果证实了系统确实能够分别处理可见和不可见部分的重建工作。

更多研究细节,请参阅原论文。

参考链接:

​https://stability.ai/news/stable-point-aware-3d?utm_source=x&utm_medium=social&utm_campaign=SPAR3D​

​https://static1.squarespace.com/static/6213c340453c3f502425776e/t/677e3bc1b9e5df16b60ed4fe/1736326093956/SPAR3D+Research+Paper.pdf​

#微软研究团队发布80页的大模型GUI智能体综述

引领人机交互革命

本论文的主要作者 Chaoyun Zhang、Shilin He、Liqun Li,Si Qin 等均来自 Data, Knowledge, and Intelligence (DKI) 团队,为微软 Windows GUI Agent UFO 的核心开发团队的成员。

图形用户界面(Graphical User Interface, GUI)作为数字时代最具代表性的创新之一,大幅简化了人机交互的复杂度。从简单的图标、按钮、窗口到复杂的多应用工作流程,GUI 为用户提供了直观、友好的操作体验。然而,在自动化和智能化升级的过程中,传统的 GUI 操控方式始终面临诸多技术挑战。以往的脚本化或规则驱动方法在特定场景下确实有所帮助,但随着现代应用环境的日益复杂和动态化,它们的局限性愈发凸显。

近年,人工智能与大语言模型(Large Language Models, LLMs)的快速发展为此领域带来了变革性机遇。

近日,微软研究团队发布了一篇长达 80 页、逾 3 万字的综述论文《Large Language Model-Brained GUI Agents: A Survey》。这份综述系统梳理了大模型驱动的 GUI 智能体在现状、技术框架、挑战与应用等方面的研究进展。论文指出,通过将大语言模型(LLMs)与多模态模型(Visual Language Models, VLMs)相结合,GUI 智能体可以根据自然语言指令自动操作图形界面,并完成复杂的多步骤任务。这一突破不仅超越了传统 GUI 自动化的固有瓶颈,更推动了人机交互方式从「点击 + 输入」向「自然语言 + 智能操作」的跃迁。

链接:https://arxiv.org/abs/2411.18279

传统 GUI 自动化的局限与新挑战

过去数十年中,GUI 自动化技术主要依靠两大途径:

  1. 脚本化方法:如 Selenium、AutoIt 等工具依赖预先编写的固定脚本,以模拟点击、输入等操作。这类方法适用于相对稳定的界面和流程,但当界面频繁更新或布局动态变化时,脚本易失效且维护成本高。
  2. 规则驱动方法:根据预设规则识别 GUI 组件(如按钮、输入框)并执行相应操作。这类方法缺乏灵活性,难以应对复杂或非标准化的工作流程。

这些传统方法在面对高度动态、跨应用的复杂任务时显得力不从心。例如:

  • 如何让自动化系统理解网页内容并从中提取用户所需的关键信息?
  • 如何适应不同设备、操作系统上的多样化 GUI 界面?
  • 如何在多步骤任务中保持上下文的连贯与一致性?

大模型:智能化 GUI 交互的引擎

图片

图 1:GUI 智能体的概念展示。

微软的综述指出,大语言模型(LLM)在解决上述问题中发挥着关键作用,其优势主要体现在以下三个方面:

1. 自然语言理解与任务规划

以 GPT 系列为代表的大模型拥有出色的自然语言理解与生成能力。它们能够将用户简单直观的指令(如「打开文件,提取关键信息,然后发送给同事」)自动解析为一系列可执行的操作步骤。通过多步推理(Chain-of-Thought)和任务分解,智能体可逐步完成极为复杂的流程。

2. 视觉理解与环境感知

引入多模态技术后,视觉语言模型(VLM)可处理文本与视觉信息。通过分析 GUI 截图或 UI 结构树,智能体可以理解界面元素(按钮、菜单、文本框)的布局和含义。这为智能体提供了类似人类的视觉理解能力,使其能够在动态界面中执行精准操作。如自动在网页中定位搜索栏并输入关键词,或在桌面应用中找到特定按钮进行复制、粘贴操作。

3. 动态执行与自适应能力

相较传统脚本方法,使用大模型的 GUI 智能体能对实时反馈做出响应,并动态调整策略。当界面状态变化或出现错误提示时,智能体可以尝试新的路径与方案,而不再依赖固定的脚本流程。

图片

图 2:GUI 智能体的发展和主要工作。

在大模型的加持下,GUI 智能体为人机交互带来了质变的提升。用户仅需自然语言指令,智能体即可完成原本需要繁琐点击和复杂操作才能达成的目标。这不仅降低了用户的操作和学习成本,也减少了对特定软件 API 的依赖,提升了系统通用性。如图 2 所示,自 2023 年以来,以大模型驱动的 GUI 智能体为主题的研究层出不穷,逐渐成为前沿热点。

GUI 智能体的核心架构

微软的综述指出,一个大模型驱动的 GUI 智能体通常包括以下关键组件,如图 3 所示:

图片

图 3:GUI 智能体基本架构。

1. 操作环境感知

输入数据包括 GUI 截图、UI 结构树、元素属性(类型、标签、位置)以及窗口层级信息。通过 Windows UI Automation、Android Accessibility API 等工具,智能体可有效捕获界面信息。

2. 提示工程(Prompt Engineering)

智能体将用户指令与当前 GUI 状态相结合,构建输入提示(Prompt),并利用大语言模型生成下一步操作计划。例如:「用户指令 + 界面截图 + UI 元素属性」 经过 LLM 处理后,智能体将输出明确的操作步骤(点击、输入、拖拽等)。

3. 模型推理

将构建好的 Prompt 输入 LLM 后,模型会预测后续的执行动作和计划步骤。

4. 操作执行

智能体根据 LLM 输出的高层指令进行实际操作,如鼠标点击、键盘输入或触摸操作,从而在网页、移动应用或桌面系统中完成任务。

5. 记忆机制

为应对多步骤复杂任务,GUI 智能体设计了短期记忆(STM)与长期记忆(LTM)机制,用于跟踪任务进度和历史操作,确保上下文的一致性与连贯性。

此外,更高阶的技术(如基于计算机视觉的 GUI 解析、多智能体协同、自我反思与进化、强化学习等)也在不断探索中。这些技术将使 GUI 智能体日益强大和完善。微软的综述已对这些前沿方向进行了详细论述。

GUI 智能体框架、数据、模型与测评:全面梳理与实践指南

微软的综述对该领域的发展路径进行了系统性总结,涵盖框架设计、数据采集、模型优化和性能测评,为研究者与开发者提供了完整的指导框架。

1. 框架设计:多平台适配与跨领域扩展

当下 GUI 智能体的框架设计根据应用场景和平台特性,可分为:

  • Web 平台智能体:如 WebAgent 与 SeeAct 基于 HTML DOM 或可视化特征,执行网页导航、数据抓取、表单填写等多步骤操作。
  • 移动平台智能体:通过 iOS 和 Android 的 Accessibility API 获取 UI 层级结构,如 AppAgent、AutoDroid 可应对移动端复杂 UI 布局与多种手势操作。
  • 桌面平台智能体:如微软的 UFO 智能体,通过分析 Windows、macOS 的 GUI 层级树和 API 调用来模拟键鼠操作,完成跨软件的任务执行。
  • 跨平台智能体:如 AGUVI,通用框架可适应多种设备与系统,为跨平台自动化奠定基础。这类智能体具备更强的泛化能力,可自由迁移于不同平台之间。

这些框架的提出与验证,为 GUI 智能体在各类应用场景中落地提供了可能性,并为跨平台自动化打造了坚实基础。

2. 数据采集:高质量训练数据的构建

高效精准的 GUI 操作离不开丰富、真实的数据支撑,包括:

  • GUI 环境数据:截图、UI 元素属性(类型、标签、位置)、窗口层级信息等,为智能体提供视觉与结构化信息基础。
  • 操作数据:用户真实交互记录,如点击、输入、手势等,为模型学习人类操作规律提供样本。

图片

图 4:GUI 智能体数据采集流程。

这些数据为训练与测试提供了基础,也为领域标准化评估奠定了坚实的根基。图 4 展示了训练 GUI agent 的数据采集流程。

3. 大行动模型(LAM):任务执行的核心优化

综述提出了「大行动模型」(Large Action Model, LAM)的概念,在 LLM 的基础上进行微调,以解决 GUI 智能体任务执行中的核心难题:

  • 高效推理:在海量操作数据上进行微调后,LAM 可快速生成精准的操作指令,降低推理延迟。
  • 精确执行:拥有高度泛化能力,可适应不同平台的 GUI 环境。
  • 多步骤任务规划:支持复杂任务拆解与动态执行,连续完成多项操作,无需预定义脚本流程。

图片

图 5:为 GUI 智能体微调「大行动模型」。

如图 5 所示,通过在真实环境中微调 LAM,智能体在执行效率与适应性上显著提升。

4. 测评方法与基准:评估 GUI 智能体的性能

图片

图 6:GUI 智能体的测评流程。

测评是衡量智能体能力的重要手段。如图 6 所示,通过观察智能体执行任务的轨迹和日志记录,可以测评智能体各方面的能力。主要测评指标主要包括:

  • 任务完成率:是否准确执行用户指令并完成特定任务。
  • 执行效率:考察完成任务所需时间与步骤,尤其在资源受限硬件上的表现。
  • 在特定规则下完成率:测试智能体在遵循用户提供的特定规则和策略下完成任务的能力。
  • 风险比例:测试智能体识别和解决执行风险的能力。

领域内已出现一系列标准化 Benchmark,为 GUI 智能体的性能评价与对比提供了客观依据和平台。

GUI 智能体的实际应用:从高效测试到智能助理

1. 软件测试:从繁琐脚本到自然语言驱动的智能探索

传统的软件 GUI 测试常依赖冗长的脚本编写与重复的人工验证,既费时又容易遗漏关键场景。如今,借助大型语言模型(LLM)赋能的 GUI 智能体,我们迎来了一场测试领域的革新。这些智能体不再只是简单地重复固定脚本,而是能通过自然语言描述直接生成测试用例,对界面元素进行「自主探索」,并动态应对各种变化的用户界面。研究显示(如 GPTDroid、VisionDroid 和 AUITestAgent 等工具所展现的),智能体可在不需专业软件工程师深度介入的情况下,高效地捕捉潜在缺陷、追踪复杂交互路径,实现从输入生成、bug 重现到功能验证的全面自动化测试流程。

以字体大小调试为例,只需一句「请测试系统设置中更改字体大小的流程」,GUI 智能体便可自主导航界面、模拟用户点击、滑动选项,并在结果界面中精准确认字体调整是否生效。这样的自然语言驱动测试不但有效提高测试覆盖率与效率,即使非技术人员也能轻松参与质量保障过程。这意味着软件产品迭代速度的加快,以及开发与质量保证团队从重复劳动中解放,从而更专注于创新与优化。

2. 智能助手:从被动响应到多平台、多步骤的全能执行官

虚拟助手不再局限于简单的闹钟设定或天气查询。当 LLM 赋能的 GUI 智能体成为虚拟助手的「大脑」时,我们得到的是一位真正的「多面手」—— 可跨越桌面、手机、Web 浏览器和企业应用,以自然语言命令为指引,自动完成从文档编辑、数据表格分析,到复杂手机操作流程的各种任务。

这些智能体不仅能响应指令,还能根据上下文理解用户需求,并灵活适配不同界面元素。例如,它们可在移动端应用中自主查找隐藏的功能入口,为新用户演示如何截图;或在办公环境下,将一组跨平台数据整理后自动生成报告。在这类应用中,用户不必再为记忆繁琐的操作步骤烦恼,也不必面对复杂的流程而左右为难,只需以自然语言描述目标,智能体便能迅速解析上下文、定位界面组件并完成指令。通过持续学习与优化,这些智能助手还能越来越「懂你」,有效提升你的生产力与体验满意度。

综上,GUI 智能体在现实应用中已不仅仅是 “工具”,而更像一位全天候的 “数字助理” 和 “质量专家”。在测试领域,它们为软件品质保驾护航,大幅降低人力和时间成本;在日常与商务操作中,它们成为跨平台的多功能帮手,让用户能以更直观、更人性化的方式,与数字世界轻松互动。未来,随着技术的不断迭代升级,这些智能体将持续拓展应用边界,并为各行各业的数字化转型注入新的活力。

技术挑战与未来展望

尽管 GUI 智能体前景广阔,但微软的综述也明确指出目前的挑战所在:

  • 隐私与安全:智能体需要访问用户界面内容,数据安全与隐私保护亟待完善。
  • 推理延迟与硬件受限:大模型推理开销较大,需在性能与实时性间取得平衡。
  • 安全与可信:确保智能体可靠执行任务,避免误操作与安全风险。
  • 人机协同与交互策略:在复杂任务中平衡用户与智能体的决策与执行关系。
  • 个性化与定制化:智能体如何学习用户偏好和习惯,从而更精确地满足用户需求。
  • 道德与规范:保证智能体的决策透明、公平并负责任。
  • 通用泛化性:面对不同设备、操作系统与复杂非标准界面元素的适配仍是难题。

展望未来,随着大语言模型与多模态技术的持续进化,GUI 智能体将在更多领域落地,为生产力与工作流程带来深刻变革。

结语:走向智能化交互新时代

大模型的兴起为 GUI 自动化打开了全新空间。当 GUI 智能体不再仅依赖固化的脚本与规则,而是借由自然语言与视觉理解来决策和执行操作时,人机交互方式发生了质的转变。这不仅简化了用户操作,更为智能助手、自动化测试等应用场景提供了强大支持。

随着技术的不断迭代与生态的日趋成熟,GUI 智能体有望成为日常工作与生活中的关键工具,让复杂的操作愈加智能、高效,并最终引领人机交互走向全新的智能化时代。

#个人跑大模型,英伟达「皮衣刀客」新出的Project DIGITS与M4 Mac Mini到底哪个好?

前些天,英伟达发布了一大堆东西,其中包括一款 AI 超级计算机 Project DIGITS,也在第一时间进行了报道,参阅《RTX5090 震撼发布,国行 16499 元起,黄仁勋「美国队长」pose 亮翻全场》。在这篇文章的评论区,一位读者的问题引发了不少争议。

图片

虽然该问题的最高赞回复表示这是「英伟达被黑得最惨的一次」,但实际上使用 Mac Mini 作为个人的大模型运行平台并不是什么罕见操作。

Fast Company 甚至认为 M4 Mac Mini 是「测试 AI 的完美计算机」。

图片

你也能在社交网络上找到许多用户分享的经验。

图片

图片

图片

其实,上图中的这位 Alex Cheema 不仅仅是在 Mac Mini 上运行自己的个人 LLM 集群,也是在为自家公司 EXO Labs 做概念验证。其在今年初宣布推出了 EXO Gym 竞赛,开始测试能否在较慢的互联网带宽上实现有效的低延迟训练,而他们为此准备的 Mac Mini 数量更是多达 1000 台!是的,你没有看错,不只是使用 Mac Mini 来执行推理,还使用它们来训练模型。

图片

图片

当然,这种做法同样也是极具争议,不过有兴趣自己尝试的读者也可使用他们的开源软件库,目前该项目已经收获了超过 1.84 万 star。

GitHub 地址:https://github.com/exo-explore/exo

总之,至少在运行推理方面,看起来使用 Mac Mini 确实可行。现在,我们就来严肃地讨论一下这个问题:对于个人用户而言,如果想自己跑本地大模型,Mac Mini 和英伟达 Project DIGITS 到底选哪个更好?

参数对比

比较谁更胜一筹的最直观方法是比较它们的参数。

价格

首先来看价格。

根据芯片、内存和硬盘的不同配置,M4 和 M4 Pro 芯片的国行版 Mac Mini 价格从 4499 元到 35749 元人民币不等,国际版则是从 599 美元到 4699 美元不等。

而 Project DIGITS 目前已知的起售价为 3000 美元。而这个 3000 美元版本的配置情况大概是 128GB 内存和高达 4TB 的 NVMe 存储。

而 64GB 内存和 4TB 硬盘的 M4 Pro 版 Mac Mini 的官方价格就已经达到了 3199 美元起,超过了 Project DIGITS。

图片

配备 12 核 CPU、16 核 GPU 和 16 核 Neural Engine 的 M4 Pro 芯片的 Mac Mini,当选择 64GB 内存和 4TB 硬盘时,售价为 3199 美元

因此至少在价格上,Project DIGITS 先拿下一分。

性能参数

目前,由于 Project DIGITS 还没上市,因此我们自然无法获取其与 Mac Mini 的直接性能对比数据,但我们可以通过一些基本的配置情况来进行最基础的评估。

图片

图片

首先是 CPU 和 GPU。Project DIGITS 采用的计算核心是 GB10 Superchip,由 Grace CPU 和 Blackwell GPU 组成。其中,Grace CPU 配置了 20 个采用 Arm 架构构建的高能效核心,GPU 则是先进的 Blackwell,采用了最新一代 CUDA 核心和第五代 Tensor Cores,可实现 1 PetaFLOP FP4 的 AI 计算。1 PetaFLOP!着实吓人,不过这是 FP4 精度的。如果等价到 FP16 精度,则可以说是 250 TFLOPS(当然这种算法很不严谨)。

英伟达表示,借助这款超级计算机,开发者可以运行多达 2000 亿参数的大型语言模型,从而加速 AI 创新。此外,借助 NVIDIA ConnectX 网络,还可将两台 Project DIGITS AI 超级计算机连接起来,运行多达 4050 亿参数的模型。也就是说,足以运行 Llama 3.1 405B。

而 Apple M4 Pro 芯片的 CPU 则是 12 核,其中包含 8 个性能核心与 4 个效率核心;GPU 则是 16 核版本。而其在 FP16 精度下的速度为 17 TFLOPS 。

根据 Alex Cheema 的计算,Project DIGITS 可以说在各个层面都碾压了 M4 Pro Mac Mini。

图片

简单算算性价比:

  • Project DIGITS:250 TFLOPS / $3,000 ≈ 0.083 TFLOPS/美元
  • M4 Pro Mac Mini:17 TFLOPS / $2,200 ≈ 0.0077 TFLOPS/美元

也就是说,用同样的钱,能从 Project DIGITS 获得超过 M4 Pro Mac Mini 超过 10 倍的算力!

不过知乎用户 Karminski - 牙医也指出了 Project DIGITS 的一大不足。他表示「它是统一内存,即 CPU 和 CPU 共享 LPDDR5X。它不是 GDDR6,也不是 HBM2 的。」

虽然该设备的内存有 128 GB,「但是根据 Grace 架构 CPU 的 Product Brief,单 CPU 的内存带宽最大只有 512GB/s。所以如果用这个设备来运行大语言模型,瓶颈就会变成这个内存带宽。」

图片

他也做了一番计算,得出的结论是「在 512GB/s 的情况下,运行 70b-4bit 规模的模型,生成速度理论最大值是 512/40=12.8 token/s。如果想要运行 200B 规模的模型 (200B4bit 量化大概是 114GB),理论生成速度是 512/114≈4.5token/s」。

因此,Project DIGITS 可能也暗暗经受了老黄擅长的刀法。

Project DIGITS 果真赛高

整体来看,读者 Thomas Copper 确实没有说错,至少在 AI 计算任务上,Mac Mini 确实远远不及 Project DIGITS。但需要说明,Mac Mini 并不是专为 AI 任务打造,也适用于各种日常和工作任务。

之前不少人表示 Mac Mini 是实现 AI 普及化(democratize AI)的开始,但实际比较下来,或许真正的开始是英伟达 Project DIGITS!

不过也需指出,Project DIGITS 才刚刚露脸,预计要到 5 月份才上市,市场表现究竟如何还有待检验——毕竟我们到时才能真正知道「皮衣刀客」究竟刀了哪些地方。但至少从社交网络上的分享来看,已经有不少人准备好自己的钱包了。

图片

对此,你有什么看法呢?

参考链接:

​https://www.youtube.com/watch?v=GBR6pHZ68Ho​

​https://www.jeffgeerling.com/blog/2024/m4-mac-minis-efficiency-incredible​

​https://x.com/alexocheema/status/1876676954549620961​

​https://www.zhihu.com/question/8953765123/answer/73915191447​

#DeepSeek R1 最新全面综述

近两个月的深度思考!

本文全面介绍了DeepSeek R1的技术细节和创新点,包括其三个核心阶段:R1-Zero(纯强化学习)、R1(推理能力提升与数据生成)和蒸馏(小模型能力提升)。文章还探讨了R1对LLM发展的深远影响,认为其通过推理时的自我反思和验证能力,将LLM推向了“深度思考时代”,其贡献不亚于ChatGPT的发布。

本文是《2025 iFLYTEK 开发者TALK 杭州站《DeepSeek深度技术解析》分享的文字版。由于时间关系,实际分享是本文的简化版。文字内容是近半个月陆陆续续记录的一些阅读笔记和思考,中途接到分享邀请(还好有点积累,不然怕是难顶doge),成稿于分享后。

分享PPT:

​https://github.com/datawhalechina/hugging-llm/tree/main/resources​

距离2022年底ChatGPT发布开启LLM时代才过去两年多一点时间,刚进入2025年,DeepSeek-R1就将LLM真正推向了深度思考时代。

图片

两年多的高速发展,前所未有的按周迭代,如今想来都一阵恍惚。2023年是LLM最快速发展的一年,被称为LLM元年,新的开发范式出现(感兴趣的读者可以关注HuggingLLM(https://github.com/datawhalechina/hugging-llm)),全民AI浪潮涌现。2024年,基于LLM的应用已经开始成熟,Agent百花齐放,进入元年,各种应用层出不穷,一个人公司成为可能。

当我们以为LLM基本就这样按部就班向”应用“时,R1出现了,它发迹于OpenAI-o1,但超越了o1。关于o1,我的观点和OpenAI前首席研究官Bob的观点一致:它的目标是解决复杂问题,大多数人日常工作中并不会遇到需要o1的需求(可以参考关于AI前沿的思考(https://yam.gift/2024/12/20/NLP/2024-12-20-Think-About-AI-and-Related/))。但是R1提升了LLM的整体能力,让模型真正在推理时进行自我反思和验证,这当然适用于复杂问题,但日常工作很多场景也能受益,AI更加像人。我觉得这是R1对整个行业的贡献,其作用不亚于ChatGPT的发布。

DeepSeek-R1:LLM进入深度思考时代

首先,我们来解读R1的论文,这篇论文本身不复杂,条理很清晰。论文核心内容可以概括为三个部分:R1-Zero、R1和蒸馏。各部分都可以简单概括为一句话。

R1-Zero=Pretrain(DeepSeek-V3-Base)+RL(GRPO),证明Pure Rule 的 RL也有效,表现出自我验证、反思、和生成长COT的能力。但有可读性差、语言混合问题。

R1=Pretrain+Cold-Start(SFT)+RL(提升推理能力)+生成数据和SFT监督数据微调Base(SFT)+RL(对齐),先提升推理能力,搞出数据,再提升LLM整体能力。

蒸馏=R1数据+学生模型SFT。蒸馏>RL,R1数据SFT的小模型能力得到提升,且优于强化学习+小模型。

真是再次证明了”数据决定上限,算法逼近上限“,也重新定义了什么叫”高质量数据“。

R1-Zero:RL的潜力

纯RL,基于规则,没有监督数据。

GRPO

放弃了通常与policy模型大小相同的critic模型,从群体分数来估计基线。具体来说,对每个q,GRPO从旧的policy采样一组输出,然后通过下面的目标函数优化policy。

其中,𝜀 和 𝛽 是超参,Ai是advantage,如下。

GRPO相比PPO要简单,但更重要的是它有效。

RM

基于规则,没有ORM或PRM!包括精度奖励和格式奖励(把思考过程放在<think>和</think>之间)两种规则。

这真是振奋人心的发现!我个人对强化学习(以及基于规则)的执念已经很久了(可以追溯到2018年),之前很多次提到过(见后面附录1相关文章),也做过一些尝试,但一直没有取得很好的成果。看到R1论文的第一反应是不可能吧?自己跟着复现后真的是震惊到了,太漂亮了。

数据构造

训练数据基于如下模板构造:

A conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think> <answer> answer here </answer>. User: prompt. Assistant:

其中的prompt就是相应的问题。这里有意将约束限制在这种结构格式上是为了避免任何特定于内容的偏差,如强制反射性推理或促进特定的问题解决策略,确保能够准确观察到模型在强化学习过程中的自然进展。

上面的模板是Base模型,Instruct模型也是类似的。

结果

图片

非常漂亮的曲线,非常Nice的表现!而且,实际中还可以通过多数投票进一步提升性能,如红色曲线所示。

Self-evolution

图片

然后是过程中表现出来的自我进化,它最引人注目的方面之一是随着推理时计算的增加,出现了复杂的行为。诸如反思(重新审视和重新评估先前的步骤)和探索解决问题的替代方法等行为。这些行为是自发产生的,是模型与强化学习环境交互的结果,而不是明确编程的、外部调整的结果。

Aha Moment

图片

接下来是很多人津津乐道的Aha Moment,其实就是模型自动学习重新评估、检查或验证,即自我反思和错误修正,有点类似”恍然大悟“。它显示出强化学习的神奇之处:我们并没有明确告诉模型如何解决问题,而是通过提供适当的激励,让它自主发展出高级的解决问题策略。

Aha Moment可以看作是模型在”推理时思考“的表现,其外在表现就是出现类似确认、重新检查、评估、验证等词,并且回复长度增加。如下图所示。

图片

但值得注意的是:

  • Aha Moment并不是只有这种情况才会有。
  • 长度增加并不一定意味着结果变好,或模型在思考。

关于这点我们后面会专门介绍另一篇研究的结论,这里不再赘述。

至于为什么R1-Zero可以有这样的效果,我觉得还是因为模型本身就有这样的能力,RL做的只是释放或引导出这种能力。后面我们会介绍通过少量SFT数据也可以做到。

R1-Zero表现出来的问题主要是两个:可读性差和语言混合现象。但我在复现时感觉第一个问题还好,第二个问题确实存在,也比较明显。不过话说回来,只要结果正确,过程人类可不可读,好像问题也不太大吧(doge)。

最后再补充一句,R1-Zero用纯规则强化学习能做出这样的效果,真的很厉害!

R1:LLM再次进化

接下来是R1,它是想改进R1-Zero自然延伸而来。R1-Zero后马上紧跟两个问题:

  • 通过加入少量高质量数据作为冷启动,是否可以进一步提高推理性能或加速收敛?
  • 如何训练一个用户友好的模型,该模型不仅产生清晰连贯的思维链 (CoT),而且还表现出强大的通用能力?

冷启动

R1第一步,冷启动。收集少量(Thousands)高质量CoT数据微调模型作为RL的起点(初始Actor)。

  • 以长链推理(CoT)作为示例进行少量提示,直接提示模型生成带有反思和验证的详细答案。
  • 以可读格式收集 R1-Zero 输出,并通过人工后处理来提炼结果。

冷启动数据相比R1-Zero的优势:

  • 可读性:R1-Zero的内容经常不可读,冷启动的数据都是可读格式。
  • 潜力:比R1-Zero表现更好。

推理导向的RL

接下来和R1-Zero一样(大规模RL),目的是提升模型推理能力,尤其是推理密集的任务。

  • 训练过程中,依然观察到语言混合现象,尤其是Prompt包含多语种时。
  • 为了减轻这个问题,引入「语言一致性」奖励,计算方式为推理链中目标语言词的比例。虽然导致性能略微下降,但结果可读。
  • 最终奖励为:推理任务的准确性+语言一致性的奖励。

拒绝采样和SFT

上一步收敛后,主要用来收集SFT数据。就是说,前面做的工作都是为了搞数据。与主要关注推理的初始冷启动数据不同,此阶段整合了来自其他领域的数据,以增强模型在写作、角色扮演和其他通用任务方面的能力。

即用生成数据在DeepSeek-V3-Base上进行SFT。这个做法就是一般意义上的SFT,只是这里数据不一样。

  • 推理数据:600k。用上一阶段的模型生成推理链数据(每个Prompt输出多个Response,选择正确的)。扩充了数据,过滤掉了结果中混合语言、长释义和代码块的推理链。
  • 非推理数据:200k。复用了DeepSeek-V3的一部分SFT数据,对于某些非推理任务,调用DeepSeek-V3生成一个潜在的推理思维链,然后再通过提示来回答问题。对非常简单的query(比如“你好”之类),回复不用CoT。

所有场景RL

对齐阶段,提升有用性和无害性,同时保持推理能力在线。这里对齐时采用了混合方法。

  • 推理数据(数学、代码和逻辑推理):遵循 DeepSeek-R1-Zero 中概述的方法(即规则)。
  • 非推理数据:采用奖励模型来捕捉复杂和细微场景中的人类偏好。

对于有用性,专注最终总结,确保评估侧重于响应对用户的实用性和相关性,同时尽量减少对基础推理过程的干扰。

对于无害性,评估模型的整个响应,包括推理过程和总结。

经过以上4步,R1就出炉了。可以看到前两步主要是用来搞数据,具体来说就是带思考过程的数据。当然,后面两步也有改进,比如综合了两种数据训练和对齐。

这算不算是重新定义了“高质量数据”和“新的训练范式”呢?不管答案如何,我想,后面所有的LLM可能都会“R1”一下的。

蒸馏:小模型也有大能力

最后是蒸馏,也就是让小模型也拥有推理能力。具体做法是,直接用前面的800k数据微调Qwen和LLaMA,这种蒸馏方法叫黑盒蒸馏。

值得注意的是,这里没有继续RL(即使合并 RL 可以大大提高模型性能),他们将这个留给了社区。然后,就真的出现了(后面会介绍的DeepScaleR),算是补充了这里的后续。

R1相关研究探索

这一部分我们介绍与R1相关的一些比较有意思的研究。

oat-zero

首先来看oat-zero,相关内容如下。

  • There May Not be Aha Moment in R1-Zero-like Training — A Pilot Study
  • sail-sg/oat-zero: A lightweight reproduction of DeepSeek-R1-Zero with indepth analysis of self-reflection behavior.

主要有下面几个结论。

  • 在 R1-Zero 类训练中可能没有 Aha 时刻。相反,Aha 时刻(例如自我反思模式)出现在第 0 轮,即基础模型阶段。说明Aha不需要RL也可以有。
  • Base模型的回答中存在表面自我反思(SSR),在这种情况下,自我反思不一定导致正确的最终答案。比如四种行为中的后两种,如下所示。注意啊,这里并不是说Base模型不能自我反思,只是说存在表面自我反思。
  • 行为1:自我反思重新检查并确认正确答案。
  • 行为2:自我反思纠正最初的错误想法。
  • 行为3:自我反思引入错误到原本正确的答案中。
  • 行为4:重复的自我反思未能产生有效答案。
  • 响应长度的增加现象并非自我反思的出现所导致,而是强化学习优化良好设计的基于规则的奖励函数的结果。
  • RL是将原本表面的自我反思转化为有效的自我反思,以最大化预期奖励,从而提高推理能力。
  • 长度和自我反思可能不相关。

总的来说,可以概括成两句话:Base模型也可能Aha,但不否认RL不能Aha;RL能将Base的表面自我反思转化为有效自我反思,只是并不一定长度就一定增加。我觉得这个结论是Make sense的,Base模型只是具有能力但没有被激活,RL才激活了能力。

DeepScaleR

接下来是前面「蒸馏」部分提到的DeepScaleR,相关内容如下。

  • DeepScaleR: Surpassing O1-Preview with a 1.5B Model by Scaling RL
  • agentica-project/deepscaler: Democratizing Reinforcement Learning for LLMs

它的做法是直接从Deepseek-R1-Distilled-Qwen-1.5B强化微调(用高质量40K Math数据)。得到的模型在AIME2024和MATH500上超过了o1-preview。

这里的背景是:复现R1的计算量比较大,⩾32K context,~8000 steps,即使对1.5B模型也需要70,000小时A100。为了解决这个问题,本文使用一个蒸馏模型,并引入迭代式的长度增加方案。计算资源降到3800小时A100。

本文主要证明了通过 RL开发定制的推理模型既可扩展(Scaling)又具有成本效益。

它的数据处理流程如下:

  • 使用gemini-1.5-pro-002从官方Solution中抽取答案。
  • 使用sentence-transformers/all-MiniLM-L6-v2作为Embedding(使用语义相似度)移除重复/相似问题。
  • 移除不能用sympy评估的问题(这类问题需要使用LLM评估,这不但会影响训练速度,还可能引入噪声奖励信号)。

ORM设计:

  • 1:如果答案通过基础的LaTeX/Sympy检查。
  • 0:答案或格式不对(比如没有<think>, </think>)。

交互式的上下文长度增加方案:从短到长。

  • 长上下文为模型提供更多思考空间,但会降低训练速度;但短上下文可能会限制模型解决需要较长上下文的更难问题的能力。
  • 所以分两步走:8k→16k和24k。第一步在8k上实现更有效的推理和高效的训练;接下来扩展上下文长度,以便模型可以解决更复杂的问题。

为什么要分两步走?因为在训练前评估模型时,发现错误响应的长度是正确响应的3倍。这表明较长的响应通常会导致不正确的结果,直接用长上下文窗口进行训练可能效率低下,因为大多数Token实际上都被浪费了。

我们看看实际的效果,如下所示。

  • 先在8k上下文训练,平均训练奖励从 46% 增加到 58%,而平均响应长度从 5,500 下降到 3,500,AIME2024 Pass@1 Acc 33.9%。1000步后,响应长度再次开始增加,响应裁剪率从 4.2% 上升到 6.5%,表明更多的响应在上下文限制处被截断。说明此时模型试图通过“思考更久”(即生成更多Token)来提高训练奖励。
  • 在第 1040 步(响应长度开始呈上升趋势)处使用 16K 上下文窗口重新启动训练。额外 500 步后,平均响应长度从 3500 增加到 5500,平均训练奖励稳定到62.5%,Acc达到38%,响应裁剪率到2%。性能开始趋于稳定。
  • 在480步重新启动具有 24K 上下文窗口的训练运行。200步后Acc达到43%。

图片

总的来说,结论就是:

  • RL 缩放也可以表现在小型模型中。单独的 SFT 和 RL 都不够;相反,通过将高质量的 SFT 蒸馏与RL缩放相结合,可以真正释放 LLM 的推理潜力。AIME 准确率从 28.9% 提高到 43.1%。
  • 迭代扩展长度可实现更有效的长度缩放。简单来说,就是先训短的简单的,然后提升难度和长度限制,这样会比直接训练更加高效。

图片

LIMO和s1

这两篇都是用少量高质量数据SFT激活模型推理能力的研究,相关内容如下。

  • LIMO: Less is More for Reasoning
  • GAIR-NLP/LIMO: LIMO: Less is More for Reasoning
  • s1: Simple test-time scaling
  • simplescaling/s1: s1: Simple test-time scaling

LIMO提出了如下假设:如果模型拥有丰富的推理知识并获得了足够的计算空间,那么激活推理能力可能只需要少量鼓励长时间思考的高质量训练样本。

然后它验证了假设,复杂的数学推理能力可以通过极少的高质量数据(817条,1/100的数据量)有效地引出(绝对性能提升40.5%)。而且普遍适用于分布外问题,表明模型获得了真正的推理能力,而不是简单的模式匹配。

这一发现不仅挑战了复杂推理任务需要海量数据要求的假设,还挑战了人们的普遍看法,即监督微调主要导致记忆而不是泛化。

s1类似,1000条高质量数据超过了59k的数据。

LIMO和s1的发现标志着知识基础的革命:从获取知识变为激活知识。这两个研究都提到了高质量数据,对LIMO来说,数据质量有两个因素决定:

  • 问题的质量。包括问题解决方法的多样性、挑战模型能力的适当难度级别以及所涵盖知识领域的广度等因素。
  • 答案(推理链、Response)的质量。包括教学价值、逻辑一致性和方法论严谨性等方面。

s1相对粒度粗一些,主要整体考虑质量(无格式问题)、难度和多样性。问题一般从已有数据集中筛选,答案可以使用官方解决方案,或用模型生成不同方案然后选择最好的。

在逻辑推理上的实验

这一轮的实验主要针对R1-Zero,除了验证上面的一些观点, 还有一些自己的想法。初步结论一并汇总在这里。

R1-Zero的起点不重要

有了前面的铺垫,相信这个结论是比较清晰的,就是说无论Base还是Instruct,无论是正常模型还是Math模型,理论上应该都能实现R1-Zero的效果。既有效果,又有类似的表现,姑且可以算复现了R1-Zero。

图片

如图所示,绿色的是Qwen2.5-7B-Instruct,棕色的是Qwen2.5-7B,两者在奖励、格式错误率、整体正确率、测试集表现几乎呈现完全一致的走向。不过Instruct版本整体表现稍微好一些。在回复长度方面,二者整体趋势一致,都是先降低后增长,但Base模型长度增加更明显,而Instruct模型下降更久一些。猜测是Instruct模型因为经过了SFT,有了固有的指令跟随能力,因此需要比较久学习到新的要求;同时Instruct的能力又强于Base,因此回复长度也相对更短一些。

另外值得注意的是,Base模型的起点几乎为0,但Instruct模型不是,它一开始就有一定的准确率,如第二行最右边图所示。

模型越新效果越好

虽然用的是在Qwen2.5发布之后的数据集,尽量保证了OOD,但我们确实无法知晓模型是否在预训练时加入过类似数据。原计划选择Qwen1做试验,不过代码改动稍微有点复杂,因此选择Qwen-1.5-7B进行对比。

图片

如图所示,Qwen1.5-7B整体要明显逊色于Qwen2.5-7B,虽然它们整体的趋势也是一致的。我们从Qwen2.5的官方介绍也可以看到,其中加了Code和数学数据。

模型越大效果越好

这可能是句废话,但我们还想知道好多少,以及具体表现到底差在哪里。很遗憾,1.5B的Base模型并没有复现出来,虽然奖励、格式错误、整体准确率、测试集准确率都和前面表现一致,但回复长度是一路下降,直到收敛,没有观察到上升的情况。不过过程中依然还是表现出了Aha现象。最终还是选择了Math版本的1.5B模型,即Qwen2.5-Math-1.5B成功完成验证。

图片

可以看到这个性能差别真是有点大,即便是Math模型,和7B之间的差距依然巨大。另外,尝试了3B模型,也能观察到效果,但回复长度上升幅度不大。

交互式长度增加有效

这里主要是验证多阶段(按难度等级)RL,类似DeepScaleR的做法。两步的趋势依然相近,但回复长度第二阶段明显更长,指标也有一定提升。

Reward非常关键

Reward是模型学习的方向,它的设计影响收敛速度和最终效果,应该针对不同任务进行相应设置。

以上结论更详细的说明之后将在技术报告中呈现。此外,由于我个人仅对强化这部分感兴趣,所以也就只做了这部分的一点验证,其他如LIMO、s1、R1、蒸馏等感兴趣的读者可以一试。

如果有读者和我一样,对强化学习、LLM和NLP结合感兴趣,可以关注我去年底创建的仓库:hscspring/rl-llm-nlp: Reinforcement Learning in LLM and NLP(​​https://github.com/hscspring/rl-llm-nlp),这里只收集强化学习和LLM、NLP相结合的内容。​

R1:新范式、新纪元

如果你一路读到这里,相信对R1以及他所带来的影响有所感触。确实,创新比较多,几乎影响到LLM的每一个阶段。我们从预训练(Pretrain)、后训练(PostTrain)和推理(Inference)三个角度展开。

预训练

这块做的不多,只能简单聊聊自己的看法。DeepSeek-V3以相对比较低的成本震惊了一把业界,预训练看起来好像也并没有那么“高不可攀”。这当然和他们的技术创新有关,但还不可忽视的是行业整体的发展,尤其是高质量数据集的不断发布。后来者都是站在前人肩膀上的,从这个角度看,成本下降几乎是一件必然的事。成本下降是不是意味着会有更多的预训练模型呢?答案是一定的,但不一定是更多的LLM,而更可能是各类专用M,可以简称为LSM。直观上看就是Token不一样,比如AlphaFold。而且这一类的预训练模型可能并不用那么大。

R1的核心其实是“搞数据”,重新定义了“高质量数据”,这些数据是否可以用在预训练上?答案不言而喻。数据质量提高了,预训练上限能提升吗?可能需要实验验证一下。

那训练流程呢?原来是收集已有数据为主,之后是不是得考虑如何生成更好或者更合适的数据?这是不是会变成一个动态迭代过程?我觉得这可能成为一种新的训练范式,姑且把它放在预训练这里。

后训练

至于后训练显然内容更多。首先就是R1在Base基础上做的冷启动和RL,通过前面介绍,我们知道这两步的主要目的是激发出模型的推理能力,用来生成后面的SFT数据。冷启动其实就是用少量高质量数据SFT,它和基于规则的Pure RL结合,可以达到更好的效果。

类似的,用这些生成的数据重新SFT小模型(即论文中提到的蒸馏),其后也可以接RL(即R1-Zero),而且RL还可以分阶段来逐步进化到更大难度和更长回复(思考)。

除此之外,后面两步的SFT和对齐,虽然步骤和已有的后训练一样,但过程也大不一样。最大的区别是,R1在每个阶段都需同时考虑推理类数据和通用数据,这里有几个方面是比较值得进一步探索的。第一,推理数据和通用数据的比例是3:1,如果这个比例发生变化会怎么样?第二,对一些简单问题(比如打招呼),R1没有使用CoT(长链推理)回复,如何鉴定这里的“简单”?能否针对不同的上下文(用于区分用户的背景知识)给出不同的回复?第三,在对齐阶段R1同时使用了针对推理问题的纯规则Reward和针对人类偏好的RM,这是比较直观的方法。能否找到更好的RM?能否将其他一些规则也一并融入,然后训练出各种风格的LLM,就像人一样,成为他们天生的“性格”?我觉得这几个点都蛮有意思的。

上面提到这三点,算不算是新的训练范式?答案可能见仁见智,但我想R1的创新和贡献应该毋庸置疑吧,说他不亚于ChatGPT的发布也不算过分吧。

推理

R1的主要创新点其实体现在刚刚说的后训练阶段,推理中的某些特点是R1或o1这类模型的自然表现。关于o1,我在《关于AI前沿的思考》这篇文章中有提到:

我一直认为o1仅适用于有限的场景,因为它的目标是解决复杂的问题。事实上,Bob(OpenAI前首席研究官)也是这样认为的,他说除了程序员,大多数人日常工作中并不会遇到需要o1的需求。但我没有想到推理方向(可能也和自己没有真正用过o1有关)。Bob提到GPT-4o有几秒钟的思考时间,o1是30秒到几分钟,甚至延伸到几小时或几天。这种被他称作“扩展”的变化,其实是把“学习”后置,我们可以把这个过程看成是模型自己补充上下文的过程。这又和奥特曼在此前一次访谈(诞生于HuggingLLM的蝴蝶书《ChatGPT原理与应用开发》第一章最后也提到了这次访谈)中说提示词会消亡的看法一致。o1的价值就在其扩展性,它开始会更多地“思考”,而不是“记忆”。它和强化学习的结合应该会是一个不被很多人重视(或看到),但很有可能带来下一次革命的组合。

这篇文章是我在24年12月发布的,结果最后一句话的“预测”在当时其实已经被实现了(只是R1还没有发布)……不得不感慨,世间真奇妙。上面的引用里也提到了“扩展”,其实这就是所谓的推理时Scaling,即把更多的计算放在推理阶段。不熟悉的读者需要注意,这里说的推理(Inference)是模型训练完后“使用”它,而前面提到的推理(Reasoning)数据是类似数学、代码、逻辑这一类的推理数据。

关于推理时Scaling(ITS),比较早(不确认是不是最早)的典型代表研究应该是DeepMind的 Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters,它主要回答这么一个问题:如果允许 LLM 使用固定但并非微不足道的推理时间计算量,那么它在具有挑战性的提示下性能可以提高多少?这里有两个关键前提:比较大的推理时计算量和有挑战性的问题。文章主要探讨了一些当时的Scaling方法的效果,比如Best-of-N(就是字面意思,Batch采样N个输出,然后根据一个验证者或奖励模型(RM)选择得分最高的)、TTS(Test Time Search)方法Random Sampling、Tree Search(比如MCTS)。主要结论(蛮有意思)是:推理时计算和预训练计算并非可以一对一“互换”。

  • 对于简单和中等难度的问题(在模型能力范围内),或在推理需求较小的情况下,测试时计算可以轻松弥补预训练的不足。
  • 然而,对于具有挑战性的问题(超出模型能力范围),或在推理需求较高的情况下,预训练可能在提升性能方面更加有效。

这个结论说明:模型本身的能力至关重要。推理时只能弥补不足,但不能消除不足。此时的奖励模型(RM)还是模型而不是规则,主要包括目标奖励模型(ORM,针对结果进行奖励)和过程奖励模型为主(PRM,针对过程进行奖励)。关于PRM的应用,R1发布前不久有两篇不错的研究值得一读:即微软发布的rStar-Math和PRIME-RL发布的Prime。

ITS应用的典型成功代表是OpenAI的o1: Learning to reason with LLMs | OpenAI,如其所述:

类似于人类在回答困难问题之前可能会思考很长时间,o1 在尝试解决问题时使用思维链。通过强化学习,o1 学会磨练其思维链并改进它使用的策略。它学会识别和纠正错误。它学会了将棘手的步骤分解为更简单的步骤。它学会了在当前方法不起作用时尝试不同的方法。此过程显著提高了模型的推理能力。

我们现在看到的R1就和这个描述非常相似,很多开源复现(包括我自己的实验)也确实观察到了这种现象。o1的重要表现是“思考很长时间”,即生成的长度比较长。根据实际使用情况,它的“很长时间”有时候是真的“很长”,这也算一种Scaling方法,前面提到的s1论文中的Budget Forcing算是一类Scaling,即Sequential Scaling。和前面提到的Best-of-N、树搜索等Parallel Scaling对应。

我们不知道o1是怎么做的,社区都猜测是MCTS,至少用了MCTS,但具体不得而知。但是R1我们是知道的,也是第一个将纯规则的RL成功应用于LLM。更为重要的是,他思考的还很快(相较o1)。更更为重要的是,他还将任务从复杂任务延展到所有任务。这一点是最牛逼的地方。o1针对复杂任务,很慢,所以看起来使用场景比较狭窄;R1针对所有任务,很快,直接将LLM提升到了另一个维度。 而且,R1开源了。

总的来说,R1给LLM在推理方面带来了极大的变革,这是他在后训练上创新体现出来的结果,这种边推理边思考边优化的方式使得LLM离“人”更近了一步。R1之前,LLM有人的能力,但用的时候还是个模型;R1之后,LLM不但有人的能力,用起来也更像人。

其他影响

最后简单谈谈对从业者和行业的影响。我在《ChatGPT原理与应用开发》、《ChatGPT 开发指南:Hugging LLM Hugging Future | Yam》、《ChatGPT 影响冲击:职业、行业与产业 | Yam》等等文章以及很多分享中多次提到过相关内容。对于整个开发范式,确实影响不大,甚至会进一步深化,毕竟LLM能力进一步得到了提升。对于NLP算法这个职位也依然是类似观点,但稍微有点不一样了,主要是R1这波给的太多了,给算法指明了新的路径。其实现在的所谓LLM工程师基本来自两波:一大波之前的NLP算法工程师,LLM新技术出现后跟进的;一大波转行或新加入的。不过真正搞算法底层研发的职位注定会越来越少,大部分人还是得老老实实搞应用,包括我本人。但是搞应用的门槛慢慢降下来了,没办法,太火了,人太多了,相关的研究、工具如雨后春笋,虽然质量参差不齐,但行业整体确实欣欣向荣,大浪淘沙,自然而然会有优质内容慢慢浮现。对算法工程师,尤其是LLM相关的算法工程师来说,只懂算法怕是难以应付以后得局面;退一步说,算法工程师你不也得先是个工程师么。LLM以前,只懂一点算法,能跑个模型还可以吃到红利,LLM之后这样的红利怕是会逐步消失殆尽。既是坏事,也是好事,看你怎么理解了。

总结

本文比较详细地介绍了DeepSeek R1及其相关的技术,我们深刻感受到了RL的力量和魅力,更深刻感受到了R1的创新和强大。也难怪ai.com会把链接指向DeepSeek,人家不光有详细的技术报告,还把模型都开源出去了。真的很了不起。

说起来,本文还有个背景,最近偶尔在网上看到有一些行外人士说R1是蒸馏的ChatGPT,还煞有介事的做了LLM的科普视频。看完之后发现视频做的不错,但其中很多观点其实是错误的。令人意外的是,评论区大部分人都是无脑追捧,居然说是全网最好的科普。当然也不乏部分行业人士评论作者的偏颇之处,不过压根没人理会。无论是尬吹还是尬黑,我个人都比较反感。所以本文既是一篇R1相关的技术总结文章,也姑且可以算是一篇(稍有难度的)科普文章。我相信即便有读者无法读懂全部内容,但至少一部分内容还是可以看明白的,我想这就够了。当然,个人能力所限,文章也可能有不准确、不完善的地方,也欢迎读者指正。

最后,我写的很爽,希望你也能读的爽。我们就用分享时最后的个人观点来结束本文:R1发迹于OpenAI-o1,但超越了o1。他提升了LLM的整体能力,让模型真正在推理时进行自我反思和验证,这当然适用于复杂问题,但很多日常普通场景也能受益,AI更加像人。这是R1对整个行业的贡献,其作用不亚于ChatGPT的发布。

附录

附录1

笔者曾提到强化学习的相关文章,有些内容可能很幼稚甚至不对,还望读者海涵。

  • 2024关于AI前沿的思考 | Yam
  • 2024LLM Tiny Pretrain:H2O-Danube and Stable LM | Yam
  • 2023关于大语言模型的思考 | Yam
  • 2023ChatGPT 基础科普:知其一点所以然 | Yam 或《ChatGPT原理与应用开发》第一章
  • 2020NLP 表征的历史与未来 | Yam
  • 2020RoBERTa 论文+代码笔记 | Yam
  • 2020Bart 论文+代码笔记 | Yam
  • 2018西蒙《人工科学》读书笔记 | Yam
  • 2018NLP 与 AI | Yam

博客仓库:https://yam.gift/,以上文章均可在里面找到。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值