51c大模型~合集84_tfg: unified training-free guidance for diffusion -CSDN博客

本文链接：https://blog.csdn.net/weixin_49587977/article/details/144251667

我自己的原文哦~ https://blog.51cto.com/whaosoft/12738214

#AIGB

阿里妈妈首提AIGB并实现大规模商业化落地，将在NeurIPS 2024正式开源Benchmark

2023 年，阿里妈妈首次提出了 AIGB（AI-Generated Bidding）Bidding 模型训练新范式（参阅：阿里妈妈生成式出价模型（AIGB）详解）。AIGB 是一种全新的迭代范式，把自动出价问题建模为生成式序列决策问题，这是生成式 AI 在该领域的首次应用。经过一年的探索和研发，我们在阿里妈妈广告平台成功部署 AIGB 并取得显著效果，我们还把过程中的发现和经验总结成论文发表在 KDD 2024，详细分享了这一全新的迭代范式。

为了激发该领域进一步的技术创新，我们今年发起了大规模拍卖中的自动出价比赛，并特别设置了 AIGB 赛道，这一理念得到了 NeurIPS 的认同，阿里妈妈成为国内工业界今年唯一一家获得 NeurIPS 比赛主办权的组织。同时，我们也将在 NeurIPS 2024 上正式开源 AIGB 的 Benchmark：业界首个标准化的大规模模拟竞价系统和大规模博弈数据集。

论文名称：AIGB: Generative Auto-bidding via Diffusion Modeling
论文作者：Jiayan Guo, Yusen Huo, Zhilin Zhang, Tianyu Wang, Chuan Yu, Jian Xu, Yan Zhang, Bo Zheng
发表会议：KDD 2024
论文链接：https://arxiv.org/abs/2405.16141

背景：在线广告场景中的自动出价

广告业务是互联网公司营收的一项重要来源。仅在 2023 年，在线广告市场的规模就达到了 6268 亿美元。在线广告往往是通过流量拍卖的方式进行广告投放。广告主需要设定合理的出价从而竞得流量。近年来，自动出价（Auto-Bidding）技术已成为推动广告市场持续增长的关键因素。相比于传统的手动出价，自动出价充分考虑了线上流量分布、竞价环境、预算以及各种限制因素，在为广告主带来了更多价值的同时，促进了平台业务的增长。一种典型的自动出价目标是在给定预算及其他约束的条件下最大化广告主的流量价值。典型的自动出价任务包括给定预算下的最大化拿量任务 Max-Return，以及给定预算和 ROI 约束的最大化拿量任务 Target Roas 等。

在实践中，自动出价的优化问题一般会被看作一个序列决策问题，出价模型在整个投放周期（通常为 1 天）内随着流量和竞价情况的变化动态调整出价参数从而优化整体效果。模型需要具备一定的全局视角，进行整体规划和决策。对于序列决策问题，一种被业界广泛采用的解决方案是强化学习（RL）。RL 方法可以通过不断和环境交互寻优，从而不断提升策略效果。RL 也是目前一种主流的 Bidding 解决方法。但是这种方法由于存在一定的内生性缺陷（价值函数预估和自举法导致的训练不稳定），不擅长处理 Bidding 面临的长序列决策问题，容易出现训练效果差的问题。因此，我们期待通过算法范式的升级来提升 Biding 模型的线上效果。

生成式模型助力 Bidding 范式升级

生成式模型近年来得到了迅速的发展，在图像生成、文本生成、计算机视觉等领域取得了重大突破。目前最新的生成式模型在分布拟合以及相关性关联等方面显著地优于浅层神经网络。工业界 Bidding 策略优化的核心是基于历史的 Bidding 数据，通过模型挖掘策略与效果之间的相关性从对策略进行优化，是生成式模型落地的一个较为理想环境。基于这一洞察，我们提出了 AIGB（AI-Generated Bidding）解决方案。AIGB 是一种基于生成式模型（Transformer、Diffusion Model 等）的出价问题解决方案框架。与以往解决序列决策问题的 RL 思路不同，AIGB 将 Auto-Bidding 视为一个策略生成问题，通过生成模型强大的特征关联以及分布拟合能力，直接捕捉历史 Bidding 数据集中优化目标和出价策略之间的相关性从而优化策略。相比于 RL 方法，这种新的建模范式避免了价值函数预估和自举法所所造成的误差，尤其擅长处理 Bidding 所面对的长序列稀疏回报的问题。

图 1：图左历史投放轨迹中，颜色深浅代表计划 return 的不同。右图为 AIGB 模型根据不同需求生成的新策略。整个模型看作一个分布处理 pipeline，输入历史非最优但存在有效信息的广告投放轨迹，输出符合优化目标的新策略。

图 1 直观地展示了生成式出价（AIGB）模型的流程。我们将出价、优化目标和约束等具备相关性的指标视为一个有一定规律的数据分布。在训练阶段，我们可以利用生成模型对这一数据分布进行数据挖掘寻优，这使得模型能够自动学习出价策略、状态间转移概率、优化目标和约束项之间的相关性。在线上推断阶段，生成式模型可以基于约束和优化目标，以符合分布规律的方式输出出价策略。

理论上，AIGB 范式可以兼容多种生成模型。目前常用的生成式模型包括 Transformer、Diffusion Model 等。但不同的模型侧重点不同，例如，Transformer 模型主要基于自注意力机制，能够对样本中跨时序和分层信息进行提取和关联，擅长进行自回归处理。而 Diffusion Model 则缓慢地将随机噪声添加到数据中，然后学习逆向扩散过程以从噪声中构造所需的数据样本。加噪和去噪的过程可以类比为是把特征用马赛克遮住然后再还原的过程。相比之下，可以从细节到整体捕捉多个层次的相关性，从而提取出更多的有效信息，更擅长进行分布建模。因此，基于不同的生成模型特点，可以构建出不同的建模方案。

DiffBid：基于扩散模型（Diffusion Model）的 AIGB

在 AIGB 框架下，我们引入了基于扩散模型方案 DiffBid。DiffBid 由规划模块和控制模块组成。对于规划模块，我们首先将一个完整投放周期内广告主剩余预算、消耗速率、ROI、流量价值等出价相关状态信息随着时间不断变化的过程看作一条 Bidding 轨迹，然后利用扩散模型对历史数据集中的海量 Bidding 轨迹序列进行建模（图 2），以最大似然估计的方式拟合轨迹数据中的分布特征。因此，DiffBid 可以基于给定目标规划出对应的出价轨迹。在此基础上，DiffBid 会再利用一个逆动力学控制模型根据环境的变化尽可能逼近规划轨迹。

图 2：左为正向过程，右为反向过程。DiffBid 正向与反向过程示例，对于一条由剩余预算序列轨迹，正向过程不断加入噪声，破坏其有效信息，然后反向过程生成新的轨迹，最大限度将这部分丢失的信息还原。

在近一年多的实践中，我们通过多轮线上实验，反复验证了 DiffBid 的效果。截止目前，DiffBid 已经多个场景的实验中相比于传统的 RL 方法产生了显著的正向效果。其中在某场景 Max-Return 任务中，产生了 GMV+3.6% 的结果。在 Target Roas 任务中，在保证整体 ROI 满足要求的情况下取得了 GMV+5.0% 的结果。特别在 Target Roas 中，由于 ROI 反馈稀疏且滞后，RL 方法训练难度较大，而 DiffBid 受影响较小。因此，DiffBid 既为广告主带来更多收益，又很好保障了广告主的 ROI。

与此同时，我们通过进一步分析，发现 DiffBid 模型在提效的同时，还能够对实际投放轨迹产生一定的平滑性优化（图 3），在 DiffBid 策略生效后，投放轨迹的异常状态显著减少，振荡性显著降低，与此同时减少过快消耗的现象。广告主的投放体验也因此得到改善。

图 3：真实线上剩余预算散点图。横轴为剩余时间，纵轴为剩余预算。越分散代表消耗越振荡，投放平滑性越差。此外在图 a 中，存在大量提前消耗完毕的投放轨迹。这部分轨迹可能会由于错过一部分晚上的高性价比流量导致效果下跌。而 DiffBid 可以明显减少这种问题

除了实际线上效果的优势外，相比于其他方法，DiffBid 还具有其他两方面的优势。首先，相比于通过端到端方法直接输出 Bidding 信息，DiffBid 生成的轨迹信息具有更好的可解释性（图 4）。有助于我们对模型效果进行更好的评估，从而助力优化工作。例如，我们观察模型规划出的轨迹和实际线上的轨迹，如果出现规划出的最终剩余预算不为 0 的情况说明模型并未能有效利用所有预算。如果规划轨迹与实际轨迹差距较大，则说明逆动力学控制模型自适应能力较差。在定位问题之后，可以较为方便地进行针对性优化。其次，DiffBid 对多目标的兼容能力更强，与此同时支持在训练完成后对目标进行调整从而优化规划轨迹。基于这一特点，我们可以更为方便地加入一些将业务逻辑指标作为优化目标，与 Bidding 模型更好地结合起来。例如，在 Max-Return 任务优化的过程中，可以将预算使用率合并进入目标中，同时保证 GMV 和预算使用率得到优化。

图 4：横坐标轴表示时间，纵坐标表示剩余预算和但时间步消耗。灰色曲线 / 柱子为最优轨迹剩余预算曲线 / 消耗。红色表示不同优化目标所对应的规划轨迹曲线。可以看出，随着目标 Return 变大，模型规划会逐步逼近最优轨迹。证明模型学到了合理的业务逻辑和优化措施

目前 DiffBid 在阿里妈妈广告场景中大规模商业化落地，助力双十一，为广告主赋能。此外，基于扩散模型的特点，DiffBid 下可延展性和多目标能力会显著强于传统模型，这种特点将会为未来的 Bidding 优化和产品建设带来帮助。

展望

除了已经展现出来的诸多优势之外，AIGB 框架的开放性也能够兼容诸多不同的方案设计。在阿里妈妈刚刚举办的 NeurIPS 2024：大规模拍卖中的自动出价比赛中，选手们基于不同的基础生成模型，提出了一批不同于 DiffBid 的 AIGB 解决方案，迸发出诸多亮点。其中有的选手充分利用了 Transformer 的优势，通过自回归的方式预测给定优化目标的出价信息。有的选手提出 Transformer 全局规划模型与 bidding 小模型结合的出价方案。也有基于 Diffusion 模型直接进行出价的方案。这些方案均在不同程度上展示出了优势，为未来 AIGB 的进一步迭代提供了启发。但是，我们相信这仅仅是一个开始。未来随着技术的进一步发展，更多的 AIGB 方案涌现出来，从而以完全不同的方式重构自动出价的技术体系。阿里妈妈沉淀了亿级广告投放轨迹数据，是业界为数不多具备超大规模决策类数据资源储备的平台。这些海量数据资源可以成为营销决策大模型训练的有力保证，从而推动 AIGB 技术的发展。

期待后续有机会与大家分享和交流我们的进展与实践。

邀请函 | NeurIPS 2024 Competition Workshop：Auto-Bidding in Large-Scale Auctions

12 月 14 日，阿里妈妈将在 NeurIPS 2024 会议现场组 Workshop：大规模拍卖中的自动出价（Auto-Bidding in Large-Scale Auctions）。我们邀请了来自谷歌、亚马逊、普渡大学和阿里妈妈的学界和工业界嘉宾，以及本届赛事获奖团队代表，围绕决策智能领域的最前沿技术进行分享和交流。同时阿里妈妈也将正式开源世界首个标准化的大规模竞价系统和大规模博弈数据集。期待与大家现场交流～

#刚刚，三名谷歌Vision Transformer作者官宣加入OpenAI

三人是紧密的合作伙伴。

最近，OpenAI 又迎来了新的人事变动，但这次不是某个技术大牛离职，而是从谷歌挖来了一些新鲜血液。

这些「新人」来自谷歌 DeepMind 的苏黎世办事处，包括资深研究科学家 Xiaohua Zhai（翟晓华）、研究科学家 Lucas Beyer 和 Alexander Kolesnikov。在谷歌 DeepMind 工作期间，三人就是密切的合作伙伴，共同参与了 ViT 等重要研究。之后，他们将一起建立 OpenAI 苏黎世办事处。

OpenAI 高管在周二的一份内部备忘录中告诉员工，三人入职后将从事多模态 AI 研究。

在 DeepMind 工作期间，Beyer 似乎一直在密切关注 OpenAI 发布的研究成果以及该公司卷入的公共争议，他经常在 X 上向自己的 7 万多名粉丝发布相关信息。去年，当首席执行官 Sam Altman 被 OpenAI 董事会短暂解雇时，Beyer 发帖称，他目前读到的关于解雇的「最合理」解释是，Altman 同时参与了太多其他初创公司的工作。

在竞相开发最先进的人工智能模型的同时，OpenAI 及其竞争对手也在激烈竞争，从世界各地招聘有限的顶尖研究人员，通常为他们提供接近七位数或更高的年薪。对于最抢手的人才来说，在不同公司之间跳槽并不罕见。

例如，Tim Brooks 曾是 OpenAI 的 Sora 负责人，最近他离职前往 DeepMind 工作。不过，高调挖角的热潮远不止 DeepMind 和 OpenAI。今年 3 月，微软从 Inflection AI 公司挖走了其人工智能负责人 Mustafa Suleyman 以及该公司的大部分员工。而谷歌斥资 27 亿美元将 Character.AI 创始人 Noam Shazeer 拉回麾下。

在过去几个月里，OpenAI 的一些关键人物相继离职，有的加入了 DeepMind 和 Anthropic 等直接竞争对手，有的创办了自己的企业。OpenAI 联合创始人、前首席科学家 Ilya Sutskever 离职后，创办了一家专注于人工智能安全和生存风险的初创公司 Safe Superintelligence。OpenAI 前首席技术官 Mira Murati 于 9 月份宣布离职，据说她正在为一家新的人工智能企业筹集资金。

今年 10 月，OpenAI 表示正在努力向全球扩张。除了新的苏黎世办事处，该公司还计划在纽约市、西雅图、布鲁塞尔、巴黎和新加坡开设新的分支机构。除旧金山总部外，该公司已在伦敦、东京和其他城市设立了分支机构。

LinkedIn 上的资料显示，Zhai、Beyer 和 Kolesnikov 都住在苏黎世，苏黎世已成为欧洲一个相对突出的科技中心。苏黎世是 ETH （苏黎世联邦理工学院）的所在地，ETH 是一所公立研究型大学，拥有全球知名的计算机科学系。据《金融时报》今年早些时候报道，苹果公司还从谷歌挖走了一些人工智能专家，在「苏黎世的一个秘密欧洲实验室」工作。

也有人猜测，OpenAI 之所以在苏黎世设立办事处，是因为三个人都不愿意搬家。

紧密合作的三位科学家

从已发表的研究看，这三位研究者经常从事同一个项目的研究，并且他们也做出了一些非常重要的研究成果，其中一些被 AI 顶会作为 Spotlight 和 Oral 论文接收。

Xiaohua Zhai（翟晓华）

个人主页：https://sites.google.com/view/xzhai

Google DeepMind（苏黎世）的资深研究科学家和管理者。他领导着苏黎世的一个多模态研究团队，其研究重心是多模态数据、开放权重模型和包容性。

根据其领英简历，他于 2014 年在北京大学取得了计算机科学博士学位。之后曾在谷歌从事了三年软件工程师的工作。2017 年 12 月，他加入 DeepMind 担任研究科学家，并一直在此工作了 7 年。

目前，翟晓华在 Google Scholar 上的被引量已经达到了 6 万多，其中大部分被引量来自他们三人共同参与的 ViT 论文《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》。

Lucas Beyer

Lucas Beyer 是 DeepMind 研究科学家。

个人博客：https://lucasb.eyer.be/

他在 2018 年于德国亚琛工业大学完成了自己的高等学业，期间曾在谷歌以实习生身份从事过研究工作，也在 Kindred.ai 担任过 AI 工程师，在德国亚琛工业大学担任过研究助理。

毕业后，他正式加入谷歌，先后在谷歌大脑与 DeepMind 从事研究工作。

他在博客中写到：「我是一名自学成才的黑客和科学家，致力于创造非凡事物。目前在瑞士苏黎世生活、工作、恋爱和玩耍。」

Alexander Kolesnikov

Alexander Kolesnikov 已经更新了自己的领英页面，他曾经也是 DeepMind 的研究科学家。

个人主页：https://kolesnikov.ch

他于 2012 年硕士毕业于莫斯科国立大学，之后在奥地利科学技术研究所取得了机器学习与计算机视觉博士学位。类似地，2018 年博士毕业后，他也先后在谷歌大脑和 DeepMind 从事研究工作。

出色的研究成果

很显然，这三位研究者是一个非常紧密的研究团队，也因此，他们的很多研究成果都是三人共同智慧的结晶（当然还有其他合作者），我们下面将其放在一起介绍。

首先必须提到的就是这篇论文：

论文标题：An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
论文地址：https://arxiv.org/pdf/2010.11929
项目地址：https://github.com/google-research/vision_transformer

这篇就是大名鼎鼎的 Vision Transformer（ViT）论文，其中提出可以使用 Transformer 来大规模地生成图像，也曾做过报道，参阅《NLP/CV 模型跨界进行到底，视觉 Transformer 要赶超 CNN?》。目前，这篇论文的引用量已经接近 5 万，这三位研究者均是共同技术一作。

此后，他们还研究了 ViT 的 Scaling Law。

论文标题：Scaling Vision Transformers
论文地址：https://arxiv.org/pdf/2106.04560

通过扩大和缩小 ViT 模型和数据的规模，他们研究了错误率、数据和计算之间的关系。在此过程中，他们还对 ViT 的架构和训练进行了改进，减少了内存消耗并提高了生成模型的准确性。

另外，他们也为 ViT 开发了一些改进版本，对其性能或效率等不同方面进行了优化，比如能适应不同图块大小的 FlexiViT，参阅论文《FlexiViT: One Model for All Patch Sizes》。

他们也探索了另一些架构创新，比如他们在论文《MLP-Mixer: An all-MLP Architecture for Vision》中提出了一种用于视觉任务的纯 MLP 架构 MLP-Mixer；在论文《Big Transfer (BiT): General Visual Representation Learning》中，他们重新审视了在大型监督数据集上进行预训练并在目标任务上微调模型的范式，并通过扩大了预训练的规模提出了所谓的 Big Transfer 方案。

他们也开发了一些在当时都达到了 SOTA 的开发模型，比如 PaliGemma，这是一个基于 SigLIP-So400m 视觉编码器和 Gemma-2B 语言模型的开放式视觉语言模型 (VLM)，其在同等规模下的表现非常出色。而在论文《Sigmoid Loss for Language Image Pre-Training》中，他们仅使用 4 块 TPUv4 芯片，在 2 天时间内就训练出了一个在 ImageNet 上实现了 84.5% 的零样本准确度的模型。

他们在计算机视觉方面的很多研究成果都统一在了 Google 的 Big Vision 项目中，参阅 https://github.com/google-research/big_vision

他们近期的研究重心是统一、简化和扩展多模态深度学习，比如：

UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes，该论文提出了一种建模多样化计算机视觉任务的统一方法。该方法通过组合使用一个基础模型和一个语言模型实现了互相增益，从而在全景分割、深度预测和图像着色上取得了不错的效果。
Tuning computer vision models with task rewards，这项研究展示了强化学习在多种计算机视觉任务上的有效性，为多模态模型的对齐研究做出了贡献。
JetFormer: An Autoregressive Generative Model of Raw Images and Text，这是上个月底才刚刚发布的新研究成果，其中提出了一种创新的端到端多模态生成模型，通过结合归一化流和自回归 Transformer，以及新的噪声课程学习方法，实现了无需预训练组件的高质量图像和文本联合生成，并取得了可与现有方法竞争的性能。

当然，这三位研究者多年的研究成果远不只这些，更多成果请访问他们各自的主页。

看来，OpenAI 这次是真挖到宝了，难怪有人说谷歌失去这三位人才会是一个战略失误。

参考链接：

https://www.wired.com/story/openai-hires-deepmind-zurich/

https://x.com/XiaohuaZhai/status/1864175652624097366

#Generative Adversarial Nets

GAN作者追忆往事：论文是DDL前一周开始写的，最初在NeurIPS大会无人问津

上个月底，NeurIPS 官方公布了 2024 年度时间检验奖，而且破天荒地同时颁给了两篇论文。

一篇是 Ilya Sutskever 的 Seq2Seq，另一篇是一篇是 Ian Goodfellow 的生成对抗网络（GAN）。

论文地址：https://arxiv.org/pdf/1406.2661
作者：Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio
机构：蒙特利尔大学

弹指一挥间，距离 GAN 被提出竟然已经过了十年了。

截至 NeurIPS 揭晓奖项时，「GAN」的论文已被引用超过 85000 次，这篇生成模型领域的奠基之作，在过去 10 年间推动了众多研究进展。除了在学术界的影响，它还使生成模型在视觉数据及其他领域的应用中产生了深远影响。

《Generative Adversarial Nets》，作者阵容非常豪华，AI 圈知名大佬 Ian J. Goodfellow 、 Yoshua Bengio 等都在内。

今天，GAN 作者之一 Sherjil Ozair 在 X 平台发布长文，追忆了十年前的往事。

很高兴听到 GAN 在 NeurIPS 2024 上获得时间检验奖。NeurIPS 时间检验奖授予那些经受住了十年时间考验的论文。我花了一些时间来回忆 GAN 是如何诞生的，以及人工智能在过去十年中是如何发展的。

2012 年初，当我还是印度理工学院德里分校的一名本科生时，我在 Coursera 上发现了一门深度学习课程，由 Geoffrey Hinton 讲授。深度学习（在当时）是机器学习的一个边缘和小众子领域，它有望更加「端到端」并且更加受人脑启发。

课程非常棒。不仅很好地解释了深度学习的原理，还充满了 Hinton 古怪的英式幽默和标新立异的思维。例如，他建议我们把高维空间可视化。

出于对了解更多信息的好奇和兴奋，我开始仔细阅读我能找到的所有内容，当时这些都是由少数伟大研究人员发表的学术论文，例如 Yoshua Bengio，其中许多内容由他的实验室网站 http://deeplearning.net 维护。

2012 年，Yoshua 经常在 Quora 上回答有关深度学习的问题。我衷心感谢他帮助像我这样的年轻本科生理解深度学习。

我申请在他的实验室实习，并且非常惊喜地收到了回复和邀请！

这是一次「与命运的幽会」，当时我对这次即将展开的交流旅程的意义和影响只有一丝丝了解。

我非常感谢并感谢 Yoshua Bengio 为世界和我所做的一切。

我参加面试并拿到了 offer。2014 年夏天，我原本打算在 Yoshua 的实验室 (LISA) 实习。

2014 年 5 月，我飞往蒙特利尔，并前往实验室。Yoshua 一看到我，立刻就把我拉进了一个房间。房间里还有 Ian Goodfellow 和 Aaron Courville。Yoshua 继续解释他一直在思考的一个新想法。

他设想了一个确定性生成器网络 g，该网络仅在输入 z 中具有随机噪声。该网络的输出 x = g (z) 是某个分布 p (x) 的样本，可以是任何东西：图像、音频、文本。他强调这就是我们需要训练的。

但怎么做呢？在这种「隐式」网络中，概率 p (x) 在任何地方都不是显式的。他说，我们应该对生成器的输出（生成的分布）和某个样本数据集（也可以是图像、音频等）进行「双样本分布匹配」。

但如何进行分布匹配仍不清楚。作为一名年轻幼稚的本科生，我提出了矩匹配（moment matching），但我们知道矩匹配很可能无法扩展到高维数据。小组里还讨论了其他想法，但都不太乐观。

但是，Yoshua 对于训练一个确定性噪声消耗采样生成器神经网络的愿景和热情是明确的，也是鼓舞人心的。小组决定进一步思考这个问题。

就在 Les Trois Brasseurs 实验室的一次晚宴上，Ian Goodfellow 被一个在当时看来近乎无稽之谈的想法打动了：「如果你能让另一个神经网络充当判别器呢？」在这一刻，新的前沿被开拓出来了。

当时，神经网络的训练非常「普通」：你建立一个主神经网络，输入数据，得到预测结果，应用数学损失函数，然后使用梯度下降法优化这个网络。

Ian 的想法是将损失函数设想为一个学习型神经网络。另一个判别器神经网络提供损失和梯度来训练生成器神经网络，而不是优化一个固定的方法损失。怀疑是很自然的：怎么不会全部崩溃为退化输出？鸡生蛋蛋生鸡的困境比比皆是。判别器从何而来？

但 Ian 对此也有自己的想法。判别器和生成器要进行零和博弈，生成器要努力做到与数据无差别，而判别器要努力弄清显示的是生成样本还是真实样本。或许，这可行？

第二天，实验室的每个人都收到了这封邮件：

在一个晚上的编码和运行实验中，Ian 使第一个生成式对抗网开始工作。这些是 MNIST 上的第一批样本。

我当时正在研究类似的东西，用非神经判别器进行训练，但效果远远不够。我决定帮助 Ian 开发 GAN。当时，NeurIPS 2014 的提交截止日期只剩一周了。我们决定，如果我们能抓紧时间，我们就能提交一篇论文。

在接下来的几天里，我们设立了评估标准来与现有的生成模型进行比较，尝试了不同的架构、噪声函数和博弈公式。Jean、Yoshua 和我发现了生成对抗网络（GAN）的博弈是收敛的，并且在均衡状态下最小化了 JS 散度（Jensen-Shannon Divergence）。

我们克服了重重困难，向 NeurIPS 提交了一篇论文，其中包含了我们上一周完成的所有工作。GAN 作为 posted presentation 被接受。

我记得，在我们兴奋不已的同时，也知道 GAN 的训练动态是出了名的不稳定。大多数合著者开始研究其他模型架构，试图解决我们在 GAN 上发现的问题。GAN 论文在 12 月份进行了展示，但大部分时间都是被忽视的。

几个月后的 2015 年 8 月，Alec Radford 开始发布他一直在玩的卷积 GAN 的样本。没错，这就是几乎是 OpenAI 所有突破的幕后功臣 Alec Radford。2015 年，他正在捣鼓卷积网络、BatchNorm 和 GAN。

我无法客观地描述 DCGAN 之后人们对 GAN 兴趣的激增。但我想强调的是，GAN 的发展如何被恰当地用作人工智能整体进步的象征。

以前，大家会用下面这张图表达图像生成领域的突破性演变，但现在已经过时了，因为现在的图像生成模型已经能够生成百万像素的图片，甚至电影。

至于我的个人经历，GAN 作为我的第一篇学术论文既是福音也是诅咒。一位 DeepMind 研究员曾开玩笑说，我可能已经完成了我最伟大的工作，所以我还不如退休。

人们常常误以为当前的技术突破是最终的创新，我们总是倾向于认为「就是这样，这是最后的发明」。但事实并非如此。

CNN 感觉像是最后的发明，但事实并非如此。

GAN 感觉像是最后的发明，也非如此。

LSTM 同样也是。

还有 ResNets、DQN、AlphaGo、AlphaZero、MuZero 等等，这些都不是最后的发明。

事后看来，「这是最后的发明」总是有点滑稽。想想现在，Transformer 和大型语言模型现在被认为是最后一项发明，但并不是。

我最近离开了前沿人工智能实验室，创办了一家公司，打造一些非常棒的东西。我将很快分享更多关于这方面的信息。敬请期待。

对于获得 NeurIPS 时间检验奖的那篇论文《Generative Adversarial Nets》，我非常感谢 Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Aaron Courville, Yoshua Bengio。

参考链接：https://x.com/sherjilozair/status/1864013618721001710

#SRA-MCTS

推动大模型自我进化，北理工推出「流星雨计划」

本文将介绍来自北京理工大学计算机科学与技术学院的流星雨研究计划。该计划旨在深入研究大模型自我进化的理论与方法，推动大模型的发展。

在人类个体能力提升过程中，当其具备了基本的技能之后，会自主地与环境和自身频繁交互，并从中获取经验予以改进。大模型自我进化研究之所以重要，正是源于该思想，并且更倾向于探究大模型自身能力的深度挖掘和扩展。基于这一趋势，北京理工大学 DIRECT LAB 正式启动了「大模型自我进化」的流星雨研究计划。这篇文章以代码大模型和垂域大模型进化为例，逐步介绍流星雨计划。

SRA-MCTS：推动代码大模型自我进化

论文标题：SRA-MCTS: Self-driven Reasoning Augmentation with Monte Carlo Tree Search for Code Generation
论文地址：https://arxiv.org/pdf/2411.11053
代码开源：https://github.com/DIRECT-BIT/SRA-MCTS
8B 模型的数据开源：https://huggingface.co/datasets/BinXD/SRA-MCTS-Llama-3.1-8B

代码大模型应用范围广、影响大，如何提升其表现，一直备受业内外关注。在一项最新的研究中，来自北京理工大学的研究者提出了一种全新的思路 ——SRA-MCTS，旨在通过自我进化的方式，解决代码模型在处理复杂问题时缺少中间推理过程。

核心观点：自我进化的力量

跟随上述自我进化的思想，在 SRA-MCTS（Self-guided MCTS-based data generation for Reasoning Augmentation）方法中，作者无需借助额外的任何监督信号、完全通过模型自身来进行推理路径生成，并进一步迭代大模型的能力。通过这个过程，模型能够自主地生成高质量的推理路径，并将这些路径转化为可执行代码，进而提升在复杂任务上的成功率。

整个过程不仅增强了模型的推理能力，还通过自我反馈和反思提升了解决复杂任务的成功率。实验表明，即使在小规模模型中，SRA-MCTS 也能显著提升任务处理能力，特别是在多样性和解决复杂问题的能力上。

突出贡献与显著成就：

无需外部监督：与传统方法不同，SRA-MCTS 完全依赖模型自身的推理能力进行数据生成和训练，避免了对人工标注数据或额外监督信号的依赖。
自我进化与持续提升：通过反复生成推理路径并进行自我训练，模型形成了一个正向反馈循环，实现了性能的持续提升，尤其在较小模型中也展现出强大的潜力。
提升复杂任务解决能力：文中的方法在多种规模的模型上均展现出了显著的性能提升，特别是在解决需要分析的任务时，SRA-MCTS 显著提高了成功率。
验证了小模型自我合成的潜力：实验分别在小模型（2B, 8B, 14B）上自我数据合成并进行训练，对比了 70B 模型的数据蒸馏结果。结果表明，小模型自我合成的数据训练结果可以超越大模型数据蒸馏的能力。

工作思想与实现方式

该方法核心在于将推理过程和数据生成紧密结合，通过 SRA-MCTS 引导模型自主生成推理路径。这不仅稳定了分析的准确性下限，还为模型提供了一个无需外部监督的自我改进机制。实验结果表明，即使在传统的思维链（CoT）方法表现退化时，SRA-MCTS 依然能够稳定并有效地提升模型的性能，尤其在「pass@10」等多样性指标上表现出色。

1. 数据合成 - SRA-MCTS：

选择阶段：使用 UCB1 公式，从推理树中选择最优节点，作为推理的起点。
扩展阶段：基于选择的节点，生成新的推理步骤，形成新的推理计划。
评估与反思阶段：评估每个生成的推理步骤的质量，并通过反思机制修正推理过程，确保其正确性与连贯性。
反向传播阶段：通过反馈机制调整生成过程，强化推理路径的质量。

下面的示例展示了中间推理步骤，以及基于推理所生成的代码过程：

问题：请帮我写一段拓扑排序的代码。

思考过程：拓扑排序是针对有向无环图（DAG）的一种排序算法，它将图中的节点按照某种顺序排列，使得对于每一条有向边 (u, v)，节点 u 在节点 v 之前出现。常见的拓扑排序算法有两种：Kahn 算法和深度优先搜索（DFS）算法。这里作者选择使用 Kahn 算法来实现，因为它更直观且容易理解。

Kahn 算法的基本思想是：

找出所有入度为 0 的节点，将它们加入队列。从队列中取出一个节点，将其加入拓扑排序结果中。对于该节点的所有邻接节点，减少其入度。如果某个邻接节点的入度变为 0，则将其加入队列。重复步骤 2 和 3，直到队列为空。如果最终拓扑排序的结果中包含所有节点，则说明图是 DAG；否则，图中存在环。

・找出所有入度为 0 的节点，将它们加入队列。

・从队列中取出一个节点，将其加入拓扑排序结果中。

・对于该节点的所有邻接节点，减少其入度。如果某个邻接节点的入度变为 0，则将其加入队列。

・重复步骤 2 和 3，直到队列为空。

・如果最终拓扑排序的结果中包含所有节点，则说明图是 DAG；否则，图中存在环。

from collections import deque, defaultdict


def topological_sort(graph):
    # Step 1: 计算每个节点的入度
    in_degree = {node: 0 for node in graph}
    for node in graph:
        for neighbor in graph[node]:
            in_degree[neighbor] += 1
    
    # Step 2: 将所有入度为 0 的节点加入队列
    queue = deque([node for node in in_degree if in_degree[node] == 0])
    
    # Step 3: 初始化结果列表
    topo_order = []
    
    # Step 4: 处理队列中的节点
    while queue:
        node = queue.popleft()
        topo_order.append(node)
        
        # 更新邻接节点的入度
        for neighbor in graph[node]:
            in_degree[neighbor] -= 1
            if in_degree[neighbor] == 0:
                queue.append(neighbor)
    
    # Step 5: 检查是否存在环
    if len(topo_order) == len(graph):
        return topo_order
    else:
        raise ValueError("Graph contains a cycle, topological sorting is not possible.")

推理转化为代码：在数据合成的阶段生成的自然语言推理步骤，经过大模型转化为具体的代码，实现从推理到执行的转化。
训练阶段：最终，生成的推理路径和代码会被结合起来，形成一个高质量的训练数据集，用于进一步微调大语言模型。

上面的工作是代码模型的自主推理能力。作者表示，他们期待探究更通用化的自我进化框架和方法，使其在各种场景中都可以被广泛使用。

流星雨计划

论文：https://arxiv.org/abs/2411.11933
Github 链接：https://github.com/DIRECT-BIT/METEOR

该计划提出一个由弱到强的进化框架来引导大模型自我进化的整体流程，方法如下图所示：

该流程提供了一整套从无领域能力进化成领域专家模型的自我进化训练方案，包含三个关键阶段：

第一阶段：导师监督学习，旨在赋予模型基本的领域知识，让模型能够完成领域任务；
第二阶段：自我评估能力习得，通过借助通用大模型的指导，进一步迭代训练学习，赋予模型自我评判的能力；
第三阶段：自我提升训练，通过自我批判完成自我进化。

第一阶段：导师监督学习

知识蒸馏是一种有效的获取领域知识的手段。然而作者发现，强模型与弱模型之间存在认知偏差，导致从强模型中蒸馏下来的领域数据无法高效作用于弱模型。

作者提出了 weak-to-strong 的领域数据蒸馏方法，让强模型根据弱模型的指导蒸馏领域数据。具体的，当有一个领域问题时，他们首先将该问题输入弱模型，但不让其直接生成答案，而是生成一段 guideline。这段 guideline 指示弱模型认为应该遵循哪些步骤来回答领域问题。接下来，他们将生成的 guideline 与领域问题一起输入强模型。强模型根据 guideline 的指导步骤生成领域问题的答案，或在 guideline 的基础上进行修正并生成答案。

第二阶段：自我评估能力习得

经过蒸馏后的领域数据训练的模型能够完成一定的领域任务，但经过分析，该模型还可能产生大量错误信息或幻觉信息，并且无法进行自我纠正。因此，作者提出要在这一阶段通过更强模型的反馈来纠正模型内部的错误知识，进一步提升模型领域性能。

他们参考 StaR [1] 迭代式训练的方法，让模型首先对领域问题进行作答，并由 GPT-4 给予答案反馈。如果模型的答案是错误的，GPT-4 会将修改建议连同前一轮的答案重新返回给模型，让模型重新作答，直至模型产生正确的答案。整个过程的数据会被保存下来迭代式地训练模型，使得模型的领域能力不断提升。

第三阶段：自我提升训练

作者希望模型在最终的领域能力进化过程中能够摆脱对强模型的依赖，实现完全的领域能力自我进化。因此，在模型具有完成自我批判的能力后，他们尝试让模型进行自我进化。

受到在推理过程中增加 FLOPs 可以有效提升模型在下游任务中的性能的启发，他们认为不同的推理策略会产生不同的效果。他们希望模型生成的结果尽可能接近高 FLOPs 推理策略的结果，远离低 FLOPs 策略的结果。他们使用 beam search 作为高 FLOPs 策略，greedy search 作为低 FLOPs 策略，通过对比学习构建模型的自我训练方法，实现模型的自我进化。

性能分析

作者对比了应用 Meteor 进化方法后 LLM 前后各维度的性能变化。在准确性、完整性、相关性、连贯性和可靠性方面，LLaMA3-8B-Instruct 和 Qwen2-7B-Instruct 取得了性能的提升（评估方法：通过 GPT-4 筛选进化前和进化后答案的 win rate）。

未来工作

该工作初步探索和尝试了模型进化的整体框架和每个阶段的对应方法，并有了一些初步的结论。未来，作者将在该想法的基础上，在每个阶段中创新更适用的模型自我进化方法，实现模型在各个阶段都能获得预期的性能提升，并在更多不同的场景中探索 Meteor 的适用性，推广流星雨计划。

作者表示，DIRECT LAB 期待与更多对大模型进化感兴趣的学者和业界同仁携手合作，共同推进这一重要领域的探索与突破。实验室相关研究的代码和数据已公开，欢迎大家访问：https://github.com/DIRECT-BIT

#TFG

从分类到生成：无训练的可控扩散生成

论文一作为斯坦福大学计算机博士叶皓天，指导老师为斯坦福大学 Stefano Ermon 与 James Zou 教授。北京大学博士林昊苇、斯坦福大学博士韩家琦为共同第一作者。

近年来，扩散模型（Diffusion Models）已成为生成模型领域的研究前沿，它们在图像生成、视频生成、分子设计、音频生成等众多领域展现出强大的能力。然而，生成符合特定条件（如标签、属性或能量分布）的样本，通常需要为每个目标训练专门的生成模型，这种方法不仅耗费资源，还严重制约了扩散模型作为未来基座模型实际应用潜力。

为了解决这一难题，斯坦福大学、北京大学、清华大学等机构的研究团队联合提出了一种全新的统一算法框架，名为无训练指导（Training-Free Guidance, 简称 TFG）。这一框架无缝整合现有的无训练指导方法，凭借理论创新和大规模实验验证，成为扩散模型条件生成领域的重要里程碑，目前已经被 NeurIPS 2024 接收为 Spotlight。

论文标题：TFG: Unified Training-Free Guidance for Diffusion Models
论文链接：https://arxiv.org/abs/2409.15761
项目地址：https://github.com/YWolfeee/Training-Free-Guidance

问题背景：扩散模型的条件生成难题

扩散模型以其渐进降噪生成样本的特性，逐渐被广泛应用于从图像到视频到音频、从分子到 3D 结构等多领域。然而，条件生成的需求（如生成特定类别的图像或满足特定能量约束的分子结构）对模型提出了更高要求。

传统条件生成方法依赖 “基于分类器的指导”（classifier-guidance）或 “无分类器指导”（classifier-free）技术。这些方法通常需要为这一类事先确定的目标属性训练一个生成 + 预测模型或是带标签的生成模型。一旦训练完成，该模型就难以被运用到同一领域的其他条件生成任务中，因而难以推广至多目标或新目标场景。与之相比，无训练指导旨在利用现成的目标预测器（如预训练分类器、能量函数、损失函数等）直接为扩散模型生成提供指导，避免了额外的训练步骤。然而，现有无训练方法存在以下显著问题：

缺乏系统性理论支持和设计指导；
即使在简单任务中表现也不稳定，容易失败；
难以高效选择适合的超参数。

TFG 框架的核心创新

1. 统一设计空间（unified design space）

TFG 提出了一个通用的无训练指导设计空间，将现有算法视为其特殊情况。这种统一视角不仅简化了对不同算法的比较，还通过扩展设计空间提升了性能。具体而言，TFG 基于多维超参数设计，涵盖了多种指导方法的变体，为任务适配提供了灵活性。

2. 高效超参数搜索策略（efficient searching strategy）

为了应对多目标、多样化任务场景，TFG 引入了一种高效的超参数搜索策略。在此框架下，用户无需复杂的调参过程，通过自动化策略即可快速确定最优超参数组合，适配多种下游任务。

3. 全面基准测试（comprehensive benchmark）

TFG 框架在 7 种扩散模型上开展了广泛的实验，包括图像、分子、音频等 16 项任务和 40 个具体目标。实验结果显示，TFG 平均性能提升 8.5%，在多个任务中均超越现有最佳方法。

方法概述：TFG 如何实现无训练指导？

实现 TFG 的核心是利用 Tweedie’s formula，通过预训练的扩散模型预测当前噪声样本对应的干净样本分布均值，再用判别器进行打分，将可微的分数进行反向传播，从而指导噪声样本的去噪过程。基于以上思路，TFG 提出了一个统一的算法框架，精细设计了四大关键机制来提升条件生成任务的表现：Mean Guidance、Variance Guidance、Implicit Dynamics 和 Recurrence。以下是各部分的详细介绍：

1. Mean Guidance（均值指导）

Mean Guidance 利用预测样本的均值梯度来引导生成过程，核心思想是对生成样本的目标属性进行直接优化。在每一步去噪过程中，模型会根据当前的预测样本计算目标预测器（如分类器）的梯度。这些梯度被用于调整样本，使其逐渐向高目标密度区域移动。Mean guidance 的优点是简单直接，易于实现。但在目标空间的低概率区域中，梯度可能不稳定，导致生成的样本质量下降。为此，TFG 通过 recurrence（递归）和动态调整梯度强度来改进这一不足。

2. Variance Guidance（方差指导）

Variance Guidance 利用预测样本的方差信息，通过对梯度进行协方差调整，进一步优化生成方向。通过在噪声样本空间计算梯度，而非直接作用于预测样本，引入了更多高阶信息。根据梯度与样本协方差矩阵的相互作用，对样本生成方向进行动态调整。文章中证明了这种方法等价于对梯度进行了协方差加权，增强了生成过程中目标属性之间的协同作用。例如，正相关的目标特性会被相互加强，而负相关的特性会被弱化。

3. Implicit Dynamics（隐式动态）

隐式动态通过为目标预测器引入高斯核平滑，形成了一种渐进式的 “动态噪声引导”。在每一步生成中，对目标函数进行高斯平滑，逐步增加噪声，并通过噪声样本计算梯度。这种操作使得样本更容易跳出低概率区域，收敛至高目标密度区域。即使采用少量的采样样本，也能显著提升生成样本的多样性和精度。

4. Recurrence（递归机制）

递归机制通过重复应用前述指导步骤来逐步强化生成结果。每一步去噪的中间结果被不断 “回滚” 并重新生成，类似于一个动态优化的循环过程。每次递归的目的是修正前一轮生成的误差，同时引入更多的指导信息。在标准的标签指导任务（如 CIFAR10 和 ImageNet）中，递归次数的增加显著提升了样本准确率。例如，在 CIFAR10 数据集上，将递归次数从 1 增加到 4，准确率从 52% 提升到 77%，缩小了与基于训练的指导方法的性能差距。

本文从理论上证明，已有的一些无训练指导算法（例如 UGD，FreeDoM，MPGD，DPS，LGD）都是 TFG 的特例。TFG 构建了一个全面的超参数搜索空间，而已有的算法本质上都是在这个空间的某个子空间进行搜索。所以，TFG 将免训练指导算法设计的问题转化为：如何进行高效有效的超参数搜索？

设计空间的构建

TFG 框架的一个核心创新在于其设计空间（Design Space）的构建与超参数优化策略的提出。研究团队对这一问题进行了系统分析，并提出了一种高效的通用搜索方法，具体由以下几个超参数组成：

1. 时间相关向量：包括 ρ（Variance Guidance 强度）和 μ（Mean Guidance 强度），分别控制梯度的影响力度及其在每个时间步的分布。

2. 时间无关标量：

：递归次数，决定了每个时间步的重复优化程度。
：梯度计算迭代次数，用于控制 Mean Guidance 的渐进式优化。
：用于 Implicit Dynamics 的高斯平滑参数。

这些参数的组合定义了 TFG 的设计空间。研究表明，现有的无训练指导方法（如 DPS、FreeDoM、UGD 等）可以被视为该设计空间的特殊情况，这意味着 TFG 实现了对这些方法的统一与扩展。为了更好地分析和使用设计空间，研究团队提出了分解方法，将时间相关的向量（如 ρ 和 μ）分解为：

在设计空间中定义了三种结构：

1. Increase（递增结构）：如

，权重随时间步逐渐增加。

2. Decrease（递减结构）：如

，权重随时间步逐渐减小。

3. Constant（恒定结构）：权重在每个时间步均相同。

通过实验对比，研究团队发现：ρ 和 μ 的递增结构在多个任务中表现最佳，生成样本的准确率和质量显著提高；这一结果极大地简化了设计空间的优化过程，为不同任务选择合适的超参数提供了明确的指导。

高效超参数搜索策略

为了在广泛的任务中实现高效优化，研究团队设计了一种通用的超参数搜索策略，包括以下核心步骤：

1. 初始值设定：从较小的初始超参数值开始（如 ρ =μ=0.25），模拟无条件生成的效果。

2. 分步搜索：

在每次迭代中，分别对进行倍增（如从 0.25 增加到 0.5），生成多个新配置。
使用小规模的生成样本测试新配置，评估其表现（例如 FID 和准确率）。

3. 选择最佳配置：将表现最优的配置加入候选集，并重复搜索，直至搜索结果稳定或达到预设的迭代次数。

该搜索方法将生成样本数量显著减少，保证在合理的计算成本内完成优化。在计算资源有限的情况下，研究团队建议将递归次数和迭代次数分别限制在 4 次以内，既能保证性能，又能控制计算复杂度。

实验亮点：TFG 的广泛适用性和卓越表现

1. 精细类别生成任务

精细类别指导（Fine-Grained Label Guidance）是一种比传统标签指导更具挑战性的任务，旨在为扩散模型生成出满足更细致条件的样本。在这项研究中，TFG 首次将无训练指导方法成功应用于超越训练分布的细粒度标签生成任务。

研究团队选择了鸟类图像的细粒度标签指导任务（例如基于鸟类的物种特征生成图像）。这类任务的挑战在于：

数据分布超出训练模型的常见分布范围，导致生成的样本极易偏离目标特性。
即使对于成熟的文本 - 图像生成模型（如 DALL-E），该问题也难以解决。

TFG 通过其递归增强（Recurrence）机制显著提升了生成性能。在实验中，TFG 成功生成了具有 2.24% 准确率的目标样本，相比无条件生成（0% 准确率）是一个巨大飞跃。尽管绝对精度仍有提升空间，但这标志着无训练指导方法在细粒度标签生成领域的重要突破。

2. 分子生成任务

TFG 首次应用于分子生成任务的无训练指导，利用无训练指导优化分子属性（如极化率、电偶极矩等）。实验结果显示，TFG 在有效性上显著领先于现有方法，进一步拓展了扩散模型的应用边界。

3. 多目标条件生成

TFG 在多属性指导任务（如生成特定性别和发色组合的人脸）中展示了显著的均衡性和适配性。通过对生成样本进行详细分析，研究团队发现 TFG 有效缓解了由于训练数据分布不平衡导致的生成偏差问题。例如，在 “男性 + 金发” 这一稀有目标组合中，TFG 的生成准确率高达 46.7%，远高于原始数据分布中的 1%。

4. 音频生成任务

在少有探索的音频生成领域，TFG 同样表现出色。实验涵盖了音频修复（去剪裁、补全）等任务，相比其他方法，TFG 的相对性能提升超过 15%。

TFG 的未来展望：重新定义扩散模型的可能性

TFG 不仅为无训练指导提供了统一理论基础和实用工具，也为扩散模型在不同领域的拓展应用提供了新的思路。其核心优势包括：

高效适应性：无需为每个任务额外训练模型，显著降低了条件生成的门槛；
广泛兼容性：框架适用于从图像到音频、从分子到多目标生成的多种任务；
性能优越性：通过理论与实验的结合，显著提升了生成的准确性和质量。

未来，TFG 有望在药物设计、精准医学、复杂音频生成、高级图像编辑等领域进一步发挥作用。研究团队还计划优化框架，进一步缩小与基于训练方法的性能差距。

#Genie 2

谷歌世界模型爆发：单张图生成可玩3D世界，还要和马斯克一起做AI游戏

昨晚，世界模型向前迈出了一大步！

Google DeepMind 震撼宣布了他们的新一代世界模型 Genie 2，其可根据一张图生成可供人类或 AI 智能体游玩的无限 3D 世界。

，时长00:34

消息发布后，好评与震惊如潮水般涌现。有人被这技术进步的速度震撼，称之为视频游戏的未来，甚至还有人看到了一切都被虚拟化的世界模型的更长远未来。

有趣的是，Genie 2 刚一发布，DeepMind CEO 哈萨比斯宣传完之后直接邀请马斯克一起来用世界模型制作 AI 游戏，马斯克居然欣然同意了：

可见 AI 大佬对于自己的技术很有信心，马斯克也很重视。

Genie 2：划时代的世界模型

Genie 2 是一个基础世界模型（foundation world model），有能力生成无限多种可控制动作、可玩的 3D 环境，而这些 3D 环境又可用于训练和评估具身智能体。

DeepMind 表示，Genie 2 只需使用单张提示图像，就能生成可供人类或 AI 智能使用键鼠输入游玩的环境。

我们知道，在 AI 研究领域，游戏扮演着一个重要角色。游戏需要玩家参与、具有不同的难度、游戏进度也易于衡量，因此成为了安全测试和推进 AI 发展的理想环境。

事实上，自 Google DeepMind 成立以来，AI 与游戏结合的研究就一直很重要。也一直在跟进报道他们在游戏相关 AI 研究中的进展，从早期的 Atari 游戏，到吸引全世界眼球的 AlphaGo 和 AlphaStar，再到他们上半年与游戏开发者合作开发的通用智能体 —— 参阅《智能体的ChatGPT时刻！DeepMind通用AI向人类玩家进化，开始理解游戏》。

但 DeepMind 也指出，训练更通用的具身智能体有一个瓶颈：难以获得足够丰富和多样化的训练环境。

Genie 2 似乎就能填补这一空白，其能创造一个用于训练和评估智能体的无限新世界。DeepMind 表示：「我们的研究还为构建交互式体验原型设计的全新创意工作流程铺平了道路。」

与李飞飞的空间智能相比如何？

前些天，我们刚刚报道了著名学者李飞飞的创业公司 World Labs 的首个项目。从描述上看，其与 Genie 2 似乎具有一样的能力，都能基于单张图像生成可交互的 3D 场景，参阅报道《刚刚，李飞飞创业首个项目引围观：单图生成交互 3D 场景，空间智能来了》。

但这两者也存在一些区别。普林斯顿AI创新中心创始人、主任，终身教授王梦迪：「飞飞的 World Labs 和 Google 的 Genie2 看上去都是从一张图片生成可以交互的三维场景，但有本质区别。Genie2 还是 video diffusion（视频扩散），每一帧的生成都是 pixel prediction（像素预测），并通过额外的用户输入的 guidance（引导）来影响下一帧的概率分布。而飞飞的 World Labs 是更进一步挖掘世界的物理本质：从图片出发，估计图片中不同景物的深度和相对关系，生成了更加物理世界的 3D 环境建模，不仅仅是可互动视频。」

World Labs 的单图生成 3D 场景的效果演示

从这个描述看，李飞飞的研究项目似乎更接近真正的世界模型一些。不管怎样，这些新技术的碰撞都是进步的过程，王梦迪教授也表达了这样的期待：「期待看到更多不同技术思路的进展和对决。新范式快来吧。」

Genie 2 基础世界模型的涌现能力

到目前为止，世界模型在很大程度上局限在建模范围狭窄的领域。

在上一代 Genie 1 中，DeepMind 提出了一种生成多种 2D 世界的方法。Genie 2 则是通用性方面的一次飞跃！其可生成丰富多样的 3D 世界。

Genie 2 是一个世界模型，这就意味着它可以模拟虚拟世界，包括采取任何动作（例如跳跃、游泳等）的后果。它是在大型视频数据集上训练得到的，因此，Genie 2 与其他生成模型一样具有各种大规模涌现能力，例如物体交互、复杂角色动画、物理以及建模和预测其他智能体行为的能力。

下面展示了一些人们与 Genie 2 交互的例子。对于每个示例，模型都会使用 Imagen 3（DeepMind 最先进的文生图模型）生成的单张图像作为提示。这意味着任何人都可以用文字描述他们想要的世界，选择他们最喜欢的渲染方法，然后进入这个新创建的世界并与之互动（或在其中训练或评估 AI 智能体）。

在每个步骤中，都由一个人或智能体提供键盘和鼠标操作，Genie 2 模拟下一个观察结果。Genie 2 可以生成长达一分钟的一致世界，大多数示例持续 10-20 秒。

动作控制

Genie 2 能智能地响应键盘按键对应的动作，识别角色并正确地移动它。例如，模型必须要明白，箭头键应该移动机器人而不是树木或云。

生成反事实视频帧

Genie 2 可以从同一起始帧生成不同的轨迹，这意味着可以为训练智能体来模拟反事实体验。如下两行动图所示，每个视频都从同一帧开始，但人类玩家采取了不同的行动。

长跨度记忆

Genie 2 能够记住视野中消失的部分世界，然后在它们再次可见时准确地呈现它们。

使用新的生成内容来生成长视频

Genie 2 可以即时地生成新的合理可信内容，并在长达一分钟的时间内保持一致性的世界。

多样性环境

Genie 2 可以创建不同的视角，例如第一人称视角、等距视角或者第三人称驾驶视角。

3D 结构

Genie 2 学会了创建复杂的 3D 视觉场景。

物体可供性和交互

Genie 2 能够模拟各种物体之间的交互，例如爆破气球、打开门和用枪射击炸药桶。

角色动画

Genie 2 学会了为执行不同活动的各种角色制作动画。

NPC

Genie 2 能够模拟其他智能体，甚至与它们进行复杂的交互。

物理效果

Genie 2 能够建模水面效果。

烟雾效果

Genie 2 能够建模各种烟雾效果。

重力效果

Genie 2 能够建模各种重力效果。

照明效果

Genie 2 能够建模点式和定向照明效果。

反射效果

Genie 2 能够建模反射、绽放和彩色灯光效果。

以现实世界的图像为提示

Genie 2 还可以将现实世界的图像作为提示，比如它可以模拟风中飘动的草或流动的河水。

Genie 2 支持快速原型设计

Genie 2 可以轻松快速地为各种交互式体验制作原型，使研究人员能够快速试验新环境，从而训练和测试具身 AI 智能体。

下图用 Imagen 3 生成的不同图像作为 Genie 2 的提示图像，以模拟纸飞机、龙、鹰或降落伞飞行之间的差异，并测试 Genie 对不同化身的动画效果。

得益于 Genie 2 的分布式泛化能力，概念艺术和绘画可以转化为完全交互式的环境。这使得艺术家和设计师们能够快速制作原型，从而启动环境设计的创作，进一步加速研究。下图展示了概念艺术家制作的「研究环境概念」示例。

在世界模型中行动的 AI 智能体

通过使用 Genie 2 快速为 AI 智能体创建丰富多样的环境，研究人员还可以生成智能体在训练期间未见过的评估任务。

下图展示了与游戏开发者合作开发的 SIMA 智能体示例，该智能体通过单个图像提示来遵循 Genie 2 合成的未见过环境的指令。

提示词：第三人称开放世界探索游戏的截图。玩家扮演一名正在探索森林的冒险者。左边有一栋房子，门是红色的，右边有一栋房子，门是蓝色的。摄像机位于玩家正后方。照片级真实、沉浸式。

SIMA 智能体通过遵循自然语言指令来完成一系列 3D 游戏世界中的任务。下图中使用 Genie 2 生成一个有两扇门（蓝门和红门）的 3D 环境，并向 SIMA 智能体提供打开每扇门的指令。在该示例中，SIMA 通过键盘和鼠标输入控制化身，而 Genie 2 生成游戏帧。

另外还可以使用 SIMA 来帮助评估 Genie 2 的功能。下图中指示 SIMA 环顾四周并探索房屋后面，来测试 Genie 2 生成一致环境的能力。

虽然这项研究仍处于早期阶段，智能体和环境生成能力还有很大的改进空间，但谷歌相信 Genie 2 是解决安全训练具身智能体结构性问题的一大途径，同时也能提供迈向 AGI 所需的广度和通用性。

下图为 Imagen 3 生成的电脑游戏图像，提示词为「一张电脑游戏图片，展示了一个粗糙的石洞或矿井内部场景。观看者的位置是第三人称视角，位于玩家头像上方，向下看向头像。玩家头像是一个手持宝剑的骑士。骑士头像前面有 3 个石拱门，骑士可以选择穿过其中任何一扇门。穿过第一扇门和内部，我们可以看到隧道两旁长满了奇异的绿色植物和发光的花朵。在第二个门的内部和外部，有一条走廊，走廊上铆接着钉在洞穴墙壁上的带刺铁板，通向远处不祥的光芒。穿过第三扇门，我们可以看到一组粗糙的石阶，通往一个神秘的目的地。」

下面为根据上图生成的游戏帧。

背后的技术：扩散世界模型

作为一个自回归潜在扩散模型，Genie 2 在大型视频数据集上进行训练。在通过一个自动编码器后，视频中的潜在帧被传递到大型 transformer 动态模型中，该模型使用与大型语言模型类似的因果掩码进行训练。

在推理时，Genie 2 能够以自回归方式进行采样，逐帧采取单个动作和过去的潜在帧。谷歌使用无分类器指导（classifier-free guidance）来提高动作可控性。

本文的示例由未蒸馏的基础模型生成，以展示其多种可能性。当然也可以实时运行蒸馏版本，但输出质量会降低。

负责任地开发技术

谷歌表示，Genie 2 展示了基础世界模型在创建多样化 3D 环境和加速智能体研究方面的潜力。不过，鉴于该研究方向尚处于早期阶段，未来将继续提高 Genie 在通用性和一致性方面的世界生成能力。

与 SIMA 一样，谷歌的研究正在朝着更通用 AI 系统和智能体的方向发展，它们可以理解并安全地执行各种任务，从而对线上和现实世界中的人们提供帮助。

顺带一提，DeepMind 同时还发布了 AI 天气预测模型 GenCast，当然，它的天气预测表现也达到了当前最佳水平。

参考内容：

https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

https://news.ycombinator.com/item?id=42317903

#Greg Brockman又做了一件伟大的事情

OpenAI 总裁 Greg Brockman 在其社交媒体平台 X 上分享了自己的假期生活。他说在休假期间，与 Arc Institute 团队合作，一起训练基于 DNA 的模型，他非常享受这个过程。他坚信，深度学习技术能够为医学和医疗保健领域带来革命性的变革。同时，Brockman 强调，这项工作不仅至关重要，而且是构建虚拟细胞模型的关键一步，预示着未来在这一领域的重大突破。

我把 Greg Brockman 的这个帖子翻译了一下。

在我的休假期间，我非常享受与 Arc Institute 团队一起训练 DNA 基础模型。

我一直认为，深度学习应该在医学和医疗保健领域带来前所未有的进步 —— 不仅仅是为了人类，也为动物。我认为这项工作朝着这个方向迈出了重要的一步，是建立虚拟细胞模型的基础性步骤之一。

现代医学的进步在很大程度上来源于我们对生物学的理解。我预测，在未来几年里，我们会发现，与神经网络相比，人类在理解生物学方面其实还差的很远。

神经网络似乎特别适合用于生物学，因为：

DNA 是生物学语言。对人类来说，我们对自己的语言很熟悉，而 DNA 则显得陌生。对于神经网络来说，人类语言和 DNA 都是陌生的。如果神经网络能够像人类使用语言一样流利地使用 DNA，那将是一件非常了不起的事情……
随着更多生物学知识的发现，生物学家们不得不变得更加专业化以应对这一变化。通过研究细胞中某一特定机制，就可能获得博士学位。相比之下，神经网络没有广度上的局限 —— 它们能够轻松吸收所有人类知识。（当然，理解的深度和推理能力仍然有很大的提升空间。）
对于人类来说，大量的数据让生物学显得无比庞杂。而对于神经网络来说，大量的数据通常会带来更好的结果。

从个人角度来看，能够将我现有的神经网络训练和扩展技能应用于一个全新的领域，真的非常有趣。

我觉得自己很幸运，能够暂时加入一个已经取得巨大进展的优秀团队。这也让我再次感受到这项技术的多功能性 —— 从某些角度来看，完全无法理解为什么同一个通用算法和工程方法能够在 DNA 领域取得和语言、代码、图像、视频等领域一样的成果。

总体来说，这让我觉得 AI 领域在过去的 80 年里，实际上是在创造一个 “数据抽象器”，它可以指向任何类型的数据，并推导出有用的结构感知，从而帮助我们改善生活。

我们取得了令人兴奋的进展，Arc Institute 团队在未来几个月应该会有更多的分享！我与他们合作的过程非常愉快，并且我认为，结合计算技术与他们的湿实验室能力，肯定会有许多令人兴奋的发现等待着我们。

Arc Institute 团队对 Greg Brockman 表示了感谢。

评论区，有人表示 Greg Brockman 在度假期间做的事情，比别人一生都多。

有人调侃到，这是最有收获的一次度假。

有人迫不及待的想看到成果。

今年 8 月 6 日 Greg Brockman 通过 X 宣布将开始休假，一直会休息到年底。

当时正值 OpenAI 人事发生剧变之时。

11 月 13 日，Greg Brockman 就结束了假期，宣布回归 OpenAI。

Brockman 在休假时说这是他 9 年来第一次放松，原本以为他会一直休息，没想到他是休假不休息。

Arc Institute 是一家专注于生命科学和生物医学研究的公司，旨在推动科学研究的创新和提高全球健康水平。该公司致力于通过前沿的技术和方法，特别是在基因组学、细胞生物学、数据分析等领域，推动科学发现并加速医疗解决方案的开发。

#OpenAI 12连更第一弹

o1完全体，200刀一个月的ChatGPT Pro

一天前，OpenAI 官方 X 账户的一条推文将 AI 社区的期待值拉满了。这家世界头部 AI 公司宣布将在未来的 12 天进行 12 场直播，发布一些「大大小小的新东西」。

这是 OpenAI 准备的圣诞礼物。

至于这些「大大小小的新东西」究竟是什么，各路网友都纷纷给出了自己的预测，大致总结一下主题包括 Sora、完全体 o1、更长的记忆能力、实时视觉能力、Canvas 集成、高级语音模式、Computer Use、智能体甚至 AI 硬件设备等。但究竟如何，还得等着 OpenAI 自己来揭示。

现在，OpenAI 的第一场直播来了！

总结来说，两件事：期待已久的 o1 完全体（Full Version）、200 刀一个月的 ChatGPT Pro。

OpenAI 著名研究科学家 Noam Brown 发帖表示，o1 完全体不仅能数出「strawberry」里有几个「r」（此前的模型经常在这一问题上栽跟头），还能更进一步，写出「一篇不使用字母『e』的关于草莓的三段短文」（GPT-4o 也尝试了这个任务，但第一个词就失败了）。

整场直播时间很短，大概 15 分钟，参与者包括 CEO Sam Altman、研究科学家 Hyung Won Chung 和 Max 以及思维链提出者 Jason Wei。

视频：https://www.youtube.com/watch?v=iBfQTnA2n2s

o1 完全体

在今年 9 月份，OpenAI 发布 o1-preview 版本时，就曾对 o1 的技术思路进行了介绍：o1 是使用大规模强化学习训练并使用思维链进行推理的系列模型。

今天正式发布了 o1 完全体，也放出了新的 o1 System Card：https://cdn.openai.com/o1-system-card-20241205.pdf

整体而言，o1 完全体是一款更擅长编程、数学和写作的更快且更强大的推理模型，并且现在也增加了对图像上传的支持，这让 o1 可以使用视觉数据来生成更详细和更有用的响应。

OpenAI 表示，OpenAI o1 的思维更加简洁，因此响应时间比 o1-preview 更快。测试表明，o1 的性能也优于 o1-preview，将困难的现实问题的重大错误减少了 34%。

除了完全体 o1，还有个更轻便的 o1-mini 版本，在编码方面特别高效。

如果你愿意花更多钱，升级到 ChatGPT Pro，还可以体验到 o1 pro 模式。这是 o1 的一个更高级版本，使用更多的计算进行更深入地思考，解答更难的问题。

与 o1 和 o1-preview 相比，o1 pro 模式在数学、科学和编码等 ML 基准测试中表现更佳。OpenAI 发言人表示：「在外部专家测试人员的评估中，o1 pro 产生了更可靠、更准确、更全面的回应，尤其是在数据科学、编程和判例法分析等领域。与 o1 和 o1-preview 相比，o1 pro 模式在数学、科学和编码方面具有挑战性的机器学习基准测试中表现更好。特别是，我们发现在更容易反映日常编程查询的编码竞赛题中，错误率降低了 75%。」

为了突出 o1 pro 模式的主要优势（提高可靠性），OpenAI 使用更严格的评估设置：只有当模型在四次尝试中有四次能够正确回答问题（4/4 可靠性），而不是一次，才被认为解决了问题。

正在尝鲜的用户们也在陆陆续续发掘出有关 o1 的更多技术细节，比如所支持的最大 token 数量为 196608。

具体效果如何？

直播中，OpenAI 进行了演示。

首先，OpenAI 通过一个基于人工鸟巢图像生成安装手册的示例演示了 o1 基于视觉数据进行推理的能力：

识别手绘图像也问题不大。对于一张手绘的太空太阳能驱动的数据中心示意图，o1 轻松估计出了其散热器表面积并解答了两个问题：如何处理太阳和深空环境，以及这里如何体现了热力学第一定律？并且整个推理过程仅需 10 秒钟。

推理速度方面，在解答「列出二世纪的罗马皇帝的在位时间和成就」的任务中，o1 完全体的推理时间大概为 14 秒，而 o1-preview 大概需要 33 秒。并且 Altman 表示实际部署之后的速度还会更快。

那么，o1 处理更复杂问题的表现如何呢，比如能否基于多条描述推断出所描述的蛋白质种类？（注意这个问题之前的 o1-preview 无法正确解答。）

最终，在 pro mode 下，o1 完全体在思考了 53 秒之后得到了正确答案，并且还可以在 canvas 中了解更多细节。

相当昂贵的 ChatGPT Pro

OpenAI 宣布为其人工智能聊天机器人平台 ChatGPT 推出新的订阅套餐 ——ChatGPT Pro，可以无限制地访问 OpenAI 的所有模型，包括其 o1「推理」模型的完整版本，但价格非常昂贵 —— 每月 200 美元。

OpenAI 技术人员 Jason Wei 表示：「我们认为 ChatGPT Pro 的受众将是 ChatGPT 的高级用户，他们已经在数学、编程和写作等任务上将模型的能力推向极限。」

与大多数 AI 不同，o1 和其他推理模型可以有效地进行自我事实检查。这有助于它们避免一些通常会使模型出错的陷阱，但缺点是通常需要更长的时间才能找到解决方案。o1 通过任务进行推理、提前规划并执行一系列行动来帮助模型梳理出答案。

OpenAI 在 9 月份发布了 o1-preview，现在新版本 o1 的功能更加强大。

访问 o1 不需要订阅 ChatGPT Pro 套餐。所有 ChatGPT 付费用户都可以通过 ChatGPT 模型选择器工具访问 o1。OpenAI 表示，计划在未来几个月内增加对网页浏览、文件上传等功能的支持。

当然，升级到 ChatGPT Pro，还可以体验到 o1 pro 模式。o1 pro 模式将「使用更多的计算来为最困难的问题提供最佳答案」。

ChatGPT Pro 用户可以通过在模型选择器中选择「o1 pro 模式」并直接提问来访问该功能。由于生成答案需要更长的时间，如果切换到另一个对话，ChatGPT 将显示进度条并发送应用内通知。

o1 pro 模式可能只是延长了模型在给出答案之前的「推理」时间。OpenAI 在其 o1 预览版公告中表示，它的目标是试验推理时间长达数小时、数天甚至数周的 o1 模型，以进一步提高其推理能力，而这很可能是朝这个方向迈出的一步。

OpenAI 还宣布了一项捐赠计划，向知名机构的医学研究人员赠送 10 套 ChatGPT Pro。该公司表示，他们未来还计划在「各个学科」提供更多捐赠。

为了增加吸引力，ChatGPT Pro 还包括无限制访问 GPT-4o 和高级语音模式（ChatGPT 的人机对话功能）。ChatGPT Plus 用户有每日使用时间限制，而免费用户仅限于预览。

然而，ChatGPT Pro 是 OpenAI 目前最昂贵的订阅服务，是 ChatGPT Plus 的 10 倍。考虑到许多用户已经认为 ChatGPT Plus 太贵，ChatGPT Pro 可能很难卖出去。

实际上，高级 ChatGPT 的涨价传闻由来已久。据《纽约时报》报道，到 2029 年，OpenAI 预计 ChatGPT Plus 的月收费将达到 44 美元。根据 The Information 的报道，该公司还萌生了超高价商业订阅的想法，这些订阅可提供额外的功能，并可访问正在开发的模型。

现在看来，这些传闻基本属实。

这些举措反映出投资者对 OpenAI 缩小亏损的压力。据《纽约时报》报道，虽然该公司 8 月份的月收入达到了 3 亿美元，但 OpenAI 预计今年将亏损约 50 亿美元。人员、办公室租金和 AI 训练基础设施等开支都是亏损的根源。据报道，仅 ChatGPT 一项就一度让 OpenAI 每天损失 70 万美元。

OpenAI 的第一天直播最终在一个与圣诞相关的笑话中结束：

圣诞老人希望使用 LLM 来解决数学问题，他努力使用了很多提示词，但效果都不好，那么他最终怎么解决了这个问题呢？

答案是他使用了 reindeer forcement learning。

对于今天的发布，你怎么看呢？

参考链接：https://techcrunch.com/2024/12/05/openai-confirms-its-new-200-plan-chatgpt-pro-which-includes-reasoning-models-and-more/

https://www.youtube.com/watch?v=iBfQTnA2n2s

#生成+理解一体多模态大模型的思考

现在的（支持生成+理解一体）多模态大模型，主要分成那些方案？以语言模型为核心

• Emu3（支持video、img、text任务，纯自回归（AR）损失）
• Chameleon（img、text任务，纯AR loss）
• Show-o（图像部分双向attention，类似于MaskGit，文字部分AR loss）
• Janus（用两种视觉编码器，ViT类用于理解性任务，VAE类用于生成任务，text和img都是纯AR loss）

语言模型+扩散模型

• TransFusion（文字部分ar loss，图像部分ddpm loss）
• JanusFlow（文字部分ar loss，图像部分rf loss）

不同方案有什么共性的结论？

• 以LLM为核心的架构在train和inference阶段更容易scale（得益于语言模型的发展），但是目前的工作并没有scale特别大，效果也没有特别顶的。
• 在模型尺寸大致comparable的情况下，加上diffusion还是比纯LLM架构的视觉生成效果好些【是LLM适配生成任务需要提升，还是scale不够？】。
• 视觉部分用两种编码器（ViT类用于理解性任务，VAE类用于生成任务），对于多模态理解和生成任务都有帮助。说明现在视觉编码器的发展主要其实还是分为理解、生成两类，每一类编码器只可以在自己的任务上发光发热，在另外的领域fintune后效果也一般。

大规模多模态模型训练细节

• Chameleon是from scratch训练，主要针对如何稳定大规模的训练，trick和干货很多，包括监控输出范数来作为stability的indicator，QK-Norm来mitigate softmax的logit shift问题，Normalization换位来提升稳定等。
• Emu3也是from scratch训练，主要分享了下pretrain，post train，DPO的一些detiails。
• Janus系列文章分享了自己的训练框架、时长，以及使用了sequence packing来提高训练效率。不过1.3B的模型的结论和经验在scale后是否能maintain需要之后的工作去验证。

未来方向？

• unify生成+理解一体的视觉编码器到底如何设计，目前有一些工作例如titok已经做了一些相关贡献，但是到现在还没有把他放在大scale多模态大模型上真正work的方案？
• 在visual encoder，visual foundation model层面，视觉生成、理解任务到底如何统一？代理任务或者loss到底如何设计？甚至视觉生成、理解任务能否用一个visual foundation model就可以统一，还是短期来看就是要分开？
• LLM的ar架构现在被证明是一种不错的表征、压缩方案，但是其会出现误差累计问题，不太适用于视觉生成任务。Diffusion是一种适用于连续信号的生成方案，可以修复一些误差累计问题，当LLM输出的多模态特征信息含量足够，甚至可以非常小的Diffusion来作为轻量化的视觉生成task-specific head。所以中长期来看，LLM+Diffusion的方案是否值得持续投入？

#亚马逊云科技用生成式AI

向开发的复杂性动手了

生成式 AI、分布式扩展功能全面进化，还降价了。

同一天的发布，完全不同的方向。

今天凌晨，云计算巨头亚马逊云科技的 re:Invent 与大号创业公司 OpenAI 的发布「撞了车」。后者公布了一系列生成式 AI 应用，价格更贵、性能更强大，而前者则致力于简化生产力矛盾，降低价格。

不约而同的是，他们的发力点都在生成式 AI 等新技术的应用上。

正如亚马逊副总裁兼 CTO Werner Vogels 博士在演讲时所说的，想要做好基础设施，问题的核心是「复杂性」。「Complexity」这个单词，在他整场演讲中出现了近 70 次。

在《Lessons in Simplexity》（繁简之道）中，Werner Vogels 将自己在亚马逊 20 年构建底层架构的经验浓缩为六条金句，句句有关人们如何面对日益复杂的技术系统。台上的 PPT 每一次翻页，都让台下的观众默契地举起手机。

这六条经验是这样说的：

Lesson 1 - Make evolvability a requirement

Evolvability is a prediction for managing complexity

将可演化性作为一项要求，可演化性是应对复杂性的一种预判

Lesson 2 - Break complexity into pieces

Disaggregate into building blocks with high-cohesion and well-defined APIs

将复杂性拆解成多个部分，分解为内聚性高且有明确定义 API 的构建模块

Lesson 3 - Align organization to architecture

Build small teams, challenge the status quo, and encourage ownership

让组织与架构相匹配，组建小团队，挑战现状并鼓励主人翁意识

Lesson 4 - Organize into Cells

In a complex system you must reduce the scope of impact

组织成单元形式，在复杂系统中必须缩小影响范围

Lesson 5 - Design predictable systems

Reduce the impact of uncertainty

设计可预测的系统，降低不确定性的影响

Lesson 6 - Automate Complexity

Automate everything that doesn’t require high judgement

使复杂性自动化，将不需要高度判断力的一切事务自动化

化繁为简，正是亚马逊云科技希望帮助千行百业用户做到的事情。这几天的大会上，亚马逊云科技概述了一系列围绕云计算、云数据库的创新。

如何让开发者和用户感受到「简单了」？答案是进化。亚马逊云科技还详细介绍了其整体战略，并概述了向量数据库是如何对生成式 AI 提供加持的。除了一系列创新，还有降价措施，包括 Amazon DynamoDB 的按需定价降低了 50%。

简单点，再简单点。这几乎是当下所以企业用户引入生成式 AI 技术时的共同诉求。

在今年的 re:invent 2024 发布内容中，这一原则体现的淋漓尽致。

AI Agents

让复杂的技术系统自动运转

最近一段时间，智能体（AI Agents）是生成式 AI 领域的重要发展方向，一系列应用快速落地。先有 Anthropic 基于最新的基础大模型 Claude 3.5 Sonnet 提出了可以操纵 PC 的智能体功能，紧接着荣耀展示了基于新一代操作系统 MagicOS 9.0 的全局智能体。在生产力端，微软也在 10 月推出了多种 Copilot 智能体，包揽了销售、服务、财务、供应链团队的任务。

其实在企业开发环境中，AI 智能体的引入也早已开始。

去年在 re:Invent 大会上，亚马逊云科技预览了生成式 AI 助手 Amazon Q Developer，它可用于跨集成开发环境（IDE）的设计、构建、测试、部署和维护，其中就有一系列 AI 智能体的能力。

比如，Amazon Q Developer 可以自动分析代码库、生成转换计划并执行转换任务，包括升级和替换 NuGet 包和 API、重写已弃用和低效的代码组件，以及移植到跨平台 .NET 等等。

今年 4 月， Amazon Q Developer 全面上市，并增加了更多功能，例如支持 AWS 命令行界面（AWS CLI）、Amazon SageMaker Studio、AWS CloudShell 以及内联的对话功能，以便开发者在 IDE 中进行无缝编码操作。

Amazon Q Developer 的一大价值在于，各个领域的专家通过自然语言交互就能构建准确、生产质量的模型，即使他们不具备生成式 AI 开发方面的专业知识。任何团队都能够更快地创新并缩短上市时间，同时减轻了对技术专家的依赖，或者说，原本储备的技术专家可以专注于更复杂的技术挑战。

现在，Amazon Q Developer 的智能体功能有了更多的扩展，包括：1）增强代码库中的文档 (/doc)，2）支持代码审查以检测和解决代码质量问题 (/review)，3）在 IDE 或 GitLab Duo with Amazon Q（预览版）上自动生成单元测试、提高整个软件开发生命周期的测试覆盖率（/test）的功能。

新版 Amazon Q Developer 强化了用于 .NET、大型机和 VMware 等工作负载的转换功能。亚马逊云科技还宣布在 Amazon Q Developer 中推出了帮助调查和修复运营问题的新功能预览版。

Amazon Q Developer 正在改变传统的开发工作流程，让开发环境中集成各种生成式 AI 功能。这种无缝集成有助于人们保持专注，同时加速除代码之外的各种开发任务，从而提高生产力。

Amazon Q Developer 还把智能体带入到了 GitLab，将其转变为支持 AI 驱动的 DevSecOps 统一开发体验，能利用 AI 智能体来协助复杂的多步骤任务，并提供增强的代码审查和单元测试功能。

亚马逊云科技表示，通过 GitLab 快速操作与 Amazon Q Developer 的交互非常简单：直接在问题描述、一般评论或合并请求评论中输入 /q，开发者即可呼叫 AI 能力来帮助处理日常任务和复杂的工作流程。

从一系列新能力中，我们可以看到，亚马逊云科技对于 AI 智能体能力的应用有别于微软、Anthropic 等提出的方案，前者更多基于自身的微服务，更加面向具体的工作目标。

可以说，亚马逊云科技长久以来基于真实工程任务的经验塑造了其生成式 AI 工具的可用性。这种面向生产的技术能够帮助开发者们更快地部署新能力、简化工作流程、管理状态，并在专门的智能体之间动态分配任务。

这些 AI 能力想必会很快获得大规模应用，毕竟在生产环境中，实用性说了算。

一个窗口搞定所有开发

下一代 Amazon Sagemaker 拿捏了

生成式 AI 技术的确抬高了技术系统处理复杂任务的能力，但与此同时带来的系统复杂度提升，也成为了一座难以跨越的大山。

对于各家所有云服务和数据平台提供商来说，这个问题更加值得深入思考——因为它们的客户分布于千行百业，需求各不相同。

在这一次有关于生成式 AI 的发布中，亚马逊云科技化零为整，将所有的数据管理、AI 开发、分析能力打包装进了下一代 Amazon SageMaker。

Amazon SageMaker 诞生至今已有数年，最初是它只是一项用于开发和部署机器学习模型的托管服务。但在随后的几年里，这项服务一直在沿着 AI 技术的演化稳步进行现代化改造。

如果说前几年亚马逊云科技始终专注于大幅扩展 Amazon SageMaker 的功能，那么今年，「精简」是新的目标。它是所数据、分析、和 AI 需求的中心，包含全新发布的 SageMaker Unified Studio 以及 SageMaker Lakehouse，集成数据目录与治理，支持数据源的无缝对接，将数据分析、数据治理以及 AI/AL 整合于一体。

全新发布的 Amazon SageMaker Unified Studio 就像是一个「全家桶」，既有积累多年的机器学习开发功能，又加入了之前分散的数据管理和应用程序开发服务，几乎涵盖了数据探索、准备和集成、大数据处理、快速 SQL 分析、机器学习 (ML) 模型开发和训练以及生成式 AI 应用程序开发所需的所有组件。

基于新版本的 Amazon SageMaker HyperPod，用户只需几分钟即可开始训练和微调这些基础模型并获得最先进的性能，包括 Llama 3.1 405B。

当然，Amazon SageMaker Unified Studio 也内置了 Amazon Q Developer，用来提供辅助。必要的时候，开发者可以直接使用自然语言提问，比如「我应该使用哪些数据来更好地了解产品销售情况？」或「生成 SQL 以按产品类别计算总收入」。

除了 Amazon SageMaker Unified Studio 之外，亚马逊云科技还推出了 Amazon SageMaker Catalog 和 Amazon SageMaker Lakehouse。前者允许管理员使用具有精细控制的单一权限模型定义和实施 Amazon SageMaker 中 AI 应用程序、模型、工具和数据的访问策略，后者提供了从 Amazon SageMaker 和其他工具到存储在 AWS 数据湖、数据仓库和企业应用程序中的数据的连接。

这种转变的决心来源于亚马逊云科技对客户需求变化的洞察。生成式 AI 技术的爆发直接改变了数据团队和开发团队的合作方式，逐渐走向无缝协作的境界，目前的显著挑战在于数据孤立且分散在各个系统中，他们必须构建和维护复杂的数据管道，而且由于访问控制不一致，团队难以有效地访问和使用数据。

这也是为什么亚马逊云科技在迭代时，选择将数据、分析和 AI 集成到同一个界面中的原因。

通常来说，生成式 AI 开发中混合的模型类型和数据类型越多，就越能丰富分析输出、丰富业务工作流程。而 Amazon SageMaker Unified Studio 在集成上迈出的这一步，减少了用户用于管理多方面数据和多方面分析的工具和平台数量，带来了技术系统复杂性的大大降低。

数据存储、数据库的「加减法」

为用户减负做到极致

在部署和调用生成式 AI 的过程中，开发人员和企业用户会遇到很多难题，尤其在数据层面，要全方位考虑数据存储、数据库建设与迁移等不断演化的事实以及随之而来，对技术和功能的更高要求。

正如 Werner Vogels 在会上所言，「软件系统必须要具备轻松适应未来变化的能力」。面对数据层面日新月异的变化，亚马逊云科技从一开始便要在基础架构的可演化性层面下足功夫。

针对数据存储，亚马逊云科技早在 2006 年就推出 Amazon S3（Simple Storage Service）云服务，成为其高度可扩展、持久、安全且低成本的多类型数据存储基础设施。此后，Amazon S3 在功能演化的同时注重做减法。新推出的 Amazon S3 Tables 功能支持 Apache Iceberg 格式的云存储，相较通用 S3 存储桶提供了 3 倍的查询性能、10 倍的每秒事务数（TPS），并能自动管理表维护任务。

如今 Amazon S3 微服务数量已经达到了 300+ 个，通过微服务架构将整个应用拆解为多个独立、功能明确的子服务，与 S3 的交互被大幅简化，相应的数据存储在独立的 S3 存储桶中，有助于数据隔绝管理，还能轻松扩展存储容量、确保高可用性和数据持久性。

可以看到，Amazon S3 的演化历程呼应了 Werner Vogels 所说的将复杂性分解成小的构建模块、组织成单元形式并在复杂系统中缩小影响范围等经验，既精简了流程，也降低了用户的使用门槛。

不仅如此，亚马逊云科技还进一步更新 Amazon S3 的一项默认行为，自动验证用户数据是否通过网络从应用程序正确传输到 S3 存储桶中。并且 S3 可以在数据到达服务器时计算并校验数据完整性，主动监控数据的冗余性，减少并发故障的出现。

数据库是每个应用程序的基础构建块，客户要依靠它们来搞定自身最关键的工作负载。为了更高效支持用户在 Amazon EC2（Elastic Compute Cloud）上运行数据库，亚马逊云科技推出 Amazon Aurora DSQL（分布式 SQL 数据库）、Amazon DynamoDB NoSQL 全局表、Amazon MemoryDB 多区域功能，进一步保障需要跨多区域运行的最苛刻工作负载。

与其他流行的分布式 SQL 数据库相比，Amazon Aurora DSQL 能帮助用户构建具有最高可用性、强一致性、兼容 PostgreSQL 且读写速度提升 4 倍的应用程序，进而实现进阶版的系统分解、低耦合 / 高内聚、定义明确的 API 以及细粒度控制、独立扩展和定制化安全。

Amazon DynamoDB 全局表支持多区域强一致性，确保用户的应用程序始终在全局表的任何区域读取最新数据，消除了跨多个区域管理一致性的繁重工作，并且无需更改任何应用程序代码。

Amazon MemoryDB 多区域功能则可以进一步帮助用户构建 99.999% 高可用性、全球分布的应用程序，并实现微秒级读取和个位数毫秒级跨区域延迟。

最后，亚马逊云科技在 Amazon S3 文件传输和数据库迁移服务两个方面也竭力为用户减负。其中通过 Transfer Family Web 应用程序，用户可以创建一个完全托管的 Web 应用程序，轻松地列出、上传、下载、复制和删除特定 Amazon S3 中的数据。DMS（Database Migration Service）的 Schema Conversion 现在可以使用生成式 AI 来自动执行耗时的数据库架构转换，自动化率达到 90%，无疑会大大减少手动工作量。

可以预见，亚马逊云科技通过持续功能上的加法、用户部署上的减法，让人们得到了在数据存储和数据库层面的最优选择，质优、价低、上手易，赢得更多青睐也是理所当然。

越简单，越强大

如今，生成式 AI 已经进入到了比拼落地能力的关键阶段，对于众多应用开发者来说，关注点不仅仅是模型强不强，更关注好不好用、用不用得起。相关基础设施和配套服务的完善程度很大程度上将决定用户的选择。

这几天的 re:Invent 大会，无时无刻不在释放这样一种信号：亚马逊云科技不仅要在大模型的能力上对标甚至超越 OpenAI、谷歌、Anthropic，更要践行用户为上的理念。

「为用户创造价值」说来简单，但拆解开来，将是一场漫长的变革：不断将产品和服务的复杂性降到最低，通过功能创新、AI 自动化流程来简化一切客户体验。

一旦我们习惯了如此简单、强大的技术系统，就很难再想象没有它的日子。

2024 年行将结束的当口，终于有一家公司把生成式 AI 与生产力切实结合到了一起。不得不说，亚马逊云科技为生成式 AI 的落地，吹响了加速的号角。

#杭州95后学霸坐C位

Grok 3登顶App Store！Hinton高徒、多伦多华人博士领衔

官宣免费后，Grok火速登顶美区App Store榜首，同时，xAI也放出官方博文，秀了一把模型的数学、代码、ASCII Art演示。最引人瞩目的两位C位华人，均来自多伦多大学，分别和Hinton、Bengio有交集。

昨日官宣免费不过几小时，Grok直接在美区App Store榜一。

马斯克甚至欣喜地表示，这还没有集成语音模式，未来几天即将上线。

付费用户可以提前体验Grok 3语音模式

这场史诗级发布，焦点不仅仅在Grok 3上，还有发布会现场坐在C位的两位华人科学家。

一位是多伦多大学计算机科学助理教授Jimmy Ba，另一位是xAI联创吴怀宇（Tony Wu）。

值得一提的是，吴怀宇是四人当中唯一一个95后，毕业于杭州建兰中学，博士期间在多伦多大学，曾是AlphaGeometry、AlphaStar核心开发者。

Jimmy Ba还是AI大佬Hinton的学生。

Igor Babuschkin、Jimmy Ba、吴怀宇、马斯克

值得一提的是，Grok 3 Beta官方技术博客也终于出炉了，被称为跨入推理智能体时代的AI。

20(/10)万块GPU训出的首款Grok，在推理、数学、编码、世界知识等任务方面，取得了显著提升，成功为Scaling Law续命。

博客详细介绍了Grok 3的各个功能和基准测试结果

xAI最强智能系统

18号，xAI推出了迄今为止最先进的模型Grok 3：它将强大的推理能力与广泛的预训练知识融为一体。

Grok 3在xAI的Colossus超级计算集群上训练，运算能力是现有顶尖模型的10倍，在推理、数学、编程、世界知识和指令遵循任务方面都表现出显著提升。

Grok 3的推理能力通过大规模强化学习（RL）得到提升，使其能够进行持续数秒到数分钟的思考，纠正错误、探索替代方案，并提供准确答案。它在学术基准测试和真实用户偏好方面都表现出色，在Chatbot Arena中获得了1402的Elo评分。

与此同时，xAI还推出了Grok 3 mini，代表着高效推理的新突破。

更深入的思考：测试时计算与推理

Grok 3（Think）和 Grok 3 mini（Think）这两个beta版的推理模型，使用RL进行训练，规模前所未有。因此，CoT推理过程得到提升，实现了高效的高级推理。

RL训练后的Grok 3（Think），学会了完善问题解决策略，还能用回溯来纠正自己的错误、简化步骤，并且会利用预训练中获得的知识。

就像人类面对复杂问题时一样，它会花费几秒到几分钟的时间去推理，还能用多种方法验证答案，评估如何精准满足要求。

比如这个问题「人生的意义是什么？」

Grok 3会花费4秒钟思考，总结说：对生命意义的追问，是人类几百年来的困难，表现形式会因提问者和所看重的东西而大相径庭。

这两个模型虽然仍在训练中，但在多个基准测试中已经展现出卓越的表现。

xAI表示，他们在2月12日（仅7天前）发布的2025年美国数学邀请赛（AIME）上测试了这些模型。

他们使用最高级别的测试时计算参数（cons@64），Grok 3（Think）在这项竞赛中达到了93.3%的正确率，在研究生级别的专家推理测试（GPQA）中达到了84.6%的成绩，在代码生成和问题解决的LiveCodeBench测试中达到了79.4 %。

此外，Grok 3 mini在不需要太多世界知识的科学、技术、工程和数学（STEM）任务中实现了高效推理能力的新突破，在2024年AIME中达到95.8 %的正确率，在LiveCodeBench中达到80.4 %的成绩。

要使用Grok 3的推理能力，只需点击「Think」（思考）按钮即可。

Grok 3（Think）的思维模式完全开放，使用户不仅可以看到最终答案，还可以了解模型的完整推理过程。它的推理能力可以广泛应用于各类问题领域。下面，让我们看看Grok 3的一些推理示例。

代码

在这个任务中，Grok 3被要求用pygame创建一款混合两种经典游戏的的混合游戏，看起来要很漂亮。

思考6分钟后，Grok 3给出了完整的代码实现。

它做出了一个功能完整的2D游戏，代码结构清晰，注释详细，易于理解和修改。游戏结合了经典元素（Breakout 和 Pong），娱乐性拉满。

而视觉效果，是通过粒子和颜色增强呈现的。

上下滑动查看

所以，Grok 3是怎样满足「让游戏看起来很漂亮」这个要求的呢？

它用五彩斑斓的砖块、砖块破碎时的粒子效果、渐隐粒子等，实现了动态的外观呈现。

另外，Grok 3还有一些更加别具匠心的设计，比如添加弹跳的音效，使用更大的球拍、更快的球增加力道、添加背景渐变等。

ASCII Art

这个任务中要求Grok 3创建一个高保真Frank Lloyd Wright风格住宅的ASCII字符艺术。

Frank Lloyd Wright是一位著名的美国建筑师，以其有机建筑风格著称，作品通常与自然环境融为一体，特征包括水平线条、开放空间和大窗户。

Grok 3思考了3分钟后开始输出它的作品。

可以看出，Grok 3生成的图片通过ASCII字符生动地再现了Frank Lloyd Wright草原风格建筑的经典特征。设计简洁而富有层次感，完美捕捉了草原风格建筑的本质。

图片下方还提供了详细的设计说明和注意事项，解释了每个ASCII字符的象征意义：屋顶用斜线和横线强调水平线条，烟囱位于屋顶左侧增加平衡，墙壁和窗户强化水平延伸，基础线体现有机整合。

上下滑动查看

24点游戏

这个任务中，Grok 3被要求用4、4、10、10来玩24点游戏，目标是添加加减乘除运算符，得出24。

它需要选出，成功完成这个游戏的第一个运算是什么。

思考3分钟后，它得出了解法：使用((10×10)−4)÷4这个表达式，因此选出答案F。并且，它还进一步进行了验证，排除了其他选项的可能性。

上下滑动查看

数学

接下来，是一道难度不小的数学题。

这道题给出了一个递归定义，涉及到了正整数n和一系列从集合{1,…,n} 中均匀随机选择的整数m_n,k。

最终，题目要求计算出期望值E(n)，并求出在n趋于无限时，E(n)/n的极限值。

Grok 3思考了4分钟后，确定了自己需要完成的步骤。

首先，需要分析状态空间和转换，然后要定义漂移项和期望值的递推关系，第三步要解决递归，最后一步就是计算极限。

最终，Grok 3给出了最终答案：(1-e^(-2))/2。

上下滑动查看

超大规模预训练

当不启用推理功能时，Grok 3能够即时提供高质量回答。

在常规模型（非推理模式）中，Grok 3在多项学术基准测试中均达到了SOTA，这些测试包括：研究生级科学知识评估（GPQA）、高级通用知识测试（MMLU-Pro）、数学竞赛解题能力（AIME）等。

同时，Grok 3在图像理解能力测试（MMMU）和视频内容理解任务（EgoSchema）中也展现出卓越表现。

Grok 3的上下文处理窗口可达100万个token，是Grok 2的8倍，这使其能够处理超长文档并响应复杂提示词，同时保持极高的指令执行准确度。

在专门测试长文本RAG能力的LOFT基准测试（支持128k长度）中，Grok 3在12项不同任务的平均准确率上达到了SOTA，充分展示了其卓越的信息检索能力。

Grok 3同时在事实准确性和文风把控方面都取得了显著提升。以代号「chocolate」发布的Grok 3早期版本在LMArena Chatbot Arena排行榜上独占鳌头，其Elo评分在所有评估类别中均超越竞争对手。

目前，xAI正在扩大发展规模，准备利用配备20万个GPU的计算集群来训练更大规模的模型。

Grok智能体：融合推理能力与工具运用

为了理解宇宙，xAI让Grok与现实世界实现交互。通过整合Code Interpreter（代码解释器）和互联网访问能力，Grok 3模型能够主动查询所需的上下文信息，灵活调整处理方法，并通过反馈不断优化其推理能力。

作为实现这一愿景的第一步，xAI推出了他们的首个AI智能体——DeepSearch。

这是一个反应极速的AI智能体，专注于在浩瀚的人类知识库中持续探索真相。

无论是实时掌握最新资讯，解决社交难题，还是开展深度科研工作，DeepSearch都能提供远超普通搜索引擎的体验。它最终会生成一份精炼而全面的总结报告，助你在这个快速发展的世界中把握先机。

两位华人坐镇C位，还有一位杭州95后

Grok 3直播画面中，马斯克与三位技术负责人并肩而坐，一开场，还谦虚地说自己什么也没干。

其中两位华人颇有缘分，Jimmy Ba和吴宇怀均在多伦多大学完成了博士学位。

个人资料显示，Jimmy Ba目前是多伦多大学计算机科学系助理教授，他的学士、硕士学位也是在多伦多大学完成，导师分别是Brendan Frey和Ruslan Salakhutdinov。

博士期间，曾在Geoffrey Hinton指导下完成了学业。

Jimmy Ba还曾获得了2016年Facebook研究生奖学金，2023年诺奖风向标「斯隆研究奖」。

提及个人贡献，Jimmy Ba曾提出了大名鼎鼎的深度学习训练算法Adam优化器，这是一种自适应学习率的优化算法。

这篇发表在2015年的论文，被引数量突破了20万。

另一篇被引最高的论文，是与Hinton一起完成「层归一化」（Layer Normalization），一种深度学习中用于优化神经网络的方法。

另一位吴宇怀，是一位名副其实的95后学霸。

小学一年级就读于新安江一小，后转学到杭州紫阳小学。到了初中，进入杭州建兰中学学习，随后高中又转到加拿大。

他的职业生涯更为丰富，从OpenAI、谷歌DeepMind，到斯坦福博士后研究员、谷歌研究科学家，再到如今xAI联创，走出了不同寻常的人生轨迹。

他曾参与了许多人熟知的AI研发，比如STaR、Minerva、AlphaGeometry、Autoformalization、Memorizing Transformer、AlphaStar等。

吴怀宇也曾与图灵奖得主Bengio有交集，在2016 NrurIPS上，他们与多位合著者共同提出了Multiplicative Integratio架构，共同改善循环神经网络。

论文地址：https://arxiv.org/pdf/1606.06630

除了他们两人，事实上，xAI团队还有不少有名的华人科学家。

联创Greg Yang(杨格)，出生在湖南，本硕就读于哈佛大学数学系，大学时期的导师是数学家丘成桐。在加入xAI前，他是微软的高级研究员，负责AI理论研究。

他的学术生涯充满传奇色彩，在哈佛求学期间，他曾两度休学，一次是为了追求自己的DJ梦想，另一次则是为了深入研究数学。于2018年荣获摩根奖（Morgan Prize）荣誉奖，现研发TensorPrograms理论和扩展神经网络的实践。

他的研究方向深受数学驱动，他曾在社交平台上写道：「Math for AI, and AI for Math!」（数学推动AI，AI反过来也能推动数学）。在AI研究人员眼中，他不仅是一位科学家，更是一位愿意挑战AI理论极限的数学家。

清华校友Zihang Dai（戴子航），前谷歌大脑研究员，获得了清华和CMU的学位。此前，他还在百度美国分公司和蒙特利尔大学的MILA进行过研究实习。

戴子航本科毕业于清华大学计算机科学系，大学期间，连续三年拿下专业第一，并在大三暑假，师从著名计算机视觉专家朱松纯开展研究。2020年博士毕业于卡内基梅隆大学计算机系，随后加入谷歌研究院。

他在自然语言处理（NLP）领域拥有深厚的积累，尤其擅长Transformer架构的优化与创新。他曾在谷歌和百度美区实习，并在多个顶级AI会议上发表论文。

浙大校友Guodong Zhang（张国栋），也是机器学习和人工智能领域的研究者，曾就职于多伦多大学和矢量研究所（Vector Institute），因研究大模型训练、微调、对齐而闻名。

他本科就读于浙江大学信息工程专业，大学时连续三年排名专业第一，拿了三年的国家奖学金，还获得过全国大学生数学建模竞赛一等奖，美国大学生数学建模竞赛一等奖。

大二时，他对人工智能产生了浓厚兴趣，投入到计算机视觉领域的研究中；大三暑假，跟着全球著名计算机视觉专家朱松纯从事相关研究。加入xAI之后，他的研究方向主要聚焦于如何优化AI训练效率，并提升模型的稳定性。

另有网友绘制了一幅xAI成员背景图，可以看华人学者占据近一半比例。

参考资料：

https://x.ai/blog/grok-3

https://x.com/elonmusk/status/1892578053135425969

https://hznews.hangzhou.com.cn/kejiao/content/2025-02/19/content_8863698.htm

https://www.fortunechina.com/zhuanlan/c/2025-02/19/content_462665.htm

#AssistanceZero

魔改AlphaZero后，《我的世界》AI老玩家问世，干活不用下指令

人和智能体共享奖励参数，这才是强化学习正确的方向？

大模型驱动的 AI 助手又升级了。本周五，科技圈正在围观一个陪你一起玩《我的世界》的 AI。

它话不多说，就是埋头干活。一起盖房子的时候，你不需要给 AI 一张蓝图，或是不断告诉它该怎么做，你只需要盖自己的，它就能一边观察一遍配合，并观察你的意图随时改变计划。

现在，AI 可以不断主动学习、纠正错误，展现出了此前大模型智能体无法实现的一系列能力。

看起来，新版的 AI 在与我们共同游戏时不再是催一下动一下了，它已经是一个有「主观能动性」的玩家，就像个和你共同玩过几百局游戏的老友一样。

这项技术名为 AssistanceZero，出自加州大学伯克利分校（UC Berkeley）。值得注意的是，它并未接受大模型常见的 RLHF 训练。相反，它是由「assistance games」强化学习驱动的，研究人员认为，这是构建 AI 助手的更好途径。

AI 在这个框架中并不会被动地接受人类反馈，而是寻求主动与人合作，通过推断目标而不断优化行为，这避免了 RLHF 中 AI 可能会出现的作弊行为，让 AI 可以采取更加协作的策略。

论文：AssistanceZero: Scalably Solving Assistance Games
论文链接：https://arxiv.org/abs/2504.07091
项目链接：https://github.com/cassidylaidlaw/minecraft-building-assistance-game

目标：把 RLHF 革命掉

最近，AI 领域里很多研究都在尝试改进或替代 RLHF。

我们知道，预训练、监督微调（SFT）以及基于人类反馈的强化学习（RLHF）或其变体已经成为训练通用 AI 助手的主要范式。RLHF 涉及对预训练的基础模型进行微调，使其根据人类标注者对诸如「帮助性」和「无害性」等标准的偏好来采取行动（即生成响应）。然而，通过 RLHF 训练的助手存在一些缺点：

1. 标注者可能会被误导，对无帮助的行动给予积极的反馈，从而激励助手产生欺骗性或操纵性的行为。

2.RLHF 并不鼓励模型保持对用户目标的不确定性，生成高评分单轮响应的目标使得助手不愿提出澄清问题或对其响应进行保留，像 GitHub Copilot 这样的非聊天型人工智能助手也存在类似的问题，当编码任务不明确时，Copilot 无法要求澄清。

3. 像 Copilot 这样的自动完成助手也并未充分考虑助手行为的协作性 ——AI 助手的行动应补充用户的行为，而不是简单地预测或取代它们。

ChatGPT 倾向于用一个回复来解决你的所有问题。如果你要求 ChatGPT「清理一些磁盘空间」，它会给你一个程序运行，而不会询问哪些文件可以删除。

训练 AI 助手的另一种范式是 Assistance Games。它通过明确考虑协助的互动性和用户目标的不确定性，避免了 RLHF 的上述缺点。

具体来说，Assistance Games 是一个双人游戏，助手和用户在一个共享环境中采取行动（图 3b）。两个 Agent 共享一个奖励函数，但关键是助手最初对这个奖励函数是不确定的，assistance games 消除了欺骗的动机，因为助手的表现取决于真实的潜在奖励函数，而不是人类的反馈。此外，assistance games 还激励助手与用户互动以解决其不确定性。最后，解决 assistance games 的结果是助手的行动能够补充用户的行动，以实现最优的联合性能。而且，研究人员还设想了一种将 assistance games 应用于大语言模型后训练的方法，以替代 RLHF。

尽管 Assistance Games 具有诸多优势，但它们为何仍然是一个研究较少的训练 AI 助手的方法呢？Assistance Games 过去仅被用于解决非常简单的问题，但在复杂环境中却被广泛忽视，主要是由于以下看似不可克服的挑战：

1. 计算上的难题：AI 助手需要在奖励函数的不确定性下保持决策能力，而这被认为是计算上不可行。

2. 人类模型的准确性：与 RLHF 不同，解决 Assistance Games 需要一个能够准确预测人类对 AI 行动反应的模型。如果 AI 无法理解人类的沟通策略，可能会在与真实人类互动时表现不佳。过去关于 Assistance Games 的研究使用了基于强化学习或规划的人类模型，但这些模型可能与真实人类行为有显著差异。

该研究团队成功应对了这些挑战，并证明了复杂的 Assistance Games 是可以被有效解决的。为此，他们引入了一个新基准测试 ——Minecraft Building Assistance Game (MBAG)。

在这个测试中，AI 助手需要在《我的世界》游戏环境中帮助人类建造目标结构，但助手对目标一无所知（图 1）。MBAG 的挑战在于目标结构的分布非常复杂，可能的目标数量超过 10^400 个，远远超过以往研究中的数量，同时状态和动作空间也更大。

研究人员通过 MBAG 研究了深度强化学习算法是否能够解决 Assistance Games。研究发现，PPO（一种流行的无模型强化学习算法）可以轻松地在 MBAG 中建造已知目标房屋，但在目标结构未知时表现不佳。他们认为这是因为 PPO 需要同时从高方差的反馈中学习如何预测目标并根据预测采取行动，这增加了其难度。

因此，为更好地解决 Assistance Games 问题，他们提出了一种名为 AssistanceZero 的新算法，该算法通过扩展 AlphaZero 来分离预测和行动。与 AlphaZero 类似，AssistanceZero 结合了蒙特卡洛树搜索（MCTS）和神经网络来选择行动。AssistanceZero 采用了一种具有额外输出层的神经网络，这些输出层用于预测奖励和人类行为，MCTS 利用这些预测在不确定性下有效规划（图 4）。

AssistanceZero 的效果远胜于 PPO（表 1）。

此外，他们还通过探索如何开发出能产生有效助手的人类模型来应对解决 Assistance Games 的第二个挑战。有趣的是，他们发现 MBAG 中最佳的人类模型也结合了 MCTS 和模仿学习，这种方法被称为 piKL。

研究人员将通过 Assistance Games 训练的策略与其他方法（如类似预训练和 SFT 的流程）训练的策略进行了比较。

在 MBAG 中，他们发现通过 AssistanceZero 训练的助手在最佳人类模型（表 3）和真实人类（图 2）方面都大大优于通过预训练 + SFT 或其他方法训练的助手。AssistanceZero 助手展现了许多有用的自发行为，例如根据修正进行适应（图 1）。

表3

图2

总的来说，结果表明，Assistance Games 是可扩展的，并且可以成为在具有挑战性的环境中训练有用助手的优越框架。

什么是MBAG

在设计 MBAG 时，研究人员设定了几个目标，以使其成为一个更广泛研究协助游戏的有用环境。

其设计目标包括复杂的奖励参数分布、多样的助手帮助方式，以及适合学术实验室训练 RL agent 的环境。

MBAG 是由一个三维方块网格、网格内的玩家位置以及玩家的物品栏组成。网格中的每个位置可以是十种方块类型之一，包括空气，实验中使用了一个 11×10×10 的网格。

动作空间包括无操作、移动、放置方块和破坏方块。放置和破坏动作由位置参数化，放置动作还由方块类型参数化，这意味着在 11×10×10 的环境中，有超过 20000 种可能的动作。

玩家只能到达有限的距离来破坏或放置方块，而且在当前状态下，许多动作是无效的（例如，不可能破坏空气方块）。因此，通常只有一小部分动作是有效的。

提出 AssistanceZero 新算法

研究人员使用 MBAG 来研究如何解决协助游戏中的复杂序贯决策问题，并尝试了 PPO（一种无模型强化学习算法）训练助手策略。

然而，他们发现 PPO 在 MBAG 中表现不佳。使用循环 PPO 训练的助手根本无法帮助人类模型（见表 1 的第一行），而非循环 PPO 的表现略优于循环 PPO（见第二行）。他们认为，这是因为高方差的奖励信号使得 PPO 难以有效学习。

表1

此外，由于助手对目标结构不确定，即使根据观察历史，采取一个在期望中有帮助的动作有时也会导致负面奖励。任务的序贯性和长期性加剧了这些问题，进一步增加了 PPO 试图优化的奖励信号的噪声。

在训练初期，PPO 接收到的最明显的信号是放置和破坏动作往往是错误的，导致负面奖励。因此，助手策略收敛到几乎不建造任何东西。为了减少奖励信号中的噪声，并激励助手更多地采取行动，他们探索了仅根据助手自身动作的奖励来训练助手，还尝试添加一个辅助损失项，以鼓励放置正确的方块。

这些方法略微提高了助手 - 人类模型组合完成的目标百分比，同时减少了人类模型的动作数量或保持其不变（见表 1 的第三和第四行）。然而，它们仍然只是勉强有帮助。

为了解决 PPO 的局限性，他们设计了 AssistanceZero 来分离目标预测和行动选择，通过学习一个目标预测器，然后将其用于规划。

具体来说，AssistanceZero 是 AlphaZero 的扩展，AlphaZero 是一种在围棋和国际象棋等复杂竞争性游戏中取得超人表现的深度强化学习算法。

和 AlphaZero 一样，AssistanceZero 使用蒙特卡洛树搜索（MCTS）的一个变体来选择动作。MCTS 通过模拟从当前状态采取不同动作序列的结果来构建搜索树。然而，它需要知道奖励和动作导致的下一个状态，这两者在协助 POMDP 中都是未知的。

虽然作者已经证明 AssistanceZero 可以训练出与固定人类模型配合良好的助手，但如何先获得一个好的人类模型仍然不清楚。理想情况下，助手策略不仅应该与训练时使用的人类模型表现良好，还应该与真实人类配合时表现良好。他们探索了人类 AI 交互文献中开发 MBAG 人类模型的几种方法，包括基于奖励和基于数据的模型。

基于奖励的人类模型假设人类选择动作近似于最优，以最大化其奖励函数。他们使用深度强化学习训练了两个基于奖励的模型来独自建造目标结构。

对于其中一个模型，他们使用了带有熵系数的 PPO，近似于 Boltzmann 理性，这是一种常见的人类行为的噪声最优模型；另一个模型则使用了 AlphaZero 训练。

接下来，他们使用行为克隆（BC）训练了一系列基于数据的人类模型，行为克隆使用监督学习从状态预测动作。对于训练数据集，他们记录了五个受试者在 MBAG 中建造房屋的 18 个片段。

在一半的片段中人类独自建造，另一半则由一位有经验的《我的世界》玩家作为助手。他们将目标结构显示为受试者的一个半透明蓝图，覆盖在正常的游戏上，同时对人类助手隐藏目标结构。使用 BC，他们训练了三种人类模型：一种基于受试者独自游戏的数据（BC-alone），一种基于与助手一起游戏的子集（BC-with-assistant），以及一种基于整个数据集（BC-combined）。

虽然研究人员对 Assistance Games 的正式定义假设人类模型是马尔可夫的，但他们发现基于循环、历史的 BC 模型比马尔可夫策略更能预测人类动作。除了捕捉个别非马尔可夫行为外，循环人类模型还可以隐式地模拟多种人类策略的混合。这使得一个单一的循环模型有可能捕捉到真实人类技能水平的差异。

有望提升大模型后训练

在该研究中，研究人员实现了通过 Assistance Games 在 MBAG 中训练助手的完整方案，然后使用 AssistanceZero 求解生成的辅助 POMDP。如果将 Assistance Games 与其他 AI 助手训练范式进行比较会如何？

具体而言，作者开发了用于训练 MBAG 助手的流程，类似于 GitHub Copilot/OpenAI Codex 和 RLHF 的监督微调 (SFT) 阶段所使用的流程，这也是当前训练 AI 助手的两个主要范式。研究人员将生成的策略与使用 AssistanceZero 训练的助手进行比较。

RLHF 和 Codex 都以预训练语言模型为起点，这使得它们能够学习有用的表征并预测人类行为。在 MBAG 中，作者生成了一个预训练语料库，使用结合 BC 的人类模型生成 1 万个回合，该回合会从训练集 Dtrain 中随机选择目标结构进行构建。然后从观测值中删除目标结构信息，并在生成的数据集上训练一个循环神经网络（即预训练模型）。与语言或代码模型类似，该模型可以在没有目标信息的情况下预测人类行为，并学习到了能够理解人类目标结构的表征。

通过在低热状态下从预训练模型中采样动作，我们就获得了一个类似于 GitHub Copilot 的助手：当它对人类将采取的动作高度自信时，它会构建目标结构，缺乏自信时则不会采取行动。

进一步使用 SFT 训练预训练模型，其中使用人类专家作为助手的数据，对预训练模型进行微调以模仿人类助手，类似于在 RLHF 的 SFT 阶段训练 LLM 模仿人类书写的助手回复的方式。研究使用网格搜索对 540 个超参数组合进行搜索，以找到适合 SFT 策略的学习率、训练周期、数据增强和 dropout 的最佳组合。

表 3 比较了预训练模型和 SFT 模型以及基于 Assistance Games 的策略。作者使用结合 piKL 的人类模型对每个模型进行了超过 1000 轮评估，并报告了与表 1 相同的指标。预训练策略和 SFT 策略均略微减少了实现相似目标完成率所需的人类操作数量（约 4-5 个）。SFT 策略平均构建了约 3% 的目标结构。相比之下，使用 AssistanceZero 训练的策略将人类操作数量减少了约 65 个，同时提高了目标完成率；它构建了约 26% 的目标。

作者还比较了 AI 助手与真人的表现。比较四种条件下的人类玩家：独自一人（无助手）、使用 SFT 策略、使用 AssistanceZero 训练的助手以及与专家人类助手一起进行游戏，每个参与者连续五次建造同一栋房屋。第一次用于练习，帮助受试者熟悉《我的世界》的操作和目标结构，随后受试者在四种条件下以随机顺序建造房屋。

在每次互动结束后，受试者对其整体实用性进行评分，结果显示经过 AssistanceZero 训练的助手表现明显优于 SFT 助手，并接近人类基准。其中，参与者对 AssistanceZero 能够从纠正中有效学习的能力印象深刻。例如，在人类破坏一两个错误方块后，AssistantZero 也能破坏多个错误方块，相比之下 SFT 助手则完全没有帮助。

伯克利的研究人员希望，基于 Assistance Games 的工作最终可以帮助大语言模型实现解决复杂问题的能力。

参考内容：

https://x.com/cassidy_laidlaw/status/1910708807258534008

#算法不重要，AI的下一个范式突破

「解锁」新数据源才是关键

众所周知，人工智能在过去十五年里取得了令人难以置信的进步，尤其是在最近五年。

回顾一下人工智能的「四大发明」吧：深度神经网络→Transformer 语言模型→RLHF→推理，基本概括了 AI 领域发生的一切。

我们有了深度神经网络（主要是图像识别系统），然后是文本分类器，然后是聊天机器人，现在我们又有了推理模型。领域内的进步一直在持续 —— 尽管范式转变级别的重大突破并不常见，但我们坚信能在缓慢而稳定的发展中前进。

值得深思的问题来了：下一个重大突破会是什么？取决于什么？

康奈尔大学 (科技校区) 博士生 JACK MORRIS 发表了一个新颖的观点：从 2012 年到现在，AI 的根本性突破并非来自全新的算法创新，而是来自我们能够利用的新数据源和更好的数据利用方式。

博客地址：https://substack.com/home/post/p-160974493

所以他认为人工智能的下一个范式突破可能要依靠视频数据（尤其是 YouTube）和实体世界数据（机器人）。

让我们看看作者是如何分析的：

事实上，一些研究人员最近提出了「人工智能的摩尔定律」，即计算机执行某些任务（在这里指的是某些类型的编码任务）的能力将随着时间的推移呈指数级增长：

「人工智能摩尔定律」。（顺便说一句，任何认为到 2025 年 4 月就能在无人干预的情况下运行自主智能体一小时的人都是在自欺欺人。）

虽然出于种种原因，我并不认同这种说法，但我无法否认人工智能的进步趋势。每年，我们的人工智能都会变得更智能、更快速、更便宜，而且这种趋势尚未看到尽头。

大多数人认为，这种持续的进步来自于学术界（主要是麻省理工学院、斯坦福大学、卡内基梅隆大学）和工业界（主要是 Meta、谷歌和少数中国实验室）研究界的稳定 idea 供给，同时还有很多在其他地方进行的研究是我们永远无法了解的。

研究方面确实取得了很大进展，尤其是在系统方面。这尤其体现在如何降低模型成本。这里挑选几个值得关注的例子：

2022 年，斯坦福大学的研究人员提出了 FlashAttention ，这是一种在语言模型中更好地利用记忆的方法，这种方法几乎在任何地方都有使用；
2023 年，谷歌的研究人员开发了推测解码，所有模型提供商都使用它来加速推理（也是 DeepMind 开发的，貌似是同时进行的）；
2024 年，一群互联网狂热分子开发了 Muon ，它似乎是一个比 SGD 或 Adam 更好的优化器，并可能成为未来训练语言模型的方式；
2025 年，DeepSeek 发布了 DeepSeek-R1 ，这是一个开源模型，其推理能力与人工智能实验室（特别是谷歌和 OpenAI）的类似闭源模型相当。

人们在不断探索，现实也很酷：大家参与的是去中心化的全球化科学研究，研究成果会在 arXiv 、学术会议和社交媒体上公开分享。

如果我们正在进行如此多重要的研究，为什么有些人认为进展正在放缓？引起人们抱怨的是，最新的两个大模型 Grok 3 和 GPT-4.5 ，在此前的基础上仅取得了微小的改进。一个尤为突出的例子是，在最新的数学奥林匹克考试中，语言模型的得分仅为 5%，这表明最近的声明在报告系统能力时可能被夸大了。

人工智能「四大发明」

如果我们试图记录那些「重大」的突破，那些真正的范式转变，它们似乎正在以不同的速度发生。

1. 深度神经网络：深度神经网络在 2012 年 AlexNet 模型赢得图像识别竞赛后开始起飞；

2. Transformer + 大语言模型：2017 年谷歌在《Attention Is All You Need》中提出了 Transformer，导致了 BERT（谷歌，2018）和原始 GPT（OpenAI，2018）的诞生；

3. RLHF（基于人类反馈的强化学习）：据我所知，最早在 OpenAI 2022 年的 InstructGPT 论文中提出；

4. 推理：2024 年 OpenAI 发布了 o1，随后 DeepSeek 发布了 R1。

其实，这四件事（深度神经网络→Transformer 语言模型→RLHF→推理）就概括了 AI 领域发生的一切：我们有了深度神经网络（主要是图像识别系统），然后是文本分类器，然后是聊天机器人，现在我们有了推理模型（不管那是什么）。

假设想要实现第五次这样的突破，研究一下已有的这四个案例可能会有所帮助。

是什么新的研究 idea 导致了这些突破性事件？所有这些突破的基础机制在 1990 年代甚至更早就已存在，这并不荒谬。我们正在应用相对简单的神经网络架构，进行有监督学习（1 和 2）或强化学习（3 和 4）。

交叉熵的有监督学习，即预训练语言模型的主要方式，源自 1940 年代 Claude Shannon 的工作。强化学习是通过强化学习高频训练（RLHF）和推理训练对语言模型进行后期训练的主要方法，它出现得稍微晚一些。它的出现可以追溯到 1992 年策略梯度方法的引入（这些 idea 在 1998 年 Sutton & Barto 出版的《强化学习》教科书第一版时就已经存在了）。

如果 idea 不是新的？那什么是？

这些「重大突破」可以说是我们已知一段时间的东西的新应用。首先，这意味着「下一个重大突破」可能不会来自一个全新的 idea，而是我们已经知道一段时间的东西的重新浮现。

但这里缺失一个部分 —— 这四次突破中的每一次都使我们能够从新的数据源学习：

1. AlexNet 及其后续工作解锁了 ImageNet，一个大型的分类标签图像数据库，推动了计算机视觉十五年来的进步；

2. Transformer 解锁了在「互联网」上的训练，以及下载、分类和解析网络上所有文本的竞赛（现在看来我们大部分已经完成）；

3. RLHF 让我们可以从表明什么是「好文本」的人类标签中学习（主要是一种感觉）；

4. 推理似乎让我们从「验证器」中学习，比如计算器和编译器，它们可以评估语言模型的输出。

提醒自己，这些里程碑中的每一个都标志着各自的数据源（ImageNet、网络、人类、验证器）首次大规模使用。每个里程碑之后都紧随着一阵疯狂的活动：研究人员竞争 (a) 从任何可用来源汲取剩余的有用数据和 (b) 通过新技巧更好地利用已有数据，使我们的系统更高效、对数据需求更少。

预计我们将在 2025 年和 2026 年看到这种趋势在推理模型中出现，因为研究人员正竞相寻找、分类和验证一切可能被验证的东西。

研究者创建了 ImageNet （当时最大的网络公共图像集），人工智能的进步可能是不可避免的。

新 idea 有多重要？

在这些情况下，我们实际的技术创新可能不会产生巨大差异，这一点值得一提。检视一下反事实。如果我们没有发明 AlexNet，也许另一种能处理 ImageNet 的架构会出现。如果我们从未发现 Transformer，也许我们会采用 LSTM 或 SSM，或者找到其他全新的方式来从我们在网络上可用的大量有用训练数据中学习。

这与一些人认为「除了数据之外什么都不重要」的理论一致。一些研究人员观察到，对于我们所做的所有训练技术、建模技巧和超参数调整，总体上产生最大差异的是改变数据。

一个有趣的例子是，一些研究人员致力于使用 Transformer 以外的架构开发一种新的类 BERT 模型。他们花了大约一年时间以数百种不同方式调整架构，并设法创造出一种不同类型的模型（这是一种状态空间模型或 SSM），当在相同数据上训练时，其性能与原始 Transformer 大致相当。

这一发现的等价性真正深刻，因为它暗示了我们可能从给定数据集中学习到的东西有一个上限。世界上所有的训练技巧和模型升级都无法绕过这个冷酷的事实，即从给定的数据集中只能学到这么多。

也许，对新 idea 的漠不关心就是我们应该从《苦涩的教训》中得到的。如果数据是唯一重要的东西，为什么 95% 的人都在研究新方法？

下一个范式转变从何而来？

会是 YouTube 吗？

显而易见的结论是，我们的下一个范式转变不会来自强化学习的改进或一种奇特的新型神经网络，而是会出现在我们解锁以前未曾访问或未能适当利用的数据源时。

许多人正在努力利用的一个明显信息源是视频。根据网络上的一个随机网站，每分钟约有 500 小时的视频上传到 YouTube。这是一个荒谬的数据量，比整个互联网上可用的文本多得多。它也可能是一个更丰富的信息源，因为视频不仅包含单词，还包含它们背后的语调以及关于物理和文化的丰富信息，这些都无法从文本中获得。

可以肯定地说，一旦我们的模型足够高效，或者我们的计算机变得足够强大，谷歌就会开始在 YouTube 上训练模型。毕竟，他们拥有这个平台；不利用这些数据为自己谋利将是愚蠢的。

AI 下一个「范式」的最后一个竞争者是某种具身化的数据收集系统 —— 或者，用普通人的话来说，机器人。目前，我们无法以适合在 GPU 上训练大型模型的方式从摄像头和传感器收集和处理信息。如果我们能够构建更智能的传感器或扩展我们的计算机直到它们能够轻松处理来自机器人的大量数据涌入，我们可能能够以有益的方式使用这些数据。

很难说 YouTube、机器人还是其他什么东西将成为 AI 的下一个大事件。我们现在似乎深深扎根于语言模型阵营，但我们似乎也很快就会用尽语言数据。

但如果我们想在 AI 方面取得进步，也许我们应该停止寻找新想法，开始寻找新数据！

原文链接：https://substack.com/home/post/p-160974493

#Scaling Laws for Native Multimodal Models

苹果发现原生多模态模型Scaling Laws：早融合优于后融合，MoE优于密集模型

让大模型进入多模态模式，从而能够有效感知世界，是最近 AI 领域里人们一直的探索目标。

目前我们见到的很多多模态大模型应用是「组合式」的：其中集成了数个单独预训练的组件，例如将视觉编码器连接到 LLM 上并继续进行多模态训练；而在谷歌 Gemin 2.0 推出之后，原生多模态模型（NMM）被认为是正确的方向。

但从零开始训练的多模态大模型真的是更好的方法吗？近日，来自法国索邦大学、苹果的研究者进行了一项广泛的 Scaling Laws 研究，涵盖了 457 个采用不同架构和训练方式的模型。

研究表明，不依赖图像编码器的早融合架构与后融合架构相比并没有固有优势。不过，早融合在较低的参数数量下表现出更强的性能，训练效率更高，并且更易于部署。受早融合架构强大性能的启发，实验表明，结合混合专家 (MoE) 可以使模型学习特定于模态的权重，从而显著提升性能。

论文标题：Scaling Laws for Native Multimodal Models
论文地址：https://arxiv.org/abs/2504.07951

研究人员的发现可以概括如下：原生早融合和后融合模型的性能相当，从零开始训练的早融合模型性能与后融合模型性能相当，在计算预算较低的情况下，略优于早融合模型。此外，对于多模态 Scaling Laws 的研究表明，随着计算预算的增加，早融合和后融合的计算最优模型性能相似。

NMM 的 Scaling Law 与 LLM 类似：原生多模态模型的 Scaling Law 遵循与纯文本 LLM 类似的规律，scaling 指数根据目标数据类型和训练组合略有不同。

与此同时，后融合的模型需要更多参数：与早融合相比，计算最优的后融合模型需要更高的参数与数据比（见图 1 右）。

再往下，稀疏性显著有利于早融合的 NMM：在相同的推理成本下，稀疏 NMM 与密集 NMM 相比表现出显著的改进。

在稀疏性训练中，它们会隐式学习特定于模态的权重（图 23）。此外，随着计算预算的增长，计算优化模型更多地依赖于训练 token 数量的扩展，而不是活动参数的数量（图 1 右）。

对于稀疏 NMM，模态无关路由优于模态感知路由：使用模态无关路由训练稀疏混合专家模型，其性能始终优于使用模态感知路由的模型（图 11）。

原生多模态模型的 scaling 属性

下面具体展示原生多模态模型的 Scaling Laws。该团队研究了多种架构选择、不同的数据混合方式、早融合和后融合 NMM 之间的实际权衡、NMM 的原生预训练和持续预训练的性能表现。

NMM 的 Scaling Laws

早融合和后融合模型的 Scaling Laws。

图 2 左图展示了早融合 NMM 在多模态交织数据集、图像 - 描述数据集和文本数据集上的平均最终损失。其最低损失边界遵循与 FLOPs 的幂律关系。拟合该幂律可得出表达式 L ∝ C^−0.049，这指示了随着计算量的增加，性能提升的速率。

拟合该幂律可得出表达式 L ∝ C^−0.049，这指示了随着计算量的增加，性能提升的速率。

分析每种数据类型（例如，图像 - 说明、多模态交织的文档、文本）的 Scaling Laws 时，可以观察到指数会发生变化（表 3）。例如，与多模态交织（L ∝ C^−0.046）相比，该模型在图像说明数据（L ∝ C^−0.061）上实现了更高的性能提升。

为了将损失建模为训练 token 数量 D 和模型参数 N 的函数，他们还拟合了以下参数函数，得到了 scaling 指数 α = 0.301 和 β = 0.335。它们分别描述了 scaling 模型参数和训练 token 数量时的性能提升率。

该团队假设计算量、N 和 D 之间存在线性关系（即 C ∝ N D），推导出了模型参数与计算预算之间的相关规律，详见原论文附录 C。简单来说，对于给定的计算预算 C，以对数间隔的 D 值计算相应的模型大小 N，并确定使损失最小化的参数数量 N_opt。对不同的 FLOPs 值重复此操作，可得到一个 (C, N_opt) 数据集，该团队对其拟合了一个幂律，可预测计算最优模型大小与计算量的关系：N ∗ ∝ C^0.526。

类似地，他们也拟合了估计计算最优训练数据集大小与计算量和模型大小的关系：

这些关系可让实践者在给定固定计算预算的情况下确定最佳模型和数据集大小。在根据数据类型分析时，该团队发现与图像说明数据 (a = 0.520) 相比，多模态交织数据可从较大的模型 (a = 0.532) 中获益更多，而训练 token 则呈现相反的趋势。

该团队在图 2（右）中对后融合模型进行了类似的研究，并观察到了类似的 scaling 行为。具体而言，损失 scaling 指数 (c = −0.0494) 与早融合 (c = −0.0492) 几乎相同。这一趋势在图 3 中显而易见，在较小的模型规模下，早融合的表现优于后融合，而在较大的模型规模下，两种架构的性能收敛到相似的水平。在改变后融合配置时，该团队也观察到了类似的趋势，例如使用较小的视觉编码器和较大的文本解码器。

NMM 和 LLM 的 Scaling Laws 比较。

通过比较 NMM 的 scaling laws 系数与纯文本 LLM（例如 GPT-3、Chinchilla）的 scaling laws 系数，该团队发现它们处于相似的范围内。

具体来说，如果将损失看作计算量的函数，GPT-3 遵循 L ∝ C^−0.048，而该团队的模型遵循 L ∝ C^−0.049，这表明 NMM 的性能遵循与 LLM 类似的 scaling 规律。同样，该团队对 α 和 β 参数的估计值 (α = 0.301, β = 0.335) 与 Hoffmann 等人报告的值 (α = 0.339, β = 0.285) 非常接近。同样，该团队计算出的 a = 0.526 和 b = 0.473 与 Hoffmann 等人的 a = 0.46 和 b = 0.54 非常接近。

这表明：对于原生多模态模型，训练 token 的数量和模型参数应按比例 scaling。然而，由于 a 和 b 之间的差距小于 LLM，因此这一原则对于 NMM 更为适用。此外，由于在该团队的案例中 a = 0.526 大于 b = 0.473，因此在计算预算固定的情况下，NMM 的最佳模型大小大于 LLM，而最佳训练 token 数量则较低。

早融合与后融合 NMM 的计算优化权衡。

虽然后融合和早融合模型的损失会随着 FLOP 的增加以相似的速率降低，但该团队观察到它们的计算优化模型中存在明显的权衡。具体而言，后融合模型的 N_opt 较大，而早融合模型的 D_opt 较大。这表明，在计算预算固定的情况下，后融合模型需要更多参数，而早融合模型则受益于更多训练 token。

这一趋势也反映在早融合的

低于后融合的

。如图 1（右）所示，随着 FLOPs 的 scaling，早融合模型的参数数量显著减少，这对于降低推理成本，从而降低部署后的服务成本至关重要。

早融合的训练效率更高。

该团队比较了后融合和早融合架构的训练效率。如图 5 所示，在相同的计算预算下，早融合模型消耗的内存更少，训练速度更快。随着计算量的增加，这一优势更加明显，这表明：早融合在保持与后融合相当的大规模性能的同时，拥有卓越的训练效率。

值得注意的是，在相同的 FLOPs 下，与早融合模型相比，后融合模型具有更高的参数数量和更高的有效深度（即除了解码器层之外还增加了额外的视觉编码器层）。

不同数据混合方式的 Scaling Laws

图 4 展示了不同的混合方式都遵循相似的 scaling 趋势；然而，scaling 系数会有差别（表 4）。有趣的是，增加图像 - 说明数据的比例（mixtures 1 和 2）会导致 a 降低、b 升高，而增加多模态交织数据和文本数据的比例（mixtures 3 和 4）则会产生相反的效果。

值得注意的是，图像说明数据包含的图像 token 比文本 token 多；因此，增加其比例会导致图像 token 增多，而增加多模态交织数据和文本数据的比例会增加文本 token 的数量。这表明，当图像 token 占主导地位时，训练时间越长，损失的降低速度就越快，而增加模型大小则更快。

该团队还发现，对于固定的模型大小，增加纯文本和多模态交织数据的比例有利于早融合（图 6）。

原生多模态预训练 vs. LLM 的持续训练

下面比较这两种情况：从零开始进行原生训练，以及使用预训练的 LLM 进行初始化后再进行持续训练。

这里使用的初始模型是 DCLM-1B，该模型已使用超过 2T 个 token 进行训练。图 8 表明，当训练时间更长时，原生多模态模型可以缩小与初始化模型的差距。

具体而言，在图像说明数据上，该模型需要不到 100B 个多模态 token 即可达到相当的性能。然而，在多模态交织数据和文本数据上，该模型可能需要更长时间的训练 —— 可多达 1T 个 token。考虑到预训练的成本，这些结果表明，为了在多模态基准测试中实现相同性能，原生训练可能是更有效方法。

迈向多模态专业化

研究证明了在固定计算预算下，早融合模型的性能与后融合模型相当。然而，多模态数据本质上是异构的，训练一个统一的模型来拟合如此多样化的分布可能并非最优方案。

因此研究人员主张在统一架构内进行多模态特化。理想情况下，模型应该隐式地适应每种模态，例如，通过学习特定于模态的权重或专门的专家。多模态模型 + MoE 是一个有潜力的方向，MoE 已在 LLM 中证明了其有效性。

研究观察了不同数量活动参数、不同数量 token 训练的模型，比较了稀疏 MoE 模型和密集 MoE 模型。图 9 显示，在相同的推理成本（或活动参数数量）下，MoE 的性能显著优于密集模型。有趣的是，这种性能差距在模型规模较小时更为明显。这表明 MoE 能够使模型更有效地处理异构数据，并专注于不同的模态。然而，随着密集模型规模变得足够大，两种架构之间的差距会逐渐缩小。

先前关于大模型 Scaling Laws 的研究主要观察验证损失，这种评估与下游任务的表现有很好的相关性。为了验证这一点，研究人员对 LLaVA 混合模型进行了多模态指令调整阶段 (SFT)，并报告了其在多个 VQA 和字幕任务中的准确率和 CIDEr 得分。表 7 证实了不同模型配置的排名。

具体而言，早融合优于后融合，而多模态 MoE 优于密集模型。然而，由于这些模型规模相对较小（15 亿规模）、从零开始训练，并在小型数据集上进行微调，因此总体得分低于目前的 SOTA 水平。

更多细节可参看论文原文。

参考内容：

https://x.com/arankomatsuzaki/status/1910525957452292456

#DexSinGrasp

面对杂乱场景，灵巧手也能从容应对！NUS邵林团队发布DexSinGrasp基于强化学习实现物体分离与抓取统一策略

本文的作者均来自新加坡国立大学 LinS Lab。本文的共同第一作者为新加坡国立大学实习生许立昕和博士生刘子轩，主要研究方向为机器人学习和灵巧操纵，其余作者分别为硕士生桂哲玮、实习生郭京翔、江泽宇以及博士生徐志轩、高崇凯。本文的通讯作者为新加坡国立大学助理教授邵林。

在物流仓库、生产线或家庭场景中，机器人常常需要在大量杂乱摆放的物体中高效地抓取目标。

在这些场景中，如果使用机械夹爪，由于其自由度有限、灵活性不足，需要多次对场景进行操作；而高自由度的灵巧手虽然具有潜在优势，但因控制复杂和训练难度大，在密集遮挡与复杂排列场景下往往表现不佳。

现有方法常采用先分离、后抓取的策略，存在策略切换不够灵活，执行效率低下的问题。

为解决这一挑战，来自新加坡国立大学的邵林团队提出了 DexSinGrasp——一种基于强化学习的统一策略，通过整合物体分离与抓取任务，令灵巧手在杂乱环境中能够自适应调整分离与抓取策略，显著提高抓取成功率和操作效率。该项研究已投稿至 IROS 2025。

论文标题：DexSinGrasp: Learning a Unified Policy for Dexterous Object Singulation and Grasping in Cluttered Environments

论文链接：https://arxiv.org/abs/2504.04516

项目主页：https://nus-lins-lab.github.io/dexsingweb/

代码链接：https://github.com/davidlxu/DexSinGrasp

为了让机器人在多变的杂乱环境中高效分离物体并抓取目标，DexSinGrasp 提出了「统一策略」的设计。该方法通过强化学习构建了一体化的策略框架，实现了「分离—抓取」动作的无缝衔接。该项研究的主要贡献有：

统一强化学习策略：提出一种统一的强化学习策略，实现灵巧手在杂乱环境中对物体的有效分离和抓取。
课程学习与策略蒸馏：融入杂乱环境课程学习以提升不同场景下的策略性能，并通过策略蒸馏获得适用于实际部署的视觉抓取策略。
多难度抓取任务设计：设计一系列不同难度与排列的杂乱抓取任务，通过大量实验验证所提方法的高效性与有效性。

方法统一强化学习策略

DexSinGrasp 的核心在于构建一个统一的策略框架，引入分离奖励项，将「分离障碍」、「抓取目标」整合为一个连续的动作决策过程，充分利用了分离与抓取融合的优势，避免传统多阶段方法中各模块间效率低下和动作衔接不畅的问题。为此，我们设计了一个分段式奖励函数，其关键组成包括：

接近奖励：奖励项
引导手掌和手指在初始阶段向目标物体靠近，从而确保机器人迅速定位目标。
抬升与目标对齐奖励：在目标接触后，奖励项
鼓励机器人将物体抬升至预设位置，实现准确对齐。
分离奖励：通过奖励项
，使机器人在抓取过程中主动推动、滑动或轻推周围障碍物，从而为抓取创造足够空间。

奖励函数依据手掌与手指到目标物体的距离

来自动转换，从「接近」阶段逐步过渡到「抓取」阶段，使整个过程更加平滑和高效。该统一策略不仅提升了训练样本的利用效率，还使机器人能根据实时场景动态选择微调指尖、轻推障碍或直接抓取，从而在杂乱环境下实现稳定的抓取操作。

杂乱环境课程学习

在高度杂乱的场景中直接训练机器人往往容易陷入局部最优，导致成功率低下。为此，我们引入了「杂乱环境课程学习」的机制，具体包括：

任务分级设计：从最简单的单目标抓取任务开始，逐步引入障碍物。我们设计了不同难度的任务，例如：

密集排列任务：用 D-4、D-6、D-8 表示，不同数字代表环境中障碍物数量的递增；
随机排列任务：用 R-4、R-6、R-8 表示，以验证策略在非规则分布场景下的泛化能力。

循序渐进训练：先在障碍物较少且排列较规则的环境中训练出初步策略，然后逐步过渡到障碍物数量更多、排列更随机的复杂场景。这样的训练策略能显著提高策略的稳定性和泛化性能，确保机器人在极端密集的环境下也能有效分离并抓取目标。

教师—学生策略蒸馏

在仿真环境中，我们能够利用精确的物体位置、力反馈等特权信息训练出高性能的教师策略。但在真实场景中，这些信息难以获取，为此我们设计了教师—学生策略蒸馏方案：

教师策略：利用仿真中丰富的特权信息训练出性能优异的策略，能够精细地控制物体的分离和抓取动作。
数据采集与行为克隆：通过教师策略生成大量示范数据（包括视觉观测、点云数据以及动作指令），并采用行为克隆的方法训练出只依赖摄像头采集的点云和机器人自感知数据的学生策略。这样，在真实环境中，机器人无需额外传感器信息也能保持高成功率，完成从仿真到实机的平滑迁移。

实验结果

为了测试 DexSinGrasp 策略在分离抓取时的有效性和泛化性，以及杂乱环境课程学习的有效性，设计了三组实验进行测试，并与两种基线比较。

基线 1 仅训练了一个抓取策略，没有鼓励对周围物体进行分离。基线 2 将分离和抓取策略分开且分阶段进行。

评价指标为抓取成功率（SR）和平均步数（AS）。抓取成功率越高，说明策略的有效性越高，平均步数越少，说明策略的效率越高。

实验 1

对教师策略和学生策略在不同数量障碍的紧密排列进行测试，证明了 DexSinGrasp 的有效性和高效率。图示是教师策略在密集摆放模式下障碍物数量为 4、6、8 时的仿真演示。

实验 2

对教师策略和学生策略在不同数量障碍的随机排列进行测试，结果证明了 DexSinGrasp 在随机物体摆放下也可以实现成功分离抓取，对不同的场景有一定泛化性。图示是教师策略在随机摆放模式下障碍物数量为 4、6、8 时的仿真演示。

实验 3

对杂乱环境课程学习的方式进行测试。我们尝试了无课程学习、先随机排列再紧密排列的课程学习，以及先紧密排列再随机排列的课程学习的训练模式。

我们发现，无课程学习训练的各个策略中，随机排列的任务表现不佳；先随机排列再紧密排列的课程学习获得的各个策略中，紧密排列的任务表现不佳；而先紧密排列再随机排列的课程学习在不同的任务上均取得了不错的成功率，证实了所提出的课程学习机制在不同场景下的有效性。

此外，研究团队还在实机平台上进行了验证。使用 uFactory xArm6 搭载 LEAP 手，并配备两台 Realsense RGB-D 摄像头以进行实时点云数据融合与滤波处理。图示为实机实验中对密集与随机摆放的 4、6、8 个物体场景下成功分离与抓取的演示。实验表明，经过教师—学生策略蒸馏后的视觉策略在实际操作中也能有效完成杂乱环境的有效分离与抓取。

总结

研究团队所提出的 DexSinGrasp 是一种基于强化学习的统一框架，通过整合物体分离与抓取任务，实现了灵巧手在杂乱环境中的高效操作。

该方法突破以往直接抓取或多阶段分割的策略，利用推移、滑动等动作在抓取过程中直接调整障碍物布局，结合环境复杂度递进式的杂乱环境课程学习与教师—学生策略蒸馏技术，有效提升视觉策略的泛化能力与仿真到现实的迁移效果。

实验表明，该方法在多种测试场景中展现出优于传统方法的抓取成功率和操作效率。未来研究将拓展至动态复杂场景下的多形态物体操作，增强抗干扰能力，进一步提高系统在非结构化环境中的泛化性与适应性。

#继VAE之后，Adam也拿到了ICLR 时间检验奖

OpenAI联创两次获奖

刚刚，ICLR 2025 宣布了今年的时间检验奖获奖论文。这个奖项旨在表彰十年前在 ICLR 2015 上发表的对该领域产生持久影响的论文。

经久不衰的「Adam 算法」拿到了冠军，比 Transformer 论文更早引入注意力机制的「Neural Machine Translation by Jointly Learning to Align and Translate」拿到了亚军。这样的结果可谓「实至名归」。

Adam：深度学习领域应用最广泛的优化算法之一

Adam 算法，即 Adaptive Moment Estimation 算法，是一种结合了动量法和 RMSprop 算法思想的自适应学习率优化算法。

Adam 革命性地改变了神经网络训练，在各种架构和任务中实现了显著更快的收敛速度和更稳定的训练过程。如今，它已经成为深度学习中最广泛采用的优化算法之一。

Adam 算法的创新之处在于，它结合了 AdaGrad 和 RMSProp 的优点，通过维护第一矩估计（均值）和第二矩估计（未中心化的方差）来动态调整每个参数的学习率，能够处理稀疏梯度和非平稳目标函数。

它的重要性体现在其广泛的应用场景，无论是计算机视觉、自然语言处理还是强化学习等领域，Adam 算法都为模型的高效训练提供了有力支持，极大地提高了模型的训练效率和性能，成为无数最先进模型的默认优化器。

根据 Google Scholar 的数据，Adam 论文的被引量已经超过 21 万。

论文链接：https://arxiv.org/abs/1412.6980

该论文总共有两位作者 ——Diederik P. Kingma 和 Jimmy Lei Ba。

Diederik P. Kingma 是一位计算机科学家和研究员，专注于机器学习和生成式建模的可扩展方法。他的重要贡献包括变分自编码器（VAE）、Adam 优化器、Glow 和变分扩散模型。其中，VAE 获得了去年的 ICLR 时间检验奖。所以，这次是 Diederik P. Kingma 第二次获得该奖项。而截至目前，该奖项总共就颁了两次。

2017 年，他以优异成绩获得阿姆斯特丹大学博士学位。2015 年，他作为创始团队成员参与创建了 OpenAI。在此之前，他共同创立了 Advanza 公司，该公司于 2016 年被收购。

他的职业生涯包括：

2009 年和 2012 年：在纽约大学 Yann LeCun 实验室担任初级研究科学家；
2010-2012 年：Advanza 联合创始人兼技术负责人，公司于 2016 年成功退出；
2013-2017 年：在阿姆斯特丹大学攻读博士学位，导师为 Max Welling，研究领域为深度学习和生成模型；
2015-2018 年：OpenAI 创始团队成员和研究科学家，领导算法团队，专注于基础研究；
2018-2024 年：在 Google Brain/DeepMind 担任研究科学家，领导多个研究项目，主要是文本、图像和视频的生成模型；
2024 年至今：在 Anthropic 研究大规模机器学习。

另一位作者多伦多大学 Jimmy Lei Ba 现在是多伦多大学的助理教授。他的长期研究目标是解决一个计算问题：如何构建具有人类效率和适应性的通用问题解决机器。他的研究兴趣主要集中在开发高效的深度神经网络学习算法上。他的研究领域与 NeurIPS、ICLR 和 ICML 等研究社区有交叉。此外，他对强化学习、自然语言处理和人工智能也有广泛的兴趣。

Jimmy Lei Ba 在 Geoffrey Hinton 的指导下完成了博士学位。他的硕士（2014 年）和本科学位（2011 年）均在多伦多大学获得，师从 Brendan Frey 和 Ruslan Salakhutdinov。他是 CIFAR AI chair，曾在 2016 年获得 Facebook 机器学习研究生奖学金。

亚军论文

比 Transformer 提前三年引入注意力机制

获得 ICLR 时间检验奖亚军的论文「Neural Machine Translation by Jointly Learning to Align and Translate」同样来头不小，图灵奖得主 Yoshua Bengio 是该论文的作者之一。

论文链接：https://arxiv.org/abs/1409.0473

去年 12 月，AI 大牛 Andrej Karpathy 专门发帖为这篇论文鸣不平，称它是「真正引入注意力机制的论文」，但受到的关注远远不及三年后才出现的 Transformer 论文。

具体来说，这篇论文的创新之处在于，它引入了一种注意力形式，从根本上改变了序列到序列模型处理信息的方式。在此之前，编码器 - 解码器架构通常将整个输入序列压缩为固定长度的向量，从而为较长的序列造成内存瓶颈。该方法使模型能够在翻译过程中动态地「关注」源句子的不同部分，从而处理相关的上下文信息。这种注意力机制已经成为现代深度学习的基石，远远超出了机器翻译的范畴，形成了 transformer 和大型语言模型的基础。这篇论文的实际影响是巨大的，使其成为对神经网络架构最有影响力的贡献之一。

这篇论文总共有三位作者：Dzmitry Bahdanau、Kyunghyun Cho 和 Yoshua Bengio

Dzmitry Bahdanau 在加拿大 Mila 研究所完成了博士学位，师从 Yoshua Bengio。他现在是一位在 ServiceNow 旗下（前 Element AI）工作的研究科学家。他同时也是 Mila 的核心产业成员和麦吉尔大学的兼职教授。

Dzmitry Bahdanau 坚信人类语言技术（HLT，他认为这是比 NLP 更好的称呼）将改变人类与软件交互和获取知识的方式。事实上，这种改变已经开始发生（比如网络搜索），但这仅仅是个开始。Bahdanau 对 HLT 技术栈各个层面的研究问题都有浓厚兴趣，包括深度学习基础、基础模型训练、特定任务算法（尤其是语义解析）以及用户与 AI 系统的交互体验。他近期正在进行的工作主要集中在语义解析和面向任务的对话方法、代码生成、神经模型的系统性（组合性）泛化和样本效率上。

在发给 Karpathy 的邮件中，Dzmitry Bahdanau 曾详细谈过他们当年研究「注意力机制」的往事。

他提到，「我作为实习生来到 Yoshua 的实验室…… 我告诉 Yoshua 我愿意做任何工作。Yoshua 安排我参与机器翻译项目…… 有一天，我突然想到让解码器 RNN 学习在源序列中搜索放置游标的位置会很好。这有点受到翻译练习的启发，在中学学习英语时会用到这种练习。当你翻译时，目光在源序列和目标序列之间来回移动。我提出了对 BiRNN 状态进行软搜索作为 softmax 然后进行加权平均的想法。这个方法从一开始就表现出色，令人振奋。我称这种架构为 RNNSearch，我们赶紧发布了一篇 arXiv 论文，因为我们知道 Ilya 和谷歌的同事们在他们强大的 8 个 GPU LSTM 模型（RNN Search 仍在 1 个 GPU 上运行）上领先于我们。事后证明，这个名称不太好。更好的名称（attention）是由 Yoshua 在最终定稿中添加的。」

另一位作者 Kyunghyun Cho 是纽约大学计算机科学和数据科学教授，同时担任 Genentech Research & Early Development (gRED) Prescient Design 团队的前沿研究执行总监。2025 年，他被任命为 Glen de Vries 健康统计学教授。在获奖论文写作期间，他曾在蒙特利尔大学担任博士后研究员，师从 Yoshua Bengio 教授。

在 ICLR 时间检验奖颁发之际，或许我们也可以重读这些经典论文，从中找到关于未来方向的新启发。

参考链接：https://blog.iclr.cc/2025/04/14/announcing-the-test-of-time-award-winners-from-iclr-2015/

#FreDF

一行代码！FreDF频域损失稳定提升时间序列预测精度

本文由浙江大学、中南大学、上海交通大学、Tiktok、北京大学、南洋理工大学联合完成。第一作者王浩为浙江大学硕博连读生，发表NeurIPS、ICLR、KDD、WWW、TOIS等顶级会议和期刊十余篇。通讯作者为北京大学李昊轩助理研究员和南洋理工大学陶大程教授。

时间序列预测在气象预报、工业设备维护、医疗监测等领域具有关键应用价值。本文揭示现有方法忽略了标签序列中的自相关性，导致训练目标有偏。进一步，提出一种基于频域标签训练的新范式——FreDF，只需加入一行代码，即可在主流模型上实现预测精度的稳定提升。

论文标题：FreDF: Learning to Forecast in the Frequency Domain
论文地址：https://openreview.net/forum?id=4A9IdSa1ul
代码地址：https://github.com/Master-PLC/FreDF

被忽视的标签自相关性

时间序列中的自相关性指的是「序列在不同时间步之间的相关性」，在时间序列预测中，这种自相关性既存在于模型的输入序列（历史观测值之间的相关性），也存在于标签序列（不同步标签之间的相关性）。然而，现有方法（如 Transformer、LSTM 等）主要聚焦于输入序列的自相关建模，普遍忽视了标签序列自相关性的影响。

具体而言，主流的直接预测范式（Direct Forecast，DF）通过多任务学习同时预测多步标签，其损失函数为：

其中，

为标签，

为预测值。该方法隐式假设标签序列在给定输入时条件独立（这样极大似然才等价于最小化 MSE）。但时间序列预测任务中，标签序列往往呈现显著的自相关性。因此，现有 DF 方法与时序数据生成机制存在失配。

【形式化】根据定理 3.1：当标签之间的相关系数大于 0 时，DF 方法的损失函数相比对数似然函数有偏。

使用频域标签训练时间序列模型

Motivation

FreDF 的核心是利用傅里叶变换将标签序列投影到频域。在频域中，不同标签之间的相关性被有效抑制。这一预期符合直觉：频率 k 处的频谱分量一般不依赖于频率 k'<k 处的频谱分量生成。论文中的定理 3.3 进一步验证了这一点。

由于频域中标签之间的相关性被抑制，根据定理 3.1，在频域计算的损失函数（如 MSE、MAE）相对对数似然函数无偏。

图 1. 标签序列中的自相关性分析。

案例分析：图 1（a）展示了自相关性在生成标签序列中的影响：第 t 时刻的标签不仅和输入有关，也和上一时刻的状态有关。图 2（b-d）量化了给定输入后，不同标签在时域和频域的自相关强度。结果表明：标签序列的自相关性在时域中显著，在频域中被抑制。

实现方法

受 Motivation 节启发，FreDF 提出了一种基于频域标签的模型训练方法，具体步骤如下：

使用傅里叶变换将标签序列从时域转换到频域：
。标签序列的自相关性在频域中被有效抑制。类似地，将模型的时域预测值由时域变换到频域：
。
计算频域损失：
。
融合时频损失：
。这一步是可选的——频域损失单独使用，即可吃下绝大多数性能收益。

FreDF 方法支持多种预测模型（如 Transformer、MLP 等），其实现非常简单：只需在模型的损失函数中添加频域损失即可。以下是一个基于 PyTorch 的简单实现示例，其中 outputs 为模型的时域预测值，batch_y 为标签序列。

# 原时域损失
loss_tmp = ((outputs-batch_y)**2).mean()
# 所提频域损失
loss_feq = (torch.fft.rfft(outputs, dim=1) - torch.fft.rfft(batch_y, dim=1)).abs().mean() 
# 注释1. 频域损失可与时域损失加权融合，也可单独使用，一般均有性能提升，见灵敏度实验部分。
# 注释2. 频域损失使用MAE而不是MSE，是因为不同频谱分量的量级相差非常大。使用MSE会进一步放大这种差异，导致优化过程不稳定。

图 2. FreDF 工作流。

实验结果

FreDF 可以显著提高预测性能。以 ETTm1 数据集为例，FreDF 将 iTransformer 的 MSE 降低了 0.019，这一改进与过去 1.5 年中该数据集性能提升相当（Fedformer 到 TimesNet，MSE 降低了 0.017）。这说明通过处理标签中的自相关性，FreDF 可以显著提升模型的预测性能。

FreDF 在短期预测任务上也有显著提升。在 M4 数据集上，FreDF 增强的 FreTS 在 3 个指标上均平均优于原生 FreTS 和基线模型。FreDF 在长期和短期预测任务上都展现出了良好的性能，证明了其作为一种通用预测范式的潜力。

论文还进行了消融实验，研究时域损失、频域损失对模型性能的贡献。结果表明：仅使用频域损失即可取得显著的性能改进，而适当融合时域损失可以进一步优化性能。

进一步细化消融实验，研究权重 α 对性能的影响。在绝大多数情况下，频域损失的性能均优于时域损失（α=1 vs α=0）。这说明即使不对 α 做调节，直接将时域损失替换为频域损失，也可以有效提升时序预测性能，真正实现「一行代码涨点」。此外，预测性能一般在 α 接近 1（如 0.8 或 0.9）时最佳。这意味着在时域和频域损失之间取得适当的平衡，并适当强调频域损失，可以获得较好的预测结果。