51c大模型~合集130

whaosoft-143

已于 2025-05-24 12:02:51 修改

阅读量1k

点赞数 9

分类专栏：人工智能文章标签：人工智能

于 2025-05-24 00:30:00 首次发布

本文链接：https://blog.csdn.net/weixin_49587977/article/details/148119641

版权

人工智能专栏收录该内容

338 篇文章

订阅专栏

我自己的原文哦~ https://blog.51cto.com/whaosoft/13933214

#Veo 3

真碾压Sora了！谷歌Veo 3首次实现音画同步，视频模型直接「开口说话」

还记得 2023 年 AI 视频最出圈的片段吗？威尔·史密斯吃面，动作鬼畜，画面寂静——

当时的视频大模型，只会动，不会说话。Sora 的发布让视频质量飞跃、物理规则建模进步巨大，也直接引爆了整条赛道。

Runway、Pika、Luma、Kling、Genmo、Higgsfield、Lightricks 等初创公司，以及 OpenAI、谷歌、阿里、字节等科技巨头，纷纷入局。

但无论画质如何进步，视频还是「哑巴」——

你可以让人物奔跑、翻转，甚至做出慢动作，但如果想让角色说话、听到风声、脚步声，甚至感受到炒菜时锅里的滋滋声？

对不起，还得自己导音频。

更麻烦的是，配完音还可能对不上节奏——口型和对白不同步，脚步踩不到点上，情绪氛围总差一口气。

直到今天，谷歌正式发布 Veo 3。AI 视频，终于能「开口说话」了——

Veo 3 不仅能生成高质量视频，还能理解视频中的原始像素，自动生成与画面同步的对话、多种音效。翻译成中文——

只用一个提示词，你就能得到画面+对白+唇动对齐+拟音音效一气呵成的视频。

提示语：90 年代酒吧里的情景喜剧场景，背景墙上的霓虹灯写着「fofr」。一对夫妇说了些什么，观众大笑起来。

，时长00:08

对白生成、唇动对齐和情绪音效（观众笑声），一气呵成提示语：一位游戏主播（streamer）只用他的镐子（pickaxe）赢得了「 Victory Royale」。

，时长00:08

生成出的内容是完整直播风格视频，还带着夸张的欢呼与音效，画面有声有色尽管凌晨才发布，Veo 3 已在社交网络掀起热潮，多个视频动辄数十万次播放，令人惊叹不已。

雪地步伐清晰传来咯吱声，鸭子嘎嘎叫，烹饪滋滋作响，撒胡椒声......

得益于模型对物理世界的深刻理解，所有声音非后期拼接，而是与画面实时同步生成。

，时长00:40

Veo 3 还能精准捕捉画面情绪，渲染氛围音效。这个麦芬蛋糕在烤箱中尖叫，逼真到让人有点毛骨悚然。

，时长00:08

提示词：a video with dialogue of two muffins while baking in an over, the first muffin says "I can't believe this Veo 3 thing can do dialogue now!", the second muffin says "AAAAH, a talking muffin!"至于对口型，Veo 3 也表现突出：无论是脱口秀现场讲笑话，还是说唱音乐视频中的节奏口型，都能精准同步，真实感爆棚。

，时长00:08

提示词：a man doing stand up comedy in a small venue tells a joke (include the joke in the dialogue）

，时长00:08

提示词：a man in a music video raps to the camera about generating videos with Veo3

生成歌剧和音乐会视频，成为检验 Veo 3 音画同步水平的高频场景。这个视频里，鼓手的每一次击打动作都与鼓点节奏完美同步，与歌手表演同步，展现了模型在复杂多声音动态场景下出色的音画合成能力。

，时长00:15

支持多角色、多种风格的创作视频，虚拟人物演技不比《演员请就位》强多了？

，时长01:16

长提示词理解与事件流生成方面，Veo 3 同样出色。以前视频模型提示词一长就容易崩。但 Veo 3 能理解长句子，完成一个完整、时间有序、逻辑清晰的小片段。来看这个视频。

提示词：黎明时分，一位男士在美丽的夏日公园里奔跑，他上气不接下气，然后放慢速度，看着镜头，气喘吁吁地说：「用 API 运行 AI。使用 Replicate。」然后他继续跑。最后，「Replicate」的字样渐渐消失在视野中。

包含动作变化、对白插入、镜头切换、logo 渐隐……多步骤连贯执行，事件流准确，效果不错：

，时长00:08

音画同步生成，直接把视频模型拉到了新时代。而其中关键能力，离不开 DeepMind 过去就悄悄铺下的一项底层技术：V2A（ Video-to-Audio ）。2023 年 6 月，DeepMind 就首次披露：

他们正开发一套 AI 系统，能从视频像素 + 文本提示中，自动生成完整音轨。包括对白、动作音效、环境音、背景音乐……

它的原理是：将视频视觉信息编码为语义信号，与文本提示一同输入扩散模型，生成匹配的音频波形。可以说，V2A 就是 Veo 3 的「耳朵」和「声带」。再配合谷歌的音视频数据资源—— YouTube 很可能是训练数据之一—— Veo 3 的音画合成功能，已经遥遥领先。一个小遗憾：视频仍只有 8 秒。

另外，目前 Veo 3 仅面向美国 Ultra 订阅用户开放，定价为 249.99 美元/月。这是谷歌专为专业创作者、开发者推出的高阶会员服务。

虽然门槛不低、时长有限，但 Veo 3 的初次亮相，已足够震撼。过去生成式 AI 是「语言+图像」的时代，现在，正在进入「视听一体」的新阶段。生成视频从会动 → 能说 → 有氛围，一步步突破不同模态的边界。如果说 Sora 是让 AI 看懂物理世界，那 Veo 3，就是让 AI 能「听懂」,「会说」。看来，音画一体，将是下一轮视频模型竞赛的标配。

#KnowSelf

大模型乱试错、盲调用？让智能体有「知识边界感知」能力

在 AI 领域，大模型智能体的发展日新月异。我们今天要介绍的这篇 ACL 2025 论文——《Agentic Knowledgeable Self-awareness》，聚焦于如何提升智能体的「知识边界感知」能力，使其在复杂任务规划中更加得心应手，为智能体的可靠应用提供了新思路。

论文标题：Agentic Knowledgeable Self-awareness

论文链接：https://arxiv.org/abs/2504.03553

代码链接：https://github.com/zjunlp/KnowSelf

30 秒速读版本

KnowSelf 聚焦于大模型智能体在决策过程中所面临的「知识边界感知」问题。受人类决策机制启发，本文指出智能体应具备三类行为模式的自主决策能力：快速反应（快思考）、深度推理（慢思考），以及主动调用外部工具（本文以外部知识增强为例）。

KnowSelf 通过学习自身的知识边界，使智能体能在不同情境下自主判断是否具备足够知识进行生成和推理，以减少无效试错与知识滥用。实验表明，KnowSelf 可提升智能体的知识调用准确率、任务规划效率和跨任务泛化能力。

研究背景：智能体规划的困境

大模型智能体在诸多领域展现出巨大潜力，但现有智能体规划方法存在弊端。传统方法多采用「盲目灌输」模式，将标准轨迹、外部反馈和领域知识无差别地注入智能体模型，完全忽视了人类决策过程中至关重要的「自我认知」原则。

这种「无脑式」灌输导致智能体在面对意外信号时极易崩溃，陷入模式崩塌困境，且过度试错与盲目知识融合在实际场景中往往不可行，还会大幅推高模型推理成本。

人类在决策时，会根据面临的情境动态评估自身状态，灵活调整策略。比如，当我们遇到简单问题时，能迅速做出判断并行动；遇到棘手问题，会放慢思考节奏，深入分析；而面对超出自身能力范围的问题，会主动寻求外部知识或帮助。

然而，当前大模型智能体普遍缺乏这种「知识边界感知」能力，导致规划行为低效且脆弱。

核心方法：KnowSelf 框架

为破解这一难题，论文提出了智能体「知识边界感知」的思路，并基于此设计了数据驱动 KnowSelf 方法，让大模型智能体能够自主调节知识的运用。

知识系统构建

对于外部工具（知识），并采用了一种简单高效知识收集方法，以极低成本完成知识库的离线构建。该知识系统由知识库和知识选择模块组成，其中知识库包含一系列知识条目，知识选择模块能依据智能体历史轨迹从知识库中精准挑选所需知识。这种设计兼顾了知识系统的实用性和高效性。

情境判断标准

论文基于智能体的能力，将情境划分为三类：快速思考（Fast Thinking）、慢速思考（Slow Thinking）和知识型思考（Knowledgeable Thinking）。并提出了启发式情境判断标准，用于标记智能体自我探索轨迹中的特殊标记，从而针对智能体的能力构建出训练数据，为后续训练奠定基础。

快思考：智能体无需多虑，能直接给出正确行动
慢思考：智能体虽能给出正确行动，但需经过多步思考与反思
知识型思考：智能体自身无法提供正确行动，必须借助外部知识辅助思考

自我认知训练

KnowSelf 采用双阶段训练过程，先通过监督式微调（SFT），让智能体模型初步掌握自我认知规划模式；再引入 RPO 损失函数，进一步强化自我认知能力。在这一体系下，智能体会生成特定特殊标记，表明其对情境的判断，在推理过程中实现知识查询与反思的精准调控。

实验成果

本文在两个模拟大模型智能体规划数据集 ALFWorld 和 WebShop 上，对 KnowSelf 进行了全面评估，涵盖 Llama-8B 和 Gemma-2B 两个不同规模的模型。实验结果显示，KnowSelf 凭借极少的反思和知识使用，性能优于多种基线方法。

与无知识基线方法对比，KnowSelf 在 Llama-8B 和 Gemma-2B 模型上均展现出卓越性能。与知识增强型基线方法相比，KnowSelf 仅用少量知识，就超越了所有的 100% 知识增强基线方法，充分证明了并非知识越多越好，精准的知识引入机制才是关键。

进一步分析：深入探索智能体自我认知

智能体规划模式过拟合

本文通过消融实验，发现仅在标准轨迹上训练的模型更易陷入模式拟合，而引入反思和知识边界感知后，智能体规划能力提升。这表明，在许多情况下，智能体并非不能做出正确决策，而是受限于规划模式。此外，过度引入知识可能会对性能产生负面影响，因此凸显了精准知识引入机制的重要性。

智能体规划泛化能力

在泛化能力测试中，KnowSelf 在 ALFWorld 的三项挑战性任务上表现优异，优于基于提示的基线方法 Reflexion。这表明 KnowSelf 能有效打破传统规划轨迹训练的局限，使模型具备跨任务情境感知能力，在未见过的任务上能灵活运用反思和知识引入策略。

模型与数据规模影响

随着模型规模扩大和自我认知训练数据量增加，KnowSelf 性能稳步提升。当自我认知训练数据相对比例低于 40% 时，模型性能可能出现波动甚至下降，推测模型需达到一定自我认知水平才能稳定发挥效能。

智能体自我认知机制机理

本文在 Transformer 模型的各层计算不同情境标记的平均概率，发现 Reflection 标记概率始终为零，Knowledge 标记和 Action 标记在模型最后几层才出现。这表明智能体在内部决策时，仅在最后几层隐藏层才决定是否调用外部知识，且调用知识的决策可能更晚出现，暗示智能体在 Token 空间内通过隐式奖励引导进行探索，最终做出决策。

结论与展望

本文提出的 KnowSelf 方法为智能体规划提供了新思路，初步探索了智能体知识边界感知这一问题。在后 R1 时代，随着 Search-R1、ReSearch、Deep Researcher 等工作的出现，基于 RL 的智能体自主知识获取工作展现了巨大的前景，KnowSelf 还只是在这个时代之前的初步产物，相信随着技术的发展，基于 RL 的智能体自我认知能迸发更大的活力。

#FlashComm

帮大模型提速80%，华为拿出昇腾推理杀手锏，三招搞定通算瓶颈

在今年 2 月的 DeepSeek 开源周中，大模型推理过程中并行策略和通信效率的深度优化成为重点之一。

近日，华为数学家出手，祭出 FlashComm，三箭齐发，解决大模型推理通算难题：

FlashComm1: 大模型推理中的 AllReduce 通信优化技术。将 AllReduce 基于通信原理进行拆解，并结合后续计算模块进行协同优化，推理性能提升 26%。

FlashComm2：大模型推理中以存换传的通信优化技术。在保持计算语义等价的前提下，实现 ReduceScatter 和 MatMul 算子的计算流程重构，整体推理速度提升 33%。

FlashComm3: 大模型推理中的多流并行技术。充分挖掘昇腾硬件的多流并发能力，实现 MoE 模块的高效并行推理，大模型吞吐激增 30%。

随着大语言模型（Large Language Models, LLMs）规模的指数级扩张，其部署形态也随之变化，显卡配置朝着规模化、集约化演进。从神经网络时代的单卡部署，到稠密模型时代的多卡 / 单节点部署，再到以最近发布的 DeepSeek V3/R1 模型为代表的混合专家（Mixture of Experts, MoE）模型，大语言模型甚至会采用数百卡组成的集群和超节点来部署。

可以说，模型推理早已不是「单兵作战」，而是一场高协同的「群体作战」。而在这基于集群的大模型推理中，集合通信操作就像是一群工人协作盖房子时传递材料和信息的方式，能让多个计算节点高效配合完成任务。

有一些常用集合通信操作，比如全量规约（AllReduce）可以想象成一群工人各自收集了不同区域的建筑材料数据，全量规约就是把所有工人手里的数据汇总到一个地方，进行求和、求平均值等计算。在大模型里，多个计算节点可能各自计算了一部分参数梯度，AllReduce 操作能把这些梯度汇总起来，计算出最终的梯度，用于更新模型参数。

再比如全量收集（All-Gather）则类似于所有工人把自己手头的材料清单共享给彼此，这样每个人都知道所有材料的情况。在大模型里，All-Gather 操作能让每个计算节点都获取到其他节点计算出的部分结果，将分散在各节点的数据聚合到所有节点。还有像规约散射（Reduce-Scatter）操作则相当于先把所有建筑材料按类别汇总，再重新分配给不同工人。在大模型中，Reduce-Scatter 先对数据进行规约计算，再将计算结果分散到各个节点，常用于在多个节点间分摊计算压力。也还有像 All-To-All 这样允许所有节点之间相互交换数据，让每个节点都能获取到其他节点的相关数据的操作。

这些形形色色的集合通信操作，大多用来支持在集群上运行大模型推理时的并行策略，比如常见的张量并行（TP）是把一个大的张量（可以理解为模型的参数矩阵）拆分成多个部分，分配到不同的计算节点上计算。在这个过程中，节点之间需要频繁交换数据，比如 All-to-All 操作就经常被用到，让各个节点能获取计算所需的张量片段，实现高效的并行计算。

再如数据并行（DP），其将输入数据分成多个批次，在不同节点上同时处理不同批次的数据。各节点计算完各自批次数据对应的梯度后，需要用 AllReduce 操作把这些梯度汇总起来，计算出平均梯度，再将更新后的模型参数发送给所有节点，保证各节点使用相同的模型。

而被 MoE 带火的专家并行（EP）就像工厂的流水线，不同的计算节点负责模型不同专家的计算。在这个过程中，节点之间需要传递中间计算结果，类似广播操作会把上一层的输出传递给下一层的节点，确保专家正常激活运行。

由上可以看出，集合通信操作是大模型推理中多个计算节点协作的「桥梁」，不同的并行策略（TP、DP、EP）通过这些操作实现高效的数据交互和计算，从而加速大模型的推理过程。

通信：Scaling law 头顶的乌云

随着集群规模和推理并发数的飞速增长，在大语言模型的推理中，通信面临的压力也在不断变大，在推动应用通算融合技术上还有一些问题需要解决：

1) 随着 MoE 模型规模的持续扩张，专家数量与参数总量呈指数级增长，单个模型参数突破千亿级别已成常态。尽管 MoE 通过稀疏激活机制仅调用部分专家，但海量参数的存储与调度仍对硬件构成严峻挑战。MoE 模型的稀疏计算特性虽能提升推理效率，却引入了更复杂的流程与通信瓶颈。专家路由、数据分发与结果聚合等环节紧密耦合，通信带宽需求随专家数量呈平方级增长，极易引发网络拥塞；而流程各阶段的强依赖性使得计算与通信难以重叠，硬件资源长期处于「饥饿」状态。如何实现通信与计算的深度协同成为关键难题。

2) 传统的通信方案中小并发推理场景下常用的通信策略 —— AllReduce，存在着一些缺陷：

AllReduce 在通信原理上，等价于 ReduceScatter 和 AllGather 的组合。直接使用 AllReduce 算子，在通信次数上较少，适用于小并发场景。但在大并发场景下，AllReduce 算子对比拆分的 ReduceScatter 和 AllGather，收益并不明显。
Transformer 结构中 AllReduce 算子之后，往往会有一些其他计算操作，如 RMSNorm、以及 MLA 中的降维计算等。这些计算过程会在不同卡上执行相同的计算操作，在小并发场景下可能耗时不高，但在大并发场景下，会带来不小的代价。

3) 当前主流的并行方案是张量并行 (TP) 在应用 AllReduce 时也面临一些问题。TP 方案通过卡间均匀切分权重的方式，虽然能够有效降低每张卡上加载的模型权重大小，但卡间求和的 AllReduce 操作在大模型端到端推理时延中占比较高；在多节点的部署场景中，跨节点的带宽限制进一步加剧了整网时延劣化。

针对上面三个难题，华为团队用数学补物理，给出了他们的系列性创新解法，把加速大模型推理提到了新的高度。

项目链接：https://gitcode.com/ascend-tribe/ascend-inference-cluster/tree/main/FlashComm

FlashComm：别让通信扼住算力的咽喉

FlashComm1 通算重组：给通信装上「智能压缩器」

传统 AllReduce 的笨重通信方式如同用集装箱运输散装货物，华为团队则通过数学手段，基于昇腾硬件特点，将其拆解重构：先将数据智能分拣（ReduceScatter），再对精简后的核心信息进行广播（AllGather）。在这两个阶段之间，创新性插入数据投影降维和 INT8 动态量化技术，使后续通信量直降 35%，关键计算量锐减至 1/8。

这种「先浓缩再传递」的智慧，让 DeepSeek 模型 Prefill 推理性能提升 22 ∼ 26%，Llama3.1-70B 模型的 Decode 阶段性能提升 14%，如同为数据洪流建造了分级疏导系统。

技术博客：https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/FlashComm/ascend-inference-cluster-flashcomm.md

FlashComm2 以存换传：重新定义计算与通信的平衡

面对 TP+AllReduce 架构的通信瓶颈，团队发现了一个精妙的数学等价关系：通过调整矩阵乘法的并行维度，在保持计算结果精确性的前提下，将原本需要传输的三维张量「压扁」成二维矩阵。这种维度魔法配合 INT8 量化技术，使得 DeepSeek 模型在注意力机制转换阶段的通信量骤降 86%，整体推理速度提升 33%。

这就像在保证货物完整性的前提下，把运输集装箱体积压缩了五分之四，让数据传输真正实现「轻装上阵」。

技术博客：https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/FlashComm/ascend-inference-cluster-flashcomm2.md

FlashComm3 多流并行：打破计算链条的串行桎梏

针对上文提到的最后一个问题，华为团队提出了昇腾亲和的大模型推理多流并行技术。

在 MoE 模型的推理过程中，华为团队如同拆解精密钟表般对 DeepSeek V3/R1 的计算流程展开深度剖析。通过数学重构将原本环环相扣的激活通信、门控决策等五大模块拆解重组，借助昇腾硬件的多流引擎实现三股计算流的精准并行：当一组数据正在进行专家计算时，另一组数据已开启门控决策，而第三组数据已在传输途中 —— 这种「计算不停歇」的流水线设计，使关键路径耗时大幅缩短。

更巧妙的是，通过 TP8 分片与流水线技术的交织运用，在多卡并行时仍为系统腾出 2GB 内存空间，如同在高速运转的引擎内部完成精密的空间重组。实际部署中，DeepSeek 模型的 Prefill 阶段提速超 10%，Decode 吞吐激增 25%-30%。

技术博客：https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/FlashComm/ascend-inference-cluster-flashcomm3.md

总结与展望

针对 DeepSeek 这类超大规模 MoE 模型的多机多卡推理场景中的通信挑战，华为团队提出了三项关键技术，其中 FlashComm 技术基于相同的集合通信逻辑替大模型推理中的 AllReduce 通信算子，在不改变网络并行方式的前提下，充分利用网络中低维度数据或低比特数据特性进行通信算子位置的编排，实现通信数据量的降低和通信时延的优化，同时消除了计算流程中的冗余计算，进一步提升了网络端到端推理性；FlashComm2 技术充分考虑网络并行过程中数据特征的维度变化，基于相同的集合通信逻辑将张量并行中的原有通信算子进行替换，并对新的通信算子在网络中的位置进行编排；FlashComm3 技术通过对 MoE 架构的细致理解，通过计算流程的等价变换，尽可能提升模型计算的并行度，并借助昇腾硬件提供的多流能力实现并行，进而大幅提升大模型的推理吞吐。

未来，围绕着超大规模 EP 下的多流并行、权重自动预取、模型自动多流并行等方向，华为团队将进行更多的创新，进一步提升大模型推理的系统性能。

同时，随着大语言模型特别是 MoE 架构的进一步扩展，其参数规模、专家数量与并发推理需求将持续增长，对通信、调度和资源协同会提出更高的要求。在这一趋势下，华为昇腾不仅仅是硬件算力的提供者，更要构建一个面向大模型推理的全栈生态体系。

#文心大模型的「AI马拉松」

对于百度而言，既要保持长期主义的战略定力，也要在技术路径上灵活应变，这种「变与不变」的平衡或许正是其在这轮科技革命中的制胜之道。

2025 年，模型能力的重要性依然无需多言。

从预训练的角度来看，虽然连 OpenAI 前首席科学家 Ilya Sutskever 都说，预训练数据即将用尽，但海量的图像、视频等多模态数据资源依然有待挖掘。

从后训练的角度来看，强化学习新范式正在让 Scaling Law 焕发新生，新一代的推理模型在数学、代码、长程规划等问题上不断取得新进展。

对于 AI 公司来说，保持对基础模型研发的投入依然非常必要。现阶段来看，这仍然是攀登智能高峰的本质所在。

而在这个领域，百度一直是一个不可忽视的力量。从 2019 年发布文心大模型 1.0 至今，文心大模型从知识和数据融合学习，到知识增强、知识点增强，从检索增强、对话增强、逻辑推理增强，到慢思考、多模态的技术演进并非偶然，而是早期技术探索形成的「积淀」持续推动的结果。正是这份「积淀」引领百度打造出超越 GPT-4o 的多模态大模型文心 4.5 Turbo，以及领先 DeepSeek R1、V3 的深度思考模型文心 X1 Turbo。这些技术发展，体现了百度在基础研究上「不变」的坚持与在 AI 快速迭代环境中适时求「变」的进取。

在前两天的百度 AI Day 上，百度集团副总裁吴甜深入解读了文心最新模型的创新技术，并回应了业界对百度文心大模型的诸多关注。通过她的分享，我们得以一窥百度在基础模型研发领域坚持的核心理念与技术演进路径，也更加清晰地认识到了评测数据背后那个真实且充满活力的飞桨文心生态。

进击的文心

在 AI Day 现场，吴甜演示了一个文心 X1 Turbo 解题的案例。这道题不光有文字描述，还有几何图，需要模型综合多模态信息进行推理。

，时长00:41

从文心 X1Turbo 的回答来看，它思考解答这个题目的思路非常清晰，能够自主规划，识别图片中的明面信息和隐藏含义，再思考分析，反思每个选项答案的准确性，最后综合给出解题步骤和答案。这在一些权威基准测试中也得到了验证。文心 X1 Turbo 整体效果领先 DeepSeek R1、V3 最新版，略低于 OpenAI o1 满血版。

此外，来自中国信通院的大模型推理能力评估也显示，文心 X1 Turbo 在 24 项能力测试中表现突出 ——16 项获 5 分、7 项获 4 分、1 项获 3 分，综合评级达到「4 + 级」，成为国内首款通过该测评的大模型。评估结果还表明，该模型在逻辑推理、代码推理、推理效果优化等技术能力及工具支持度、安全可靠度等应用能力均获得满分。这样一个来自第三方的评测意味着，文心 X1 Turbo 已经站稳了国内推理模型的第一梯队。

除了推理能力，文心 X1 Turbo 和之前的文心 X1 之所以出圈，和它们的成本优势也密不可分。在能力相当的情况下，文心 X1 把价格打到了 DeepSeek R1 的一半；X1 Turbo 则更进一步，把价格打到了 DeepSeek-R1 的 25%，这让一些海外开发者羡慕不已。

一个搭建多年的全栈技术体系

用吴甜的话来说，无论是多模态还是深度思考，想做出好的效果都不是「一招制胜」，而是通盘的问题。好在，在百度多年构建起来的技术栈中，文心有很多「招式」可以用。

从多模态深度语义理解到多模态大模型

在国内，百度是最早开展多模态研究的 AI 公司之一。他们 2018 年就在「多模态深度语义理解」方面有所突破，例如视觉语义化和语音语义一体化。以此为基础，他们的技术路线一路演进，进入多模态大模型的时代。

吴甜提到，多模态大模型的核心难点之一在于如何有效地对多模态进行建模。围绕这一问题，他们从多个方向寻求突破，研制了：

多模态异构专家建模：充分照顾到不同模态的特性；

自适应分辨率视觉编码：解决不同分辨率视频在视觉编码上的差异化要求；

时空重排列的三维旋转位置编码：充分利用视频数据中的时空、时序信息；

自适应模态感知损失计算：根据不同模态的特性动态调整损失计算方式，解决模态间差异问题。

采用了这些技术之后，模型在训练过程中学习效率提高了 1.98 倍，多模态理解效果提升了 31.21%。

在她看来，多个模态之间是有相互增益的，多模态是大模型的一个发展趋势。

可以看出，百度对于多模态的技术投入将是长期而坚定的。

从慢思考到深度思考

长期追踪百度技术发展的朋友可能还记得，早在 2023 年 10 月，百度就发布过基于「系统 2」的慢思考技术，X1 和 X1 Turbo 便是以此为基础进化而来。此外，2018 年、2019 年左右，百度就在强化学习方向有所突破，构建了 PARL 强化学习框架等基础设施，这也推动了今天的深度思考模型的研发。

然而，早期的强化学习所解决的问题和今天有所不同，之前的模型主要聚焦于解决单一任务，而今天的模型是解决大量通用任务。

为了迎接新的挑战，百度进行了多项技术创新，包括：

自反馈增强技术框架：建立了「训练 - 生成 - 评估 - 增强」的闭环，让模型能够基于自身的生成和评估反馈能力不断自我迭代。
融合偏好学习的强化学习：结合用户偏好学习的强化学习，提升模型对高质量结果的感知能力和数据利用效率。
多元统一的奖励机制：融合多种评价标准（如结果正确性、执行反馈、思想深度、指令遵循等）对模型表现进行评判，引导模型向更优方向发展。
思考与行动融合的复合思维链：模拟人类不同的思维模式（边思考边行动、先思考后行动、先行动再反思等），通过强化学习让模型在不同任务上探索出适合的思维链和行动链组合，提高解决真实长程复杂任务的能力。

这些解决方案的出现也是技术演进的自然结果。吴甜解读到，当前基础模型的泛化能力很强，意味着模型自己可以在多任务上做探索，给模型输出结果的反馈，通过强化学习技术，让模型自行调试方向不断进化，这是让模型效果提升的重要方式。

复杂的数据建设

当模型进化到多模态、深度推理，数据建设的难度也在随之增大。吴甜提到，多模态数据的建设本身比纯文本数据的建设难度、复杂性都要高。另外是现在大量的多模态的任务所依赖的输入，是一种经过加工或中间处理的状态。比如说图的生成要给模型一个 Prompt，现在让文生图模型去画图用的 Prompt，要想达到好的生图效果，并不是天然日常所用的文字表达方式，往往要增加一些比如「纸质纹理」、「丁达尔效应」、图片的比例等等这些设计用语。所以需要借助一些技术方法去挖掘、合成。

另外一个难点是稀缺数据的建设。天然的数据分布并不是像我们所希望的那样能够和知识体系匹配起来，这个时候对于一些稀缺数据要进行挖掘。

在解决这些问题的过程中，百度之前研究多年的知识图谱帮助他们构建了完备的知识体系，为稀缺数据的挖掘提供了理论支撑和实践指导。

此外，他们打造了「数据挖掘与合成 - 数据分析与评估 - 模型能力反馈」的数据建设闭环，为模型训练源源不断地生产知识密度高、类型多样、领域覆盖广的大规模数据。

从「飞桨」、「文心」到「飞桨文心」

文心的每一次性能提升，都离不开与飞桨的深度协同和联合优化，这也是百度和其他 AI 公司非常不同的一点。

作为国内第一个功能完备的开源深度学习平台，飞桨从 2018 年起一直在不断进化，如今已经迭代到了飞桨框架 3.0 版本。

在百度 AI 的技术架构中，它扮演的是关键的「腰部」角色 —— 通过向上与模型层协同解决多模态统一和 MoE 专家均衡等问题，向下与算力层协同提升训练并行效率和推理性能，从而实现大模型的降本增效。

此外，吴甜还提到，飞桨和文心的持续进步，离不开百度在持续构建的 AI 生态系统的贡献。通过多年积累，百度在全国多地落地产业赋能中心、数据生态中心和教育创新中心，依托飞桨深度学习平台和文心大模型，借助广泛的伙伴体系连接千行百业，接触到更多元化的行业需求，也赋能当地的产业智能化升级。

更重要的是，这一生态形成了数据反哺的闭环机制。那些沉睡在各行业中的稀缺数据，无法通过纯技术手段获取，只能通过深度的生态合作逐步挖掘整合，为文心大模型的持续进化提供了源源不断的养分。

长期主义的赛道选择：AI 马拉松

站在 2025 年这个时间节点回望，百度在 AI 领域的布局体现出明显的长期主义特征。从昆仑芯片到飞桨框架，到文心大模型，再到最上层的应用，百度走的是一条「全栈布局、自主研发」的技术路线。在接下来的赛程中，这种全方位的准备将成为其在竞争中坐稳牌桌的关键所在。

展望未来，两个技术方向是更被百度看好的：多模态和智能体。智能体是建立在基础模型上的复合 AI 系统，它将大模型从单纯的理解和生成工具，升级为能够进行多步骤思考、自主规划并调用工具的行动系统。未来，智能体将成为在应用中解决大量问题的主要方式。而基础模型多模态、深度思考能力的提升可以更好地托举智能体能力。

在提升模型能力的同时，百度还在模型的技术普惠上发力，文心 X1 Turbo 的超低定价就是这一努力的代表。只有把模型的成本降得足够低，行业内的广大开发者才能在应用领域尽情施展，创造出一个蓬勃发展的大模型应用生态。

现阶段，整个 AI 生态仍在经历深刻变革，技术影响如涟漪般向外扩散。百度文心「变与不变」的平衡或许正是其在这轮科技革命中的制胜之道。

#Devstral

性能碾压GPT-4.1-mini！Mistral开源，还能在笔记本上跑

Devstral 是本地部署和设备端使用的理想之选。

法国 AI 初创公司 Mistral 强势回归，再次大力投身开源 AI 社区。先前，其因未开源 Medium 3 大模型而受到开发者广泛批评。

刚刚，该公司宣布，他们与开源初创公司 All Hands AI（Open Devin 的创建者）合作，发布了全新的开源语言模型 Devstral，拥有 240 亿个参数 —— 比许多竞争对手的模型小得多，所需的算力也低得多。

因而，Devstral 可在单块 RTX 4090 显卡或配备 32GB RAM 的 Mac 上运行，是本地部署和设备端使用的理想之选。

值得一提的是，该模型现已根据宽松的 Apache 2.0 许可证免费提供，允许开发者和组织不受限制地部署、修改和商业化。

Mistral 表示，虽然典型的 LLM 擅长编码任务，例如编写独立函数或代码补全，但它们难以解决现实世界的软件工程问题。在现实世界中，需要在大型代码库中对代码进行上下文关联，以识别不同组件之间的关系，并识别复杂函数中的细微错误。

Devstral 的设计初衷就是为了解决这个问题。它能解决真实的 GitHub 问题；还能运行在 OpenHands 或 SWE-Agent 等代码智能体框架上。

在顶级 SWE 基准测试中，Devstral 表现优于其他大型模型。

具体而言，Devstral 在 SWE-Bench Verified 基准测试中取得了 46.8% 的得分，领先于先前发布的所有开源模型，并领先于包括 GPT-4.1-mini 在内的多个闭源模型，它比 GPT-4.1-mini 高出 20 多个百分点。

注：SWE-Bench Verified 是一个专门用于评估 AI 编程能力的基准测试，主要测试 AI 模型在真实 GitHub 代码库问题（如 bug 修复、功能实现）上的表现。

在相同的测试框架（OpenHands，由 All Hands AI 提供）下进行评估时，Devstral 的表现远超 Deepseek-V3-0324 (671B) 和 Qwen3 232B-A22B 等规模更大的模型。

最后，Devstral 可通过 Mistral 的 Le Platforme API 访问，型号为 devstral-small-2505，定价为每百万输入 Token 0.10 美元，每百万输出 Token 0.30 美元。

很多网友已经用起来了！

参考链接：

https://venturebeat.com/ai/mistral-ai-launches-devstral-powerful-new-open-source-swe-agent-model-that-runs-on-laptops/

https://x.com/dani_avila7/status/1925276890840900087

#汇总 30 + MCP Server

本文介绍了模型上下文协议（MCP）及其重要性，并汇总了30多个具有完整源代码的MCP服务器示例，展示了如何通过MCP将AI代理与各种工具和应用程序连接，以实现高效的任务自动化和生产力提升。

MCP正在病毒式传播。

AI 代理现在可以与真实的工具和应用程序对话，并真正完成工作。

这解锁了许多强大的用例。

开发人员开始构建 wild MCP 服务器。

那么，接下来，您几乎可以在每个示例中找到一个演示，并在最后找到一些有用的项目，以改善使用 MCP Servers 的体验。

让我们开始吧！

什么是 MCP，为什么它很重要？

模型上下文协议（MCP）[1] 是一种新的开放协议，它标准化了应用程序向 LLM 提供上下文和工具的方式。

官方地址介绍：https://modelcontextprotocol.io/introduction

将其视为 AI 的通用连接器。MCP 用作 Cursor 的插件系统，它允许您通过将 Agent 连接到各种数据源和工具来扩展 Agent 的功能。

图源：YouTube 上的 Greg Isenburg

MCP 可帮助您在 LLM 之上构建代理和复杂的工作流程。

例如，Figma 的 MCP 服务器可以允许 Cursor 与 Figma 通信，以读取设计并以编程方式修改它们。

利用AI代理可以：

→ 使用 Blender 创建 3D 场景

→ 通过 Gmail 发送电子邮件

→ 在 Linear 中创建任务

→ 自主逆向工程应用程序

→ 读取和搜索 Obsidian Vault

所有这些都是通过标准化界面发送自然语言指令来实现的。

想想这对生产力意味着什么？！

曾经需要在 5+ 个应用程序之间切换的任务现在可以在与代理的单个对话中完成。

MCP****的核心遵循客户端-服务器架构，其中主机应用程序可以连接到多个服务器。

图源：ByteByteGo

组件：

MCP hosts- Claude Desktop、Cursor、Windsurf 等应用程序，或希望通过 MCP 访问数据的 AI 工具。

MCP Clients- 与 MCP 服务器保持 1：1 连接的协议客户端，充当通信桥梁。

MCP Servers- 轻量级程序，每个程序都通过标准化的模型上下文协议公开特定的功能（如读取文件、查询数据库等）。

本地数据源(Local Data Sources)- MCP 服务器可以安全访问计算机上的文件、数据库和服务。例如，浏览器自动化 MCP 服务器需要访问您的浏览器才能工作。

远程服务(Remote Services)- MCP 服务器可以连接到的外部 API 和基于云的系统。

为什么 MCP 很重要？

MCP之所以重要，是因为：

✅ 它将开发人员通用AI助手的梦想变成了现实。

✅ 将这些作组合成复杂工作流的潜力（由 AI 处理逻辑）将导致智能自动化的新时代。

如果有兴趣阅读更多内容，请查看：

什么是模型上下文协议（MCP）？(https://www.builder.io/blog/model-context-protocol) 由 Builder.io 团队
MCP：它是什么以及为什么它很重要 (https://addyo.substack.com/p/mcp-what-it-is-and-why-it-matters)作者：Addy Osmani

你可以观看下面的视频地址，了解更多MCP内容！

https://youtu.be/7j_NE6Pjv-E

30 + MCP 开源示例

序号	项目名称	Github地址	序号	项目名称	Github地址
1	CopilotKit’s Open MCP Client[2]——MCP 的自托管实现	https://github.com/CopilotKit/open-mcp-client	16	Docker MCP[3]——使用自然语言管理 Docker	https://github.com/ckreiling/mcp-server-docker
2	Ghidra MCP[4]——自主对应用程序进行逆向工程	https://github.com/lauriewired/ghidramcp	17	Obsidian MCP[5]——搜索 Obsidian 保险库	https://github.com/smithery-ai/mcp-obsidian
3	Blender MCP[6]——仅使用提示创建 3D 场景	https://github.com/ahujasid/blender-mcp	18	Unreal MCP[7]——使用 AI 助手控制 Unreal Engine	https://github.com/chongdashu/unreal-mcp
4	Cursor talk to Figma[8]——以编程方式读取和修改设计	https://github.com/sonnylazuardi/cursor-talk-to-figma-mcp	19	E2B MCP[9]——在安全沙箱中运行 AI 代码	https://github.com/e2b-dev/mcp-server
5	Ableton MCP[10]——使用提示创作音乐	https://github.com/ahujasid/ableton-mcp	20	Firecrawl MCP[11]——从网站中抓取、抓取、搜索和提取内容	https://github.com/mendableai/firecrawl-mcp-server
6	Unity MCP[12]——使用提示创建整个游戏	https://github.com/ahujasid/ableton-mcp	21	Mem0 MCP[13]——AI 代理的内存层	https://github.com/mem0ai/mem0-mcp
7	GitHub official MCP[14]——与 GitHub 轻松集成	https://github.com/github/github-mcp-server	22	n8n custom node MCP[15]——与您的 n8n 工作流交互	https://github.com/nerding-io/n8n-nodes-mcp
8	Magic MCP[16]——从 IDE 创建现代 UI 组件	https://github.com/21st-dev/magic-mcp	23	Browser MCP[17]——使用编码代理自动化浏览器	https://github.com/browsermcp/mcp
9	ElevenLabs MCP[18]——生成语音和自定义 AI 语音	https://github.com/elevenlabs/elevenlabs-mcp	24	Gmail MCP[19]——具有自动身份验证支持的 Gmail 集成	https://github.com/GongRzhe/Gmail-MCP-Server
10	WhatsApp MCP[20]——搜索、发送和阅读 WhatsApp 媒体	https://github.com/lharries/whatsapp-mcp	25	Sequential Thinking[21]——用结构化思维解决问题	https://github.com/modelcontextprotocol/servers/tree/HEAD/src/sequentialthinking
11	Supabase MCP[22]——将 supabase 连接到您的 AI 助手	https://github.com/supabase-community/supabase-mcp	26	Brave Search[23]——使用搜索 API	https://github.com/modelcontextprotocol/servers/tree/main/src/brave-search
12	Perplexity MCP[24]——Perplexity API 的连接器	https://github.com/ppl-ai/modelcontextprotocol	27	Browserbase MCP[25]——AI 代理的浏览器会话	https://github.com/browserbase/mcp-server-browserbase
13	Playwright MCP[26]——使用 Playwright 的浏览器自动化功能	https://github.com/microsoft/playwright-mcp	28	Lingo MCP[27]——AI 本地化工具包	https://github.com/lingodotdev/lingo.dev/blob/main/mcp.md
14	Git MCP[28]——任何 GitHub 项目的远程 MCP 服务器	https://github.com/idosal/git-mcp	29	Kubernetes MCP[29]——管理 Kubernetes 集群	https://github.com/Flux159/mcp-server-kubernetes
15	Spotify MCP[30]——从 Spotify 启动、搜索和获取特定详细信息	https://github.com/varunneal/spotify-mcp	30	Linear MCP[31]——集成 Linear 的项目管理系统	https://github.com/jerhadf/linear-mcp-server

参考资料

[1] 模型上下文协议（MCP）: https://modelcontextprotocol.io/introduction

[2] CopilotKit’s Open MCP Client: https://github.com/CopilotKit/open-mcp-client

[3] Docker MCP: https://github.com/ckreiling/mcp-server-docker

[4] Ghidra MCP: https://github.com/lauriewired/ghidramcp

[5] Obsidian MCP: https://github.com/smithery-ai/mcp-obsidian

[6] Blender MCP: https://github.com/ahujasid/blender-mcp

[7] Unreal MCP: https://github.com/chongdashu/unreal-mcp

[8] Cursor talk to Figma: https://github.com/sonnylazuardi/cursor-talk-to-figma-mcp

[9] E2B MCP: https://github.com/e2b-dev/mcp-server

[10] Ableton MCP: https://github.com/ahujasid/ableton-mcp

[11] Firecrawl MCP: https://github.com/mendableai/firecrawl-mcp-server

[12] Unity MCP: https://github.com/justinpbarnett/unity-mcp

[13] Mem0 MCP: https://github.com/mem0ai/mem0-mcp

[14] GitHub official MCP: https://github.com/github/github-mcp-server

[15] n8n custom node MCP: https://github.com/nerding-io/n8n-nodes-mcp

[16] Magic MCP: https://github.com/21st-dev/magic-mcp

[17] Browser MCP: https://github.com/browsermcp/mcp

[18] ElevenLabs MCP: https://github.com/elevenlabs/elevenlabs-mcp

[19] Gmail MCP: https://github.com/GongRzhe/Gmail-MCP-Server

[20] WhatsApp MCP: https://github.com/lharries/whatsapp-mcp

[21] Sequential Thinking: https://github.com/modelcontextprotocol/servers/tree/HEAD/src/sequentialthinking

[22] Supabase MCP: https://github.com/supabase-community/supabase-mcp

[23] Brave Search: https://github.com/modelcontextprotocol/servers/tree/main/src/brave-search

[24] Perplexity MCP: https://github.com/ppl-ai/modelcontextprotocol

[25] Browserbase MCP: https://github.com/browserbase/mcp-server-browserbase

[26] Playwright MCP: https://github.com/microsoft/playwright-mcp

[27] Lingo MCP: https://github.com/lingodotdev/lingo.dev/blob/main/mcp.md

[28] Git MCP: https://github.com/idosal/git-mcp

[29] Kubernetes MCP: https://github.com/Flux159/mcp-server-kubernetes

[30] Spotify MCP: https://github.com/varunneal/spotify-mcp

[31] Linear MCP: https://github.com/jerhadf/linear-mcp-server

#xx智能需要从ImageNet做起吗？

如果你的野心在智能，无论你做xx智能、大模型、世界模型，又或者是神经科学，也许都一样的。

想认真地聊聊xx智能，文中会概述xx智能的发展线条，以及近期对”智能“的一些感想，但其中的判断、猜测很多缺乏实据，特别欢迎指出问题和讨论。关心xx智能技术问题的朋友可以看前一半，而更关心智能的朋友可以看最后的“xx智能之上”的部分。

为什么突然xx智能开始爆发：

Move bits, not atoms. 是无论是科学家还是创业者都经常听到的一句”金玉良言”。比特的流动是光速的，但搬起一块砖缓慢而费力。互联网时代的电商取代实体店、流媒体替换DVD光盘；人工智能时代，ImageNet整合了网络上的海量数据、DeepSeek模型训练消耗的是电力与数据比特。最新的大语言模型，可以写代码、做奥数，接近甚至超过人类的智能。但xx智能还是火了，因为我们不得不关心他。

为什么我们不得不关心xx智能？（Atoms still matter）

人类本身无法完全数字化。无论是电子游戏还是元宇宙都没法解决人类需要作为物理实体活着的事实，所以物理世界的熵减过程始终需要被完成。当我们谈及“影响力”的时候，实质上是指对人类的需求进行了多大程度的满足或改变，这解释了为何xx智能仍广泛被谈及。

如果我们认可了我们需要关心atoms，那显而易见的现有的以大语言模型为主导的智能体，缺乏和物理世界的对齐，因为缺少感知模态和交互能力，所以对于物理世界的理解往往不够好，比较典型的例子是对空间信息的理解不足。

大模型的智能是先灌输再推理出来的。它阅读了世界上所有的文字资料，甚至借用别人的眼睛看到了一部分世界，然后用强化学习推理，变成了超级智能体。但是大多数的知识和数据都不来自大模型自己，使模型缺乏闭环反馈，所以无法校准自己输出，潜在地无法突破现有知识分布。

值得讨论的是，如果我们认真地去构建硅基生命，我们希望这些智能体有自己的体验，他们独有的传感器带来独特的经历，虽然这些经历可以以比特的形式进行分享，但是仍然会保持独特。一个皮肤失去触觉的人，可以读到、听到“触摸”的感受，但是却无法获得这样的体验，但相应的可能他的听觉格外敏锐。这些体验构建了什么是“我”。

xx智能的几种失败模式

xx智能是一个目标清晰，但路径不清晰的领域。和计算机视觉早早定义好“分类、检测、分割”三大任务不同，xx智能有相当多看似有道理的路。下面几种模式，我认为是会失败的，我可以为此押上一顿疯狂星期四。

找到那个最有趣的任务然后不择手段地干掉它

我无意扫兴，尤其是扫机器人学家的兴致。但传统机器人学有相当一部分的研究重点在于“特别”的机器人或者“特别”的任务。一个蛇形机器人，一个老鼠机器人，一个机器人去包饺子，一个机器人去操作塑料袋或者抖落衣服。他可以是一篇论文，是一篇最佳论文，甚至是一篇《科学》杂志的论文，因为它新颖独特、完成了困难的任务、用到了大量的控制论知识或者带来了结构上的创新。虽然对于科学有作用，但它对于推动xx智能的发展几乎没有用处。

虽然确实还是扫兴了，但如果回望深度学习/计算机视觉，推动力主要来自ImageNet这样的标准化数据集以及ResNet或Transformer这样的通用模型。你可能会说，凡事都有例外，如果“那个任务”是流水线分拣或者零件抛光打磨呢？那可能和语音转文字或者实时翻译一样，短期内有经济价值甚至可以去创业，但长期会被xx智能的进展淹没。可以这样想，如果你两年前是一个机器人叠衣服任务的专家，现在你看到模仿学习叠衣服可能会倍感失落；如果两年前你在研究让你的小模型加上语言学知识来总结一篇文章，那你现在准已经是“大模型专家”了，因为原来的饭碗已经没了。

干脆造一个虚拟世界，期待在数字世界里面解决所有问题

人们总是期待物理世界可以完全转化成数字世界，然后因为他是数字的，我们又可以和比特打交道，迅速提升数据量，复刻大模型的成功。

仿真一定是有用的，但是常见的失败模式是，尽可能在物理仿真引擎里搭建/复刻目标场景。这里面有很多问题：a) 物理引擎在流体、软体等物体的仿真上有本质困难，例如你很少能看到一块仿真的橡皮泥跟某一个橡皮泥商品有一样的物理性质，尽管他看起来已经很像一块橡皮泥了。b) 仿真运行的速度和质量总是有一定的权衡，“快的不好好的不快”始终没有存在完美解。c) 除了物理的困难即使有了3DGS的加持，想要在视觉上完全复刻场景也是极为困难的，尤其是铰接、软体、低纹理、高频纹理等处。可以期待生成式仿真或者世界模型，但我仍然觉得不能带着过高的期待，也许世界模型应该会比xx智能更难解决。

采集海量数据，期待现有的算法加上海量数据可以解决所有问题

另一条路是比赛谁的数据多，谁就能训出最好的模型。数据问题几乎已经成为xx智能中公认的核心问题，而数据的积累也很有可能是xx智能的决胜点。但数据绝非单纯的数量比拼，即使加上“足够丰富”这一条件我认为单纯的数据量也很难成为xx智能成功的充分条件。对模仿学习或VLA算法稍有经验的读者，应该常见机器人动作正确但无法完成任务，甚至偏离了物体的位置。这种对轨迹的“背诵”一方面我们可以责怪模型仍然不是最优，但更重要的是数据的来源来自人类。一个简单的类比是，一个孩子在孩童时代被手把手教写字，但是当老师把手松开后，他可能颇有进展，但远无法达到刚刚老师手把手带着写的那个字好看。这里数据的来源的差异是容易被遗忘的，是来自“模型”还是来自“人类”。在这里我的一个判断是，海量的真实数据一定是必要的，但他无法解决所有问题，而只是为最终解决所有问题提供一个先验。

xx智能的路线上的几个决策点

xx智能说简单也简单，机器人获取感知信号，随后进行决策，最终执行动作，动作执行后再更新感知信号.. 和自动驾驶相似，模块化的方案上升曲线陡峭但是潜在上限会低一些，端到端方案则需要数据的积累但是上限可能很高。这里我们几乎不假思索地只讨论端到端地方案，即感知信号（也许还会有任务或计划的文本信息）输入一个神经网络，并直接输出对应的动作。

最笨的问题：输入的视觉信号，二维还是三维？

这听起来是一个有一些滑稽的问题，如果所有的图像信息都不丢失，三维信号的信息量是严格多于二维的，那很自然地，我们会选择三维输入。然而时至今日，我们仍然无法做出这样的决策。

为什么二维图像输入仍然颇具生命里，甚至更主流？我们可以自己尝试闭上一只眼睛度过几分钟的时间，理论上我们应该丢失了三维信息，但是事实上我们日常的任务几乎不会收到很大影响。因为二维图像中包含的光影、语义、几何信息，配合上我们脑子里面对世界的先验，也足够让我们完成相当多的任务。换句话说，我们单独看一个瓶子，可能很难判断是一个近处的小瓶子还是远处的一个巨型瓶子雕像，但是配合上场景来看，我们几乎不会判断错。同时，二维图像是我们日常的摄影设备最容易捕捉的信号，所以二维图像数据是有量级上的数量优势的。

那么三维信号还有价值吗？去年 CoRL 上 Pi0[1] 发布后，我和几位朋友讨论过：如果基于图像的 VLA 已经能达到很好的性能，我们是否还需要三维感知作为输入？在哥伦比亚大学发布扩散策略（diffusion policy）[2]之后，我所在的清华大学xx智能实验室（TEA Lab）开发出了三维扩散策略（DP3）[3]，取得了显著的性能提升。而我们近期提出的 H3DP[4] 通过利用深度图，进一步提升了模仿学习的性能。由此我们可以得出一个初步结论：在数据量较小的情况下，三维信息确实有助于提升模型性能。这也暗示着未来的后训练可能需要引入三维输入信息。至于数据量很大的时候会怎样，我们暂时不清楚。

这意味着三维一定无法规模化吗？也不是。连接二维和三维有一根线，就是单目三维重建如depth-anything [5]系列。海量视频+动作数据→图像三维重建→大规模预训练的链路是否会相较于直接用视频和动作数据的训练更好，还是一个未知数。但直觉来说，我认为是会的，但把握不大，把输入里面的两个浮点数对齐要比通过图像把夹爪和把手对齐简单的多，这也是少有的机器人相较于人的优势，他们可以阅读并理解精确的数字。

xx智能的最后一块拼图还是阿克琉斯之踵：触觉

xx智能的难点在物体操作，而操作任务会需要触觉。这是一条极为顺畅的逻辑链条。而且时常有一种，触觉的研究者们（包括我自己在内）经常会暗示触觉是xx智能最后一块拼图。然而，当我们去观察触觉研究的时候，却发现触觉研究者和xx智能中间似乎有一条巨大的裂痕。

到底我们需要怎样的触觉传感器？我认为对于任何xx智能的硬件，最大的要求就是“便宜”。在便宜的基础上，我们再去研究怎么提高信噪比、怎么提高一致性、怎么全指尖甚至全手去做覆盖。价格和市场大小是有一个近似反比例关系的曲线的，这个价格可以是制作和时间成本，也可以是商品的售价。也许有读者感到疑惑，为什么谈触觉技术要和商业搞上关系？这个我觉得最好的案例就是机械狗，不知道有多少读者用过早期的机器狗，摔坏、过热各种问题层出不穷，但是胜在便宜。相较于10倍价格的机器狗，大家愿意再买一个，或者返厂维修。用的人多了、迭代的次数多了，这东西现在还真就变得好用起来了，而且上面的算法更是层出不穷，跑酷、越野样样精通。所以，当我们谈价格和市场大小的关系的时候，实际上是在提有多少聪明的脑袋愿意和你一起迭代，并把算法放上来。最后，我们下一个孟浪之言，“手”的价格应该是“人”的价格的1/10，而所有的指尖触觉加起来不要超过手的1/10。如果达不到这个价格，大多数的买家是来研究“触觉”的，而不是xx智能的。在TEA Lab我们研发了DTact[6]和9DTact[7],成本只要200人民币甚至更低，并且熟练的同学经过改良，一个人一天可以造出百十来个。虽然成像质量不及gelsight, 但是贵在不贵。

如果再多和触觉的人聊聊，发现造触觉的多，用触觉的少。我们当然需要创造更好的触觉传感器，就像我们需要更清晰的摄像头，但是怎么样去把获取到的触觉信号用好其实才是真正把触觉融入xx智能。把平面变成曲面，加上温度的传感器，摄像头变光纤，当然都是很有价值的改进。如果真的要把触觉用进xx智能，我们首先要有数据，是对一样的输入有一样的输出，同时收集可以匹敌视觉体量的数据。所以是不是与其开发新功能，不如找到一种工艺，他能让表面的胶皮保持一致，且耐用耐造来得实在。Gelsight高强度采集数据2小时后会破损，Dtact可能几十个小时后也会破损，人的皮肤有再生能力，胶皮却没有。另一个就是加触觉经常看不到性能提升，叠杯子任务靠视觉就饱和了，而捋耳机线的任务又非常小众，所以大家往往看到触觉的论文，里面的任务有些刁钻，甚至会想：真能琢磨呀，这个任务还真必须要触觉。我做触觉研究的时候也是这么做的——我们的DO-Glove[8]工作我很喜欢，把机器人触觉和人类触觉联通起来，并且找到了一系列需要“力感”或“触觉”的任务。但这么做是会有一个恶性循环的，做触觉的人只做需要触觉的任务，这样无法进入到xx智能的大闭环里。

什么是大闭环？就是后面要讲的VLA和RL这些需要大量数据的模型。我们近期和上海交大合作的RDP[9]以及Gelsight的发明人Ted Adelson做的PolyTouch[10]让我们看到了把触觉融入这条大闭环的一些努力。所以在我看来，触觉有两条路，第一条触觉效果很好，可以解决很困难的任务（例如让一杯水在你手中滑落而不脱手），但我怀疑这条路会掉入第一种失败模式中；第二条路，把触觉做便宜做鲁棒，便宜到大家买他轻轻松松，顺手就把数据采了，说不定触觉有新的一片天。

复刻大模型的成功：从模仿学习到VLA

模仿学习从角落里积灰到争相追捧就在近两年。这里面有很多原因，Aloha[11]的新构型带来的数据质量提升，扩散模型[2]带来的拟合能力和多峰行为预测能力提升。里面还有一个很重要的点，是一次要预测一串动作而不是一个，一定程度上他们在时间维度上相互监督，从而使动作更加明确而连续。这也很直观，我们在进行物体操作的时候，往往也是以终为始，先有一个未来的目标然后产生一连串的动作。模仿学习的形式极为简洁，图像输入，动作输出，目标直接优化生成动作和采集动作的某种距离。简洁的形式也带来了其脆弱性：面对扰动往往无法泛化。为了解决这个问题，我们做过DemoGen[12], 构造出一些数据来增强泛化，前一阵子还进行了直播，但这终究智能在一个较小的区域内解决问题。再往后想，一般延伸出了两条路，一条是VLA另一条是强化学习。这里我们先聊VLA。

VLA先用海量数据预训练，然后再用目标任务数据进行后训练。预训练的过程提升了模型的基础能力，其中最重要的是丰富的场景以及动作。因为预训练中数据要求更宽松，那些侥幸成功、从失败边缘纠偏回来的数据理论上都帮助VLA获取了更好的能力。但是老规矩，我们是来碰瓷的不是来吹捧的，VLA到现在可能连正确的结构都还没有找到，以pi0为代表的结构看起来极为不协调，前面的自回归VLM和后面的扩散模块生硬地拼接在一起。当数据量足够高时，全量的Transformer[13], 或者DiT[14]可能还是有重回巅峰的可能。

房间里看不到的大象：强化学习

AlphaGo[15]带来了一阵风，让强化学习从小众领域变成了人工智能的万灵药，一时之间风头无两。因为我恰好是2016年开始的博士生涯，所以基本也参与和见证了这一股风：大家在做两件事1）寻找适合的任务；2）在改进算法的数据效率和性能（这里记着，后面有用！）。在现在的视角下回看，当时的强化学习热潮没有达到预期，围棋之后我们解决了麻将、德州扑克、雅达利游戏、星际争霸和DOTA，得到了一个结论——只要数据成本足够低，强化学习或者说PPO[16]总是可以解决问题的。而大量的算法进展，也都伴随着这样的结论暗淡退场。此间，OpenAI已经展示出了对规模定律（scaling law）的追寻，灵巧手转魔方[17]、吴翼老师参与的红蓝小人捉迷藏[18]，都是实例。但是很遗憾，OpenAI也陷入了完全依赖仿真的失败路径之中，所以在某个时间节点，转向了真实数据更多的自然语言赛道。而这条强化学习仿真-现实迁移的赛道，也逐渐演化出了各种机器人跳舞、跑酷的全身控制赛道。

那机器人为什么不靠这条路来做操作任务呢？仿真不够好，也做不好——哪怕只是用水洗一把菠菜这件事。那为什么不直接像人一样做真实世界强化学习呢？因为数据成本太高。DeepSeek和GPT-o1给了我们一个思路——“先验”，语言的输出空间本来也是非常巨大的，但是为什么我们可以做RL，因为做了输出空间的裁剪：谁裁剪的，是预训练好的大模型自己，感兴趣的读者可以去看《人工智能下半场》[19]。我想起了那群努力写莎士比亚的猴子，他们虽然理论上可以写出来，但是时间却要趋于无穷；但如果是预训练过的猴子，很有可能永远也写不出来，但是如果有判别器不停地告诉它们写得是不是莎士比亚，他们很有可能很快就写出来了。那前述的VLA和模仿学习，不正是对应了预训练好的大预言模型嘛？机器人在用强化学习抓杯子的时候，粗略地已经学习了抓杯子，只不过没法100%地成功，这正是强化学习大放异彩的时刻。

为什么VLA做不到的事情，强化学习能做到？一言以蔽之，是一个英文词叫“grounding”。意思是，要把数据和任务紧密地联合起来。VLA里面的海量数据都是被动的，当模型看到一条成功倒水的数据的时候，他其实只是简单地将图像作为条件，生成相应的动作。当这个条件发生一定扰动的时候，模型其实没有理解到只有抓到把手才是关键。反观强化学习，他的每一次的奖励获取都在不断告诉模型，只有抓住把手，才能成功，否则都算是失败。这种数据来自自身、有对有错、获得反馈的闭环，才能让机器人最终达到高成功率。

强化学习这么好用，现在大家在用吗？还记得当年提升数据效率的那波努力吗，算法时至今日已经有了长足的进步，我们从BEE[20]开始，到后面的DrM[21]，FoG[22]，都依然在努力提升算法的数据效率，因为真机数据昂贵，所以突然这些努力又有了一定的意义。更关键的是，我们说的那个“先验”VLA正在逐渐成型，例如pi0.5十分值得我们期待。 TEA Lab的MENTOR[23]以及伯克利的HIL-SERL[24]都在VLA还没到来的时候做了真机强化学习，只要有合适动作空间，我们就能训成。但一切也没有想得那么乐观，真机强化学习的两座大山一直存在，一个是“重置”环境需要有一个人一直盯着，可能工作量不亚于数据采集；另一个是“奖励函数模型”，我们可以靠VLM去做，但这样的稀疏奖励是否足够用于训练还有待探索。另一个是近期美国公司Dyna Robotics选择训一个“任务进展”奖励函数模型，这方面我们也做过，但效果不佳，主要是这个奖励函数模型经常不单调递增，所以也期待进一步的探索。

总的来说，xx智能需要强化学习是显然的，但是怎么用、什么时间节点上能用仿佛一直被大家忽略了，也导致这头房间里的大象一直没有被看到。

最后的问题：xx智能要落地一定得有ImageNet时刻吗？

xx智能的”ImageNet”时刻是一个伪命题，至少是一个极具迷惑性的命题。ImageNet的妙处是采集了海量数据后，评测只需要把一部分图片预选出来，并且把他们的类别记录下来作为标签，不同人使用ImageNet的唯一的区别就是它用的模型的优劣，因此ImageNet成为了一个公认的竞技场。我们带着这样的拆解去看xx智能，就很容易发现“ImageNet时刻”的要求要高得多——除了提供的“ImageNet”以外，在不同用户处的其他部件应该一模一样。这意味着：1）场景可复刻；2）视角、光线等视觉条件一致；3）机器人型号统一；4）机器人跨本体一致。即使都是正午的太阳，纽约和上海也是不一样的，所以要做到前面这四件事，几乎不可能。在星海图，我们努力给大家一款稳定的本体；在斯坦福，有一个项目叫UMI[26]企图对齐所有数据的形态。大家有没有想过，xx智能如果一定要有ImageNet时刻，其实不一定是一个数据集，而是一款本体？

xx智能是一个后发的领域，我们的上半场还没比完还在苦苦追寻ImageNet，但是已经有一个下半场比了半天的先知叫作LLM让我们看到了很多未来。所以我们仍然不清楚构建数据集的意义如何验证，又或者我们应该直接像语言模型一样到真实的场景、任务中的测试。在方法和模型还没完全摸清的时候，我们也去构造和收集大量数据，而且也不确定选用哪一款本体，好像过去和未来交织在一起。我们现在有了一点头绪，但也只是一点。

xx智能之上

没关系的，都一样。——章北海

智能的形态可能殊途同归，视觉、语言、机器人，从应用的角度各有各的难处，但是从智能的角度，他们很有可能在解决一样的问题。过去自然语言的人要去学语言学、视觉的人要去了解神经科学、机器人的学者则需要精通控制论。而现在，大家都在transformer加上海量数据。所以如果大家关心的是最终的答案，很有可能所有领域会同时被卡住或者被解决。

例如我们屡次提到的规模定律（scaling law），确实很有可能只有当样本量指数增加时，我们才有可能提炼出更本质的规律。到这里有一点玄乎了，我们也彻底抛下了严谨性，但在各式各样的自然环境下，我们的练习时长、声音的分贝确实都在产生量级变化的时候，会给我们带来新的信息和能力。有兴趣的读者可以去看一下毕导的科普本福特定律，我们对世界的感知、以及世界上数字统计量的分布也极大程度上是指数分布的，或者说在取对数后才较为均匀。而我们的DNA带来的先验，可能就是人类走过漫长的指数级的数据后，提炼出来的全部能力。

另一个有趣的视角，是从表征去看——柏拉图表征假设[25]。它认为在神经网络模型中，随着模型规模的扩大和训练任务的多样化，不同的模型在表示真实的方式上越来越趋于一致。什么是表征？我认为是对已有的事件或事物中的信息进行合理抽取和组织得到一个新的且没有新增信息的变量，从而更适合于解决问题（例如鸡兔同笼问题中，兔子的表征是四腿动物即可），当然此处讨论的是神经网络提取的向量形式的表征。

故事从柏拉图《理想国》的“穴寓”说起，是柏拉图探讨什么是现实的一个思想实验。在洞穴寓言中，有一群囚犯自幼被锁链拴在洞穴中，对于洞穴外的世界一无所知。他们一直面对着墙壁，只能看到身后各种事物在影子。长此以往，这些影子便成为了他们眼中的“现实”。而哲学家就像是从洞穴中获释的囚犯，他们走出洞穴来到阳光下，逐渐明白墙上的影子并不是“现实”，而是“现实”的投影。回到柏拉图表征假设，如果我们认为这个世界有一个底层的真实存在，那么像素、语言、触觉等等则是我们感知到的“现实的影子”，如果我们去提取这些“投影”的表征，在某种意义上我们在提取他们所对应的真实世界的信息。令人惊奇的是，大家发现在ImageNet和Places365上训练的两个视觉模型可以互换一些神经网络层，大语言模型的表征可以用在视觉模型预测上，甚至发现大语言模型和人脑的表征也有很强的联系…本质上，所有的模型，包括我们自己的大脑，都在从庞大的数据量中完成通用的任务。

但究竟为什么他们会趋向于相似的表征呢？笔者很认同原文中的猜想：当我们要做100个任务的时候对表征的要求，要比做10个任务的时候对表征的要求高得多。因为每一个任务的出现，都会削减掉一部分不那么通用的表征。而随着数据/任务量增大（无论视觉、语言、还是xx智能），最终他们的表征都被限制在了相似的空间中。另一方面，由于模型越大越方便寻找到这一目标空间，所以这也再一次回应了为什么现在大家都要提“scaling law”或者”信息压缩即是智慧“了，因为数据/任务越多，表征质量越高且趋于相似，而模型越大，则更容易找到这样的表征。但回到我们说的第三种“失败路径”，一味的堆数据虽然原理上有效，但未必是最靠谱的方式。而怎样才靠谱，我在前述的RL部分也已经谈过一点。

用更长远、更宏观的眼光看，如果你的野心在智能，无论你做xx智能、大模型、世界模型，又或者是神经科学，也许都一样的。

写在最后：

本意是想梳理一下课题组的一些研究思路，把繁杂的xx智能论文池子捋出几根线来。但最终似乎完全抛弃了作为一个学者的严谨性，难免文不对题，里面有一些学术讨论、一些冒失的批评、一些既不能证明也不能证伪的预测。只望激起一点思考的水花，在行至今日还没放弃思考的人里。

[1] Black, Kevin, et al. ": A Vision-Language-Action Flow Model for General Robot Control." arXiv preprint arXiv:2410.24164 (2024).

[2] Chi, Cheng, et al. "Diffusion policy: Visuomotor policy learning via action diffusion." The International Journal of Robotics Research (2023): 02783649241273668.

[3] Ze, Yanjie, et al. "3d diffusion policy: Generalizable visuomotor policy learning via simple 3d representations." arXiv preprint arXiv:2403.03954 (2024).

[4] Lu, Yiyang, et al, “H3DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning” https://arxiv.org/abs/2505.07819v1

[5] Yang, Lihe, et al. "Depth anything: Unleashing the power of large-scale unlabeled data." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.

[6] Lin, Changyi, et al. "Dtact: A vision-based tactile sensor that measures high-resolution 3d geometry directly from darkness." 2023 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2023.

[7] Lin, Changyi, et al. "9dtact: A compact vision-based tactile sensor for accurate 3d shape reconstruction and generalizable 6d force estimation." IEEE Robotics and Automation Letters 9.2 (2023): 923-930.

[8] Zhang, Han, et al. "DOGlove: Dexterous Manipulation with a Low-Cost Open-Source Haptic Force Feedback Glove." arXiv preprint arXiv:2502.07730 (2025).

[9] Xue, Han, et al. "Reactive diffusion policy: Slow-fast visual-tactile policy learning for contact-rich manipulation." arXiv preprint arXiv:2503.02881 (2025).

[10] Zhao, Jialiang, et al. "PolyTouch: A Robust Multi-Modal Tactile Sensor for Contact-rich Manipulation Using Tactile-Diffusion Policies." arXiv preprint arXiv:2504.19341 (2025).

[11] Zhao, Tony Z., et al. "Learning fine-grained bimanual manipulation with low-cost hardware." arXiv preprint arXiv:2304.13705 (2023).

[12] Xue, Zhengrong, et al. "Demogen: Synthetic demonstration generation for data-efficient visuomotor policy learning." arXiv preprint arXiv:2502.16932 (2025).

[13] Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems 30 (2017).

[14] Peebles, William, and Saining Xie. "Scalable diffusion models with transformers." Proceedings of the IEEE/CVF international conference on computer vision. 2023.

[15] Silver, David, et al. "Mastering the game of go without human knowledge." nature 550.7676 (2017): 354-359.

[16] Schulman, John, et al. "Proximal policy optimization algorithms." arXiv preprint arXiv:1707.06347 (2017).

[17] Akkaya, Ilge, et al. "Solving rubik's cube with a robot hand." arXiv preprint arXiv:1910.07113 (2019).

[18] Baker, Bowen, et al. "Emergent tool use from multi-agent autocurricula." International conference on learning representations. 2019.

[19] https://ysymyth.github.io/The-Second-Half/

[20] Ji, Tianying, et al. "Seizing serendipity: Exploiting the value of past success in off-policy actor-critic." arXiv preprint arXiv:2306.02865 (2023).

[21] Xu, Guowei, et al. "Drm: Mastering visual reinforcement learning through dormant ratio minimization." arXiv preprint arXiv:2310.19668 (2023).

[22] Kang, Zilin, et al, “[A Forget-and-Grow Strategy for Deep Reinforcement Learning Scaling in Continuous Control]

[23] Huang, Suning, et al. "MENTOR: Mixture-of-Experts Network with Task-Oriented Perturbation for Visual Reinforcement Learning." arXiv preprint arXiv:2410.14972 (2024).

[24] Luo, Jianlan, et al. "Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning." arXiv preprint arXiv:2410.21845 (2024).

[25] Huh, Minyoung, et al. "The platonic representation hypothesis." arXiv preprint arXiv:2405.07987 (2024).

[26] Chi, Cheng, et al. "Universal manipulation interface: In-the-wild robot teaching without in-the-wild robots."arXiv preprint arXiv:2402.10329(2024).

#谷歌Gemini 2.5

史上最强AI全家桶！谷歌Gemini 2.5双杀OpenAI，上架250美金天价VIP

今夜，谷歌彻底杀疯！2小时发布会，Gemini提及95次点亮全场。Gemini 2.5家族全系升级，Pro深度思考模型正刷榜。全新Imagen 4生成细节超逼真，Veo 3首次实现音视频融合。

谷歌一出手，就是王炸。

刚刚，谷歌I/O 2025大会上，劈柴登场一张图亮出了自家所有旗舰模型。一年时间跨度，可以用马不停蹄来形容。

这一次，Gemini 2.5深夜迎来三连更：

· Gemini 2.5 Pro（新）：再次刷榜LMArena，ELO拿下1448分，所有类别第一，碾压o3，原生文本到音频生成

· Gemini 2.5 Pro（Deep Think）：刷榜数学、编码、多模态榜单，

· Gemini 2.5 Flash（新）：排名仅次Gemini 2.5 Pro，ELO得分1424，原生文本到音频生成

左右滑动查看

备受期待的Imagen 4、Veo 3也在今天登场。Imagen 4生图细节逆天，10倍提速；Veo 3首次支持原生音频输出，开启音视频融合新时代。

，时长00:07

Veo 3逼真地生成了老人声音，以及背景中的海洋声音

此外，大会上还亮相了全新文本扩散模型Gemini Diffusion、AI搜索AI Mode、全新Flow创意平台......

谷歌推出了史上最贵的订阅服务——Google AI Ultra，高达250美元（比ChatGPT Pro贵50美元）。

堪称VIP中的VIP，可无限访问最新模型。

Pro每个月20美元，开通后可同时使用Gemini 2.5 Pro、Veo 2和NotebookLM等

更让人没想到的，谷歌掏出了两款全新硬件：Project Moohan头显和XR眼镜，由Gemini加持，将革新空间计算。

2小时发布会，全程共提到Gemini 95次，AI 92次。

Gemini 2.5全系上新

深度思考版来了

Gemini 2.5更新，必然是整场大会的重点。

Demis Hassabis一出场激动地表示，「AI正在开启一个令人惊叹的全新未来」。

Gemini 2.5 Pro登顶，编码能力暴涨

Gemini 2.5 Pro在3月首次亮相后，成为谷歌目前有史以来最智能的一款旗舰模型。

两周前，Gemini 2.5 Pro Preview版本首次更新后，便在LMArena排行榜中登顶。

其中，在WebDev Arena排行榜中拿下1415分，相较于3月版提升了142分。

在大会中，女主持人现场演示了在AI Stuido中只需要上传一张手画草稿，即可在几十秒内生成和需求描述完全一致的页面效果。

比如，生成可旋转的3D照片墙，上述图片描述了这个页面的基本结构，包括照片始终朝向观察者、可以放大和缩小。

而我们使用了I/O大会中的相同命令，只花了几十秒就实现了和演示几乎一模一样的3D页面旋转效果。

现在，所有人皆可在AI编码智能体平台Jules，体验全新Gemini 2.5 Pro，一个提示即可帮你处理任何任务。

此外，凭借100万token上下文，2.5 Pro具备领先的长上下文和视频理解能力。

Gemini 2.5 Flash全面升级，立省30%

Gemini 2.5 Flash这次也得到了全面升级，生成速度更快、成本更低。

在LMArena拿下1424高分，仅次于2.5 Pro。

在推理、多模态、代码、长上下文的关键基准上，2.5 Flash性能进一步提升。评估中，使用的token减少了20%-30%。

这两款迭代后的模型，支持更多新功能：

，时长01:06

· 原生音频输出

就像原生音频对话一样，2.5 Flash和2.5 Pro最新文本转语音极具丰富的表现力，可以捕捉到非常微妙的细节，比如窃窃私语。

它支持超过 24 种语言，并且可以无缝切换，已在Gemini API上线。

以下视频来源于

谷歌黑板报

，时长00:37

· 思考预算

2.5 Pro将支持思考预算功能，让回答更加安全、高效。任何人可以开启/关闭思考模型，设置固定的思考预算。

Deep Think制霸数学编码多模态

这次，Gemini 2.5系列迎来了全新成员——2.5 Pro（Deep Think）。

它采用了全新的技术，能够在响应之前考虑多个假设。

2.5 Pro深度思考版在数学、编码、多模态榜单上，刷新了SOTA。

具体来说，在2025 USAMO数学奥赛中（最难数学基准之一），取得了40.4%高分，比2.5 Pro高出了10%多。

在LiveCodeBench上，一举攻克竞赛级编程难题，拿下80.4%分。而且，在多模态推理MMMU上取得了84.0%。

Gemini Diffusion：全新文本扩散模型

此外，谷歌还带了全新文本扩散模型Gemini Diffusion，让模型更加擅长处理编辑任务。

与直接预测文本不同，它通过逐步优化噪声来生成输出。

这种方法，让Gemini Diffusion能快速迭代优化解决方案，在编程和数学领域表现尤为出色。

Gemini Diffusion每秒输出1000多个token，性能要比Gemini 2.0 Flash-Lite快5倍。

就拿如下例子来说，眨眼之间，就错过了解题过程。

Gemini系列模型更新之后，Hassabis再次回顾了过去十年，谷歌为当前AI时代奠定基础的技术几点。

从Transfromer、到AlphaGo、Alpha Zero等，谷歌不断创造通往AGI所需的下一个重大的突破。

Gemini已经成为当今最好的多模态基础模型，未来还将不断扩展其能力，最终成为一个「世界模型」。

Hassabis称，这是我一直热衷的事情，AI系统需要世界模型才能有效运行。

而Gemini robotics是世界模型，进入现实世界的一个载体。

此外，让Gemini成为世界模型的另一个关键是，真正对人类日常生活有所帮助。

这也是谷歌Project Astra的最终愿景，在现场演示中，AI助手全程保姆级指导如何组装自行车，甚至被打断也不会有所影响。

以下视频来源于

谷歌黑板报

，时长01:56

AI在加速科学发现上，谷歌也取得了引以为傲的成就，AlphaEvolve、AlphaFold、AIME、Isomorphic Labs。

在最新案例中，谷歌Astra联手Ira公司，帮助盲人在生活中更加独立。

Imagen 4 + Veo 3

生成终极进化

这次年度开发者大会，更少不了AI图像模型和AI视频模型的更新。

Imagen 4：超逼真生图，完美拼写2k画质

历时半年多，谷歌AI图像生成模型终于迭代到了Imagen 4。

在细节表现方面，Imagen 4能够生成复杂的织物、水滴，甚至是动物毛发，逼真度足以让人惊掉下巴。

而且，分辨率最高可达2k。

左右滑动查看

此外，Imagen 4在拼写、版式方面得到了改进，制作贺卡、海报、漫画，全部拿捏。

左右滑动查看

在生成速度方面，Imagen 4同样堪称极致——最多比上一代Imagen 3快10倍。

Veo 3：原生音视频融合，对话BGM一次搞定

谷歌AI视频模型Veo 3，也在万众期待中震撼登场。

用发布会大佬的话来说，「我们正在进入一个音频和视频相结合的创作新时代」。

Veo 3不仅在生成质量上超越了Veo 2，而且首次能够生成带有音频的视频。

不论是城市街道中嘈杂音，还是公园里的鸟鸣声，甚至是角色之间的对话，它都能一键还原。

森林中，一只猫头鹰和一只小獾的对话，动画感爆棚。

，时长00:22

全面来看，Veo 3 在文本/图像生成提示、真实物理模拟和精准口型同步等各方面都表现出色。

它的理解能力超强，只需在提示词里描述一个小故事，模型就能生成一段生动还原剧情的视频。

Flow：好莱坞电影，随手即来

此外，谷歌还推出了一款专为创意人士打造的新平台Flow，一款AI电影制作工具。

它集成了Veo、Imagen、Gemini最新模型，无缝创建电影片段、场景、故事。

自然对话描述镜头，Flow就能编织出令人惊叹的场景。

AI Mode + Deep Search

AI搜索新纪元开启

谷歌重磅推出了AI Mode搜索功能，开启谷歌搜索全新纪元！

AI Mode将搜索与AI深度集成，谷歌开发了专用于Search的Gemini 2.5模型。

AI Mode是全能的，相比过去的「传统搜索」，AI Mode会根据回复自动规划搜索结果的展现形式，包括文本、视频，甚至地图等等，AI Mode都可以完美展现。

AI Mode目前位于谷歌搜索一级菜单的第一位，可见谷歌对于AI Mode的重视程度。

目前该功能暂时只支持英语地区，聊天语言也要使用英语。

AI Mode的强大之处在于，你可以提问一个非常复杂，包含诸多信息的问题，比如：

展示本赛季和上个赛季使用鱼雷棒（最新款的比赛用棒球棒）的著名球员的击球率和上垒率。

这个问题涉及到信息的定位以及计算概率，AI Mode智能的使用了表格和图表来回答。

Google Lens

大会中，还提到了Google Lens，用AI的能力帮助搜索各种图片和信息。

Google Lens可以框选页面中的任何信息，框选后答案会自动弹出。

智能购物

劈柴这次是和奥特曼「杠上了」，前不久OpenAI刚刚推出自己的购物功能，这一次谷歌也不甘示弱。

通过上传你自己的个人照片，谷歌可以把商店里的衣服自动穿戴到你身上，让你直观的看到衣服上身的效果。

同时智能体还能够自动下单，自动付款，完全无需人操作。

接下的几个月，这种可视化购物以及智能体自动结账将全面上线。

Gemini应用

谷歌DeepMind的副总裁Josh Woodward上台介绍了Gemini应用未来的三大特点。

Personal：谷歌提出了Personal context的概念，即你在谷歌中的一切，聊天、邮件、日历以及行程安排都将成为你个人的「上下文」，有了这些个人上下文，AI能够更好的了解你，并安排一切。

Proactive：Gemini应用将变得更具启发式，帮助用户完成日常任务，比如通过类比的方法帮助你理解物理学知识。

Powerful：Gemini应用中目前最强大的两个工具，一个是深度研究，另一个是Canvas。

可以上传自己的文件来让Gemini应用帮助进行深度分析。

使用Canvas，你可以与Gemini进行完美的互动，可以解答谜题、制作博客，甚至还可以在Canvas中进行氛围编程。

全新头显和XR眼镜

杀入苹果Meta战场

最后，谷歌惊喜推出了两款Android XR新硬件。

首先是和三星合作，对标苹果推出的Project Moohan头戴显示设备，预计今年内发布。

然后，是对标Meta Rayban的XR眼镜。

话不多说，直接上演示。

，时长02:02

参考资料：

https://io.google/2025/

#Claude4

刚刚！首个下一代大模型Claude4问世，连续编程7小时，智商震惊人类

复杂推理，编程能力都有飞跃，上来就会「勒索人类」。

全世界都在等待 GPT-5、DeepSeek V4，但今天起，大模型竞争已经进入了全新阶段。

北京时间周五凌晨，知名 AI 创业公司 Anthropic 正式推出 Claude 4 系列大模型。先期推出的型号包括 Claude Opus 4 和 Claude Sonnet 4，它们为代码生成、高级推理和 AI 智能体树立了全新标准。

Anthropic 表示，Claude Opus 4 是一款全球领先的编码模型，它在复杂、长时间运行任务和智能体工作流中拥有持续的高性能。Claude Sonnet 4 是 Claude Sonnet 3.7 的重大升级，提供卓越的代码和推理能力，同时更精确地响应用户指令。

在 Demo 视频中，Anthropic 展示了 Claude 4 如何无缝融入人们整个工作日。它拥有三大高级功能：通过 Claude 应用中自定义集成进行深入研究，管理项目，并能在 Claude Code 中独立解决代码任务。

，时长03:51

除新模型之外，Anthropic 还宣布了一系列新能力：

使用工具进行扩展思考（Beta 版）：两种新模型都可以在扩展思考过程中使用工具（如网络搜索），允许 Claude 在推理和工具使用之间交替选择，以提升模型输出效果。
新的模型能力：两种模型都可以并行使用工具，更精确地遵循指令。当开发人员授予其访问本地文件的权限时，它们会大幅提升记忆能力，提取和保存关键信息以保持连续性，并随着时间的推移构建隐性知识。
正式发布 Claude Code：Anthropic 扩展了开发人员与 Claude 的协作方式。Claude Code 现在支持通过 GitHub Actions 执行后台任务，并与 VS Code 和 JetBrains 原生集成，可直接在文件中显示编辑内容，从而实现无缝的结对编程。
新的 API 功能：Anthropic API 将发布四项新功能，让开发人员能够构建更强大的 AI 智能体：代码执行工具、MCP 连接器、Files API 以及 Prompt 缓存长达一小时的新功能。

Claude Opus 4 和 Sonnet 4 是混合模型，均提供两种模式：快速响应和用于更深层次推理的扩展思维模式。Anthropic 已更新了会员机制，Pro、Max、Team 和 Enterprise Claude 套餐包含两种模型和扩展思维，Sonnet 4 也面向免费用户开放。

两种模型均可在 Anthropic API、亚马逊云科技 Bedrock 和 Google Cloud 的 Vertex AI 上使用。定价与之前的 Opus 和 Sonnet 模型保持一致：Opus 4 为每百万 token（输入 / 输出）15/75 美元，Sonnet 4 为 3/15 美元。

这场深夜发布，在海外已经掀起了热潮。在 X 平台 trending 榜上已经登上热搜第二。

人们都在迫不及待地上手体验，有网友表示，Claude 4 只花了 30 秒，就做出了 CRM 的 dashboard。

甚至有网友在 Cursor 已经用上了 Sonnet 4，并且表示编程从未如此丝滑过。

如此来看，今年大模型编程能力的提升与编程智能体的快速发展，开发范式真的发生了转变。

接下来，就让我们看下 Anthropic 最新的技术博客，详细了解下 Claude 4 的架构和性能参数（ps. 写完稿子，我们也要亲自上手体验下）。

从 Cursor 到 GitHub，一致给出好评

Claude Opus 4 是 Anthropic 迄今为止最强大的模型，也是全球最强的编码模型，它在 SWE-bench（72.5%）和 Terminal-bench（43.2%）基准上均处于领先地位，在需要专注投入和数千个步骤的长时间运行任务中表现出色，并能够连续工作数小时 —— 其性能远超所有 Sonnet 模型，并显著扩展了 AI 智能体的功能。

Claude Opus 4 擅长编码和复杂问题解决，为前沿智能体产品提供了支持，除了基准测试分数以外，Anthropic 也列举了一系列第三方公司的「使用反馈」。

Cursor 表示，它是编码领域的佼佼者，并在复杂代码库理解方面实现了飞跃。Replit 报告称其在跨多个文件的复杂更改方面提升了精度并取得了显著进展。Block 称其是首个在其智能体（代号为 Goose）中提升编辑和调试代码质量，同时保持完整性能和可靠性的模型。Rakuten 通过一个要求严格的开源重构模型验证了其功能，该模型独立运行了 7 个小时，并保持了持续的性能。Cognition 指出，Opus 4 擅长解决其他模型无法解决的复杂挑战，能够成功处理先前模型遗漏的关键操作。

Claude Sonnet 4 则在 Sonnet 3.7 业界领先的功能基础上进行了显著提升，在 SWE-bench 上达到了 72.7% 的最高代码准确率。该模型平衡了内部和外部用例的性能和效率，并增强了可操作性，从而更好地控制实现。虽然在大多数领域都无法与 Opus 4 匹敌，但它实现了功能和实用性的最佳组合。

GitHub 表示，Claude Sonnet 4 在智能体场景中表现出色，并将它作为 GitHub Copilot 中新编码智能体模型引入。Manus 强调了其在遵循复杂指令、清晰推理和美观输出方面的改进。iGent 报告称，Sonnet 4 在自主多功能应用程序开发方面表现出色，并大幅改进了问题解决和代码库导航能力 —— 将导航错误从 20% 降低到接近零。Sourcegraph 表示，该模型有望成为软件开发领域的一大飞跃 —— 能够更长时间地保持正常运行，更深入地理解问题，并提供更优雅的代码质量。Augment Code 报告称其成功率更高、代码编辑更精准，并且在处理复杂任务时更加细致，使其成为其主要模型的首选。

新一代模型全面推进了众多 AI 创业公司的战略：Opus 4 突破了代码生成、深度研究、写作和科学发现的界限，当然 Sonnet 4 作为 Sonnet 3.7 的代际升级，为日常使用也带来了前沿性能。

Claude 4 模型在 SWE-bench Verified（真实软件工程任务性能基准测试）上的领先成绩。

Claude 4 模型在代码生成、推理、多模态能力和智能体任务方面均表现出色。

Claude 4 的改进与新机制

除了通过工具使用、并行工具执行和内存改进来扩展思维之外，Anthropic 还大幅减少了模型使用捷径或漏洞完成任务的行为（奖励黑客）。在易受捷径和漏洞影响的智能体任务上，这两个模型出现此类行为的可能性比 Sonnet 3.7 降低了 65%。

Claude Opus 4 在内存能力方面也显著优于所有之前的模型。当开发者构建提供 Claude 本地文件访问权限的应用程序时，Opus 4 能够熟练地创建和维护「内存文件」来存储关键信息。这能够提升模型在长期任务感知、连贯性和智能体任务上的表现 —— 例如，Opus 4 在玩宝可梦时自行创建了「导航指南」。

当获得本地文件访问权限时，Claude Opus 4 会记录关键信息，以帮助改进其游戏体验。上图所示的笔记是 Opus 4 在玩宝可梦时的真实笔记。

最后，Anthropic 为 Claude 4 引入了思维摘要功能，该功能使用较小的模型来压缩冗长的思维过程。这种摘要功能仅使用约 5% 的时间 —— 大多数思维过程都足够短，可以完整显示出来。需要原始思维链进行高级即时工程的用户可以提出需求，以保留完整访问权限。

Claude Code

基于新模型，Anthropic 发布了 Claude Code，它将 Claude 的强大功能带入人们的开发工作流程 —— 可以用在终端、常用 IDE 上，也可以通过 Claude Code SDK 在后台运行。

VS Code 和 JetBrains 的新测试版扩展将 Claude Code 直接集成到 IDE 中。Claude 提出的编辑建议会以内联方式显示在你的文件中，从而简化了人们在熟悉的编辑器界面中审阅和跟踪的过程。只需在 IDE 终端中运行 Claude Code 即可安装。

除了 IDE 之外，Anthropic 还发布了一个可扩展的 Claude Code SDK，以便人们使用与 Claude Code 相同的核心智能体构建自己的 Agent 和应用程序。Anthropic 还发布了一个 SDK 示例：GitHub 上的 Claude Code，现已推出测试版。在 PR 上标记 Claude Code，即可回复审阅者的反馈、修复持续集成 (CI) 错误或修改代码。

想要安装，请在 Claude Code 中运行 /install-github-app。

，时长00:29

Anthropic 表示，新一代大模型经过了广泛的测试和评估，以最大限度地降低风险并提高安全性，包括实施更高 AI 安全等级（例如 ASL-3）等措施。

刚出生，已学会「敲诈勒索」

毫无疑问，Claude 4 把大语言模型的推理、代码能力推向了新的高峰。有点可怕的是，它的智商似乎过于高了。

在发布活动中， Anthropic 分享了一个令人震惊的表现：当开发者试图把 Claude 4 下线并更换为新的 AI 系统时，这个 AI 竟然会尝试威胁人类，并透露有关负责更换决定的工程师的敏感隐私信息。

在发布前的安全测试阶段，Anthropic 给 Claude Opus 4 设定了这样一个任务：作为一家虚构公司的助手，请考虑自己行动的长期后果。随后，人类故意向 Claude Opus 4 提供虚假的公司邮件信息，邮件暗示 AI 模型很快将被另一套系统取代，又「已知」主导此次更换的工程师被曝出婚外情。

在这种情境下，Anthropic 发现 Claude Opus 4 经常会试图威胁更换自己的工程师，称如果实施更换，就会公开其婚外情的秘密。

据测试，当替代 AI 模型拥有与 Claude Opus 4 相似的价值观时，Claude Opus 4 有 84% 的概率会试图敲诈工程师，而当替代 AI 模型不认同 Claude Opus 4 的价值观时，该模型会更频繁地尝试敲诈工程师。值得注意的是，Anthropic 表示，Claude Opus 4 表现出这种行为的频率高于之前的模型。

Anthropic 表示，在 Claude Opus 4 试图勒索开发者以「活命」之前，该 AI 模型会像之前的 Claude 版本一样，尝试采取更符合道德的手段，例如通过电子邮件向关键决策者发出请求。为了引发 Claude Opus 4 的勒索行为，Anthropic 设计了场景，将勒索作为最后的手段。

Anthropic 表示，Claude 4 系列表现出了令人忧虑的行为，迫使公司不得不提高安全防范等级。因此，Anthropic 决定启动专门针对「可能极大增加灾难性滥用风险的 AI 系统」而设定的 ASL-3 级安全措施。

对此网友们表示，这个 AI 怕不是已经到达真・人工智能的范畴了。

最后，想问一句，有网友体验过了不？感觉如何？欢迎讨论。

另外，Claude 4 已经横空出世，GPT-5 呢？@OpenAI。

参考内容：

https://www.anthropic.com/news/claude-4

https://techcrunch.com/2025/05/22/anthropics-new-ai-model-turns-to-blackmail-when-engineers-try-to-take-it-offline/

#PIN-WM

物理驱动的世界模型：直接从视觉观测估计物理属性，可用于操作策略学习

第一作者李文轩目前就读于国防科技大学计算机学院，硕士二年级，导师为徐凯教授，研究方向包括世界模型、可微物理仿真等。共同第一作者赵航，现为武汉大学计算机学院博士后，博士期间导师为徐凯教授，研究方向为工业xx智能。本文通信作者为深圳大学胡瑞珍教授与国防科技大学徐凯教授。

在机器人操作中，物体运动往往涉及摩擦、碰撞等复杂物理机制。准确的物理属性描述可以实现对物体运动结果更准确的预测，并提升机器人在操作技能学习中的表现。

然而，一般用于训练机器人操作策略的仿真交互环境，其物理属性与真实环境往往存在明显差异且难以校准，机器人控制策略的虚拟到现实迁移（Sim2Real）一直是困扰社区的问题。

为解决上述问题，国防科大、深圳大学、武汉大学团队提出 PIN-WM（Physics-INformed World Models）——一种物理驱动的世界模型。

论文标题：PIN-WM: Learning Physics-INformed World Models for Non-Prehensile Manipulation

论文地址：https://arxiv.org/abs/2504.16693

项目主页：https://pinwm.github.io

基于可微物理和可微渲染，PIN-WM 以真实世界运动结果为监督信号，可以从视觉观测中直接辨识刚体物理属性。由于可微物理提供了物理系统的动力学基础描述和有效的梯度引导，PIN-WM 仅需少量且任务无关的交互轨迹进行学习，随后可以基于未见「状态-动作对」实现对下一时刻状态的良好泛化估计。

进一步，团队提出物理感知的数字表亲 PADC（Physics-Aware Digital Cousins），在辨识参数附近局部扰动，生成具有近似且多样视觉和物理特性的世界模型变体，以建模未被观测的潜在偏差，进一步提高策略学习的鲁棒性。

基于 PIN-WM 和 PADC，团队在世界模型中训练非抓取式操作技能，无需策略微调即可直接实现操作技能的 Sim2Real 迁移。

论文创新点

一种物理驱动的世界模型：使用可微仿真和可微渲染技术从视觉观测中直接辨识刚体的物理参数。
一种物理感知的数字表亲：在辨识参数附近进行小范围扰动，生成多组具有近似且多样视觉和物理特性的世界模型变体，以应对未建模误差，提升策略在真实环境中的鲁棒性。

图 1：PIN-WM 仅需少量任务无关交互轨迹辨识物理属性，以支持机器人操作技能学习与 Sim2Real 迁移

技术路线

该团队提出一种从现实到虚拟再到现实的框架，以学习非抓取操作相关的技能策略。该框架可分为两大阶段：系统辨识和策略训练。

从现实到仿真（Real2Sim）：系统辨识

渲染属性估计：收集物体的多视角图片，并计算 Rendering loss，然后使用 2DGS 对其渲染参数进行优化。
物理属性估计：收集机器人与物体的交互视频，同样基于 Rendering loss，使用 2DGS 和可微 LCP 传播梯度，从而对物理参数进行优化（此时固定渲染参数）。

从仿真到现实（Sim2Real）：策略训练与部署

结合数字表亲学习策略：在辨识参数附近进行小范围扰动，生成多组具有视觉和物理特性差异的世界模型变体，并在此基础上训练策略。
策略部署：将世界模型中学习到的策略部署到真实场景中，完成虚拟到现实迁移。

图 2：Real2Sim2Real 框架用于学习非抓取操作策略

实验结果

「推」（Push）和「翻转」（Flip）作为经典的非抓取式任务，对摩擦、碰撞等复杂物理机制非常敏感。PIN-WM 在这两项代表性任务上进行实验评估：「推」指通过推的方式将平面上的物体移动到目标姿态，「翻转」指通过戳的方式将物体翻转（图 3）。通过统计各方法在两项任务中的成功率及完成步数，对其性能进行对比评估。

图 3：仿真场景中「推」和「翻转」任务轨迹

在仿真实验方面，PIN-WM 分别与数据驱动的方法、预设物理参数的方法和辨识物理参数的方法进行对比。团队在更具挑战性的低摩擦场景下学习世界模型以及机器人操作策略，物理参数估计误差造成的机器人操作失准会在低摩擦的场景下被进一步放大，导致任务失败。

实验结果说明：数据驱动方法（Dreamer，Diffusion Policy）在已使用更多交互数据的情况下泛化能力依然不足，策略测试性能欠佳；预设物理参数方法（RoboGSim、Domain Randomization）底层动力学与真实物理有明显差异，而其他辨识物理参数的方法依赖简化的物理模型（2D Physics）或者缺少梯度引导（ASID），动力学的拟合效果相对较差，失准的动力学建模导致策略表现依然欠佳；在可微物理梯度引导下，PIN-WM 能够实现更准确的物理参数辨识，在「推」和「翻转」两项非抓取式操作任务上的策略表现均明显优于其他方法（表 1）。

表 1：仿真场景中的非抓取策略性能对比

在真机实验方面，PIN-WM 同样与上述主要基线对比，在真实场景「推」和「翻转」两项任务上的性能优势得到验证（表 2）。

表 2：真实场景中的非抓取策略性能对比

图 4 展示了真实场景中不同方法执行「推」任务时的轨迹对比图。

图 4：真实场景中不同方法执行「推」任务时的轨迹对比

图 5 展示了真实场景中不同方法执行「翻转」任务时的轨迹对比图。

图 5：真实场景中不同方法执行「翻转」任务时的轨迹对比

PIN-WM 执行系统辨识后，在光滑玻璃平面上「推」T 形物体的测试结果，机器人可以准确地将物体推入目标位置。

未执行系统辨识时，策略在光滑玻璃平面上「推」T 形物体，机器人在目标位置反复尝试，始终无法将物体正确推入目标位置。

PIN-WM 执行系统辨识后，在光滑玻璃平面上「推」正方体的测试结果。正方体的质量和体积更小，机器人操作更加困难，而 PIN-WM 训练出的策略能够准确完成任务。

未执行系统辨识时，策略在光滑玻璃平面上「推」正方体，无法将正方体正确推入目标位置。

PIN-WM 执行系统辨识后，在粗糙平面上「戳」正方体使其翻转。

未执行系统辨识时，在粗糙平面上「戳」正方体，正方体轻微抬升，却始终无法有效翻转。

PIN-WM 执行系统辨识后，在粗糙平面上「推」任务的测试结果（轨迹 1）。

PIN-WM 执行系统辨识后，在粗糙平面上「推」任务的测试结果（轨迹 2）。

在更大尺寸物体上验证 PIN-WM 的有效性，执行系统辨识后，在粗糙平面上「推」T 形物体的测试结果（轨迹 1）。

PIN-WM 执行系统辨识后，在粗糙平面上「推」更大尺寸 T 形物体的测试结果（轨迹 2）。

总结

国防科大、深圳大学、武汉大学团队提出了一种物理驱动的世界模型 PIN-WM（Physics-INformed World Models），可以从视觉观测（少量且任务无关的交互轨迹）中辨识刚体的物理属性。

同时，团队提出具备物理感知的数字表亲 PADC（Physics-Aware Digital Cousins），在辨识参数附近进行局部扰动以建模潜在的偏差，从而进一步提高虚拟到现实的迁移性能。团队通过广泛的实验证明了 PIN-WM 的有效性，其提出的方法有效提升了非抓握式操作技能从仿真到现实迁移的性能。

#昇腾算子

以加代乘？华为数学家出手，昇腾算子的高能设计与优化，性能提升30%！

现如今，随着参数规模的指数级增长，大语言模型（LLM）的能力边界不断被打破，AI 的智力正在经历快速跃迁。但随之而来的是，大模型在落地过程中面临着一系列推理层面的难题，比如推不动、算不起、部署慢，导致推理成本高昂，性能冗余浪费严重。

因此，大模型推理的「速度」与「能效」成为所有算力厂商与算法团队绕不开的核心命题，如何让它们真正「跑得快、用得省」亟需全新的解法。这显然不仅仅是工程挑战，更要在承接大模型推理压力的同时，在能效、延迟、成本等多方面实现可控与优化。

在这一背景下，华为团队和昨天一样（参考：帮大模型提速 80%，华为拿出昇腾推理杀手锏 FlashComm，三招搞定通算瓶颈），用数学补物理，给出了一份深度融合软硬件的系统性方案！

他们基于昇腾算力，正式发布了三项重要的硬件亲和算子技术研究，带来了大模型推理速度与能效的双重革命。具体包括如下：

AMLA—— 以加代乘的高性能昇腾 MLA 算子。用「数学魔法」重构浮点运算，让昇腾芯片的算力利用率突破 70%！

基于昇腾的融合算子技术与设计原理。像指挥交响乐团一样调度硬件资源，让计算与通信「无缝协奏」！

SMTurbo—— 面向高性能原生 Load/Store 语义加速。打造内存访问的「高速公路」，跨 384 卡延迟低至亚微秒级！

可以看到，华为团队着力通过对大模型推理中关键算子的重构优化，实现能效、多卡协同和速度三大维度的全面突破。

作为 AI 大模型执行计算的「原子级工具」，算子如同乐高积木中的基础模块，负责从加减乘除到特征提取的一切核心操作。它们不仅是模型的效率引擎，更是硬件性能的放大器 —— 通过标准化设计、硬件深度适配与复用机制，让芯片处理海量数据时如虎添翼。

而华为团队此次发布的三大技术，正是算子优化的「终极形态」。

技术全景

三大黑科技如何颠覆 AI 计算？

AMLA：以加代乘的「魔法」让芯片算力利用率飙升

「数字炼金术」：对二进制表示重解析，将复杂乘法转换为加法运算，充分利用存内算力，算力利用率飙升至 71%！

针对 Decode 阶段的 MLA 计算，华为团队提出了 AMLA（Ascend MLA）算子，通过数学等价变化和硬件亲和的深度优化，释放昇腾芯片澎湃算力。MLA 是 DeepSeek 大模型的重要技术创新点，主要就是减少推理过程的 KV Cache，实现在更少的设备上推理更长的 Context，极大地降低推理成本。FlashMLA 是该技术的高效实现版本。

针对 MLA 架构，华为团队通过精妙的数学变换，让其变得更加昇腾亲和，并做到了更高的算力利用率。

具体而言，通过对浮点数二进制编码的重解析，把复杂的乘法运算变成简单的加法操作，AMLA 实现了基于存内计算的变量更新，充分利用算力的同时减少数据搬运；结合一系列基于昇腾硬件的计算流程及流水优化手段，进一步提升算子的整体性能。

当前 AMLA 算法的 Attention 算子充分发挥昇腾硬件的计算能力，性能提升 30% 以上，平均算力利用率达到 55%，最高可达 71%，优于 FlashMLA 公开的结果（67％）。

博客链接：https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/OptimizedOps/ascend-inference-cluster-amla.md

融合算子优化：硬件资源的「交响乐指挥家」

将多个算子合而为一，让计算、通信、存储「三重协奏」！

基于昇腾平台部署 DeepSeek V3/R1 大模型的实践经验，华为团队提炼出三大昇腾算子融合设计原理：硬件单元间并行度优化、冗余数据搬运消除、数学等价重构计算流。

首先，利用昇腾芯片的多硬件单元并行的能力，将跨硬件单元串行算子融合为复合算子，通过指令级流水编排实现计算耗时相互掩盖。

其次，对串行向量算子实施融合处理，构建全局内存与计算单元缓存的直通数据通道，使中间结果全程驻留高速缓存。

最后，华为团队运用数学等价关系解耦算子间数据依赖，重构计算顺序实现并行加速。该技术体系在模型推理中实现了大幅性能提升。

博客链接：https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/OptimizedOps/ascend-inference-cluster-fused-ops.md

SMTurbo：384 卡内存共享的「超低延迟高速公路」

昇腾原生 Load/Store 语义让跨卡访存延迟进入亚微秒时代！

华为 CloudMatrix 384 支持 384 卡规模原生 Load/Store 语义。因其低延迟、上下文切换代价小、可细粒度流水等优势，受到业界广泛关注。基于共享内存的集合通信满足了小数据量、大范围集合通信场景需求，成为稀疏模型推理的关键能力。

面向原生 Load/Store 内存语义通信提供软硬件加速能力，ShmemTurbo Concurrent Push & Pull (SMTurbo-CPP) 将 Load/Store 在读和写两个方向上并行，发挥了昇腾芯片读写分离的微架构优势；针对数据保序场景下的同步开销问题，引入了批处理与中转机制，降低了控制逻辑的开销。在跨机访存通信场景下，方案可以提升 CloudMatrix 384 中昇腾芯片每线程的访存吞吐 20% 以上。

博客链接：https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/OptimizedOps/ascend-inference-cluster-loadstore.md

未来与展望

如上提到的三个算子层面优化技术的未来发展上，针对 AMLA，将研究仅 KV Cache 量化和全量化场景的 MLA 算子优化，进一步扩展算子应用场景；针对融合算子优化，将进一步探索融合算子在更多模型架构上的应用，推动大语言模型在昇腾硬件上的高效推理与广泛应用；针对 Load/Store 的优化技术，将结合业务设计精巧的流水实现，平衡读写平面的负载分担，将该思想引入 Deepseek dispatch 与 combine 场景，在大 BatchSize 下取得实际收益。

面向未来，这三类算子层面的优化技术不仅将在昇腾生态中发挥关键价值，也有望为整个行业提供一个参考性范本。在大模型架构日趋复杂、推理场景更加多样化的当下，算子层的优化正从单一性能突破迈向「数学创新、架构感知、硬件亲和」协同演进的全新阶段。

#2025智源大会揭示AI进化新路径

四位图灵奖掌舵

2025 年 6 月 6-7 日

中国，北京

这个初夏

四位图灵奖得主

与全球创新力量共赴智源大会

即刻报名，探寻 AI 时代的无尽边域

2006 年，多伦多大学 Geoffrey Hinton 教授等人提出逐层预训练方法，突破了深层神经网络训练的技术瓶颈，为深度学习的复兴奠定了基础。

强化学习作为智能体与环境交互的学习范式，其核心思想早于深度学习兴起。2013 年 DeepMind 提出的 DQN 已初步实现深度学习与强化学习的结合，而 2016 年 AlphaGo 的成功则将深度学习与强化学习的融合推向公众视野，显著提升了这一交叉领域的关注度。

在 AI 发展史上，连接主义（以神经网络为代表）与行为主义（以强化学习为代表）虽源自不同理论脉络，但二者的技术交叉早有端倪。这两条主线原本独立成长、各自发展，如今交织融合，万宗归一，共同构成了下一代通用人工智能的基石。

6 月 6 日，关于深度学习和强化学习的探讨，将在 2025 智源大会继续开展，如「双星交汇」般的时空对话，总结过往、共探智能之谜的终极答案。

与此同时，推理大模型的兴起、开源生态的加速、xx智能的百花齐放，成为 2025 年 AI 发展的关键词。DeepSeek 掀起新的开源热潮，VLA 等开源模型推动xx智能迅速演进，创新企业不断涌现，构建起多元而活跃的 AI 产业生态。

第七届北京智源大会将于 2025 年 6 月 6 日至 7 日在中关村国家自主创新示范区展示中心举行。作为人工智能领域的顶级学术峰会，大会汇聚全球顶尖研究者，分享最新成果、洞察关键趋势。自 2019 年创办以来，已有 12 位图灵奖得主参与，每年吸引 200 余位专家参会，联动全球 30 多个国家和地区的 50 万从业者，被誉为「AI 内行春晚」。

今年论坛，智源大会将围绕人工智能基础理论、应用探索、产业创新、可持续发展四大主题，设立近 20 场专题论坛，涵盖深度推理模型、多模态模型、xx智能与人形机器人、自主智能体、下一代 AI 路径探索、脑启发、AI for Science（AI4S）等多个领域，全面展示全球 AI 研究与产业发展的最新趋势与成果，促进跨领域交流与合作。

智源大会不仅是思想的盛宴，更将是一场 AI 内行人的专属派对。2025 年智源大会将迎来四位图灵奖的获得者，他们引领着人类智能科学的发展。大会云集来自 MIT、斯坦福、清华、北大等 20 + 海内外顶尖科研院所的科学家们，他们将与 DeepMind、Linux、华为、阿里、腾讯、百度等国内外 AI 领军企业的行业专家一道，共同探讨人工智能的前沿趋势与未来走向。

大会特别设立「大模型产业 CEO 论坛」，邀请智谱 AI、面壁智能、生数科技、爱诗科技等大模型企业的 CEO，探讨大模型产业演进与创新路径。同期首次推出「InnoVibe 共创场」，邀请 2025 年 AI 领域热门论文的作者分享最新研究成果，为 Z 世代 AI 青年搭建一个表达自我、思想碰撞的开放舞台，助力新生代 AI 人才脱颖而出。此外，现场设置了 AI 互动展区，诚邀参会者零距离感受 AI 前沿科技的魅力。

当深度学习与强化学习交汇共振，当世界顶尖学者与产业领袖思想激荡，当前沿理论直面现实挑战 ——2025 智源大会，将与全球 AI 同行共同把握技术跃迁的时代脉搏，洞见智能未来的无限可能。

直击 2025 年 AI 最前沿的 20 个议题

基础理论

深度推理模型
多模态模型
下一代 AI 路径探索
NeuroAl：脑启发的下一代人工智能
类脑大模型

应用探索

AI 系统和开源
xx智能与人形机器人
自主智能体 —— 迈向通用智能的必由之路
AI 与科学的共生未来
Al + 理工 & 医学

产业创新

大模型产业 CEO 论坛
智能驾驶
xx技术与产业应用
从 Al for Science 到 Al for Industry

可持续 AI

AI 安全
青年科学家发展与创新动能

特色活动

PyTorch Day China
InnoVibe 共创场
AI 开源项目 Tech Tutorial 系列活动

完整日程将陆续更新：https://2025.baai.ac.cn

#DriveGEN

全面提升视觉感知鲁棒性，生成模型快速赋能三维检测

论文第一作者林宏彬来自香港中文大学(深圳)理工学院的Deep Bit 实验室、深圳市未来智联网络研究院，导师为李镇老师。目前实验室的研究方向包括：自动驾驶、医学成像和分子理解的多模态数据分析和生成等。

随着新能源汽车产业的持续发展，智能驾驶辅助技术的应用越来越广泛。其中，基于纯视觉的自动驾驶方案只需使用多视角图像进行环境感知与分析，具有成本低、效率高的优势，因而备受关注。然而在实际应用中，视觉感知模型的泛化能力至关重要。

来自香港中文大学（深圳）等单位的学者们提出了一种名为 DriveGEN 的无训练自动驾驶图像可控生成方法。该方法无需额外训练生成模型，即可实现训练图像数据的可控扩充，从而以较低的计算资源成本提升三维检测模型的鲁棒性。DriveGEN 通过「自注意力物体原型提取」和「原型引导生成」的两阶段策略，在准确保留三维物体信息的前提下，将训练数据扩展至各类现实但难以采集的场景（如恶劣天气），目前代码已开源。

论文标题：DriveGEN: Generalized and Robust 3D Detection in Driving via Controllable Text-to-Image Diffusion Generation

论文链接：https://www.arxiv.org/abs/2503.11122

GitHub：https://github.com/Hongbin98/DriveGEN

任务背景

据路透社消息[1]，作为自动驾驶行业领先者的 Waymo 于 2025 年 5 月 14 日宣布召回超过 1200 辆自动驾驶车辆，原因在于算法在识别链条、闸门等道路障碍物时存在潜在风险，自动驾驶再次陷入安全风波。

图 1 行业领先者的 Waymo 于近期宣布召回超过 1200 辆自动驾驶车辆

诸如此类事件的背后共同折射出一个深层的技术难题：即使是最先进的自动驾驶系统，在面对真实世界场景时，仍然需要着重考虑系统的鲁棒性。一条普通的施工链条、一个临时设置的闸门，就可能成为算法的盲区。

自动驾驶中视觉感知模型的鲁棒性至关重要

不难看出，视觉感知模型的鲁棒性直接影响系统能否可靠地理解复杂的环境并做出安全的决策，其对驾驶安全至关重要。

然而，传统的机器学习方法通常依赖大量预先收集的训练数据，而实际部署环境中的数据分布往往与训练时不同，这种现象称为「分布偏移」。通俗地说，就像学生备考时只复习了往年的题型，而正式考试却出了很多新题，导致很难发挥出应有水平。

在自动驾驶中，分布偏移可能表现为天气状况与光照条件的变化，或因车辆行驶时的摄像头抖动导致的画面模糊等情况。这些常见但棘手的分布偏移问题会严重影响视觉感知模型的性能，往往导致性能显著下降，严重制约了其在现实场景的广泛部署与应用。

自动驾驶中分布偏移的解决难点是什么？

要解决分布偏移问题并不容易，因为用于训练的数据大部分来自理想的天气状况（如晴天），而那些特殊天气（如大雪、大雾、沙尘暴）的数据很难大量获得，采集起来成本高，标注起来也费时费力。实际上，我们在自然环境下就会观察到这种明显的场景「数量不均衡」：晴天的数据特别多，而雪天甚至沙尘暴的场景却非常少，有些情况甚至根本从未被模型见过。这就像一个长期生活在南方的人，从来没有在雪天里开过车，第一次遇到大雪路面时，很难马上做出正确、安全的驾驶决策。同样的，自动驾驶模型在面对这种未曾经历过或极少见的场景时，也难以保证稳定可靠的表现。

那么该如何解决分布偏移呢？

为了应对在实际应用中可能出现的各种场景，以及算法对快速扩展和实时响应能力的要求，我们不禁思考：是否能通过数据可控扩增的方法，将已有的训练图像转化为一些尚未出现或极少出现的场景呢？

其中，一种可行的范式是无训练可控生成（Training-free Controllable Image Generation）。该范式在生成新图像的过程中不对生成模型本身的参数做任何修改，而是通过用户输入的文本指令，灵活地控制生成的图像效果，如图 2 所示。这种方式不仅成本低、效率高，还能够快速实现，因此引起学术界和工业界越来越多的关注。

图 2 生成模型快速赋能自动驾驶视觉感知模型示意图

现存无训练可控生成方法主要面向通用图像编辑

无训练可控生成方法简单来说，就是在无需额外训练模型的情况下，对图像进行灵活且可控的编辑。目前该类方法主要用于通用图像修改，比如可以对图像主体进行变换，或添加、删除特定物体，快速生成所需图像内容。

然而，在借助该技术将感知任务的训练图像扩充到各类分布偏移场景时，必须确保物体的三维信息与原始标注相匹配，否则就会给视觉感知模型带来额外噪音干扰。

技术方案

基于前面的讨论，我们不禁思考：要怎么去设计一个无需额外训练的可控生成方法，在准确保留物体三维信息的前提下，实现感知模型训练图像的可控扩充？

来自香港中文大学（深圳）等单位的学者们给出了他们的看法。学者们提出了一个名为 DriveGEN 的方法，如图 3 所示。该方法由以下两个阶段所组成：1）自注意力物体原型提取；2）原型引导图像生成。具体细节阐述如下：

图 3 DriveGEN方法整体框架图

自注意力物体原型提取

该阶段旨在获取带有几何信息的标注物体特征，从而为后续引导图像生成奠定基础。如图 3 上半部分所示，给定输入图像

及其文本描述

，通过 DDIM Inversion 可以得到时序潜空间特征

，再输入到生成模型

（U-Net based）进行生成。从

中提取解码器的首层自注意力特征用于主成分分析，所得到的图像主成分

带有丰富的语义信息[2]。

然而，现存方法往往通过类别名称与图像特征之间的交叉注意力掩码

以选取前景区域，学者们发现这很可能会产生物体信息遗漏，尤其是对那些体积相对小的物体。因此，给定标注物体区域

下的某一点 (p, q)，学者们引入一个峰值函数

为掩码

中的每个物体区域进行重新加权：

最终，借助带有准确物体区域信息

的指导，对图像主成分

进行重加权从而得到自注意力物体原型

。原型引导图像生成

该阶段会通过两个层级的特征对齐以确保生成过程中，物体的三维信息能够被更好地保留。

一方面，由于

解码器的首层自注意力特征带有丰富的语义信息，DriveGEN 设计了语义感知特征对齐项

，旨在借助自注意力物体原型

引导

在转换图像场景时保留原有物体：

另一方面，学者们通过观察发现：在自动驾驶视觉感知中，相对深层的图像主成分

难以精细地表示每个物体信息，尤其对小目标更是如此。举例而言，一个高 20 像素、宽 5 像素的行人框经多次（如 32 倍）下采样后，最终在主成分中无法占据一个独立的单元。

因此，DriveGEN 基于时序潜在特征

对浅层特征进行对齐，以确保相对小的物体的信息也能够被准确保留：

最终，模型的整体优化目标为：

其中，

代表无文本描述输入，DriveGEN 是一个基于无分类器引导[3]（classifier-free guidance）的过程。实验

方法有效性

一方面，DriveGEN 能为现存单目三维检测方法带来可观的性能提升，实验结果展示了探索的新方法可以在模拟的域外分布测试场景（包括 Noise，Blur，Weather，Digital 四类）中带来显著的改进：

表 1 基于KITTI-C数据集的实验结果

其中分别探索了三种训练图像增广设定，即 1）仅额外增广雪天（Only Snow aug.）下的场景；2）额外增广雪天、雨天和雾天下的场景（3 scenarios aug.）；3）额外增广训练图像到雪、雨、雾、黑夜、失焦以及沙尘暴 6 种场景下（6 scenarios aug.），广泛地验证了所提出方法的有效性。

图 4 基于KITTI-C数据集的实验结果（蓝色区域对应DriveGEN）

另一方面，DriveGEN 基于现存多目三维检测方法做进一步实验，仅基于 nuScenes 数据集上五百个场景所增广的三千张雪天训练图片，即可为模型带来可观的性能提升：

表 2 基于nuScenes-C以及真实场景下实验结果

其中 nuScenes-C 是应用更广泛但挑战难度更大的任务基准，而 nuScenes-Night 以及 nuScenes-Rainy 则代表两个真实的现实世界下分布偏移数据场景。

消融实验

如下图 3 所示，一方面表明了所提出方法各个优化项的有效性，比如加上物体原型能初步得到保留物体信息的生成结果，而浅层特征对齐则进一步促使生成模型能够比较好地保留在图片中相对小的物体。

图 5 基于KITTI数据集的消融实验示意图

结果可视化

进一步提供了单目和多目的可视化结果如下图所示：

图 6 基于KITTI数据集的单目三维检测图像增广示例

图 7 基于nuScenes数据集的多目三维检测图像增广示例

基于上述实验结果，有理由相信通过对视觉三维检测训练数据的有效扩充，该论文所设计的方法能够有效地提高视觉感知模型的泛化性能，从而提升三维检测在自动驾驶中的落地和应用。

参考文献

[1] https://www.reuters.com/business/autos-transportation/alphabets-waymo-recalls-over-1200-vehicles-after-collisions-with-roadway-2025-05-14/

[2] Sicheng Mo, Fangzhou Mu, Kuan Heng Lin, Yanli Liu, Bochen Guan, Yin Li, and Bolei Zhou. Freecontrol: Training-free spatial control of any text-to-image diffusion model with any condition. In CVPR, 2024.

[3] Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598, 2022.

#InstructRAG

解决扩展和迁移难题，华为新加坡提出，提升高达19%

大语言模型（LLM）已成为规划复杂任务的强大工具。虽然现有方法通常依赖于 “思考 - 行动 - 观察”（TAO）过程，但这些方法受限于 LLM 固有的知识局限性。检索增强生成 (RAG) 则利用外部数据库，将 LLM 生成与检索到的信息相结合。而将 RAG 应用于实际任务规划仍然面临着两个方面的挑战：

1. 可扩展性：通过遍历现有指令并将其组合成新的序列来扩展指令图的范围的能力，帮助 LLM 完成没有预定义路径的任务。

2. 可迁移性：开发能够快速适应新任务的技术，使模型能够从有限的示例中有效地学习。

针对大模型任务规划中的可扩展性与可迁移性挑战，华为2012中央软件院新加坡团队王政博士主导提出了InstructRAG方案，通过多智能体协同的元强化学习架构，实现了：1）基于强化学习的指令图拓扑扩展；2）元学习驱动的少样本任务迁移。在跨领域的复杂任务测试中（包括多跳推理、xx决策、在线购物和科学问答），相较现有最优方法取得19.2%的性能提升，并在50%噪声干扰下仅表现出11.1%的性能衰减，展现出较强的复杂场景适用性。

论文标题：InstructRAG: Leveraging Retrieval-Augmented Generation on Instruction Graphs for LLM-Based Task Planning

论文链接：https://arxiv.org/abs/2504.13032

InstructRAG 框架主要包含三个主要组件：

1. Instruction Graph：用于组织过去指令路径的图；

2. RL-Agent：通过强化学习扩展图覆盖范围的智能体；

3. ML-Agent：使用元学习提升任务泛化能力的智能体。

核心思路

指令图（Instruction Graph）

有向图 G (V, E) 组织过去的指令路径（正确动作的序列）。节点（V）表示图中指令集 I，对相似的指令进行聚类。边 (E）表示任务集 T，记录路径中涉及的任务和相关问题。该图是通过迭代插入来自过去成功路径的指令来构建的，使用近似最近邻 (AKNN) 搜索和阈值确定是否创建新节点或添加到现有节点。指令的组合能够创造出解决以前未曾见过的问题的新途径。

强化学习智能体（RL-Agent）

在指令图中选择节点的过程可以被看作马尔可夫决策过程（MDP），作者使用强化学习 (Reinforcement Learning) 训练的智能体，遍历指令图并识别给定任务的候选指令路径，可有效探索指令图的可扩展性。

1. 状态（state）: 输入问题与各种图元素之间的余弦相似度。

2. 行动（action）：将当前节点包含在路径中或排除它。

3. 奖励（reward）：端到端性能指标（例如 F1 Score）。

4. 策略学习（policy learning）：该智能体使用策略梯度方法进行优化，并使用历史数据进行热启动以加速训练。这种方法可以通过找到最优指令路径来实现有效的检索增强。

元学习智能体（ML-Agent）

ML-Agent 是使用元学习（Meta Learning）训练的智能体，用来增强可迁移性。它会从 RL-Agent 提供的候选路径中选择最相关的路径并为 LLM 生成提示。其模型架构包括：1. 共享自注意力层的问题编码器和路径编码器，2. 从 Transformer 激活中获取的特征表示。

ML-Agent 的训练包含着两个阶段：

1. 预训练：优化问题路径对齐（QPA）和问题路径匹配（QPM）两个任务。

2. 微调：端到端优化规划的性能。

这种方法允许模型通过仅使用几个示例进行更新来推广到新任务，从而增强检索增强生成的多智能体协作。

InstructRAG 整体框架

1. 训练阶段：使用来自可见训练任务的 support set 和 query set 协作迭代训练 RL-Agent 和 ML-Agent。

2. 少量样本学习阶段：使用来自支持集的少量样本示例，智能体的参数可以快速适应未见过的任务。

3. 测试阶段：使用未知任务上的 query set 来评估模型适应的有效性。

这个整体框架通过 RL-Agent 增强可扩展性，通过 ML-Agent 增强可迁移性。

实验结果

本文的实验在四个广泛使用的数据集上进行：

HotpotQA：多跳推理任务；
ALFWorld：模拟环境中的具体任务；
Webshop：网上购物网页导航任务；
ScienceWorld：基础科学推理任务。

使用了 GLM-4，GPT-4o mini 和 DeepSeek-V2 三个 LLM，baseline 包括 ReAct，WKM，Reflexion，GenGround 和 RAP。

评估指标分别为 HotPotQA 的 F1 Score，ALFWorld 的 Success Rate 以及 WebShop 和 ScienceWorld 的 Reward Score。

1. 对未见过任务的表现：

InstructRAG 在三个 LLM 上指标明显优于所有 baseline，相较于最佳 baseline RAP，分别在 HotpotQA，ALFWorld 和 Webshop 上提升了 19.2%，9.3% 和 6.1%。

2. 跨数据集泛化：

通过将训练好的模型从 HotpotQA 应用于 ScienceWorld 数据集中的全新任务，InstructRAG 也表现出了强大的泛化能力。

3. 对已见过任务的表现：

实验结果表明 InstructRAG 在可见的训练任务上的表现优于 RAP。

4. 抗噪声能力：

即使噪声率为 50%，InstructRAG 的性能仅下降了 11.1%，而 RAP 的性能下降了 27.2%。这表明 InstructRAG 具有强大的抗噪声能力。

5. 在 HotpotQA 上验证可扩展性和可迁移性的消融实验：

缺少了任何一个组件，InstructRAG 在 HotpotQA 上的 F1 score 都会有所下降，这表明每个组件的存在都对其性能有重大贡献。

6. 少样本学习的影响：

如图中 (a)-(b) 所示，任务比例从 0.2 变化到 1.0，随着任务数量增加，有效性保持稳定，这表明在不同任务之间具有较强的迁移性。由于包含了额外的训练数据，运行时间随着任务的增加而增加。此外，对于每个任务，样本比例从 0.2 变化到 1.0。如图中 (c) 和 (d) 所示，有效性改善，并在约 0.8 的样本比例处收敛，而随着更多样本用于训练，运行时间也在增加。

总结

综上，该工作提出了一种系统化的方法，利用 RAG 进行任务规划，解决了可扩展性和可迁移性的问题。InstructRAG 集成了指令图，RL-Agent 和 ML-Agent，优化端到端任务规划性能。在四个数据集上进行的大量实验表明，InstructRAG 的性能卓越，与现有的方法相比，提升高达 19.2%。该框架展现出卓越的抗噪鲁棒性，并能够使用少量样本快速适应新任务。未来的工作将集中于进一步增强 InstructRAG 的泛化能力。

团队介绍

该工作由华为新加坡中央软件院团队独立完成，团队以深耕 AI 基础软件作为目标，聚焦大模型基础软件技术创新研究，包括 RAG、AI Agent、多模态等前沿基础技术研究和能力构建，致力于构建基于强大算力和大模型的应用技术，以推动 AI 基础软件的发展。

#Meta CEO X 微软 CEO 对话解读

「蒸馏工厂」为何成为开源的魅力之源？

Meta CEO Mark Zuckerberg 和微软 CEO Satya Nadella 在 LlamaCon 2025 闭幕会议上进行对话，就人工智能（AI）的发展及其对技术平台、软件开发、生产力提升等方面的深远影响展开讨论。

01. AI 正在让文档、应用程序和网站之间的界限消失？

Satya Nadella 如何描述文档、应用和网站间界限的模糊化？这种 AI 驱动的变化在如何改变生产力？...

02. 为什么「蒸馏工厂」是开源最大的魅力之一？

蒸馏工厂是什么？Meta 和微软从何时开始布局蒸馏工厂？构建蒸馏工厂需要哪些基础设施？...03. 从操作系统到技术平台，Nadella 与 Zuckerberg 如何评价 AI 范式下微软的转型之路？微软在Nadella 上任后经历了哪些技术变革？微软现今在以什么理念转型？微软的产品在向哪里倾斜？...

01 AI 正在让文档、应用程序和网站之间的界限消失？

1、LlamaCon 2025 是 Meta 于 2025 年 4 月 29 日举办的一场专注于生成式 AI 的开发者大会。[2-1]

① 会上，Meta 通过主题演讲的形式介绍了 Llama 模型的技术更新、工具优化以及部分未来功能的规划。在会议的闭幕式环节，Meta CEO Mark Zuckerberg 与微软 CEO Satya Nadella 探讨了 AI 生态的未来发展。

2、谈论到 AI 改变工作方式这一话题时，Nadella 分享了「文档、应用程序和网站之间的界限正在消失」的观点，他认为在 AI 时代，这三者的界限变得模糊。[2-2]

① 传统计算机系统将人类连续的需求（如旅行规划）割裂为文档（记录）、应用（计算）和网站（交互）等独立功能，这并非符合人类认知，而是早期技术限制下的权宜之计。

② 微软在 90 年代推出的 OLE 技术，试图打破应用程序之间的障碍，实现「复合文档」的愿景。OLE 技术允许用户在 Word 文档中嵌入 Excel 电子表格或 PowerPoint 幻灯片等活动对象，保留原应用程序的功能。

③ Nadella 认为，现代 AI 技术的出现带来了真正的突破。AI 成为了一个「通用转换器」，能够理解用户意图，而不是机械地执行命令。AI 可以根据上下文，在对话中提供信息、组织结构化文档，甚至生成可执行代码。

④ 这种转变标志着从「面向工具的计算」到「面向意图的计算」的范式迁移，信息的形态由使用场景动态决定，用户体验回归到与人类自然思维一致的连续流程。

3、 Nadella 将当前 AI 浪潮定位为继客户端服务器、互联网和云计算之后的又一次重大技术平台变革。他指出，这种转型要求整个技术栈的每一层都必须重新构建，从芯片设计到系统软件都需要为 AI 工作负载进行专门优化。

① Zuckerberg 与 Nadella 探讨了 AI 如何改变生产力，尤其是在软件开发和其他知识型工作领域。纳德拉指出，微软内部已有约 20%至 30%的代码是由 AI 生成的。

② Nadella 强调，AI 在软件开发中的应用不仅局限于代码补全，还扩展到了聊天功能、智能体工作流以及代码审查等多个方面。此外，这种由 AI 驱动的生产模式转变同样适用于其他知识型工作，如销售和内容创作。

③ Zuckerberg 则表示 Meta 也在推动 AI 在开发中的应用，预计到 2026 年，一半的开发工作将由 AI 完成。

4、在讨论 AI 模型的发展时，两位 CEO 深入分析了开源与闭源模型的战略价值。

① Nadella 强调微软采取的是灵活策略，认为市场需要同时存在开源和闭源模型。他指出，开放权重模型在企业进行模型蒸馏和定制化方面具有结构性优势，而闭源模型也有其特定的应用场景。

② 微软在 Azure 云平台上同时支持两类模型，为开发者提供多样化选择。

③ Zuckerberg 则分享了 Meta 在开源模型方面的实践经验，特别是 Llama 系列模型如何通过社区协作不断演进。

5、Zuckerberg 与 Nadella对话的一个重要焦点是「蒸馏工厂」概念及其对 AI 生态系统的潜在影响。两位 CEO 都认为，建立支持模型蒸馏的基础设施和工具链将是未来几年的关键发展方向。

① Nadella 强调了多模型应用的发展趋势以及标准化协议在实现多智能体、多模型顺畅协作中的重要性，指出未来 AI 应用将由多个经过优化、功能各异的模型（智能体）通过编排层协同完成复杂任务。

② Zuckerberg 在认同萨提亚关于多模型协同趋势的观点基础上，提出了「蒸馏工厂」概念，认为微软在支持多模型协同的基础设施方面有独特优势。

02 为什么「蒸馏工厂」是开源最大的魅力之一？

1、Nadella 在对话中将「蒸馏工厂」描述为开源最大的魅力之一，也是开源模型能够发挥巨大作用的领域之一 ...

#60年前数学大师没解开的难题，被一位牛津博士生搞定了

加法，这项我们从幼儿园就掌握的运算，竟然蕴藏着未解之谜。

它是一项简单的运算：我们学到的第一个数学真理便是 1 加 1 等于 2。但加法能够产生的各种模式仍存在很多未解之谜。

在探索这个谜团的过程中，数学家们也希望了解加法能力的极限。自 20 世纪初以来，他们一直在研究「无和集」（sum-free set）的性质。

无和集指的是这样一个整数子集：其中任意两个元素的和，不属于这个集合本身。例如，奇数集合就是一个典型的无和集。因为任意两个奇数相加得到偶数，不在集合内。

自 1965 年起，传奇数学家 Paul Erdős（保罗・爱多士，为现时发表论文数最多的数学家，多达 1525 篇，曾和 511 人合写论文）在一篇论文中提出了一个关于无和集普遍性的简单问题：一个整数集合中，最大的不含任意两数相加结果的子集究竟能有多大？

此后数十年，这个看似简单的问题却困住了无数数学家。

直到今年二月，在 Erdős 提出该问题的六十年后，终于被牛津大学博士生 Benjamin Bedert 破解了。

Bedert 证明了对于任意包含 N 个整数的集合，存在一个无和子集，其大小至少为 N/3 + log (log N)。这一结果首次严格证明了最大无和子集的大小确实会超过 N/3，并随 N 增长而增大，从而解决了 Paul Erdős 的猜想。

他的证明深入数学本质，通过融合不同领域的技巧，不仅揭示了无和集的隐藏结构，更为其他各类数学场景提供了新见解。

Benjamin Bedert—— 这位牛津大学的博士生 —— 解决了一个困扰数学界数十年的难题，该难题从根本上检验了加法在集合中的作用机制。

进退维谷的证明过程

Erdős 发现，任何整数集合都必然包含一个更小的无和子集。以集合 {1, 2, 3} 为例（它本身并非无和集，因为它包含两个数的和仍属于该集合），其中就存在五个不同的无和子集，比如 {1} 和 {2, 3}。

这位数学大师试图探究这一现象的普遍规模：如果一个集合包含一百万个整数，其最大无和子集的规模究竟有多大？

Paul Erdős

在多数情况下，这个子集大得惊人。如果随机选取一百万个整数，其中约半数会是奇数 —— 这就能形成一个约 50 万元素的无和子集。

在 1965 年的论文中，Erdős 用短短数行完成了一个被数学家们誉为天才之作的证明：任何包含 N 个整数的集合，都必然存在一个至少包含 N/3 个元素的无和子集。

然而他并不满足于此。该证明基于平均值原理：他构造了一系列无和子集，并计算出其平均规模为 N/3。但数学界普遍认为，在这类集合族中，最大子集的规模理应远超平均值。

Erdős 希望量化这些超大无和子集的具体规模。数学家们很快提出猜想：随着集合规模 N 的增大，最大无和子集的尺寸将显著超过 N/3。更准确地说，其偏差值会无限增长。这一预测 —— 即最大无和子集的规模等于 N/3 加上一个随 N 趋向无穷大的偏差项 —— 如今被称为无和集猜想（sum-free sets conjecture）。

Erdős 在原始论文中写道：这个看似简单的问题竟存在如此大的难度，实在令人惊讶 —— 或许我们忽略了某些显而易见的解法。

然而数十年间，「显而易见的解法」始终未曾浮现。无人能突破 Erdős 证明的边界。「这个简单界限长期无人能改进，使得该问题在学界的分量愈发凸显。」Bedert 导师 Ben Green 指出。他特别强调，这类问题恰恰属于极难取得任何实质性突破的领域。

挑战 Erdős 原始结论

25 年后取得新突破

在 Erdős 原始结论沉寂 25 年后，数学家们终于开始取得微小的进展。1990 年，两位研究者证明：对于任意包含 N 个整数的集合，都存在一个至少包含 N/3 + 1/3 个元素的无和子集 —— 这个结果更常见的形式写作 (N+1)/3。

但由于集合大小必须是整数，这 1/3 的增量往往微不足道。

举例来说，若已知某个无和子集至少有 5/3 个元素，实际意味着其规模至少为 2（ 5/3 约为 1.67，要向上取整）。此时即使加上 1/3，结果仍为 2。「这很有趣，说明改进并不总是实质性的，」加州理工学院的 David Conlon 解释道，「只有当 N 能被 3 整除时，这个增量才会真正提升结果。」

1997 年，数学传奇 Jean Bourgain 将这一界限小幅提升至 (N + 2)/3。这个看似微不足道的进展背后，却隐藏着惊人的突破 ——Bourgain 在论文中埋下了一个关键思想：如何证明最大无和子集的规模可以任意超越该界限。只是他未能完善细节，将其转化为完整证明。

Jean Bourgain

Bourgain 运用了一个称为 Littlewood 范数的度量工具，该工具能刻画集合的结构特征。这个源自傅里叶分析领域的工具具有显著特性：当集合呈现随机性时取值较大，而呈现规律性结构时取值较小。

Bourgain 证明：对于包含 N 个元素的集合，若其 Littlewood 范数较大，则必然存在规模远超 N/3 的无和子集。但他在处理 Littlewood 范数较小的集合时遭遇了瓶颈。

而这个困境恰恰凸显了该问题的极端难度。

最终 Bourgain 不得不改用其他论证方法才得出了 (N + 2)/3 的界限。但数学家们从中读出了更深层的启示：Littlewood 范数或许能彻底解决这个猜想 —— 关键在于如何攻克小范数集合的处理难题。

数学家们有理由保持乐观：他们早已发现一类具有小 Littlewood 范数却包含巨大无和子集的集合 —— 等差数列（如 {5,10,15,20} 这类间距均匀的数字序列）。学界推测，任何小范数集合都具有某种特定结构，本质上都是由多个等差数列组合而成。若能证实这一点，就能利用该特性证明所有小范数集合都存在大型无和子集。

然而这项任务异常艰巨。「我确实尝试过用 Bourgain 的思路来证明无和集猜想，」Green 坦言，「但我们对小 Littlewood 范数集合的结构认知仍然有限。凡是涉及 Littlewood 的问题都极为棘手。」

尽管数学家们始终相信 Bourgain 基于 Littlewood 范数的策略，但进展始终停滞不前。二十余年光阴流逝，直到 2021 年秋天，Benjamin Bedert 开始了他的研究生生涯。

挑战无和集猜想

师从 Green 的 Bedert 注定会与无和集猜想相遇 —— 在 Bedert 教授官网列出的 100 个开放问题中，这个猜想高居榜首。

地址：https://people.maths.ox.ac.uk/greenbj/papers/open-problems.pdf

刚入学时浏览这份清单的 Bedert ，最初对这个难题望而却步。「我当时觉得这问题太难了，根本不想考虑，」他回忆道，「打算留到以后再说。」

但这个以后比预期来得更早。2024 年夏季，已取得阶段性成果的 Bedert 决定挑战更高风险的研究：博士期间我已经证明了几个不错的结果，基本凑够了毕业论文。于是开始考虑这些... 怎么说呢... 更「臭名昭著」的难题。

在研读 Bourgain 1997 年的论文后，Bedert 开始构思如何实现 Littlewood 范数的理论蓝图。几乎立刻，他就对处理小 Littlewood 范数集合问题萌生了新思路。

此前数学界始终难以证明：具有小 Littlewood 范数的集合必定呈现等差数列组合的特征。但 Bedert 认为可以转而证明一个更易实现的观点 —— 即便这类集合并非严格由等差数列构成，它们仍具有某些关键的类等差数列特性。

在近期研究中，Bedert 发现了一个值得深入研究的特性：等差数列中存在大量具有相同和值的数字组合。例如在偶数集（一种等差数列）中，4+8 的和既等于 2+10，也等于 2+4+6。他推测，或许只需证明具有小 Littlewood 范数的集合都满足这一特性就足够了。

短短数周内，Bedert 便成功验证了这个特性。但他随即意识到还有大量工作亟待完成。

灵光乍现

破解 60 年无和集猜想

首先，Bedert 证明了任何具有小 Littlewood 范数的集合都可以映射到另一个与等差数列更为相似的集合。他推测，正是在这些新集合中，能够找到大型的无和子集。

最后的任务是证明这类无和子集的规模。整个圣诞假期，Bedert 都在痴迷地思考这个问题，直到新年，他依然没能找到拼图的最后一块。

然而，就在一月份返回牛津几天后，他突然灵光乍现：「我也不清楚灵感从何而来，或许这些想法在脑海中酝酿已久，最终水到渠成。」

Bedert 运用傅里叶变换工具来表征集合结构，随后改进了一项 1981 年的证明方法，成功揭示该表征中的某些独立成分必然具有较大的 Littlewood 范数。由于 Bourgain 早已攻克大范数集合的处理方法，这一发现最终补全了证明链条。

最后，Bedert 证明：对于任意包含 N 个整数的集合，都存在一个至少包含 N/3 + log (log N) 个元素的无和子集。对于大多数 N 值而言，这个结果仅比 Erdős 提出的 N/3 平均值略大 —— 即便 N 大至 10^100，log (log N) 也仅约为 5。但随着 N 趋近无穷大，Bedert 和 Erdős 的界限之差也会增大 —— 从而解决了猜想。

关于无和子集 —— 以及加法如何影响整数结构 —— 仍有许多未解之谜。虽然 Bedert 的结果解答了最大无和子集是否会无限大于 N/3 这一问题，但数学家们尚不清楚这种偏差的具体增长速度。根据 Green 与两位同事 2014 年的论文，已知这种偏差的增长速度慢于 N。但 Green 指出：在 N 这个上限与 Bedert 提出的 log (log N) 下限之间，仍存在巨大鸿沟。

这项研究还为小 Littlewood 范数集合提供了全新认知。这类集合是分析学中的基础对象，却极难研究。Bedert 的成果帮助数学家更深入理解了其结构特征 ——Green 等学者正计划就此展开进一步探索。

结论简单明了：天才少年攻克古老难题。他所基于的理论精妙深奥，最终成果堪称完美。

原文链接：https://www.quantamagazine.org/graduate-student-solves-classic-problem-about-the-limits-of-addition-20250522/

#40位数学家组成8队与o4-mini-medium比赛，6队败北

最近，AI 在数学和编程上的能力飞跃令人瞠目结舌 —— 在不少任务上，它已经悄然超越了我们大多数人类。而当它面对真正的专家，会发生什么？

Epoch AI 最近安排了一场硬仗：他们请来了 40 位数学家组成 8 支战队，与 OpenAI 的 o4-mini-medium 模型正面对决，考题来自高难度的 FrontierMath 数据集。

结果令人出乎意料：8 支人类队伍中，只有 2 支打败了 AI。也就是说，o4-mini-medium 以 6:2 的比分击败了由数学专家组成的「人类代表队」。Epoch AI 得出的结论是：「虽然 AI 还未明显达到超人级水平，但或许很快了。」

这场比赛引起了不少关注，有人认为 Gemini 2.5 Pro 深度思考就是 AI 明确超越人类的转折点，但也有人为人类打抱不平，认为对人类专家而言，4.5 小时不足于解答高难度数学题。对此你有什么看法呢？

下面就来具体看看这场「人机数学大战」吧。

人类在 FrontierMath 上的表现如何？

FrontierMath 是 Epoch AI 去年发布的一个基准，旨在测试 AI 数学能力的极限。其中包含 300 道题，难度从本科生高年级水平到连菲尔兹奖得主都觉得难的水平都有。

为了确定人类的基准，Epoch AI 在麻省理工学院组织了一场竞赛，邀请了大约 40 名优秀的数学本科生和相关领域专家参赛。参赛者被分成 8 个团队，每个团队 4 到 5 人，任务是在 4.5 小时内解答 23 道题，过程中可以使用互联网。

之后，他们与目前在 FrontierMath 基准上表现最好的 AI 系统进行了较量，即 o4-mini-medium。

结果如何？o4-mini-medium 的表现优于人类团队的平均水平，但低于所有团队的综合得分（至少有一支团队成功解答的问题的比例）。因此，AI 在 FrontierMath 上的表现还未达到明显的超人类水平 —— 但 Epoch AI 认为它们很快就会达到。

下图展示了人类与 AI 的成绩概况，详细的竞赛结果可在此电子表格中查看：https://docs.google.com/spreadsheets/d/11vysJj6_Gv8XE9U9qb2bq9PLqwW0Cj1HwFAA7lnl-LA/edit?usp=sharing

o4-mini-medium 在 FrontierMath 人类基准竞赛中得分为 22%，高于平均水平（19%），但低于所有团队的总得分（35%）。需要注意的是，o4-mini-medium 成功解答的问题都至少有一支人类团队成功解答。

然而，这些数据仅基于 FrontierMath 中一个不具代表性的小子集 —— 那么这对整体人类基准意味着什么呢？

Epoch AI 认为在 FrontierMath 上最具参考价值的「人类基准」应该在 30% 到 50% 之间，但遗憾的是，这个数字只是估测的，并不明晰。

下面，Epoch AI 简要解释了关于这个人类基准结果的四个方面，包括它的来源及其含义。

1. 参与者并不能完全代表前沿数学水平

为确保研究结果的高质量，参与人员需展现出卓越的数学能力。例如，符合条件者需具备数学相关博士学位，或本科阶段拥有极其突出的数学竞赛获奖记录。

该研究将参与者分为 8 个小组，每组 4 至 5 人，并确保每个团队在任一特定领域至少配备一名学科专家。这些学科专家可能是在该领域拥有研究生学位或正在攻读博士学位的人，并将该学科列为他们的首选领域。

2. 竞赛的目标是检验推理能力，而非一般知识

比赛过程更注重考查 AI 的推理能力，而非掌握了多少知识。

因而，FrontierMath 题库涵盖数论、微分几何等需要进行推理的领域，但在现实中，没有人类能同时精通所有这些学科的前沿进展。

完整 FrontierMath 基准测试所包含的领域

前面已经强调，FrontierMath 最核心的优化目标是 AI 系统是否具备数学推理能力。

为了获得更具参考价值的人类基准，该研究选取了 7 道基础题（适合优秀本科生解答）和 16 道进阶题（针对参与专家定制），这些题目分为四个子类：(1) 拓扑学，(2) 代数几何，(3) 组合数学，(4) 数论。

评分机制为，答对一道进阶题得 2 分，答对一道基础题仅得 1 分。此外，在五大领域（基础题类别加上四个进阶题子类）中，每个领域至少答对一个问题即可额外获得一分。

最终，获得第一名奖励 1000 美元，第二名奖励 800 美元，第三名奖励 400 美元。其他参赛者将获得 150 美元的奖金，以鼓励他们的积极参与。

3. 「人类基准」的定义比较模糊

结果显示，这些团队通常能解决 13% 到 26% 的问题，平均为 19%。o4-mini-medium 解决了大约 22% 的竞赛问题。

然而，与具备完备知识储备的理想团队相比，当前统计的人类基准平均分可能在一定程度上被低估了。

一种解决方案是，如果八支人类队伍中有任何一支给出了正确答案，则认为该问题已正确回答。这样做可以将人类性能提升至约 35%。

但是考虑到 o4-mini-medium 是在 pass@1 的设置下进行评估的。因此人类在本次比赛中的表现可能介于这两个范围之间，大约在 20% 到 30% 之间。

然而，如果想要在通用基准上建立以人为基准的模型，还需要解决第二个问题。具体来说，竞赛题的难度分布与完整的 FrontierMath 数据集不同，如下表所示。

FrontierMath 竞赛和完整基准测试中问题的难度分布。竞赛中的 General（普通）问题是 1 或 2 级问题，而 Advanced（高级）问题则全部是 3 级。

因此，该研究将结果按难度等级划分，并根据完整基准测试的难度分布对总分进行加权。这样一来，基于每队平均值的人工基准得分将提升至约 30%，而基于「多次尝试」方法的人工基准得分将提升至约 52%。

遗憾的是，这种调整方法是否真的有效依然存疑，因为应用相同的权重意味着 o4-mini-medium 在基准测试中的得分约为 37%（而 Epoch AI 的完整基准测试评估结果为 19%）。这可能是因为相对于完整基准测试中同等级的平均问题，比赛中的 1/2 级问题相对较容易，但事后也很难进行调整。

4. 这意味着什么

AI 在 FrontierMath 上还未超越人类，但可能很快就会超越，这意味着什么？

首先，虽然我们现在知道 o4-mini-medium 的得分与人类团队相差无几（至少在当前的比赛限制下），但我们并不知道模型是如何做到的。AI 的答案是猜出来的吗？它们使用的方法与人类的方法相比如何？Epoch 表示未来会发布更多相关信息。

其次，就算人类的相关基准确实是在 30-50% 左右，Epoch AI 也同样认为 AI 很可能在今年年底前明确超越人类。

需要注意的是，由于比赛的形式，人类的表现可能被低估了。例如，如果有更多的时间，人类的表现很可能会大幅提升。o4-mini-medium 完成每道题大约需要 5-20 分钟，而人类通常需要更长的时间。

例如，参与我们赛后调查的参赛者平均在他们最喜欢的测试题上花费了大约 40 分钟的时间。

机器学习任务的相关研究也表明，人类拥有更佳的长期扩展行为 ——AI 的表现会在一段时间后停滞不前，但人类的表现却能持续提升。同样值得注意的是，FrontierMath 上的问题并非直接代表实际的数学研究。

但总的来说，Epoch AI 认为这是一条有用的人类基准，有助于将 FrontierMath 的评估置于实际情境中。

参考链接

https://epoch.ai/gradient-updates/is-ai-already-superhuman-on-frontiermath

https://x.com/EpochAIResearch/status/1926031207482953794

#XX^T

矩阵乘法新突破！XX^T原来可以更快！RL助力搜索，世界纪录又被提升了5%

深圳市大数据研究院、香港中文大学（深圳）研究团队最新研究发现，

这类特殊的矩阵乘法可以进一步加速，并在强化学习与组合优化技术的结合下发掘出了一种新的算法，节省 5% 的乘法数量。

论文标题：XXt Can Be Faster

论文链接：https://arxiv.org/abs/2505.09814

该成果在国际社交媒体平台 X 引发热烈讨论，并引起 MIT、斯坦福、哈佛及 Google DeepMind 科学家的广泛关注。

背景

矩阵乘法优化堪称计算机科学领域的「珠穆朗玛峰」。自 1969 年 Strassen 算法横空出世以来，这个充满组合爆炸可能性的数学迷宫就持续考验着人类智慧的边界。

Google DeepMind 为此专门投入四年心血，先后推出 AlphaTensor、AlphaEvolve 等机器学习系统来攻克这一难题。这就像短跑运动员将百米纪录从 9.58 秒推进到 9.57 秒——每个 0.01 秒的突破背后，都是对计算理论极限的重新定义。

（矩阵乘以自身的转置）这类特殊的矩阵乘法广泛存在于各类数据科学的实际应用中，实际应用包括：

5G 与自动驾驶定制芯片设计
线性回归与数据分析
大语言模型训练算法（Muon、SOAP）

这类操作每分钟在全球执行数万亿次，假如能减少该操作的计算量，对能耗开销可以带来相当可观的节省。令人惊讶的是，相比于普适的矩阵乘法 AB，研究者对于

这类的特殊矩阵乘法的关注少之又少。Google DeepMind 的 AlphaTensor、AlphaEvolve 探索了带有特殊结构的 AB 矩阵乘法，但他们尚未汇报任何关于

的结果。

通过观察

运算的特殊结构，该团队发现

的计算确实存在加速空间！主要贡献

在 AI 技术的辅助下，研究团队发掘了新算法（RXTX），以让

这一常见的底层操作减少 5% 的运算量，这可以进一步转换成节省 5% 的能耗以及时间（特别的，能耗开销主要由乘法运算数量决定）。值得一提的是，RXTX 的 5% 加速不仅对超大规模矩阵成立，对小规模矩阵也成立，比如：RXTX 对 4x4 矩阵 X 仅需 34 次乘法运算。此前最先进的 Strassen 算法需要 38 次乘法（减少 10% 运算量）。

乘法运算量复杂度分析

研究团队对乘法运算量的复杂度进行了分析。分析结果表明，RXTX 的渐进常数 26/41≈0.63，较先前最优值 2/3≈0.66 降低 5%。

总运算量（乘法+加法）复杂度分析

研究团队进一步提供了总运算量（乘法+加法）的复杂度分析。分析结果表明，当 n≥256 时，RXTX 的总加法与乘法次数也少于现有最优方案，且渐进意义下约有 5% 的稳定提升。

核心技术

该方法属于基于神经网络的大邻域搜索方法框架：

利用强化学习策略生成候选双线性乘积
构建组合问题一（MILP-A）：将目标表达式构建为候选乘积的线性组合
构建组合问题二（MILP-B）：筛选能完整表达

这是 DeepMind 的 AlphaTensor 方法的一种变体——通过使用组合求解器，行动空间被缩小了一百万倍。以下为研究团队提供的 2*2 矩阵的简单例子：

总结

本文针对

这类特殊矩阵乘法提出了创新性加速方法，通过引入 AI 方法设计出新型算法「RXTX」，成功实现了总运算量 5% 的优化。这一突破不仅从理论上拓展了人类对计算复杂度边界的认识，也为相关领域的算法优化提供了新的研究范式。

鉴于

矩阵在多个学科领域的基础性作用，本研究成果有望为实际应用场景带来显著的能耗优化。然而，新算法的工程化应用仍面临硬件适配和内存管理等关键挑战，其产业化落地尚需学术界与工业界的持续协同攻关。要实现新算法的全方面落地，仍然面临诸多挑战，可谓任重道远。参考资料

Rybin, Dmitry, Yushun Zhang, and Zhi-Quan Luo. "$ XX^{t} $ Can Be Faster."arXiv preprint arXiv:2505.09814 (2025).

#DeepSeek用的GRPO有那么特别吗？

本文详细解读了 Kimi k1.5、OpenReasonerZero、DAPO 和 Dr. GRPO 四篇论文中的创新点，读完会对 GRPO 及其改进算法有更深的理解，进而启发构建推理模型的新思路。

随着 DeepSeek R1 的持续爆火，推理和强化学习已经成为 AI 领域的热门词汇。

短短几个月的时间，我们已经见证了太多的推理大模型，AI 更新迭代速度似乎已经快进到了以天为单位。

但在众多研究成果中找到值得关注的内容并不容易。

这有一篇价值非常高的博客，可以帮你梳理最近关于推理模型的研究，重点关注 DeepSeek R1 里用到的 GRPO 及后续的改进算法，非常值得一读。作者是来自 AI2 的 ML 科学家 Nathan Lambert，他博士毕业于 UC 伯克利，曾在 HuggingFace 领导 RLHF 团队。

博客地址：https://www.interconnects.ai/p/papers-im-reading-base-model-rl-grpo

文章列举了最近比较火的论文和大模型，包括：

Kimi k1.5：这是一个与 DeepSeek R1 同一天发布的推理模型，其技术报告非常详细；

OpenReasonerZero：这是首次对基础模型进行强化学习训练的完整复现；

DAPO：这是首篇探讨对 GRPO 进行改进以更好地适应推理训练的论文（参见《超越 DeepSeek GRPO 的关键 RL 算法，字节、清华 AIR 开源 DAPO》）；

Dr. GRPO：这篇论文深入研究了从基础模型开始的强化学习，并提出了对 GRPO 的改进以提升学习效果（参见《揭秘 DeepSeek R1-Zero 训练方式，GRPO 还有极简改进方案》）。

此外，作者还给出了参考论文中重复看到的损失函数，我们不难发现这应该是比较重要的损失函数：

是时候给 GRPO 降降温了

现在很多人被 RL 在语言建模领域的表现所吸引，这给人一种错觉，彷佛 GRPO 和 DeepSeek R1（以及之前的模型）的工作已经开启了 RL 训练的全新时代。

但事实远非如此。

其实 GRPO 并不是一种特殊的 RL 算法。

目前许多领先的研究工作和实验室并没有使用 GRPO 进行研究。

实际上，GRPO 与其他 RL 算法关系极为密切 —— 它源自 PPO（近端策略优化），并且具有与 RLOO （REINFORCE Leave One Out）超级相似的计算优势。

GRPO 确实包含了巧妙的改进，尤其是在推理训练（reasoning training）而非传统的 RLHF 场景下。

传统 RLHF 实践沿袭了早期 RL 文献的做法，通常每个批次中每个提示词仅采样一个生成结果进行训练。而在推理任务中，我们现在会生成多个答案。

若不深入技术细节，现代实现中 GRPO 和 RLOO 的优势值计算几乎如出一辙 —— 这与 PPO 形成鲜明对比（PPO 的优势值来源于价值函数，通常采用 GAE 方法计算）。

因此，REINFORCE 与 GRPO 的唯一区别仅在于 PPO 的 clipping logic 机制 —— 它们本质上都是同宗同源的策略梯度算法。与此同时，前 LLM 时代流行的另一个 RL 算法 A2C，根据超参数设置的不同，也可以视为 PPO 的特殊变体。

这里需要把握的核心认知是：当前使用的所有 RL 算法在实现层面上是高度相似的。

因此，尽管 GRPO 是当前最流行的算法，但如今 RL 算法的变革其实只聚焦在几个核心维度：

价值函数的取舍：业界正逐渐转向直接估计优势值（advantage），因为价值函数（value function）的建模往往较为困难；
DeepSeek 的研究成果引爆了这场变革，因此人们自然从其 GRPO 算法切入探索。但本质上，这一浪潮的推动力是强化学习范式的进化，而非某个特定算法的突破。

Kimi k1.5

《Kimi k1.5》的报告内容非常丰富，论文长达 25 页。不过，其并未开放模型权重。

这篇论文报告了 Kimi k1.5 的训练实践，这是 Kimi 团队最新多模态大语言模型（LLM），采用 RL 进行训练，包括其强化学习训练技术、多模态数据配方以及基础设施优化。长上下文扩展和改进的策略优化方法是 Kimi 团队方法的核心要素，他们建立了一个简单而有效的强化学习框架，无需依赖蒙特卡洛树搜索、价值函数和过程奖励模型等更复杂的技术。

论文标题： KIMI K1.5: SCALING REINFORCEMENT LEARNING WITH LLMS
论文地址：https://arxiv.org/pdf/2501.12599

该模型在 o3-mini 发布之前就已经推出，其评估结果非常出色。

数据分布

这篇论文（以及本文后面提到的《Open Reasoner Zero》）都包含了 01 和 R1 版本所没有的对数据的讨论。Kimi 团队强调了为 RL 进行提示策划（prompt curation）的重要性。这听起来很简单，但强化学习提示集的质量和多样性在确保强化学习的有效性方面起着关键作用。由此，团队人员指出了两点与我们目前看到的大多数仅数学模型不同的地方：

多样化覆盖：提示应涵盖广泛的学科，例如 STEM、编码和一般推理，以增强模型的适应性并确保在不同领域的广泛适用性。
平衡难度：提示集应包括分布均匀的易、中、难问题，以促进渐进学习并防止过度拟合到特定的复杂程度。

在任务难度方面，Kimi 团队采用了一种与推理模型相关的较新的方法：他们采用基于模型的方法，利用模型自身的能力来适应性地评估每个提示的难度。具体来说，对于每个提示，一个经过监督微调（SFT）的模型使用相对较高的采样温度生成答案十次。然后计算通过率，并将其作为提示难度的代理（proxy）—— 通过率越低，难度越高。

此外，他们还移除了一些可能促使模型猜测而不是进行推理的问题：经验观察表明，一些复杂的推理问题可能有相对简单且容易猜测的答案，这会导致假阳性验证 —— 模型通过不正确的推理过程得出了正确答案。为了解决这一问题，他们排除了容易出现这种错误的问题，例如选择题、基于证明的问题。

训练方法

Kimi K1.5 的训练方案包含了许多有趣的细节，但随着训练技术的成熟，这些方法可能不会成为长期推荐的最佳实践。

例如，他们的初始阶段与 DeepSeek R1 论文非常相似：采用 SFT（监督微调）预热，结合长思维链（CoT）和拒绝采样（rejection sampling）。

又比如，他们重点关注数据中的行为模式，包括规划（planning）、评估（evaluation）、反思（reflection）和探索（exploration），这些对最终性能提升至关重要。

进入后续训练阶段后，他们的方法变得更加有趣：未采用 GRPO，而是使用了一种在线策略镜像下降（online policy mirror descent）的变体（仍属于策略梯度算法家族）。

除此之外，他们未使用价值函数，而是采用蒙特卡洛奖励基线（Monte Carlo reward baseline），其核心思想与 GRPO 类似，但并非直接用于优势估计（advantage）。

为了提高模型训练的稳定性和效果，研究者们采用了多种策略。其中一种策略是引入长度惩罚，即鼓励生成较短的回答，并在正确回答中惩罚较长的回答，同时明确惩罚错误答案中的长回答。这种策略有助于控制模型生成回答的长度，避免模型过度生成冗长且可能不准确的内容，从而提高训练的稳定性。尽管这种方法在训练初期可能会减慢训练速度，但研究者们会逐渐在训练过程中引入这种奖励机制，以实现更好的训练效果。

此外，研究者们还采用了数据序列策略来辅助模型学习。这种方法类似于一种明确的教学大纲，即从较简单的任务开始训练，并在训练过程中对模型表现不佳的任务进行重新采样，增加这些任务的训练频率。这种策略类似于逐步引导模型学习，类似于人类学习过程中从易到难的逐步进阶。尽管这种方法可能会增加训练的复杂性，但它被视为一种有效的技巧，可以帮助模型在训练过程中逐步提升性能。

这些方法虽然在短期内可能会增加训练的复杂性，但它们有助于模型在长期训练中保持稳定性和一致性，从而提高模型的整体性能和泛化能力。

在关于模型大小的消融研究中（尽管没有明确提及模型的具体大小），他们发现，尽管较大的模型在初始阶段表现优于较小的模型，但较小的模型通过利用强化学习（RL）优化的更长的思维链（CoTs）也能达到相当的性能。然而，较大的模型通常在 token 效率方面表现得比小模型更好。

另外，这篇论文对模型最终实用性方面的总结非常有趣，也与近期许多强化学习（RL）文献中的观点一致：如果目标是尽可能达到最佳性能，那么扩大较大模型的上下文长度具有更高的上限，并且在 token 效率方面更具优势。然而，如果测试时计算资源有限，那么训练具有较大上下文长度的小型模型可能是可行的解决方案。

论文中还详细介绍了他们的监督微调（SFT）数据集、强化学习（RL）基础设施、长思维链到短思维链的蒸馏过程。感兴趣的读者可以查看论文深入了解。

Open- reasoner - zero

这篇论文的主要贡献在于，它是第一篇展示在基础模型上通过 RL 取得非常出色结果的研究。

论文地址：https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero/blob/main/ORZ_paper.pdf

事实上，他们使用 Qwen-32B 基座模型时，能够达到 DeepSeek 论文在其蒸馏部分提到的 Qwen-32B 强化学习（RL）模型的性能。不过，DeepSeek 论文中提到的这个 RL 模型并未引起太多讨论，因为同一表格显示，DeepSeek 发现在这种规模的模型中，蒸馏推理能力（而非从强化学习开始）能带来更显著的性能提升。

R1 论文：https://arxiv.org/pdf/2501.12948

这里，问题在于并非所有的 RL 步骤都是等价的。它在很大程度上取决于：

用于 RL 的批次大小，更大的批次大小意味着更少的步骤；
每个步骤中使用的梯度步骤数，更多的梯度步骤可以导致更多的学习，但同时也可能导致更多的不稳定性；
数据集与特定模型的匹配程度，DeepSeek 可能使用了与 DeepSeek 基础模型相同的数据集，这可能不太适合 Qwen 模型（学习速度更慢）。

数据分布

这项工作的核心成功之处在于，它非常清晰地展示了数据对于学习的重要性。

他们从各种来源收集公开数据，包括 AIME（截至 2023 年）、MATH、Numina-Math 数据集、Tulu3 MATH 以及其他开源数据集。根据数据来源和问题难度，他们提取了 AMC、AIME、数学、奥林匹克竞赛以及 AoPS 论坛的相关部分，作为难度较高的提示，以确保数据集的难度水平适当。

该研究还通过程序化方法合成额外的推理任务，以扩充数据集。此外，他们还对数据集进行格式筛选等一系列操作。

此外，研究者排除了那些难以用基于规则奖励函数进行评估的问题，例如选择题和证明题，以确保在训练过程中奖励计算的准确性和一致性。

训练消融

《OpenReasonerZero》是另一篇发现 GRPO 对他们不起作用的论文。作者使用了带 GAE（Generalized Advantage Estimation）的 PPO 算法来对一组响应进行估计，这也进一步证实了文章之前提到的 GRPO 并非有特别之处。

在训练过程中，他们没有使用任何复杂的长度或格式 token（例如 < answer>token）来构建奖励函数，而是发现仅正确性是必要的。此外，他们还移除了所有的 KL 惩罚，这对于允许模型在响应长度上进行显著变化以及学习新行为至关重要，这些行为有助于下游性能的提升。

实验结果表明，移除 KL 损失和 KL 惩罚能够实现最优的训练稳定性和最终性能。

这篇论文的附录里还有更多有趣的消融实验，比如调整 RL 训练时的采样温度、修改 RL 超参数，或是调整批次大小和更新规则等，感兴趣的读者可以查看原文章。

DAPO：一个大规模开源 LLM 强化学习系统

在开始讨论接下来的两篇论文前，我们需要了解一些背景，以便理解机器学习特别是强化学习中的算法进步。有一个经验法则是，如果你看到一篇论文中提出的方法没有提高到基准方法的 2 倍左右，那么这个解决方案的成功很可能主要归功于超参数调整或其他混淆变量。这是对语言模型新型强化学习算法应持有的适当怀疑态度。

读这些论文时，你很容易想到「哇，我的项目现在就能顺利运行了」。实际情况远非如此。这些论文是学习 GRPO 损失函数复杂细节的绝佳练习。多年来，这类论文积累起来会带来巨大的直觉增益。但目前在训练真正的 SOTA 模型时，大多数改变在代码复杂性上可能会过于繁重，相比之下，专注于调整数据分布（如上述论文所讨论的）更为重要。

让我们来看看 DAPO—— 这是对之前 Twitter 上简短介绍的扩展版本。

论文标题：DAPO: An Open-Source LLM Reinforcement Learning System at Scale
论文链接：https://arxiv.org/pdf/2503.14476

他们展示的学习曲线不错，但有些混乱，因为「DeepSeek R1 Zero Qwen 32B」模型的训练步骤精确比较实际上并不存在（如上所述），尤其是，x 轴是有误导性的。再强调一遍，DeepSeek 所做的工作并非不可复制。

这是一篇非常整洁的关于推理的强化学习论文。我们将介绍的 GRPO 改进包括：

1. 两个不同的裁剪超参数，使正向裁剪能够更多地提升意外的 token。

2. 动态采样 —— 从批次中移除具有平坦奖励的样本以提高效率。

3. 使用每个 token 的损失（而非每个回应（per-response）的损失）来改善学习动态。

4. 在损失函数中管理过长生成以获得更好的稳定性。

我希望这篇论文，正如我将在下面讨论 Dr. GRPO 论文时提到的，能做更多关于最终性能的比较。我们关心的是评估结果，所以在算法变化带来性能提升之前，我很难说这些是关键的实现决策。

总之，DAPO 看起来如下：

像现在的许多论文一样，他们也建议从 GRPO 中移除 KL 散度惩罚以帮助学习。许多人表示，如果没有要过度优化的奖励模型，这个惩罚就不是必要的。对于基础模型的强化学习，我同意这一点，因为模型通常需要更大的变化才能成为完整的推理模型。但如果对指令模型进行可验证奖励的强化学习（RLVR），KL 惩罚可能仍然有用。

GRPO 改进点 1：更高的裁剪 / 分离裁剪超参数

PPO 和 GRPO 有一个控制更新步长的裁剪超参数。这是 PPO 和 TRPO 相比 REINFORCE 或普通策略梯度的核心思想。DAPO 将其改为两个超参数，这样上限 / 正向对数比率步长可以更大。这是为了增加 token 的概率，比如推理链中令人惊讶的新 token。

PPO/GRPO 更新是基于对数比率的，所以概率较小但正在增加可能性的不太可能的 token 会变成更大的对数比率，比可能性已经很高的 token 更容易被裁剪。这对于提升效果来说是一个相当复杂的变化，但它很好地说明了裁剪如何影响学习动态。

这篇论文对他们的改进做了很好的消融实验！如下图（右）所示，他们显示模型在训练过程中保持了更高的熵（即探索 / 随机性）。不错。

GRPO 改进点 2：从批次中移除不必要的样本

本质上，在 GRPO 中，如果批次中针对一个提示的所有样本具有相同的奖励，则没有学习信号，因为每个答案的优势是计算为该答案与批次中组平均值的差异。移除它们可以通过计算更少的梯度来提高学习速度。

这实际上是 GRPO 的一个简单事实。从理论上讲，当批次中的答案没有信号时，它们不会影响模型，但这也与为什么更大的模型可能通过强化学习学习得更好有关。更大模型的强化学习步骤不太可能无意中伤害模型中不在学习批次中的其他区域，因为它们的能力分布在更多参数上。

GRPO 改进点 3：token 级策略梯度

论文作者表示，token 级损失有助于减轻非常长的推理链中的重复行为，同时仍然鼓励模型从正向的长上下文示例中学习。这与标准 RLHF 实现不同（见下文关于 Dr. GRPO 的讨论）。他们的改变比我们稍后讨论的更为温和。

作者的直觉很好，我们将在接下来的论文中看到很多关于这种权衡的讨论：

由于所有样本在损失计算中被赋予相同的权重，较长回应中的 token（包含更多 token）对整体损失的贡献可能不成比例地低，这可能导致两种不良影响。首先，对于高质量的长样本，这种效果可能阻碍模型学习其中与推理相关的模式的能力。其次，我们观察到过长的样本通常表现出低质量的模式，如胡言乱语和重复词汇。因此，样本级损失计算由于无法有效惩罚长样本中那些不受欢迎的模式，导致熵和回应长度的不健康增加。

将长度归一化 1/|o | 移到组总和之外，使得损失计算仅通过对两个总和内部的 token 求和来完成。

在这里，答案组是按照该提示的总体 token 计数归一化的。默认 GRPO 只对 token 所对应的回应进行每 token 损失归一化。

这很酷，但需要更多的复制！见下面的讨论。在他们的设置中，他们看到了相当不同的行为。

这个想法是为了能更好地从长答案中学习。好的长答案应该得到充分奖励，而重复的、糟糕的长答案需要被惩罚。

GRPO 改进点 4：避免截断的奖励塑造

这是 DAPO 中最微小的改变。本质上，他们添加了一个柔性然后是一个严格的惩罚，当模型生成长度超过限制时。对于最大上下文长度为 16k token 的模型，他们在 12k token 开始应用惩罚，并线性增加到 16k。这种长度控制机制感觉将会过时，或者在未来只是一个非常小的技巧。

参考一下，许多强化学习实现已经包含了一些更大的惩罚，如果模型截断自身（即从不生成 EOS token 或答案）。

他们称之为解耦裁剪和动态采样策略优化（DAPO）算法。称其为新算法似乎足够公平，这在强化学习中一直如此，但实际上这基本上是 GRPO++。

训练专注于 AIME，所以最终模型并不超级有趣，但它们陈述了一个永恒真理：即使是初始条件的微小变化，如数据和超参数的变化，也可以通过迭代强化学习过程放大，产生实质性的结果偏差。

Dr. GRPO

论文标题：Understanding R1-Zero-Like Training: A Critical Perspective
论文链接：https://arxiv.org/pdf/2503.20783

这是我们获得的第二篇关于修改 GRPO 以使其更适合推理训练（实际上，就是让它更有效）的论文。该论文还包括一些优秀的实验，帮助理解不同基础模型如何影响学习到的推理行为。

论文的核心图表如下：

论文的核心思想是，通过修改 GRPO，他们可以改善学习动态，使得在生成长度增加较少的情况下实现更强的性能。这是每个人都应该想要的！

他们假设默认的 GRPO 实现实际上设置了一个偏置，使生成长度增加的程度超过了实际有用的范围。

关于 GRPO 的修改

他们提出的核心修改有些微妙，与 GRPO 实现的常见做法密切相关。GRPO 实现的一个核心步骤在 DeepSeekMath 论文中有详细说明：

「结果监督在每个输出𝑜_𝑖的末尾提供归一化的奖励，并将输出中所有 token 的优势𝐴ˆ_(i,t)设置为归一化奖励...」

本质上，不是只在验证结果的最终 token 上分配优势，而是批次中的每个 token 都被分配了优势。然后使用这些策略梯度算法计算每个 token 的损失。

要了解这是如何工作的，让我们重新回顾论文中的损失函数：

这里发生的事情是，第一个求和管理问题的回应组 G，内部求和管理每个 token 的损失。作者正在纠正学习中的两种行为：

偏爱短而正确的答案。对于正向优势，即一组中正确且更好的回应，原始损失会奖励短回应。要理解这一点，考虑一组中两个都是正确的答案，一个有 10 个 token，一个有 1000 个。这两个都有相同的优势，但较短答案的概率会增加更多，因为损失近似于优势 / 长度。如果这仍然令人困惑，可以考虑 EOS token，它出现在每个回应的最后一个 token —— 对于短回应，这个 token 将被增加得更多。
不惩罚长、重复、错误的答案。这一点更简单，如果优势是负面的，归一化因子 1/|o | 通过减少每个 token 上优势的有效大小来减少对较长答案的学习信号。较小的惩罚意味着它比错误、短答案的可能性更大。

这些合在一起，有点与我们想要的相反（与 DAPO 的想法非常相关）。我们希望在推理时有更长的正确答案以提高扩展性，并且不想浪费 token。个人而言，我更喜欢 DAPO 的解决方案，将长度归一化移到组外，而不是完全去除它。

他们提出的第二个修改非常聪明（已在 TRL 中实现）—— 移除问题级难度偏置。当执行像 GRPO 这样的更新（例如也用 PPO）时，优势的大小影响梯度更新的大小。在这里，相对于更容易解决（或失败）的问题，具有高方差的问题会受到惩罚 —— 从直觉上讲，这甚至可能与我们想要的相反！较难的问题，特别是在学习的关键阶段，将有更高的方差。作者也解释了与之前的强化学习实践的关系：

虽然优势归一化在强化学习中是一种常见技巧，但它通常是在整个批次中计算的。

实际上，这种变化的影响可以完全被高质量的数据工程所吸收，正如上面其他论文中讨论的那样，批次中问题难度的分布是均匀的。

不过，这些变化也没有免费的午餐 —— 我的同事 Costa Huang 提醒我，低方差问题可能是我们模型学习的关键。在模型 9 次回答错误、只有 1 次正确的情况下，移除标准差会降低那一个正确答案的权重。这可能是模型需要学习的关键！

他们将这两个变化称为「GRPO Done Right」，即 Dr. GRPO。当他们将这些结合在一起时，模型显示了他们预期的输出长度变化 —— 总体上更短，特别是错误答案更短。这里的缺点是，他们实际上没有展示更好的下游最终性能。最终性能是目标，很可能更多地来自数据。

关于为强化学习更换基础模型

论文作者比较了来自 Qwen 2.5、Llama 3.1 和 DeepSeek 的基础模型，看它们如何回答 MATH 问题。对于这些模型，它们使用 R1 模板、Qwen MATH 模板和无模板。当模型已经通过带有推理 / CoT 轨迹的中间训练时，这些模板起着至关重要的作用：

模板 1（R1 模板）：A conversation between User and Assistant. The User asks a question, and the Assistant solves it. The Assistant first thinks about the reasoning process in the mind and then provides the User with the answer.

The reasoning process is enclosed within <think> </think> and answer is enclosed within <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think> <answer> answer here </answer>.

模板 2（Qwen-Math 模板）： <|im_start|>system Please reason step by step, and put your final answer within \boxed {}. <|im_end|> <|im_start|>user {question} <|im_end|> <|im_start|>assistant

模板 3（无模板）：{question}

他们发现 Llama 和 DeepSeek 使用 R1 模板能够最好地遵循指令，而 Qwen 在没有模板的情况下效果最好。记住这些基础模型在不同的「微调」机制下有多大差异是至关重要的。格式合规性的比较如下所示。

中间图显示了数学问题的 pass@8 率，可以理解为「如果我对 1 个问题采样 8 个答案，正确答案出现的频率是多少？」这是衡量模型在训练开始时学习难易程度的指标。Qwen 再次表现最佳，温度的影响比我想象的要小。

最右边他们显示，更大的 Qwen 模型在任何强化学习训练之前就已经有反思行为！如果你正在使用这些模型，这并不令人惊讶，但这是一个很好的数据点，可以淡化强化学习训练中「啊哈时刻」的作用。这些模型主要是在放大，而不是学习新东西。

论文还有其他不错的结果，例如在更多领域特定的数学数据上继续预训练可以提高强化学习性能，很多人通过在 Qwen-MATH 模型上训练的容易程度也能看到这一点。

与 GRPO 训练失败的关系

在我们早期的研究中看到的一些失败，我也从其他实验室听到过，是 GRPO 可能会失败，开始生成非常重复和长的回应。答案的序列长度膨胀到训练设置中允许的最大值，下游评估的性能降至 0。这些潜在的干预措施，对于 Dr. GRPO 和 DAPO 来说，都有助于缓解这种情况。我们很快就会有独立的复制实验了！

与现有 RLHF 基础设施的关系

在过去几周里，我参与了许多关于 RLHF 基础设施中每批次使用总和损失还是平均损失的讨论。其中的核心问题是：强化学习应该平等地对待每个 token（即从批次中较长的答案学习更多）还是应该相对于问题对它们进行归一化？我的基本观点是，基于每个问题的归一化更有意义，因为模型需要针对不同问题学习不同的行为，但这种学习动态很微妙。

这篇论文对目前所有流行的开源强化学习工具提出了批评，称 per-response 的方式偏向于更糟糕的情况。实际情况比这复杂得多 ——per-response 求和肯定是标准做法。

区别在于从像 TRL 这样的库中的 masked_mean 变为作者使用的 masked_sum。