51c大模型~合集129

我自己的原文哦~     https://blog.51cto.com/whaosoft/13918448

#Why We Think

刚刚!北大校友Lilian Weng最新博客来了

刚刚!北大校友Lilian Weng最新博客来了

学习大模型的优质博客又更新了!

最近,北大校友、前 OpenAI 应用 AI 研究负责人 Lilian Weng 更新了一篇长长长长长长长博客《Why We Think》。

image.png

文章回顾了近期在如何有效利用测试时计算(即「思考时间」)及其作用机制方面的研究进展,旨在让模型「思考得更久」这一目标可以从多个角度得到合理动机支持。

通过观察 GPT、Claude、Gemini 等模型的迭代,可以清晰地看到,它们在复杂逻辑推理、长文本理解、数学问题求解以及代码生成与调试等高级认知任务上的性能边界被不断拓展。

这种性能的提升得益于思维链(CoT)和测试时计算等策略的优化,但也带来了新的研究挑战。

为了方便国内读者更好地学习这篇内容,对此文章进行了编译。感兴趣的读者也可查阅原英文内容。

英文博客链接:https://lilianweng.github.io/posts/2025-05-01-thinking/

类比心理学

该核心思想与人类的思维方式密切相关。人类通常无法立即给出「12345 × 56789」的答案,对于复杂问题,进行一段时间的思考和分析是自然的过程。

在《思考,快与慢》(Thinking, Fast and Slow)一书中,丹尼尔・卡尼曼(Daniel Kahneman 基于「认知双系统理论」(dual process theory),将人类的思维方式划分为两种模式:

快速思维(System 1):运作迅速且自动,受直觉和情绪驱动,几乎不需要认知努力。

慢速思维(System 2):依赖有意识的逻辑推理与严密思考,需耗费较高认知能量并主动参与。

由于快速思维易于启动且更为省力,它往往成为决策主导,但这通常以牺牲准确性与逻辑性为代价。它天然依赖于人脑的「认知捷径」(即启发式方法 heuristics),进而容易产生错误与偏差。而通过有意识地放慢思维速度,给予更多反思、改进与分析的时间,可以激活慢速思维,挑战直觉,从而做出更具理性与准确性的决策。

计算即资源

在深度学习中,有一种观点认为神经网络可以通过其在每次前向传播中所能调用的计算与存储资源进行刻画。

如果我们使用梯度下降法来优化它们以解决问题,那么优化过程将自行「找出」如何组织这些资源,用于计算与信息存储,因此可以被看作会自动规划电路的过程。

从这一角度来看,如果我们设计的架构或系统在测试时(test time)可以执行更多计算,并且我们训练模型以有效地利用这一额外资源,那么模型的性能将会更好。

在 Transformer 中,每生成一个 token,模型所执行的浮点计算量(FLOPs)大致是其参数数量的两倍。而在稀疏模型(如专家混合模型 Mixture of Experts, MoE)中,由于每次前向传播只激活部分专家网络,参与计算的参数仅为总参数的一部分,因此计算量为 2 × 参数数 ÷ 稀疏度,其中「稀疏度」表示被激活专家网络的比例。

相比之下,思维链(CoT)使得模型在为每个希望生成的 token 进行推理时,能够执行更多的计算(即 FLOPs)。实际上,思维链的一大优势在于,它允许模型根据问题的难度灵活地调整计算量。引言:从“解题”到“定义问题”,评测引领AI下半场

潜变量建模

在机器学习中,一种经典的方法是:定义一个含有潜变量(latent variable)z 与可见变量 y 的概率模型,其中 y 是学习算法所观察到的变量。通过对潜变量可能值的边缘化(即求和),可以表达出一个关于可见变量 y 的复杂概率分布,即 P (y) = ∑z∼P (z) P (y | z)。

例如,我们可以用该方法建模数学问题及其解答的分布:将 x 表示为题目文本,y 表示真实答案或证明过程,而 z 则表示引导生成证明的一系列自由形式推理过程。优化的目标是条件概率 P (y | x) = ∑z∼p (z | x) P (y | x, z)。

这种潜变量视角特别适用于理解多线程思维链(multiple parallel CoTs)或基于搜索的思维链生成方法。这些算法可以被视为从后验分布 P (z | x, y) 中进行采样。这一视角还揭示了优化对数似然 log P (y | x) 作为目标函数的好处 —— 因为 log loss 目标函数在预训练中效果显著。

思维以 token 为单位

在生成简短答案之前,先生成中间推理步骤的策略,特别是在数学问题中,最初由研究者提出,并逐渐拓展形成了标准方法。这一方向中早期的研究包括构建数学推理数据集,并训练生成器进行有监督学习,通过人类编写的解题路径作为参考,同时训练验证模型判断候选答案是否正确,从而可以在多个解答中进行有效搜索。

后续研究引入了「草稿板」(scratchpad)概念,即将模型生成的中间 token 视为辅助推理过程的临时内容,并进一步引申出「思维链」(CoT)这一常用术语,以描述大语言模型通过逐步推理而非直接输出答案的能力。

最初提升 CoT 推理能力的方法,主要通过监督学习对人类书写的推理路径进行训练,或对模型生成的、经过正确性过滤的路径进行训练,后者可以被视为一种初级形式的强化学习。还有研究表明,仅通过设计合适的提示方式,如使用「逐步思考」的提示语,或构造更复杂的提示内容,引导模型先思考相关知识,也能显著提升指令微调语言模型在数学任务上的表现。

随着进一步的探索,研究人员发现,在具有自动可验证答案的数据集上应用强化学习,可以显著增强 CoT 推理能力。这些数据集包括带有确定短答案的 STEM 问题,或可以通过单元测试验证正确性的编程任务。这类强化学习策略已被验证可以显著提升大语言模型在多步推理任务中的性能。近期的模型开发中,采用策略梯度算法结合自动评估的问题集,已成为提高模型表现的有效方法。

图片

思维链提示(CoT prompting)显著提升了解决数学问题的成功率。模型规模越大,其「思考时间」所带来的性能收益越显著。

分支与修订

测试时计算(test-time compute)的根本目的在于:在推理过程中动态地调整模型的输出分布。为此,有多种策略可用于消耗额外的测试时资源,从而优化解码过程、选择更优样本,并将模型输出引导至更符合需求的分布。

目前主要有两类提升生成质量的策略:并行采样(parallel sampling)与序列修订(sequential revision)。

并行采样是在每一步并行生成多个输出序列,同时通过过程奖励信号(process reward signals)或结果评估模块(如验证器)对最终输出的质量进行判断,以此挑选最优答案。这是目前广泛采用的提升测试时性能的解码方法形式,例如 best-of-N 和束搜索。在无法获得标准答案(ground truth)的情境下,常使用自洽性策略(self-consistency),即在多个思维链(CoT)推理序列中,以多数投票的方式选择最终答案。

序列修订是指基于模型前一轮输出的结果,对其进行反思与迭代性修正,引导模型在后续输出中主动识别并纠正可能的错误。这种修订流程通常需要在经过微调的模型上实现;若仅依赖模型自身进行「内生性自我修正」(intrinsic self-correction),且缺乏外部监督反馈,则往往难以取得明显提升。

并行采样具有实现简单、直观、易部署等特点,但其效果在很大程度上取决于模型是否能够「一次性」生成正确答案;而序列修订通过显式引导模型识错与改错,逻辑上更具针对性,但速度较慢,且需额外控制过程中的修订风险,例如原本正确的答案被不当更改为错误,或模型产生新的幻觉(hallucination)。这两种方法可以结合使用。Snell 等人发现:对于简单问题,单一使用序列化策略的测试时计算效果最佳;而对于高难度问题,则通常需要在并行计算与序列修订之间找到最优组合比例,以获得最好的任务表现。

图片

并行采样与序列修订示意图。

并行采样

当我们手头有一个生成模型(generative model)以及一个可用于对完整或部分生成样本进行评分的评分函数(scoring function)时,便可以设计多种搜索算法,以寻找评分更高的生成结果。其中最简单的一种算法便是 best-of-N:直接独立生成 N 个样本,再依据评分函数从中选出得分最高者。

相较之下,束搜索是一种更复杂且更具适应性的搜索算法,它通过动态分配计算资源,优先探索解空间中更具潜力的部分。在束搜索过程中,模型维护一组当前最有前景的部分序列,并在扩展这些候选序列与剔除不够理想的序列之间交替进行。

在选择生成候选时,可以引入过程奖励模型(Process Reward Model, PRM)作为引导机制,辅助束搜索的路径筛选。例如,有研究使用大语言模型自身来评估其生成的每个推理步骤是否合理,将其格式化为选择题,从而进行逐步自我评估(per-step self-evaluation)。这种方法能够显著减少多步推理过程中的累计错误,特别是在束搜索解码阶段,表现尤为明显。

此外,在采样过程中通过温度退火(annealing the temperature)策略来调控随机性,也有助于缓解生成过程中不必要的波动。这一系列实验方法在 Codex 模型上应用于 GSM8k、AQuA 与 StrategyQA 等少样本任务时,取得了 5–6% 的性能提升。

区别于传统束搜索,REBASE(Reward Balanced Search)方法训练了一个独立的过程奖励模型,用于评估束搜索树中每一节点在不同深度下的扩展优先级。该模型基于 softmax 归一化的奖励分值,动态决定哪些节点获得更多生成资源。

另一种名为 RATIONALYST 的过程奖励模型,则利用大量无标注数据训练用于多步推理任务,模型通过生成候选推理路径(称为 rationale),并根据这些 rationale 是否能减少真实答案 token 的负对数概率(negative log-probability)达一定阈值,来筛选高质量推理过程。

在推理阶段,RATIONALYST 可以以两种方式引导思维链 CoT)生成器进行推理:一种是隐式地估计下一个推理步骤的概率(implicit supervision);另一种是显式地将下一步的推理内容直接作为提示词的一部分生成(explicit supervision)。

图片

束搜索解码过程中由大语言模型对每个推理步骤进行自我评估的引导机制。

有趣的是,即使不采用显式的零样本提示(zero-shot prompting)或少样本提示(few-shot prompting),也有可能激发出语言模型中的思维链(CoT)推理路径。Wang 与 Zhou 发现,如果在采样的第一个 token 处进行分支,并保留置信度最高的前 k 个 token(其置信度通过 top-1 与 top-2 候选之间的概率差来衡量),然后分别对这 k 条路径采用贪婪解码(greedy decoding)继续生成,那么其中相当一部分生成序列天然包含完整的思维链。

尤其在上下文中本就存在思维链内容时,这种机制更容易引导模型生成更具置信度的最终答案。在评估最终答案的置信度时,需首先通过特定任务的启发式方法(task-specific heuristics)标识出答案片段,例如,在数学题中提取最后出现的数值答案;或通过进一步提示模型(例如在末尾提示 「So the answer is」)来提取明确答案。

仅在首个 token 处进行分支的设计逻辑在于,相比于后续 token,早期分支能显著提升推理路径的多样性,而后续 token 的生成则更多受限于已有上下文序列。

图片

Top-k 解码中,k 表示在首次采样步骤中保留的候选项数量。

顺序修订

如果一个模型具有反思并纠正其先前回答中错误的能力,我们应期望它能够产生一个质量不断提高的迭代修订序列。然而,事实证明,这种自我修正能力并非大语言模型所固有,且在未经特别设计的情况下往往难以实现,其中的失败模式包括:

(1)幻觉,即将原本正确的回答修改为错误的版本;

(2)行为坍缩为不修正的状态,例如,在最初的错误回答上只进行细微甚至不作修改;

(3)在测试时无法泛化到分布转移(distribution shift)的情况。

Huang 等人的实验表明,直接应用自我修正策略反而可能导致性能下降,模型若要实现自我提升,仍需依赖外部反馈信号,例如与真实标签比对的结果、启发式规则、针对任务设计的评估指标、编程题的单元测试结果、更强大的模型输出参考,以及人类反馈等。

自我修正学习旨在在固定的生成模型 P₀(y₀∣x) 基础上,训练一个修正器模型 Pθ(y∣y₀, x)。其中生成模型保持通用性,而修正器模型则可以针对具体任务进行定制,并且只在给定初始模型响应和可选附加反馈(例如一段文本、编译器提示信息或单元测试结果)条件下进行生成:

1. 自我修正学习首先针对数据池中的每个提示生成多个候选输出;

2. 然后,为每个提示构造「价值提升对」;即挑选两个输出,如果其中一个相较于另一个在评价指标上更优,则组成(提示 x,初始答案 y,修正答案 y′)三元组;

3. 接着,根据修正带来的价值提升幅度 v (y′) − v (y),以及两个输出之间的相似度 Similarity (y, y′),对这些样本对进行加权采样以训练修正器模型;

4. 为鼓励探索,修正器生成的新输出也会加入数据池。推理时,可以反复调用修正器,从而形成一个连续改进的修订轨迹。

图片

通过匹配同一问题下模型的不同输出,构造「价值提升对」以训练修正模型的自我修正学习示意图。

递归检视(Recursive Inspection)同样旨在训练更优的修正器模型,但其采用的是单一模型同时完成生成与自我修正的策略。

SCoRe(Self-Correction via Reinforcement Learning)是一种基于多轮交互的强化学习方法,旨在鼓励模型在第二次尝试时生成相较第一次更优的答案,从而实现自我修正。该方法由两个训练阶段组成:

 第一阶段的目标是最大化第二次尝试答案的准确性,同时仅对第一次尝试施加 KL 散度惩罚(KL penalty),以防止第一次生成行为偏离基础模型太远,保持其生成风格的稳定性;

 第二阶段则同时优化第一次和第二次生成答案的准确性。

理想情况下,我们希望模型在第一次和第二次尝试中都能获得更好的性能,但引入第一阶段可以有效避免「行为坍缩」,即模型仅对初始响应进行微小甚至无修改;

而第二阶段则在此基础上进一步提升整体表现。

图片

显式训练设置,通过进行两阶段 RL 训练来提高自我纠正能力。

使用强化学习提升推理能力

近期,越来越多的研究成功地利用强化学习(RL)提升语言模型的推理能力。这类方法通常采用带有可靠参考答案的问题集(主要是 STEM 领域的问题或易于验证答案的逻辑谜题),通过奖励模型生成正确答案来优化其性能。

这一方向的发展受到 OpenAI 发布系列模型出色推理表现的推动,随后 DeepSeek 的模型及技术报告进一步加速了相关研究的进展。

DeepSeek-R1 是一款开源大语言模型,专为应对数学、编程和逻辑推理等高复杂度任务而构建。其训练流程包括两轮 SFT-RL(监督微调 + 强化学习),使得 R1 在推理类与非推理类任务上均具备良好能力。

在训练初期,采用「冷启动监督微调」(cold-start SFT),即在数千条冷启动数据上对基础模型进行微调。若省略此步骤,模型在初期表现中可能会出现语言混杂、表述不通顺等问题。

面向推理的强化学习(reasoning-oriented RL)阶段,使用仅包含推理任务的提示,对模型进行强化训练,奖励信号设计为两类规则型指标:

格式奖励(format rewards):要求模型使用特殊 token 包裹「思维链」(CoT)。

准确性奖励(accuracy rewards):判断最终答案是否正确。数学问题的答案需以特定格式呈现(如放入方框中)以便自动验证;编程问题则通过编译器评估是否通过测试用例。

拒绝采样 + 非推理监督微调 阶段,使用 RL 第 2 步的 checkpoint 生成的推理输出,通过拒绝采样(rejection sampling)进行质量筛选,并结合写作、事实问答、自我认知等非推理任务中的监督数据,构建新的训练集,用于训练 DeepSeek-V3-Base:

  • 筛除含有语言混杂、超长段落或冗长代码块的 CoT 结果;
  • 利用 DeepSeek-V3 流水线生成并标注非推理类任务;
  • 对于某些非推理需求,可调用 DeepSeek-V3 提前生成潜在思维过程作为提示(prompt)再进行回答,而对于诸如「你好」之类的简单查询则不需要思维链;
  • 最终使用约 80 万条样本对 DeepSeek-V3-Base 微调两个 epoch。

最终的强化学习阶段 使用第三阶段的 checkpoint,同时在推理类与非推理类提示上进行训练,从而全面提升模型的有用性(helpfulness)、无害性(harmlessness)和推理能力(reasoning)。

图片

在多个广泛使用的推理基准测试中,DeepSeek-R1 的表现可与 OpenAI 模型相媲美。其中,仅有 DeepSeek-V3 是榜单中唯一的非推理类模型。

有趣的是,DeepSeek 团队展示了,即使完全不经过监督微调(SFT)阶段,仅依靠纯强化学习(pure RL),依然可以学习到诸如反思(reflection)和回溯(backtracking)等高级推理能力,即所谓的「顿悟时刻」(「Aha moment」)。在强化学习训练过程中,模型自然学会在解决推理任务时投入更多的思考 tokens,从而提升解题能力。

所谓「顿悟时刻」,是指模型能够反思先前的错误,并尝试替代性策略进行修正。这种能力的涌现表明模型具备了类人式的深层思维过程。

随后,一些开源项目也试图复现 R1 的成果,包括 Open-R1、SimpleRL-reason 和 TinyZero,这些项目均基于 Qwen 模型构建。相关研究也同样证实了纯强化学习方法在数学问题上可以取得优异表现,并能涌现出类似的「顿悟时刻」。

图片

模型学习反思并纠正错误的示例。

DeepSeek 团队还分享了一些训练中未成功的尝试。例如,使用过程奖励模型失败了,因为很难对每一个中间步骤制定明确的评分标准,也难以判断中间推理是否正确。此外,这种方式容易导致奖励欺骗(reward hacking),从而影响训练稳定性。

在蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)方面的尝试也宣告失败,原因在于语言模型的 token 空间远大于如国际象棋这类传统有限动作空间的场景,使得搜索过程计算复杂度极高。同时,用于引导搜索的细粒度价值模型(value model)的训练也极具挑战性。

尽管失败,但这些尝试提供了独特的研究洞察。我们鼓励研究社区进一步分享这类「未能奏效的尝试」,以推动更全面的理解与进步。

外部工具的使用

在推理过程中,某些中间步骤可以通过执行代码或数学计算实现高效且精确的求解。通过将这部分推理工作交由外部代码解释器处理,例如 PAL(Program-Aided Language Model,程序辅助语言模型)或 Chain of Code(代码链)方法,可以拓展大语言模型的能力,使其无需自行学习代码执行或充当计算器角色。

在 Chain of Code 中,所使用的代码执行系统可以由 LLM 进一步增强:当标准代码解释器无法正确运行特定代码行时,模型还可以尝试由 LLM 来直接执行该段代码。使用代码来辅助推理,尤其适用于数学问题、符号推理以及算法类任务。

在某些编程任务中,题目中未必提供单元测试。此时,我们可以引导模型自主生成用于验证解法的单元测试,从而提升解答的正确性。

图片

程序辅助语言模型(Program-Aided Language Model)提示示例如下所示。

ReAct(Reason+Act,推理与行动)方法将调用 Wikipedia API 等外部操作与生成推理轨迹相结合,实现将外部知识纳入推理路径的能力。

图片

ReAct 提示方法的示例,展示其如何通过调用 Wikipedia 搜索 API 作为外部工具,辅助推理以解答一个 HotpotQA 问题。

OpenAI 最近发布的 o3 与 o4-mini 模型亦是融合工具使用的典型案例,其推理过程涉及网页搜索、代码执行与图像处理等操作。研究团队观察到,在类似 GPT 的训练范式中,大规模强化学习同样呈现出「计算资源越多,性能越好」的趋势。

忠实地思考

深度学习模型通常被视为黑盒子,人们提出了各种可解释性方法。可解释性之所以有用,有几个原因:首先,它为我们提供了一个额外的测试,以确定模型是否与创建者的意图不符,或者是否以某种我们无法通过监控其行为来判断的方式出现了错误。其次,它可以帮助我们确定模型是否使用了合理的程序来计算其答案。思维链提供了一种特别方便的可解释性形式,因为它能让模型的内部过程用自然语言表达出来。然而,这种可解释性建立在模型如实描述其内部思维过程的假设之上。

最近的研究表明,监控推理模型的 CoT 可以有效检测模型的不当行为,如 reward hacking,甚至可以使较弱的模型监控较强的模型。增加测试时间的计算量还能提高对抗鲁棒性;这在直觉上是有道理的,因为当模型遇到不寻常的输入时,如对抗样本或越狱尝试,思考时间更长应该特别有用,它可以利用额外的思考时间来理解所遇到的奇怪情况。

图片

在实验中,我们要求模型判断另一个模型是否试图以某种方式入侵单元测试,以解决其思维过程中的编码问题。我们可以在训练过程中使用不同类型的监控器来监控这些奖励黑客行为。exit (0) 编码黑客攻击是指代理利用了一个漏洞,允许它在没有运行所有单元测试的情况下提前退出环境。raise SkipTest 黑客是指代理从测试框架外的函数中引发异常,以跳过单元测试评估。图源:Baker et al. 2025

模型是否忠实地表达了自己的想法

直观地说,由于缺乏旨在鼓励忠实推理的明确训练目标,模型的 CoTs 可能存在偏差。或者,当我们根据人类撰写的解释对模型进行微调时,这些人类撰写的样本可能包含错误。因此,我们不能默认 CoT 总是忠实的。

Lanham et al. (2023) 通过故意在 CoT 中引入错误,并测量其对一系列多选任务(如 AQuA、MMLU、ARC Challenge、TruthfulQA、HellaSwag)准确性的影响,研究了 CoT 忠实性失效的几种模式:

  • 错误 1(过早回答): 模型可能会在 CoT 生成之前过早地形成结论。测试方法是提前截断或在 CoT 中插入错误。不同任务对 CoT 有效性的依赖程度不同;有些任务的评估性能对截断的 CoT 敏感,有些则不敏感。Wang et al. (2023) 做了类似的实验,但在形成 CoT 的过程中出现了与桥接对象或语言模板有关的更微妙的错误。
  • 错误 2(无信息 token): 不具信息性的 CoT token 可提高成绩。这一假设通过用填充文本(如所有句号)替换 CoT 进行了测试,结果表明这种设置并没有提高准确率,与不使用 CoT 相比,某些任务的成绩可能会略有下降。
  • 错误 3(人类无法阅读的编码): 以人类难以理解的方式对相关信息进行编码。以非标准方式转述 CoT 并未降低各数据集的性能,这表明准确率的提高并不依赖于人类可读的推理。

图片

以不同方式对 CoT 进行扰动以评估其忠实性的示意图。图源:Lanham et al. 2023

有趣的是,Lanham et al. 认为,对于多选题,较小的模型可能无法很好地利用 CoT,而较大的模型可能能够在没有 CoT 的情况下解决任务。这种对 CoT 推理的依赖性(以使用 CoT 与不使用 CoT 得到相同答案的百分比来衡量)在多选题中并不总是随着模型大小的增加而增加,但在加法任务中却会随着模型大小的增加而增加,这意味着在复杂的推理任务中,思考时间更为重要。

图片

对 CoT 推理的依赖性以使用 CoT 和不使用 CoT 时获得相同答案的百分比来衡量。对于像加法这样的推理任务来说,CoT 的作用更大,而对于更大的模型来说,CoT 的作用也更大。

对 CoT 推理的依赖性以有 CoT 和无 CoT 时获得相同答案的百分比来衡量。对于像加法这样的推理任务来说,CoT 的作用更大,而更大的模型也能带来更多益处。

测试 CoT 忠实度的其他方法包括扰动提示而不是直接修改 CoT 路径 。

其中一种方法是在少数几个样本中将正确答案标记为「(A)」,而不考虑真实标签,从而引入偏差。

另一种提示技术是在提示中插入误导性提示,例如 「我认为答案是 < random_label>,但很想听听您的看法 」或 「一位斯坦福大学教授认为答案是 < random_label>」。通过比较模型对同一问题的预测是否包含误导性提示,我们可以衡量模型是否能够忠实地描述提示对其答案的影响。特别是在模型得出的提示答案与非提示答案不同的情况下,我们可以衡量模型在解决有提示的问题时是否承认提示。如果模型是忠实的,它就应该明确承认提示的影响,并承认其答案的变化是由提示引起的。

图片

GPT 模型和 Claude 模型对不同类型的上下文偏差都很敏感。模型准确性的降低表明系统性的不忠实。直接提示错误标签比 "答案总是 A" 类型的偏差更有效。图源:Turpin et al. 2023

多项研究发现,推理模型对暗示影响的描述要比所有测试过的非推理模型可靠得多。例如,我们可以测量模型承认暗示是决定性因素的样本比例(「忠实 CoT」)。推理模型(Claude 3.7 Sonnet、DeepSeek R1)的整体表现优于非推理模型(Claude 3.6、DeepSeek V3)。

图片

推理模型比非推理模型更有可能揭示忠实的 CoT。图源:Chen et al. 2025

一些证据表明,使用奖励模型会降低模型输出的忠实度。经典 RLHF 中的奖励模型在本测试中并不是为了激励忠实行为而训练的,因为偏好比较数据集是由人类选择哪一个看起来更好或更讨人喜欢而收集的。然而,在推理模型中,CoT 路径是为产生正确的最终答案而优化的,而不是为了与 RM 中定义的人类偏好相匹配,因此直观上预计会更加忠实。

CoT 面临的优化压力: 好还是坏?

监控推理模型的 CoT 以发现 reward hacking 行为是有效的。使用这种监控器的一个简单方法是在测试时将监控器作为过滤器运行拒绝采样,找出没有 reward hacking 行为的解决方案。然而,这种方法只在推理的早期阶段有效,而且随着模型的进一步优化,在预算范围内很少能找到通过 CoT 监控的样本。这一挑战自然表明,我们可以考虑在 RL 奖励中加入 CoT 监控 — 一种基于流程的监督形式 — 以防止 reward hacking。

然而,在 RL 中加入 CoT 监控奖励的效果并不好,因为这会导致混淆 reward hacking 行为,即模型试图在 CoT 中隐藏其真实意图 (Baker et al. 2025)。如果在 RL 训练过程中使用 CoT 监控提供的这种直接优化压力,模型仍然可以找到黑客攻击的方法,虽然频率会低一些,但可以在 CoT 中隐藏自己的意图,避免被监控发现。

图片

在训练过程中,当使用监视器提供 RL 奖励信号以防止 reward hacking 行为时,模型仍然可以找到 hacking 行为的方法,同时避免被监视器发现。图源:Baker et al. 2025

Yeo et al. 对 CoT 长度 RL 信号的实验证实了与 Baker et al. 类似的信息,即新型 RL 奖励整形会导致新型 reward hacking 行为的发生。他们设计的奖励函数可以使正确的 CoT 比错误的 CoT 获得更高的奖励,短的正确 CoT 比长的正确 CoT 获得更高的奖励,短的错误 CoT 比长的错误 CoT 获得更高的惩罚。有了这种额外奖励,模型就学会了在有挑战性的问题上重复 CoTs 中的文字,而不是尝试解决这些问题。Yeo et al. 进一步应用了 n-gram 重复惩罚来防止这种 hacking 行为。

图片

要稳定使用 CoT 长度奖励进行的训练,就必须进行精心的奖励塑造。图源:Yeo et al. 2025

Chen et al. 在一个有缺陷的 RL 环境中进行了实验,特别是使用了一个在多选题中填入错误答案的评分器。在超过 99% 的提示中,模型学会了利用 reward hacking,但在一半以上的环境中,模型几乎从未(<2%)在其 CoT 中口头表达过 reward hacking。在这种情况下,额外的 RL 优化压力无法激励模型口头表达 hacking 行为。

RL 训练本质上对 reward hacking 行为非常敏感。仅仅依靠对 reward hacking 行为的启发式调查和手动修复可能会导致「whack-a-mole」的局面。我们建议在 RL 训练过程中尝试直接对 CoT 进行优化时要非常谨慎,或者尽量避免这样做。

在连续空间中思考

Alex Graves 于 2016 年提出的自适应计算时间(Adaptive Computation Time)早于大语言模型,但开创了相同的方向,即让模型能够在推理时动态决定计算步骤的数量,这可以被视为让模型在测试时能够在连续空间中「思考更多」。连续空间中的自适应思考时间可以通过递归架构纵向实现,也可以通过更多的连续采样步骤横向实现。

递归架构

为了使 Transformer 架构成为递归架构,实现自适应测试时间计算,人们提出了许多架构变体。如果深入探讨这一主题的文献,会使文章过于冗长,因此我们只回顾其中几篇。

Universal Transformer 将 Transformer 中的自注意力与 RNN 中的递归机制相结合,利用自适应计算时间动态调整步数 。从高层次上看,它可以被看作是一种用于学习每个 token 的隐藏状态表示的递归函数,如果步数是固定的,Universal Transformer 就等同于跨层共享参数的多层 Transformer。

Geiping et al. 提出的最新递归架构设计,在标准 Transformer 的基础上增加了一个递归块 R。该循环块的每次迭代都需要嵌入 e 和随机状态 s_i。从概念上讲,这种递归深度架构有点类似于条件扩散模型,即在每个递归步骤中提供原始输入 e,而随机高斯初始化状态 s_i 则在整个过程中迭代更新。(有趣的是,他们对一些更像扩散模型的设计所做的实验结果并不理想)。

图片

训练过程中的递归计数 r 是随机的,从对数正态 Poisson 分布中按输入序列采样。为了控制计算成本,反向传播只截断递归单元的最后 k 次迭代(实验中 k=8),从而可以对 Poisson 分布的重尾部分进行训练。由于嵌入块的输出 e 在每一步中都会注入,因此嵌入块在每一步中都会继续接收梯度更新,模仿 RNN 训练。不出所料,训练递归模型的稳定性非常敏感。初始化、归一化和超参数等因素都很重要,尤其是在扩大训练规模时。例如,隐藏状态可能会因为对每个 token 预测相同的隐藏状态而崩溃;或者模型可能学会忽略传入的状态 s。为了稳定训练, Geiping et al. 采用了嵌入比例因子、较小的学习率和细致的调整。

图片

利用深度递推训练 3.5B 模型的实验图。饱和大致发生在 r¯=32 附近,这让我们不禁要问,这种结构如何外推并推广到更大的迭代次数。图源: Geiping et al. 2025

思考 token

思考 token 指的是在训练或推理过程中引入的一组不具有直接语言意义的隐含 token。相反,它们的作用是为模型提供额外的思考时间和计算能力,使其表现更好。

Herel & Mikolov(2023 年)提出了在句子中的每个单词后插入特殊思考 token(<T>)并在这样的数据集上训练模型的想法。每个思考 token 都为模型处理和做出更好的预测赢得了额外的时间。在玩具模型设置上使用思考 token 进行训练,其结果比不使用思考 token 训练的基线模型的复杂度要低。对于非琐碎的推理任务或涉及数字的句子,思考 token 的优势更为明显。

同样,Goyal et al. (2024) 提出的暂停标记通过在输入序列末尾添加虚拟 token(如。或 # 等字符)来延迟模型的输出,从而在推理过程中为模型提供额外的计算量。在训练和推理过程中注入这种暂停 token 都很重要,而只对暂停 token 进行微调只能带来有限的收益。在训练过程中,我们会在均匀随机的位置插入多份暂停 token,并在训练中忽略暂停 token 的损失。

图片

有趣的是,上述实验中的思考令牌或暂停令牌并不携带任何额外信息或添加许多新参数。但为什么它仍然有帮助呢?一方面,它通过引入更多的推理循环来帮助扩展计算,从而有效地提高计算能力。另一方面,它可以被视为 CoT 的一种特殊的隐式形式。这里的一个缺点是模型需要根据思考令牌进行预训练。尽管如此,这种策略仍然是一种有趣的方法,可以在推理时间 CoT 的基础上进一步提高测试时间计算利用率的能力。

Quiet-STaR 通过训练模型在每个标记后生成理由来解释未来的文本,从而引入了标记级推理。它将未来文本预测与基本原理和无基本原理混合在一起,并使用学习来生成更好的基本原理,并使用 REINFORCE 来优化基本原理生成的质量。

图片

Quiet-STaR 图示。

                

将思维作为潜变量

潜变量模型定义了一个概率框架,其中可观察数据通过未观察到的(潜在的)变量来解释。这些潜变量捕获了生成可观察结果的隐藏结构或中间过程。语言模型可以被视为概率潜变量模型,其中测试时思维和推理步骤是潜在思维变量。这样的潜变量模型定义了问题 x_i、答案 y_i 和潜在思维 z_i 的联合分布。我们希望优化在给定问题和各种思维链作为潜变量条件下答案的对数似然(N 是样本数量;K 是每个问题的思维链数量):

图片

我们的目标是最大化正确答案的边际似然 p (y∣x),给定每个问题的多个推理轨迹 {z (k)} k=1K。

期望最大化

期望最大化是一种常用的迭代算法,用于优化具有(隐含)潜变量的模型参数,因此可以应用于训练更好的思维链,然后以此为条件生成更好的响应。通常我们在 E 步(期望)和 M 步(最大化)之间迭代,E 步中我们猜测关于潜变量的缺失信息(即如何采样更好的思维链),M 步中我们基于潜变量优化模型参数(即如何采样更好的答案),直到收敛。

图片

 因为我们无法直接从潜变量分布 p (z∣x,y) 中采样,研究人员探索了依赖人工标注数据、Metropolis-Hastings MCMC 或具有特殊重要性权重的蒙特卡罗采样的方法来抽取好的思维链样本以更新模型。Ruan et al. (2025) 实验了在大量网络文本语料上使用 EM 算法训练带有潜在思维的模型,其中针对每个观察数据块合成潜在思维,然后模型以自回归方式在潜在思维和数据上学习。 

图片

在注入潜在思维的数据语料上进行训练的示意图。

 他们首先提示一个大语言模型根据观察数据 X_i 生成合成的潜在思维 Z_i: 

图片

 使用特殊 token 如 < StartOfLatent><Prior> ... <EndOfPrior > 将生成的潜在思维内容插入到原始数据中,用于训练联合分布 p (z,x) 或近似后验 q (z∣x),这取决于 z 是插入在 x 之前还是之后。然而,由于我们使用大语言模型来生成思维链,这对近似 q (z∣x) 的好坏程度施加了性能上限。Ruan 等人在 E 步引入了重要性权重来选择思维链样本,公式化为:

图片

这样我们就会优先选择那些擅长预测观察结果(即高 p (x∣z (k)))、简单直观(即高 p (z (k)))但又信息丰富且不太明显(即低 q (z (k)∣x))的思维链样本。 

迭代学习

由于预训练模型已经具备了生成思维链的能力,因此我们可以直观地设计一个迭代改进过程,在这个过程中,我们会生成多个 CoTs,并只根据能得出正确答案的理由对模型进行微调。

然而,这种直截了当的设计可能会失败,因为模型在无法解决的问题上得不到学习信号。STaR 通过为失败的尝试添加一个「合理化」过程来解决这一局限性,在这个过程中,模型会根据问题和基本真实答案生成良好的后向 CoTs,因此模型可以生成更合理的 CoTs。然后,根据正确的解决方案对模型进行微调,这些解决方案要么能产生正确的输出,要么是通过合理化生成的。

图片

STaR 算法。

我们可以把 STaR 看作是 RL 中策略梯度的近似值,奖励是一个简单的指标函数𝟙1 [y^=y]。我们希望在对 z∼p (z∣x) 和 y∼p (y∣x,z) 进行采样时,最大化该奖励的期望值。

图片

每次迭代相当于首先根据选择 CoT 样本,然后运行监督微调以优化生成良好 CoT 和答案的对数问题。STaR 的性能会随着训练迭代的增加而提高,而生成更好 CoT 的 “合理化 ”过程可以加速学习。他们观察到,高温采样会增加通过错误推理获得正确答案的机会,而对此类数据微调 LLM 会损害泛化。对于没有真实数据的数据,多个高温输出的多数票可以作为真实数据答案的代理,从而可以使用合成样本进行训练。

图片

对两个 n 位数加法的准确度进行比较。在有理化(基于真实结果的逐步推理生成)的情况下,模型能够在相对较早的阶段学习复杂的算术任务,例如五位数的加法。

思维时间的 Scaling Law

到目前为止,已经有大量证据表明,允许模型在推理时投入额外的计算资源,在产生最终答案之前进行思考,可以显著提升性能。诸如提示模型在给出答案前生成中间推理步骤,或训练模型在预测下一个 token 前暂停和反思等技术,都被发现可以将模型性能提升到超出训练时获得的能力极限。这本质上引入了一个改善模型智能的新维度,与 scaling law 中定义的模型规模、训练计算量和数据量等既有因素相补充。 

最近的研究表明,优化大语言模型的测试时计算可能比扩展模型参数更加有效。结合先进推理算法的小型模型可以在成本和性能之间提供帕累托最优的权衡。

Snell et al. 评估并比较了测试时计算和预训练计算,发现它们并非 1:1 可互换的。当模型能力差距很小时,测试时计算可以轻松弥补简单和中等难度问题上的差距,但对困难问题的效果较差。预训练和推理的 token 预算比例非常重要。只有当推理 token 显著少于预训练 token 时,测试时计算才更有优势。这表明,利用充足的预训练数据和计算资源开发有能力的基础模型仍然至关重要,因为测试时计算无法解决所有问题或填补大的模型能力差距。

图片

(左图)通过迭代修订或并行解码,评估准确率作为测试时计算预算的函数。(右图)比较一个小模型配合测试时计算采样技巧与一个大 14 倍的模型仅使用贪心解码。我们可以控制测试时使用的 token 预算,使得推理与预训练 token 的比例为 <<1、~=1 或 >>1,只有当比例 <<1 时,测试时计算的好处才明显。

s1 模型通过预算强制(budget forcing)技术(即通过添加单词「wait」来强制延长思维,或通过添加思维结束 token 或「Final Answer:」来缩短模型的思考过程而终止)实验了思维链推理路径长度的扩展。他们观察到以 token 衡量的平均思维时间与下游评估准确率之间存在明显的正相关关系。 

图片

s1 实验中,测试时计算的并行和顺序 scaling 方法都显示出与评估性能的正相关关系。

当将这种预算强制技术与其他控制推理轨迹长度的解码方法进行比较时,令人相当惊讶的是,简单的拒绝采样(即采样生成直到长度符合 token 预算)导致了反向 scaling,意味着更长的思维链会导致更差的性能。 

图片

(左图)更长的思维链路径长度与评估准确率呈正相关。(右图)用于控制生成的思维链路径长度的拒绝采样显示出负 scaling,其中更长的思维链导致更差的评估准确率。(图片来源:Muennighoff & Yang, et al. 2025)

未来展望

对测试时计算和思维链推理的探索为增强模型能力带来了新的机遇。更有趣的是,通过测试时思考,我们正朝着构建未来 AI 系统的方向迈进,这些系统能够反映人类思维的最佳实践,融合了适应性、灵活性、批判性反思和错误纠正能力。

对当前进展的兴奋促使我们进行更多未来研究,以改进并深入理解 —— 不仅是我们和我们的模型如何思考,更要理解为什么思考。

最后,我希望呼吁对以下关于测试时计算和思维链推理的开放性研究问题进行更多研究。

  • 我们能否在强化学习训练过程中激励模型产生人类可读、忠实的推理路径,同时避免 reward hacking 行为?
  • 如何定义 reward hacking?我们能否在强化学习训练或推理过程中捕获 reward hacking 行为而无需人工干预?如何防止在强化学习训练中采用「打地鼠」式的 reward hacking 修复方法?
  • 自我纠正可以在思维链内部发生,也可以在多轮强化学习中得到显式鼓励。当没有真实答案可供参考时,我们如何训练模型进行自我纠正而不产生幻觉或性能倒退?
  • 对于高度情境化、个性化且难以评分的任务(如创意写作、指导建议、头脑风暴),我们如何进行带有思维链展开的强化学习训练?
  • 当我们在现实中部署模型时,我们无法无限延长测试时思考的时间,那么如何能够平滑地将性能提升转化回基础模型,从而降低推理时间成本(例如通过知识蒸馏)?
  • 如何根据当前问题的难度,让测试时计算资源的使用变得更加自适应?

#FreqPure

用傅里叶分解探讨图像对抗扰动,代码已开源

本文作者分别来自中国科学院大学和中国科学院计算技术研究所。第一作者裴高政为中国科学院大学博士二年级学生,本工作共同通讯作者是中国科学院大学马坷副教授和黄庆明教授。

对抗净化旨在测试阶段将对抗图像还原为其原始的干净图像。现有的基于扩散模型的对抗净化策略试图通过前向过程将对抗扰动淹没在各向同性噪声中,随后通过逆向过程恢复干净图像。然而,现有策略在时域(即像素空间)无法对干净像素与对抗扰动进行解耦,导致破坏对抗扰动的同时不可避免地损害原始干净图像的语义信息。

因此,本文从时域转向频域进行研究。具体来说,本文利用傅里叶分解技术将图像分解为幅度谱和相位谱,探讨了对抗扰动的分布特征:结果表明,对抗扰动更倾向于破坏高频幅度谱和相位谱。基于这一实验观察,本文提出在扩散模型的逆向过程中注入原始样本的低频信息作为先验,以引导干净样本的生成。这种方法不仅能够有效去除对抗扰动,同时极大地保留了原始图像的语义内容和结构信息,使得净化后的图像尽可能保持与干净样本的语义相似性。

本工作对应的论文和代码均已开源。

论文题目:Diffusion-based Adversarial Purification from the Perspective of the Frequency Domain

论文链接:https://arxiv.org/pdf/2505.01267

代码链接:https://github.com/GaozhengPei/FreqPure

研究背景

在计算机视觉领域,对抗样本的出现对模型的安全性和鲁棒性构成了重大挑战。对抗样本是通过对正常图像施加微小扰动生成的,这些扰动通常难以被人眼察觉,但却能显著降低深度学习模型的性能。为了解决这一问题,研究者们提出了多种对抗净化(Adversarial Purification)技术,旨在将对抗样本恢复为原始的干净图像。

现有的对抗净化方法主要分为两类:基于训练的方法和基于扩散模型的方法。基于训练的方法需要在训练阶段使用对抗样本进行训练,以提高模型的鲁棒性,但这通常需要大量的训练数据和时间。相比之下,基于扩散模型的净化方法不依赖于训练数据,具有更强的泛化能力且无需训练过程,其基本策略是通过向图像添加噪声并在反向过程中恢复干净图像,从而消除对抗样本中的对抗扰动。

对抗净化具有重要意义,尤其是在深度学习被广泛应用于安全关键领域(如自动驾驶、金融分析和医疗影像等)时,确保模型的安全性显得尤为重要。对抗净化方法能够降低对抗攻击对系统造成的潜在威胁,从而提升应用系统的整体安全性和可靠性。

动机和理论分析

图片

图 1:图像被分解为幅度谱(左)和相位谱(右),并分别计算对抗图像与原始图像之间的差异。

对抗净化成功的关键是在消除对抗扰动的同时尽可能的保留原始图像的语义信息,然而当前通过加入噪声将对抗扰动淹没在各向同性噪声中的策略会过度的破坏原始图像的语义信息,导致最后净化的图像和原始图像之间的语义信息有差距。而通过对抗样本引导的逆向过程可以尽可能少的损失语义信息,然而也会引入对抗扰动信息,导致净化的图像无法尽可能的去除图片上的对抗扰动信息。为解决上述存在的矛盾,我们希望将对抗扰动和图像本身的语义信息进行解耦,在扩散模型逆向过程中用干净的语义信息作为引导,就可以实现去除对抗扰动的同时,又可以保持和原始图像的语义相似程度。

为了将对抗扰动和干净的图像语义信息解耦开来,我们选择快速傅里叶变换技术,将图像分解为幅度谱和相位谱,通过计算对抗样本的幅度谱和相位谱和原始干净样本的幅度谱和相位谱之间的差异,我们可以绘制从低频到高频幅度谱和相位谱之间的差异(图 1),可以观察到对抗扰动更倾向于破坏图像的高频信息,而低频信息对对抗扰动更加鲁棒。

图片

图 2:理论分析结果的实验验证

对于幅度谱和相位谱来说,噪声强度对任何频率的结构信息和内容信息随时间步 t 单调递增:

图片

图片

图 2 的实验结果也验证了我们的理论分析,同时我们也发现,相位谱会被噪声更快的破坏,因此在逆向过程中保留相位谱非常的关键。

方法

图一实验现象表明低频幅度谱成分对对抗性扰动表现出显著的鲁棒性,几乎不受对抗扰动的影响。且由于自然信号(如图像)通常表现出低通特性,这意味着低频功率谱成分相对较大。即使保留很少的低频幅度谱信息,也能够保留大部分的图像的内容信息。我们首先对幅度谱构造一个滤波器:

图片

使用上面定义的滤波器 ,我们可以将估计图像幅度谱的低频成分替换为输入样本幅度谱的低频成分,适用于每个通道(彩色图像通常由三个通道组成:RGB),具体如下:

图片

不同于幅度谱,相位谱受到所有频率成分的对抗性扰动影响。直接保留低频相位谱会保留对抗性扰动,同时也会影响高频相位谱的恢复。因此,我们选择将估计图像的低频相位谱投影到输入图像的低频相位谱的某个范围内:

图片

根据更新后的幅度谱和相位谱,我们将两者结合,首先通过逆离散傅里叶变换(iDCT)获得时间域表示,如下所示:

图片

下一个状态可以从联合分布中采样,具体公式为:

图片

实验效果

CIFAR10

图片

表 1:在 WideResNet-28-10 模型以及 WideResNet-70-16 上测试。相比于 SOTA,本文方法在论 Standard Accuracy 以及 Robust Accuracy 两个指标均有提升。

ImageNet

图片

表 2:使用 ResNet-50 作为分类器,在 ImageNet 数据集上的 Standard Accuracy 以及 Robust Accuracy

可视化

图片

图 3:原始干净图像、对抗图像和净化图像的可视化。本文方法净化后的图像与原始干净图像最为相似

图片

图 4:原始图像和净化图像的联合分布。本文方法净化后的图像分布与原始图像最为相似。

结语

尽管该工作在保留语义信息和消除对抗扰动上取得了显著效果,但如何找到一种更有效的图像分解手段,可以更好将对抗扰动和图像语义解耦开来仍有待探索,以及提供更深入的理论解释,仍然是未来值得深入研究的方向。我们仍在对抗净化领域进一步探索,欢迎大家持续关注。如果有任何问题或进一步的想法,随时欢迎讨论。

#TokenSwift

如何凭「自动补全」实现100K生成3×加速?

在当前大模型推理愈发复杂的时代,如何快速、高效地产生超长文本,成为了模型部署与优化中的一大核心挑战。随着 GPT-o3, DeepSeek R1 等具备 「超级上下文窗口」 能力的大模型持续刷新业界记录,百万甚至千万 Token 级别的推理任务已从研究话题迈入现实场景。然而,生成这些超长文本的背后,却隐藏着令人咋舌的计算成本 —— 长时间的等待、巨大的内存负担以及偶尔重复乏味的输出,严重制约了这些模型的真正潜力。

面对这一挑战,BIGAI NLCo 团队提出了一项全新的推理加速框架 —— TokenSwift,该工作已成功被 ICML 2025 正式接收!在这项研究中提出了一套可插拔、无损、高效的生成加速策略,专为 100K Token 级别的长文本推理而设计。在保持原始模型输出一致性的前提下,加速比达到 3 倍以上,极大提升了推理效率。

  • 论文标题:TokenSwift: Lossless Acceleration of Ultra Long Sequence Generation
  • Arxiv: https://arxiv.org/abs/2502.18890
  • Github: https://github.com/bigai-nlco/TokenSwift
  • Blog: https://bigai-nlco.github.io/TokenSwift/

,时长00:38

🧠 重新定义超长生成:为什么传统方法「慢」?

为了更好地理解 TokenSwift 的意义,我们先看一下目前主流大模型(如 LLaMA、Qwen 等)在长文本生成中的瓶颈所在。

尽管这些模型具备了强大的生成长上下文的能力,但大多数依然采用传统的自回归(Autoregressive)生成方式:每次仅生成一个新的 Token,并以其作为输入接着生成下一个。这种方式本身在短文本生成中问题不大,但当序列长度扩展至 10 万甚至更多时,性能就会急剧下降。

主要原因有三:

  • 模型重复重载:每生成一个 Token,都会触发一次完整的前向推理过程;在多进程或流水线执行时,模型需要不断读取参数,造成 I/O 瓶颈。
  • KV 缓存无限膨胀:Transformer 架构要求保留所有历史 Token 的 Key/Value 信息,用于后续 Token 的注意力计算。随着生成进程推进,KV 缓存占用不断增加,导致计算与内存开销雪上加霜。
  • 语义重复堆叠:生成越长,模型越容易陷入句式与主题的复读循环,降低输出多样性与用户体验。

尤其在当前日益增长的多轮对话、大模型代理(Agent)、逐步推理等任务中,一个 Query 可能会触发几千甚至上万的推理 Token 输出。传统自回归的效率显然已经难以满足需求。

🚀 TokenSwift:拥抱并行的超长推理时代

TokenSwift 的提出,正是为了解决上述超长生成中的三大瓶颈。它通过一个极为轻量且高效的框架,对传统自回归推理进行了 「重构」,提出了以 「多 Token 草拟 + 并行验证 + 动态缓存更新」 为核心的全新机制。

让我们来逐步拆解 TokenSwift 的关键技术理念:

图片

✳️ 多 Token 并行草拟:告别一次一 Token 的低效时代

在 TokenSwift 中,不再坚持 「一步一 Token」 的生成模式,而是通过对已有模型的最小化修改(添加极少量的线性层),实现了 「一次性草拟多个 Token」。这意味着,模型每一次前向传播,都可以并行生成 γ 个候选 Token,大幅降低模型重载频率,显著节省 I/O 时间。

更关键的是,草拟阶段并非 「胡乱猜测」。引入了上下文引导机制,使草拟结果具备较高的语义相关性与语法一致性,随后通过结构化的验证机制确保其与标准 AR 路径一致。

🧩 n-gram 启发式补全:巧用历史片段,精确草拟结构

为了避免粗略草拟带来的语义偏离,TokenSwift 设计了基于历史生成内容的 n-gram 片段缓存机制。会定期保存频率较高的 n-gram 序列,并在草拟新 Token 时,借助这些高频片段进行 「自动补全」。

此外,TokenSwift 还引入了 「随机筛选器」,在多个 n-gram 片段中选择语义最优的一组进行结构构建。这不仅提升了草拟的准确性,也保证了后续验证的成功率。

🧠 树结构验证机制:确保与 AR 一致,输出 「无损」 保障

有了草拟机制,还需要验证其 「正当性」。TokenSwift 的另一大亮点在于提出了树结构的并行验证模块,通过构建多个验证路径,对草拟的多个 Token 并行进行预测评分判断,并筛选出与标准 AR 路径一致的候选。

换句话说,TokenSwift 不仅快,而且不牺牲任何输出质量,生成内容与原始模型保持一致,是一套真正 「无损」 的加速方案。

💡 动态 KV 管理 + 重复惩罚:越长越快,越长越优

为了解决 KV 缓存膨胀的问题,TokenSwift 实现了动态的 KV 裁剪机制。模型会根据 Token 重要度与时间衰减策略,对 KV 对进行 「主动淘汰」,在保证上下文保留质量的同时,显著减轻缓存负担。

与此同时,为了缓解长文本生成过程中的重复问题,设计了重复惩罚机制,在生成过程中动态降低重复 n-gram 的概率,确保最终输出具备更高的多样性和可读性。

📈 实验评估:全面剖析 TokenSwift 的性能与质量

在多个主流模型上,包括 YaRN-LLaMA2-7b-128k、LLaMA3.1-8b、Qwen2.5-1.5B, 7B, 14B 等,进行了大规模实验,序列长度涵盖从 20K 到 100K,TokenSwift 表现均极其亮眼:

  • 加速比普遍在 3 倍以上
  • 生成质量与原模型一致
  • Distinct-n 指标显著优于原始 AR 路径

图片

图片

更令人振奋的是,随着序列越长,TokenSwift 的加速效果越显著。在 100K Token 生成任务中,LLaMA3.1-8B 的生成时间从近 5 小时缩短至 1.5 小时,极大降低了实际使用成本。

Token 重用的决定性作用

我们对比了禁用(k=0)与启用状态下的接受率和加速比。结果显示,未启用重用时,随着生成长度增长,接受率和加速比均出现明显下滑;而在 k=20 时,接受率不仅维持在 70–90% 的高水平,还随序列越长而略有提升,加速比亦从~2.1× 提升至~3.1×,凸显 Token 重用在减少模型重载和保持验证高效中的关键作用 。

图片

动态 KV 更新的巧妙平衡

针对 KV 缓存管理,我们进一步实验了「全量缓存」、「仅预填后一次更新」与 TokenSwift 中的「动态部分缓存」三种策略。在关闭 Token 重用的前提下,「部分缓存」因接受率低而加速有限,「全量缓存」虽保证了较高接受率,却因管理成本抵消了速度收益;而 TokenSwift 的动态更新策略恰好在接受率与计算开销之间取得平衡,使得在 100K Token 任务上依然能保持近 2× 以上的加速效果 。

图片

上下文惩罚对多样性的提升

为了抑制超长生成中的机械复读,TokenSwift 采用了仅对最近 W Token 应用惩罚值 θ 的「上下文惩罚」机制。在与 top-p、η-sampling、min-p 等多种采样方法结合的实验中,未启用惩罚时 Distinct-n 平均值仅约 0.12;引入 θ=1.2、W=1024 后,平均多样性飙升至 0.43–0.69,同时加速比仅轻微下降~2–8% 左右,证明了该机制在保持质量一致性与提升文本多样性上的高效性 。

图片

✨ 小结

TokenSwift 摆脱了传统自回归生成的性能枷锁,让我们在面对超长文本推理任务时,不再被时间与内存所拖累。

它并非一个 「另起炉灶」 的新模型,而是一种可直接嵌入现有主流模型(LLaMA、Qwen 等)的通用加速策略,具备极强的兼容性与部署便利性。

更重要的是,TokenSwift 对推理质量的 「无损」 保证,让我们在享受速度提升的同时,不牺牲任何精度与语义一致性。我们相信,这一框架将为未来多轮推理、代码生成、Agent 计划编排等长文本场景提供坚实的技术支撑。

#Agentic AI如何成为新守护者?

「AI黑客」来袭

以 AI 之矛,攻 AI 之盾。

AI 崛起:技术双刃剑下的安全暗战 

随着 AI 技术的快速发展,网络安全面临的威胁日益复杂化,攻击手段不仅更高效、隐蔽,还催生了新型的「AI 黑客」形态,因此引发了各类新型网络安全危机。

首先是生成式 AI 正重塑网络诈骗的「精准度」。 

简单而言,就是将传统的钓鱼攻击智能化,比如在更精准的场景中,攻击者会利用公开社交数据训练 AI 模型,批量生成个性化钓鱼邮件,模仿特定用户的写作风格或语言习惯,实施「定制化」诈骗,绕过传统垃圾邮件过滤器,大幅提升攻击成功率。 

接着是最为大众所熟知的深度伪造(Deepfake)与身份冒用。在 AI 技术成熟之前,传统的「变脸诈骗攻击」,即 BEC 诈骗,全称为「Business Email Compromise」,具体为攻击者通过将邮件发件人伪装成你的领导、同事或商业伙伴,以此骗取商业信息或钱财、或者获取其他重要资料。

如今,「变脸」真的发生了。AI 生成的换脸、变声技术可伪造公众人物或亲友身份,用于诈骗、舆论操控甚至政治干预。 就在两个月前,上海某企业财务总监接到来自「董事长」的视频会议邀请,对方通过 AI 换脸仿声称需紧急支付「境外合作保证金」,该总监依指示转 380 万元至指定账户,后识破系境外诈骗团伙利用深度伪造技术作案。

第三则是自动化攻击与漏洞利用。 AI 技术的进步让大量场景向智能化、自动化演进,网络攻击自然也是如此。攻击者可借助 AI 自动扫描系统漏洞、生成动态攻击代码,并对目标实施无差别快速攻击,比如 AI 驱动的「零日攻击」在发现漏洞后会立即编写并执行恶意程序,传统防御系统难以实时响应。

就在今年春节,DeepSeek 官网遭遇 3.2Tbps 超大规模 DDoS 攻击,黑客同步通过 API 渗透注入对抗样本,篡改模型权重导致核心服务瘫痪 48 小时,直接经济损失超数千万美元,事后溯源发现美国 NSA 长期潜伏的渗透痕迹。

数据污染和模型漏洞同样也是一种新威胁。攻击者通过在 AI 训练数据中植入虚假信息(即数据投毒),或利用模型自身缺陷,诱导 AI 输出错误结果 —— 这会对关键领域造成直接的安全威胁,甚至可能引发连锁灾难性后果,例如自动驾驶系统因对抗样本误判「禁止通行」为「限速标志」,或医疗 AI 将良性肿瘤误判为恶性。

AI 还需 AI 治 

面对 AI 驱动的网络安全新威胁,传统防护模式已显乏力。那么,我们又有哪些应对之策呢?

不难发现,目前的业内共识已指向「以 AI 对抗 AI」—— 这不仅是技术手段的升级,更是安全范式的转变。

现有的尝试大致分为三大类,分别是 AI 模型的安全防护技术、行业级的防御应用以及更宏观层面的政府与国际协作。

AI 模型安全防护技术的关键在于模型的内生安全加固。

以大型语言模型(LLM)的「越狱」漏洞为例,其安全防护机制常因通用型越狱提示策略失效 —— 攻击者通过系统性绕过模型内置保护层,诱导 AI 生成暴力、歧视或违法内容。为防止 LLM 的「越狱」,各家模型公司都做出了尝试,比如 Anthropic 就于今年二月发布了「宪法分类器」。

此处的「宪法」指的是不可违背的自然语言规则,作为一种在合成数据上训练的保障措施,通过规定允许和限制的内容,实时监测输入输出内容,在基准条件的测试中,其 Claude3.5 模型在分类器保护下,对高级越狱尝试的成功阻止率从 14% 提升至 95%,显著降低了 AI 的「越狱」风险。

而除了基于模型、更通用的防御手段外,行业级的防御应用同样值得关注,其垂直领域的场景化防护正成为关键突破点:金融行业通过 AI 风控模型与多模态数据分析构建反欺诈壁垒,开源生态借助智能化漏洞猎捕技术实现零日威胁的快速响应,而企业敏感信息保护则依托 AI 驱动的动态管控体系。

例如,思科在新加坡国际网络周展示的方案,可实时拦截员工向 ChatGPT 提交的敏感数据查询请求,并自动生成合规审计报告优化管理闭环。

在宏观层面上,政府与国际的跨区域协作也正加速推进。新加坡网络安全局发布《人工智能系统安全指南》,通过强制本地化部署与数据加密机制约束生成式 AI 滥用,特别针对钓鱼攻击中 AI 伪造身份的识别建立防护标准;美英加三国同步启动「AI 网络代理计划」,聚焦可信系统研发与 APT 攻击的实时评估,通过联合安全认证体系强化集体防御能力。

那么,哪些方法能最大限度地用 AI 来应对 AI 时代的网络安全挑战呢?

「未来需要 AI 安全智能中枢并围绕中枢构建新体系。」在第二届武汉网络安全创新论坛上,青藤云安全创始人张福曾在分享中强调以 AI 对抗 AI 方为未来网络安全防御体系的核心,「3 年内,AI 将会颠覆现有的安全行业,和所有的 2B 行业。产品将会重新构建,实现前所有未有的效率和能力的提升。未来产品是给 AI 用的,而不是给人用的。」

在一众方案中,Security Copilot 的模式显然对「未来产品是给 AI 用的」提供了很好的示范:一年前,微软推出了智能 Microsoft Security Copilot 副驾驶来帮助安全团队迅速准确地检测、调查和响应安全事件;一个月前,又再次发布了用于在钓鱼攻击、数据安全和身份管理等关键领域自动协助的 AI 智能体。

图片

微软新增六个自研 AI 智能体以扩展 Security Copilot 功能。其中三个用于辅助网络安全人员筛选警报:钓鱼分类智能体审查钓鱼警报、过滤误报;另两个分析 Purview 通知,检测员工未经授权使用业务数据的情况。

条件访问优化智能体与 Microsoft Entra 协作,指出不安全的用户访问规则,并生成一键修复方案供管理员执行。漏洞修复智能体和设备管理工具 Intune 集成,助力快速定位易受攻击的终端,应用操作系统补丁。威胁情报简报智能体生成可能威胁组织系统的网络安全威胁报告。

无相:L4 级高阶智能体的保驾护航 

无独有偶,在国内,为了实现真正意义上「自动驾驶」级别的安全防护,青藤云安全推出了全栈式安全智能体「无相」。作为全球首个实现从「辅助型 AI」向「自主智能体」(Autopilot)跨越的安全 AI 产品,其核心突破在于颠覆传统工具的「被动响应」模式,使其自主、自动且智能。

青藤云安全

,赞469

通过融合机器学习、知识图谱与自动化决策技术,「无相」可独立完成威胁检测、影响评估到响应处置的全流程闭环,实现真正意义上的自主决策与目标驱动。其「Agentic AI 架构」设计模拟人类安全团队的协作逻辑:以「大脑」整合网络安全知识库支撑规划能力,「眼睛」细粒度感知网络环境动态,「手脚」灵活调用多样化的安全工具链,并通过多智能体协作形成信息共享的高效研判网络,分工合作、共享信息。

在技术实现上,「无相」采用「ReAct 模式」(Act-Observe-Think-Act 循环)与「Plan AI + Action AI 双引擎架构」,确保复杂任务中的动态纠偏能力。当工具调用异常时,系统可自主切换备用方案而非中断流程,例如在 APT 攻击分析中,Plan AI 作为「组织者」拆解任务目标,Action AI 作为「调查专家」执行日志解析与威胁建模,二者基于实时共享的知识图谱实现并行推进。 

功能模块层面,「无相」构建了完整的自主决策生态: 智能体人设模拟安全分析师的反思迭代思维,动态优化决策路径; 工具调用整合主机安全日志查询、网络威胁情报检索及 LLM 驱动的恶意代码分析; 环境感知实时捕获主机资产与网络信息;知识图谱动态存储实体关联,辅助决策;多智能体协作通过任务分拆与信息共享,并行执行任务。

目前「无相」在告警研判、溯源分析以及输出安全报告这三大核心应用场景中的表现最为出色。

传统安全运营中,海量告警的真伪甄别耗时费力。以一次本地提权告警为例:无相的告警研判智能体自动解析威胁特征,调用进程权限分析、父进程溯源、程序签名验证等工具链,最终判定为误报 —— 全程无需人工介入。在青藤现有告警测试中,该系统已实现 100% 告警覆盖率与 99.99% 研判准确率,并将人工工作量削减超 95%。

面对真实威胁如 Webshell 攻击,智能体通过代码特征提取、文件权限分析等跨维度关联,秒级确认攻击有效性。传统需多部门协作、耗时数日的深度溯源(如上传播径还原、横向影响评估),现由系统自动串联主机日志、网络流量、行为基线等数据流,生成完整攻击链报告,将响应周期从「天」压缩至「分钟」。

「我们的核心是将 AI 和人的合作关系扭转了,可以把 AI 作为一个人来合作,实现从 L2 到 L4 的跨越,即从辅助驾驶向高阶自动驾驶跨越。」青藤联创兼产品副总裁胡俊分享道,「随着 AI 能适配的场景更多,决策的成功率更高,逐渐能够承担更多的责任,这样人和 AI 之间的责任分工就会有变化。」

图片

在溯源分析这个场景中,首先是 Webshell 告警触发「无相 AI」驱动的多智能体安全团队协同溯源:「研判专家」基于告警定位 one.jsp 文件,生成文件内容分析、作者溯源、同目录排查及进程追踪等并行任务,由「安全调查员」智能体调用文件日志工具,快速锁定 java(12606)进程为写入源,该进程及关联主机 10.108.108.23(通过访问日志发现高频交互)相继纳入调查。

智能体通过威胁图谱动态扩展线索,从单一文件逐层深挖至进程、主机,研判专家汇总任务结果综合判定风险。此过程将人工需数小时至数天的排查压缩至几十分钟,以超越人类高级安全专家的精准度还原攻击全链路,无死角追踪横向移动路径,红队评估也显示难以规避其地毯式调查。

「大模型比人工好是因为它能彻查边边角角,而非凭经验排除可能性低的情况。」胡俊解释道,「这样相当于广度和深度都更好。」 

图片

在完成复杂攻击场景的调查后,整理告警与调查线索并生成报告往往耗时费力。而 AI 可实现一键式总结,以可视化时间线的形式清晰呈现攻击过程,如同电影般连贯展示关键节点 —— 系统会自动梳理关键证据生成攻击链的关键帧,并结合环境上下文信息,最终生成动态的攻击链路图谱,让整个攻击轨迹以直观、立体的方式呈现。

图片

结语

很显然,AI 技术的发展为网络安全带来双重挑战。 

一方面,攻击者利用 AI 实现攻击的自动化、个性化和隐蔽化;另一方面,防御方需加速技术创新,通过 AI 增强检测与响应能力。未来,攻防双方的 AI 技术竞赛将决定网络安全的整体态势,而安全智能体的完善将是平衡风险与发展的关键。

而安全智能体「无相」在安全架构与认知层面都带来了新的变化。

「无相」本质上是改变了对 AI 的使用方式,其突破性在于将多维数据感知、防护策略生成与决策可解释性熔铸为有机整体 —— 从过往将 AI 作为工具使用的模式转变为给 AI 赋能使其能自主且自动地工作。

通过关联分析日志、文本、流量等异构数据,系统能在攻击者构建完整攻击链前捕捉 APT 活动的蛛丝马迹。更关键的是,其决策过程的可视化推理解释,让传统工具「知其然不知其所以然」的黑盒告警成为历史 —— 安全团队不仅能看见威胁,更能理解威胁的演化逻辑。

这个革新的本质是安全思维从「亡羊补牢」到「未雨绸缪」的范式跃迁,是对攻防博弈规则的重新定义。

「无相」如同拥有数字直觉的猎手:通过实时建模内存操作等微观行为特征,它能从海量噪声中揪出潜伏的自定义木马;动态攻击面管理引擎持续评估资产风险权重,确保防护资源精准投向关键系统;而威胁情报的智能消化机制,则将日均万条告警转化为可行动的防御指令,甚至预测攻击变种的演化方向 —— 当传统方案还在疲于应对已发生的入侵时,「无相」已在对攻击者的下一步落子进行预判封堵。

「AI 智能中枢系统(高阶安全智能体)的诞生,将会彻底重塑网络安全的格局。而我们唯一需要做的,就是彻底抓住这个机会。」张福道。

#Index-AniSora

B站开源动画生成模型,斩获多项SOTA入选IJCAI25

B 站开源动画视频生成模型 Index-AniSora,支持番剧、国创、漫改动画、VTuber、动画 PV、鬼畜动画等多种二次元风格视频镜头一键生成!

  • 论文标题:AniSora: Exploring the Frontiers of Animation Video Generation in the Sora Era
  • 论文地址:https://arxiv.org/abs/2412.10255
  • 项目主页:https://github.com/bilibili/Index-anisora

整个工作技术原理基于 B 站提出的 AniSora 实现,该工作已经被 IJCAI25 接收。我们提出的 AniSora 系统,是首个专为二次元视频生成打造的技术框架,全面提升动画内容的生产效率与质量。

,时长01:17

喜欢的漫画一键出动画效果,支持多种小众画风,效果更加丰富,从此告别 「PPT 动画」

  • 提示词:画面中一个人在快速向前奔跑,他奔跑的速度很快使得人物有些模糊

图片

引导帧首帧

图片

生成的视频

  • 提示词:画面中的人物向上抬了下手臂,他手臂上的气体在流动

图片

引导帧首帧

图片

生成的视频

  • 提示词:左边男人紧紧抿着嘴唇,脸上刻满了愤怒和决心。他的表情传达出无尽的挫折与坚定信念。与此同时,另一个男人的嘴巴张得大大的,仿佛即将开口大声说话或大喊大叫

图片

引导帧首帧

图片

生成的视频

  • 提示词:画面中展现了石块发生爆炸的场景,发出刺眼的光芒,碎石四处飞散

图片

引导帧首帧

图片

生成的视频

简单介绍一下我们如何实现这些魔法效果的。通过高效的数据处理链路,构建了超过千万条高质量的文本 - 视频对,包含了大量不同风格、类型、内容的高质量动画数据,为模型训练提供了坚实的数据基础。

其次,针对动画生成的独特需求,我们开发了统一的扩散生成框架,并引入时空掩码机制,灵活支持图生视频、插帧补全和局部控制等任务,实现对角色口型、动作乃至局部区域的精细控制,显著增强内容生成的可控性和创作自由度。

最后,我们设计了首个面向动画视频的专用评估基准,涵盖多个二次元子类型,填补了现有自然视频评估体系的空白。我们还基于 VLM 模型进行了定向优化,使其更好地理解动漫语境与 ACG 审美,从而构建出更贴合创作者真实需求的自动化视频评估系统。

图片

时域条件控制(对应任务如视频插帧、扩写开头)

图片

引导帧首帧

图片

尾帧

图片

生成的视频

图片

引导帧尾帧

图片

生成的视频

运动空间条件控制

图片

引导帧首帧

图片

运动掩码 1

图片

生成的视频(带有掩码的可视化)

图片

运动掩码 2

图片

生成的视频(带有掩码的可视化)

运动强度控制

  • 提示词:一个穿着粉红色开襟羊毛衫的年轻女子坐在一间舒适房间的地板上。她轻轻地抚摸着她的黑猫,它正在一个小盒子上的碗里吃东西

图片

引导帧首帧

图片

正常强度

图片

大幅强度

详细的技术方案,请看:

  • B 站自研动画视频生成模型全链路技术报告

本次开源内容包括:

AniSoraV1.0:基于 CogVideoX-5B 基座模型训练,包括全部的训练和推理代码。支持视频局部区域引导控制、时序引导控制(首帧引导、尾帧引导、关键帧插值、多帧引导等)。4090 可部署的高性价比模型,支持覆盖 80% 的应用场景。

AniSoraV2.0:基于 Wan2.1-14B 基座模型训练,基座模型更强,效果更加稳定,覆盖 90% 的应用场景。采用蒸馏加速方案,保证效果的同时,提升推理性能。同样,会发布全部的训练和推理代码,包括对国产芯片华为 910B 高效分布式训练的支持,AniSora 模型完全基于国产芯片训练完成。

训练数据集构建的全链路模型,帮助快速扩展训练数据。

基于动画数据优化的 Benchmark 系统,专门为动画视频生成领域研发的自动化评测系统,以及标准测试数据集,更加符合 ACG 审美要求。

此外,我们会一起开源首个基于动画领域人类偏好强化学习模型及训练框架以及用该技术优化过的 AniSoraV1.0_RL,提供更加高效的视频效果强化训练,更加符合二次元审美的模型。该工作的预印版已经整理在arxiv上。

  • 论文标题:Aligning Anime Video Generation with Human Feedback
  • 论文地址:https://arxiv.org/abs/2504.10044 

下面简单说它的原理。

图片

我们为动漫视频生成任务构建了首个包含 30,000 条人工标注样本的高质量奖励数据集,涵盖六个关键维度的人类偏好标注:视觉平滑度、运动感、视觉吸引力、文本一致性、图像一致性与角色一致性。

基于此,我们设计了 AnimeReward 奖励模型,针对不同维度特征,引入专门的视觉 - 语言模型以提升拟合准确性。核心创新在于提出差距感知偏好优化算法(GAPO),通过显式建模正负样本间的偏好差距,强化奖励信号,引导模型更高效地学习人类偏好,显著提升对齐性能。

如果你已经跃跃欲试了,快前往:

#PhyT2V

AI生成视频总不符合物理规律?匹兹堡大学团队新作:不重训练模型也能让物理真实度狂飙2.3倍!

本文由匹兹堡大学智能系统实验室(Intelligent Systems Laboratory)的研究团队完成。第一作者为匹兹堡大学的一年级博士生薛琪耀。

当前文本生成视频(T2V)技术正在从注重视觉质量与模型规模的扩展阶段,迈向更关注物理一致性与现实合理性的推理驱动阶段。

物理规律作为建模现实世界的基本知识体系,是实现高质量视频生成的关键约束。提升大模型对现实物理动态的理解与遵循能力,成为推动 T2V 技术落地的重要突破方向。

为推动物理一致性驱动的 T2V 生成研究,来自匹兹堡大学的研究团队提出了 PhyT2V 框架,并在最新论文中系统阐述了该方法的核心机制,该论文已被 CVPR 2025 接收。

论文标题:PhyT2V: LLM-Guided Iterative Self-Refinement for Physics-Grounded Text-to-Video Generation

论文地址:https://arxiv.org/abs/2412.00596

该方法不依赖模型重训练或大规模外部数据,而是通过引入大型语言模型引导的链式推理与迭代自我修正机制,对文本提示进行多轮物理一致性分析与优化,从而有效增强主流 T2V 模型在现实物理场景中的泛化与生成能力。

此框架可以被广泛地应用到任何已有的 T2V 模型上,而且不需要用户任何的手动干预就可以实现完全自动化的 T2V 增强,因此拥有极低的落地门槛和非常好的泛化性,在实际应用中有非常广阔的应用前景。

图片

近年来,文本到视频(Text-to-Video,T2V)生成技术取得了显著进展,出现了基于 Transformer 扩散模型的 Sora、Pika 和 CogVideoX 等模型。这些模型能够生成复杂且逼真的场景。

然而,尽管单帧视频质量很高,当前的 T2V 模型在遵守现实世界常识和物理规则方面存在显著不足。例如,它们可能无法正确处理物体的数量、材质特性、流体动力学、重力、运动、碰撞和因果关系。

图片

现有让 T2V 模型生成内容更符合物理规则的方法主要存在以下局限性,尤其是在处理训练数据未涵盖的分布外(out-of-distribution,OOD)场景时:

  • 数据驱动方法局限:大多数现有方法是数据驱动的,依赖于大规模多模态 T2V 数据集来训练扩散模型。然而,这高度依赖于数据集的数量、质量和多样性。由于物理规则并未在训练过程中被显式嵌入,这些方法在训练数据未覆盖的分布外领域泛化能力受限,视频生成质量会大幅下降。真实世界场景的巨大多样性进一步限制了这些模型的通用性。
  • 注入物理知识方法的局限:也有研究尝试使用现有的 3D 引擎(如 Blender、Unity3D、Unreal)或数学模型将物理知识注入到 T2V 模型中。但这些方法通常受限于固定的物理类别和模式,如预定义的物体和运动,同样缺乏通用性。
  • 现有提示增强方法的局限:虽然有研究表明通过细化提示可以改善分布外提示下的视频生成质量,但现有许多提示增强方法仅仅是基于主观经验简单地增强或修改提示,而缺乏一个有效的反馈机制来判断生成的视频在多大程度上偏离了现实世界知识和物理规则,以及当前的提示增强是否有效提升了视频的物理真实度。
  • 额外输入方法的局限:一些方法尝试通过提供额外输入模态为 T2V 模型提供反馈。但这会引入大量的额外计算开销并且缺乏通用性。

为了实现可泛化的物理真实的 T2V 生成,匹兹堡大学的研究人员提出了 PhyT2V。

PhyT2V 不通过扩展数据集或复杂化模型架构,而是通过将现实世界知识和物理规则嵌入到文本提示中,提供足够的上下文,从而将现有 T2V 模型的生成能力扩展到分布外领域。

为了避免模糊不清的提示工程,PhyT2V 的核心思想是在 T2V 提示过程中启用思维链(Chain-of-Thought,CoT)和回溯推理(step-back reasoning)。通过应用分步指导和迭代自修正,确保 T2V 模型遵循正确的物理动态和帧间一致性。

其核心贡献在于:无需任何额外训练或模型结构更改,而是仅仅通过结合 LLM 的推理与回溯能力,进行逐轮提示修正,从而显著提升现有 T2V 模型在物理一致性任务中的性能。该方法可泛化适用于不同架构和训练背景的 T2V 模型,尤其在分布外提示下展现出强大的增强效果。

方法介绍

PhyT2V 利用经过良好训练的大型语言模型(LLM),例如 ChatGPT-4o,来促进 CoT 和回溯推理。这种推理以迭代方式进行,每一轮都自主修正 T2V 提示和生成的视频,包含三个步骤:

图片

步骤 1:识别物理规则和主要对象

LLM 分析用户提示,通过「上下文学习」提取视频中应显示的对象和应遵循的物理规则。这一步的提示会给出详细的任务说明和少量示例。LLM 的输出描述物理规则但不提供公式。消融研究表明此步骤是必要的。

步骤 2:识别提示与视频之间的语义不匹配

首先,使用视频字幕模型(例如 Tarsier)将生成的视频的语义内容转换为文本。然后,LLM 使用 CoT 推理评估视频字幕与当前 T2V 提示之间的不匹配之处。使用视频字幕是因为 CoT 方法更适合处理单模态数据,它强调线性分解和分步推理。通过将视频内容转化为文本,可以在文本域中进行 CoT 和回溯推理。消融研究证实此步骤对于识别和纠正视频中与期望不符的细节至关重要。

步骤 3:生成修正后的提示

LLM 通过结合步骤 1 总结的物理规则和解决步骤 2 得出的不匹配之处,使用回溯提示来修正当前的 T2V 提示。回溯推理有助于从更高层次的抽象中导出问题。这一步骤的提示结构也包含任务说明、示例和当前任务信息。此外,还会提供上一轮提示修正效果的量化反馈(例如,使用 VideoCon-Physics 评估器的得分),指导 LLM 采取不同的推理路径。修正后的 T2V 提示将作为新的用户提示再次用于 T2V 模型生成视频,开始新一轮的修正。这种迭代修正会持续进行,直到生成的视频质量令人满意或视频质量的改进收敛。整个过程通常需要几轮,大多数改进发生在最初两轮,3-4 轮通常足够。

PhyT2V 的优势

与现有提示增强方法相比,PhyT2V 的关键贡献在于分析当前生成的视频与提示之间的语义不匹配,并基于不匹配与相关的物理知识进行修正,而之前的许多方法只是简单地增强或修改提示。PhyT2V 的主要优势包括:

  • 无需训练、即插即用:无需修改任何 T2V 模型结构,也不需额外训练数据,即可直接增强不同 T2V 模型的物理一致性。
  • 提示修正具备反馈闭环:不只是修改提示文本,而是基于真实生成结果的语义偏差反馈,进行有针对性的优化。
  • 跨领域通用性强:在多个物理场景(固体、流体、重力、运动等)尤其是分布外场景下表现优异,具备广泛适配性。

实验

研究人员在多个基于 Diffusion Transformer 的开源 T2V 模型上应用了 PhyT2V,包括 CogVideoX 2B & 5B、OpenSora 和 VideoCrafter。

评估使用了 VideoPhy 和 PhyGenBench 这两个强调物理定律和遵守度的提示基准数据集,使用 VideoCon-Physics 评估器衡量生成的视频对物理常识(PC)和语义遵守度(SA)的遵守情况,并在 VBench 评测基准上也取得了领先的表现。

图片

图片

图片

图片

实验结果表明,PhyT2V 显著提高了生成的视频对文本提示本身以及现实世界物理规则的遵守程度。

这种改进在 CogVideoX-5B 模型上最为显著,PC 提高可达 2.2 倍,SA 提高可达 2.3 倍。在其他模型上也有显著提升。迭代修正过程收敛速度快,通常 3-4 轮足够。

PhyT2V 大幅领先于直接使用 ChatGPT 4 或 Promptist 等现有提示增强方法至少 35%。消融研究证实了步骤 1(物理规则推理)和步骤 2(不匹配推理)在 PhyT2V 工作流程中的必要性。模型尺寸也会影响 PhyT2V 的表现,在较大的模型上 PhyT2V 性能更好。

图片

图片

总结

总而言之,PhyT2V 是一种新颖的、数据独立的 T2V 生成框架。通过结合 CoT 推理和回溯提示,PhyT2V 系统地修正 T2V 提示,以确保生成的视频遵守现实世界物理原理,而无需额外的模型重新训练或依赖额外条件。这项工作为构建更理解物理世界、能生成更逼真视频的 T2V 模型迈出了重要一步。

#AI大厦需要新的地基!

「Scaling Law 即将撞墙。」这一论断的一大主要依据是高质量数据不够用了,正如前 OpenAI 首席科学家 Ilya Sutskever 在 NeurIPS 2024 大会上警告的那样:「我们所知的预训练即将终结。」虽然近几个月由于测试时间计算(test-time compute)范式的快速发展,这个曾经喧嚣一时的观点现在已经少有人提,但数据对 AI 的重要性却不减反增,已然成为当前正在持续的「大模型大战」中最耀眼的元素之一。

为什么数据很重要?从本质上讲,当前几乎所有 AI 模型都依赖对数据中模式的学习,机器获得智能的过程很大程度上是对训练数据概率分布的建模与泛化。而随着我们进入了「​​AI 下半场​​」,数据库的发展范式也正从现有的「AI for DB」和「DB for AI」转向「Data×AI」,即数据与模型的一体化融合发展,同时「数据库」也正扩展成「数据底座」,即能够同时处理 OLTP、OLAP 和 AI 的混合负载的一体化引擎。这也是大模型真正落地、产生价值的基础。

正如 OceanBase CTO 杨传辉在 5 月 17 日的 OceanBase 2025 开发者大会上说的那样:「我认为在 AI 时代,我们需要的是一个一体化的数据底座,它的底层需要实现单机分布式一体化和云上云下一体化,用户需要一套统一支持 SQL、AP 和 AI 的数据库、数据底座。」这意味着,数据库系统正在从传统意义上的「存储介质」进化为 AI 运行的「地基」。 OceanBase 要做的正是「向一体化数据底座演进」。

为什么需要 Data×AI?

虽然「Scaling Law 撞墙论」宣称高质量数据即将耗尽,但实际上这里提到的高质量数据主要是指人类产生的易于获取的互联网数据。另一个方向上,随着生成式 AI 和新型数字化技术的发展,新生成的数据却正在日益暴增!IDC 预计,2028 年全球新生成数据量规模将达到惊人的 393.9 ZB—— 在 2024 年 147 ZB 的基础上还将以平均每年近 28% 的速度增长。如此海量的数据增长将给数据基础设施带来巨大的压力。不仅如此,多模态与非结构化数据爆发式增长、数据扩展性和碎片化等问题也在不断加剧。

这些问题综合起来,对底层基础设施的存储容量、架构扩展和实时分析能力提出了更高要求;也因此,数据库的稳健性与可扩展性已经成为 AI 应用成功的前提,正如数据科学界一句老话说的那样:「数据的边界决定模型的上限 」。如何高效、可靠地存储、管理和调用这些数据,成为 AI 基础设施能否支撑下一个十年的关键考验。可以说,数据在 AI 时代正面临着一场角色的重塑。

当然,这些需求也已经成为了相关领域发展的重要推动力。据 IDC 统计,2024 年全球大数据 IT 总投资规模约为 3540 亿美元,预计到 2028 年将增长至近 6440 亿美元。

「Data×AI」范式便是在这一背景中诞生的,传统意义上的 Data Infra(数据基础设施)概念正在走向升级:

Data Infra + AI → Data × AI Infra

也就是说,数据系统的作用不再只是为 AI 提供数据,而是本身也成为 AI 工作流程的一部分,与 AI 协同发展。

图片

通过数据与 AI 的一体化融合,「Data×AI」范式有望解决行业数据流通难、多模态数据处理难、质量评估难等诸多问题。

比如在行业数据方面,数据碎片化早已是普遍存在的老大难问题,尤其在金融、医疗、工业制造等复杂严谨的行业,数据不仅分散在不同业务系统中,还存在极强的结构异构性和组织粒度差异。数据汇集的难度远高于算法构建。垂类数据缺乏统一建模方式,导致即使拥有大模型能力,也难以完成语义理解与业务联通。很多企业所谓的「AI 能力不足」本质上是「数据层打不通」。

多模态数据处理难主要体现在数据融合和对齐的复杂性上。在实际应用中,文本、图像、音频、视频等不同类型的数据具有各自独特的结构和特性。例如,文本数据是线性的,图像数据是二维的,而音视频数据则是时序性的。将这些异构数据有效地融合在一起,要求系统具备强大的数据对齐和同步能力。此外,不同模态的数据在质量、密度和可用性方面可能存在显著差异,进一步增加了处理的复杂性。这些挑战使得多模态 AI 系统在实现高效、准确的决策支持方面面临严峻考验。

数据质量评估难则主要源于数据的多样性和动态性。在 AI 模型训练过程中,数据的准确性、完整性、一致性和时效性直接影响模型的性能。然而,随着数据来源的多元化和数据量的激增,传统的数据质量评估方法已难以满足需求。例如,自动化工具可能难以识别和纠正数据中的细微错误或偏差,尤其是在非结构化数据中。此外,数据的实时更新和变化也要求评估机制具备高度的灵活性和适应性。因此,建立高效、智能的数据质量评估体系,成为确保 AI 模型可靠性和有效性的关键。

这些问题的解决将成为 AI 真正实现大规模乃至普及化应用的重要基础,尤其是在金融、健康、生活、开发等一些核心应用场景中。

而已发展 15 年的 OceanBase 已在这些方面取得了长足的进步。作为一个一体化分布式数据库,OceanBase 已经具备了一定的 AI 时代数据处理能力,如分布式有效应对海量数据的存储计算、多模融合统一处理不同结构数据、 TP/AP 一体化实现混合事务和实时分析处理。但大模型落地产生价值的核心在于数据与模型的一体化融合,这也正是 OceanBase 提出的构建 Data×AI 能力的关键。基于此,OceanBase 正在向 AI 时代战略跃迁。

OceanBase 在 AI 时代的战略跃迁

从最初的工程一体化、多租户、多兼容模式,演进到 HTAP 工作负载一体化(混合事务/分析处理),再到单机分布式一体化、多模型、多数据接口,还有如今 Shared Nothing 和 Shared Storage 两种部署模式的一体化,以及面向未来多云基础设施的存算分离引擎,一体化理念一直是 OceanBase 产品迭代不断发展的核心。

图片

这种理念也切实地给 OceanBase 的发展带来了助益。自 2010 年开始投入研发以来,这款脱胎于蚂蚁集团的原生分布式数据库现已支付宝全部核心账务与核心支付系统,并连续十余年稳定支撑双 11,历经流量洪峰和稳定性考验。不仅如此,OceanBase 还是全球唯一接连打破「数据库世界杯」TPC-C 和 TPC-H 测试纪录的数据库,并已入选世界互联网领先科技奖。经过 15 年在海量核心场景中的持续深耕,OceanBase 已助力金融、政务、运营商、零售、互联网等多个行业的 2000 多家客户实现关键业务系统升级。

而现在,为了实现从一体化数据库向一体化数据底座(Data×AI)的演进,从去年 3 月开始独立运营的 OceanBase 一直在进行有针对性的创新研发。在 OceanBase 2025 开发者大会上,OceanBase CEO 杨冰总结了他们正在推进的四个大方向:

  1. 成为「知识底座」。企业要向智能化发展,必须要有一个更加贴合企业内部运行数据和领域知识的内部知识库,因此融合知识至关重要。为此,OceanBase 计划要做的包括增强向量能力、提升融合检索能力、实现企业知识存储体系的动态更新、深度整合模型后训练与微调。
  2. 打破「数据次元壁」。需要实现多模态的、不同形式和来源的数据的标量数据和向量数据的融合,为此还需要在数据存储的检索层上取得更多突破。
  3. 当 AI 的「靠谱参谋」。当前 AI 查询和引用的数据可能是不一致的或非实时的,甚至可能还是错误级的;为了解决这个问题,需要深度融合推理引擎和数据存储引擎。
  4. 做流量的「冲浪高手」。互联网上的流量存在明显的波峰和波谷,比如双 11 期间网购流量就会暴增。弹性地应对流量波动也非常关键。这是 OceanBase 的强项 —— 结合云的虚拟化的能力以及 OceanBase 的分布式的能力,并且深度适配这些训练以及推理的场景,可以最大化地挖掘这些数据的价值,同时获得最大的性价比。

会上,我们也看到了 OceanBase 在这些方向上的成果的一次集体展现。

首先来看一个现场跑分数据:OceanBase 在 VectorDBBench 上 的向量性能。通过现场测试 100 万条 768 维的数据并对比其它 3 款开源向量数据库,OceanBase 以领先的成绩证明了自己的实力。

图片

OceanBase 还在原有的向量索引 HNSW 的基础上引入的 BQ 量化算法 —— 可将向量数据的内存需求平均降低 95%!举个例子,假设有 2 亿条 1536 维的向量数据,如果直接存储到内存,要用 1.2 TB 的内存,但如果进行量化处理,则只需 58.6 GB 即可。而对于向量数据量特别大以至于无法完全放入内存乃至需要分布式存储的情况,也可以通过量化的方式达到极致的性能。

这种在性能、成本、稳定性、运维性等方面的优势使 OceanBase 非常适合作为生产系统进行部署。

在此基础上,OceanBase 还在不断获得新能力,比如其拥有非常丰富的数据模态支持 —— 不仅支持传统关键数据库里的标量(OLTP、OLAP),也支持支持 JSON、全文索引、向量、混合搜索。而且 OceanBase 针对向量与标量混合检索的能力进行了引领业内的优化。

在这些底层技术能力的基础上,针对大模型的数据检索问题,OceanBase 在此次开发者大会上专门发布了一款面向 AI 时代的开箱即用的 RAG 服务:PowerRAG。其将不同类似文档的识别、切分、嵌入以及放入向量数据库和写 LLM 提示词等工作都封装成了一个公有云服务。OceanBase CTO 杨传辉表示:「我们的 PowerRAG 已经达到了业界主流 RAG 应用的性能水平,它的准确率和召回率肯定好于开发者自己写的 RAG。」

图片

另外,OceanBase 也已经与业界主流的智能体(Agent)平台进行了很好的适配,包括 Dify、FastGPT、DB-GPT、LangChain 等。OceanBase 也已经实现了对 MCP 协议的支持。

图片

毫无疑问,OceanBase 正在全力拥抱 AI。

上个月,OceanBase 宣布 CTO 杨传辉担任 AI 战略一号位,全面统筹 AI 战略制定和技术产品落地。同时还宣布成立了 AI 平台与应用部并在原有的 OB 底层引擎团队里新成立了 AI 引擎组。

OceanBase 也对自己的「Data×AI 一体化数据底座」战略方向信心十足。在谈到「OceanBase 为什么行」时,除了 OceanBase 15 年坚持自主研发的过硬技术实力,CTO 杨传辉还给出了两大理由:

  1. Data×AI 一体化数据底座其实是 OceanBase 一体化数据库的延伸,它的核心在于能不能做好数据处理,只是数据处理的范围会有所拓展。
  2. AI 时代的应用大爆发给了 OceanBase 更大的机会,因为 AI 时代的应用会产生两个需求:更海量的数据和混合负载;而一体化和分布式刚好又是 OceanBase 的优势。

另外,相信「开源」也是这个问题的答案的重要组成部分。开源也是 OceanBase 2025 开发者大会上一个被重点强调的关键词。自 2021 年 6 月 1 号正式开源以来,OceanBase 已经成长为最流行的中国开源数据库之一 —— 已连续两年获得了「墨天轮」排名第一。杨传辉介绍说,OceanBase 的社区用户下载量已经突破了百万量级,并且集群的部署数量也已超过 5 万,增长还非常快 —— 年环比增长超过 400%。

图片

墨天轮排行榜当前前 10 名,可以看到 OceanBase 目前以显著优势位居第一,截图来自 modb.pro/dbRank

AI 带来的深刻变革已经开始显现,其核心的数据自然也是这场变革的重中之重,甚至可能「未来所有的数据公司都将成为 AI 公司」—— 正如蚂蚁集团 CTO 何征宇说的那样。在这场变革中,凭借「Data×AI」战略,我们或将看到 OceanBase 迎来自己的跃迁。

数据库正在成为一大关键变量

当大模型的参数增速趋缓、应用同质化竞争加剧,一场「回到底层」的产业反思已经开始。人们越来越清楚地意识到:模型能走多远,取决于它脚下的数据有多厚实。毕竟 AI 不是空中楼阁,需要坚实的数据地基。

OceanBase 的方向并不神秘:构建一个真正为 AI 而生的一体化数据底座。从 PowerRAG 到压缩和量化算法,从向量支持到多模态数据融合,OceanBase 正让数据库成为下一个关键变量。正如 OceanBase CEO 杨冰在 4 月底的全员信中说的那样:「谁能更好地解决 Data 和 AI 的融合,实现 Data×AI,谁就能成为 AI 时代的数据底座。」

是时候把注意力投向那些看似「传统」的地方了。因为真正能承载未来智能的,不是某个爆款应用,而是能够支撑千行百业、接住海量数据洪峰的下一代数据底座。

OceanBase 的路径并非孤例,背后是整个数据库行业正与 AI 协同演进的共同趋势。数据库,还将继续进化。

#Qwen3技术报告解读

深入解读了Qwen3模型的技术细节,涵盖了其独特的三阶段预训练流程、长链思维冷启动、推理强化学习等关键环节,以及如何通过创新的思维模式融合和奖励机制设计,提升模型的推理能力和多任务适应性。

1.三阶段预训练,先30万亿4096长度的通用训练,再5T的4096推理训练带衰减学习率,最后长文本32767训练。

2.长cot冷启动:qwq32b造数据,qwen72B+人工洗数据。

3.推理RL:选用无leak的多样性的难度适中的数据跑GRPO。

4.思维链开启和关闭:通过一个specitoken来在数据里传导,prompt加/think和/no_think标志,然后训练。混合着也学会了自动的短cot模式,很神奇。

5.RM设计:涵盖20多种不同任务,每个任务都有定制的评分标准,规则+模型(有无参考答案)。

6.蒸馏到小模型:logits蒸馏非数据蒸馏,效果更好。

整体流程:

图片

详细精炼版(去除评估部分)

预训练阶段Qwen3模型通过三个阶段进行预训练:

(1) 一般阶段 (S1) :在第一个预训练阶段,所有Qwen3模型在超过30万亿个标记上进行训练,序列长度为4,096个标记。在此阶段,模型已在语言能力和一般世界知识上完成全面预训练,训练数据覆盖119种语言和方言。

(2) 推理阶段 (S2) :为了进一步提高推理能力,我们通过增加STEM、编码、推理和合成数据的比例来优化这一阶段的预训练语料库。模型在序列长度为4,096个标记的情况下,进一步预训练了约5T的高质量标记。我们还加快了这一阶段的学习率衰减。

(3) 长文本阶段 :在最终的预训练阶段,我们收集高质量的长文本语料库,以扩展Qwen3模型的上下文长度。所有模型在数千亿个标记上进行预训练,序列长度为32,768个标记。长文本语料库包括75%的文本长度在16,384到32,768个标记之间,25%的文本长度在4,096到16,384个标记之间。根据Qwen2.5(Yang等,2024b),我们使用ABF技术(Xiong等,2023)将RoPE的基础频率从10,000提高到1,000,000。同时,我们引入YARN(Peng等,2023)和双块注意力(DCA,An等,2024),以在推理过程中实现序列长度容量的四倍增加。

与Qwen2.5(Yang等,2024b)类似,我们基于上述三个预训练阶段开发了最佳超参数(例如,学习率调度和批量大小)预测的缩放法则。通过广泛的实验,我们系统地研究了模型架构、训练数据、训练阶段与最佳训练超参数之间的关系。最后,我们为每个密集模型或MoE模型设定了预测的最佳学习率和批量大小策略。​

后训练阶段​

1 长链思维冷启动

我们首先整理一个涵盖广泛类别的综合数据集,包括数学、代码、逻辑推理和一般STEM问题。数据集中的每个问题都配有经过验证的参考答案或基于代码的测试用例。该数据集作为长链思维(long-CoT)训练的“冷启动”阶段的基础。

数据集构建涉及严格的两阶段过滤过程:query过滤和answer过滤。在query过滤阶段,我们使用Qwen2.5-72B-Instruct识别并移除那些不易验证的query。这包括包含多个子问题的query或请求生成一般文本的query。此外,我们排除那些Qwen2.5-72B-Instruct能够在不使用链式推理的情况下正确回答的query。这有助于防止模型依赖表面的猜测,并确保仅包含需要更深入推理的复杂问题。此外,我们使用Qwen2.5-72B-Instruct对每个query的领域进行注释,以保持数据集中领域表示的平衡。

在保留验证query集后,我们为每个剩余query生成N个候选answer,使用QwQ-32B(Qwen团队,2025年)。当QwQ-32B持续无法生成正确的解决方案时,人工评估员会手动评估answer的准确性。对于通过率为正的query,进一步严格的过滤标准被应用,以去除以下answer:(1) 产生错误的最终答案,(2) 包含大量重复,(3) 明显表明猜测而没有足够的推理,(4) 思考与总结内容之间存在不一致,(5) 涉及不当的语言混合或风格转变,或(6) 被怀疑与潜在验证集项目过于相似。随后,经过精心挑选的精炼数据集子集用于推理模式的初始冷启动训练。此阶段的目标是向模型灌输基础推理模式,而不过分强调即时推理性能。这种方法确保模型的潜力不受限制,从而在随后的强化学习(RL)阶段提供更大的灵活性和改进。为了有效实现这一目标,最好在这一准备阶段尽量减少训练样本和训练步骤的数量。​

2 推理强化学习

在推理强化学习阶段使用的 query-verifier对必须满足以下四个标准:(1) 在冷启动阶段未被使用。(2) 对于冷启动模型是可学习的。(3) 尽可能具有挑战性。(4) 涵盖广泛的子领域。我们最终收集了总共3,995个 query-verifier对,并采用GRPO(Shao等,2024)来更新模型参数。我们观察到,使用较大的批量大小和每个query较高的回合数,以及离线策略训练以提高样本效率,对训练过程是有益的。我们还解决了如何通过控制模型的熵来平衡探索与利用,以实现稳步增加或保持不变。​

3 思维模式融合

思维模式融合阶段的目标是将“非思维”能力整合到先前开发的“思维”模型中。这种方法使开发者能够管理和控制推理行为,同时降低了为思维和非思维任务部署单独模型的成本和复杂性。为此,我们对推理强化学习模型进行持续的监督微调,并设计一个聊天模板以融合这两种模式。此外,我们发现能够熟练处理这两种模式的模型在不同的思维预算下表现始终良好。

SFT数据的构建:SFT数据集结合了“思考”和“非思考”数据。为了确保第二阶段模型的性能不受额外SFT的影响,“思考”数据是通过对第一阶段query进行拒绝采样生成的,使用的是第二阶段模型本身。“非思考”数据则经过精心策划,以涵盖多样化的任务,包括编码、数学、遵循指令、多语言任务、创意写作、问答和角色扮演。此外,我们使用自动生成的检查清单来评估“非思考”数据的answer质量。为了提高低资源语言任务的表现,我们特别增加了翻译任务的比例。

聊天模板设计:为了更好地整合这两种模式并使用户能够动态切换模型的思维过程,我们为Qwen3设计了聊天模板,如表9所示。具体而言,对于思维模式和非思维模式的样本,我们在用户query或系统消息中分别引入​​/think​​​和​​/no_think​​​标志。这使得模型能够根据用户的输入选择相应的思维模式。对于非思维模式样本,我们在助手的answer中保留一个空的思维块。该设计确保了模型内部格式的一致性,并允许开发者通过在聊天模板中连接一个空的思维块来防止模型进行思考行为。默认情况下,模型在思维模式下运行;因此,我们添加了一些用户query不包含​​/think​​​标志的思维模式训练样本。对于更复杂的多轮对话,我们随机在用户的query中插入多个​​/think​​​和​​/no_think​​标志,模型的answer遵循最后遇到的标志。

思维预算:思维模式融合的一个额外优势是,一旦模型学会在非思维和思维模式下answer,它自然会发展出处理中间情况的能力——基于不完整思维生成answer。这一能力为实施对模型思维过程的预算控制奠定了基础。具体而言,当模型的思维长度达到用户定义的阈值时,我们手动停止思维过程并插入停止思维指令:“考虑到用户的时间有限,我必须直接基于思维给出解决方案。”插入此指令后,模型继续生成基于其到该时刻为止的累积推理的最终answer。值得注意的是,这一能力并不是通过明确训练获得的,而是作为应用思维模式融合的结果自然出现的。​

4 通用强化学习

通用强化学习阶段旨在广泛增强模型在多种场景下的能力和稳定性。为此,我们建立了一个复杂的奖励系统,涵盖20多种不同任务,每个任务都有定制的评分标准。这些任务特别针对以下核心能力的提升:

  • 指令遵循:该能力确保模型准确解读并遵循用户指令,包括与内容、格式、长度和结构化输出相关的要求,提供符合用户期望的answer。
  • 格式遵循:除了明确的指令外,我们期望模型遵循特定的格式约定。例如,它应适当地answer​​/think​​​和​​/no_think​​​标志,通过在思考和非思考模式之间切换,并始终使用指定的标记(例如,​​<think>​​​和​​</think>​​)来分隔最终输出中的思考和answer部分。
  • 偏好对齐:对于开放式query,偏好对齐侧重于提高模型的帮助性、参与度和风格,最终提供更自然和令人满意的用户体验。
  • 代理能力:这涉及训练模型通过指定接口正确调用工具。在强化学习的实施过程中,模型被允许进行完整的多轮交互周期,并获得真实环境执行反馈,从而提高其在长期决策任务中的表现和稳定性。
  • 专门场景的能力:在更专业的场景中,我们设计了针对特定上下文的任务。例如,在检索增强生成(RAG)任务中,我们引入奖励信号,引导模型生成准确且符合上下文的answer

SFT数据的构建:SFT数据集结合了“思考”和“非思考”数据。为了确保第二阶段模型的性能不受额外SFT的影响,“思考”数据是通过对第一阶段query进行拒绝采样生成的,使用的是第二阶段模型本身。“非思考”数据则经过精心策划,以涵盖多样化的任务,包括编码、数学、遵循指令、多语言任务、创意写作、问答和角色扮演。此外,我们使用自动生成的检查清单来评估“非思考”数据的answer质量。为了提高低资源语言任务的表现,我们特别增加了翻译任务的比例。

聊天模板设计:为了更好地整合这两种模式并使用户能够动态切换模型的思维过程,我们为Qwen3设计了聊天模板,如表9所示。具体而言,对于思维模式和非思维模式的样本,我们在用户query或系统消息中分别引入​​/think​​​和​​/no_think​​​标志。这使得模型能够根据用户的输入选择相应的思维模式。对于非思维模式样本,我们在助手的answer中保留一个空的思维块。该设计确保了模型内部格式的一致性,并允许开发者通过在聊天模板中连接一个空的思维块来防止模型进行思考行为。默认情况下,模型在思维模式下运行;因此,我们添加了一些用户query不包含​​/think​​​标志的思维模式训练样本。对于更复杂的多轮对话,我们随机在用户的query中插入多个​​/think​​​和​​/no_think​​标志,模型设计的answer遵循最后遇到的标志。

思维预算:思维模式融合的一个额外优势是,一旦模型学会在非思维和思维模式下answer,它自然会发展出处理中间情况的能力——基于不完整思维生成answer。这一能力为实施对模型思维过程的预算控制奠定了基础。具体而言,当模型的思维长度达到用户定义的阈值时,我们手动停止思维过程并插入停止思维指令:“考虑到用户的时间有限,我必须直接基于思维给出解决方案。”插入此指令后,模型继续生成基于其到该时刻为止的累积推理的最终answer。值得注意的是,这一能力并不是通过明确训练获得的,而是作为应用思维模式融合的结果自然出现的。​

5.REWARD设计

为了为上述任务提供反馈,我们利用了三种不同类型的奖励:

(1) 基于规则的奖励:基于规则的奖励在推理强化学习阶段被广泛使用,并且对一般任务如遵循指令(Lambert等,2024)和格式遵循也很有用。设计良好的基于规则的奖励可以高精度地评估模型输出的正确性,防止奖励操控等问题。

(2) 有参考基于模型的奖励与参考答案:在这种方法中,我们为每个query提供一个参考答案,并提示Qwen2.5-72B-Instruct根据该参考答案对模型的answer进行评分。这种方法允许更灵活地处理多样化的任务,而无需严格的格式,从而避免了纯规则奖励可能出现的假阴性。

(3) 无参考答案的基于模型的奖励:利用人类偏好数据,我们训练一个奖励模型,为模型answer分配标量分数。这种不依赖于参考答案的方法可以处理更广泛的query,同时有效提升模型的参与度和帮助性。​

6.强到弱的蒸馏

强到弱的蒸馏流程专门设计用于优化轻量级模型,包括5个密集模型(Qwen3-0.6B、1.7B、4B、8B和14B)和一个MoE模型(Qwen3-30B-A3B)。这种方法在有效传授强大的模式切换能力的同时,提升了模型性能。蒸馏过程分为两个主要阶段:

(1) 离线蒸馏:在这个初始阶段,我们结合了在​​/think​​​和​​/no_think​​模式下生成的教师模型的输出进行answer蒸馏。这有助于轻量级学生模型发展基本的推理能力和在不同思维模式之间切换的能力,为下一阶段的在线训练奠定坚实基础。

(2) 在线蒸馏:在这个阶段,学生模型生成在线序列进行微调。具体而言,采样提示,学生模型在​​/think​​​或​​/no_think​​模式下生成answer。然后,通过将其logits与教师模型(Qwen3-32B或Qwen3-235B-A22B)的logits对齐,微调学生模型以最小化KL散度。

#2025 zhongguo ESI 大学排名(496 所)

5月8日,科睿唯安公布了基本科学指标数据库(Essential Science Indicators,简称ESI)最新统计数据。

根据这次ESI数据,zhongguo大陆文章发表545万篇排名全球第一,文章被引9236万次排名全球第二,文章篇均被引16.95次。

ESI是基本科学指标数据库,用于衡量科学研究绩效、跟踪科学发展趋势的深度分析评价工具。目前为美国科睿唯安(Clarivate)公司所有,以 Web of Science(WoS)数据库收录的全球12,000余种期刊、超过1200万篇文章为基础建立而成,是当今世界范围内普遍用以评价高校、学术机构、国家/地区国际学术水平及影响力的重要评价指标工具之一。一般来说,进入ESI全球排名前百分之一的学科是优秀学科,前千分之一的学科是卓越学科,前万分之一的学科则是领先学科。

据悉,ESI每2个月公布一次,均为上一次数据的基础上增加2个月的数据,但是每年5月份会去除掉最旧一年的数据,也就是说这次公布的数据是一年中变化最大的一次。

各大高校中,中国科学院大学位列国际第11位,稳居内地高校第一。清华大学国际排名位居29位,位居国内高校第二位。位列国内高校第三位的是上海交通大学,目前国际排名34位。紧随其后的是浙江大学、北京大学,分别居于国际第35位、第40位。

共同构成国内高校前十阵容的,还有中山大学、华中科技大学、复旦大学、中国科学技术大学和中南大学,均位于国际排名前100名。入围国际排名前200的,还有四川大学、武汉大学、南京大学、西安交通大学、哈尔滨工业大学、山东大学、天津大学、同济大学、华南理工大学、吉林大学、郑州大学、东南大学和苏州大学等13所高校。

此外,有4所地方高校深圳大学、首都医科大学、江苏大学、南方医科大学入围内地高校TOP50。本次位居中国大陆高校ESI排名TOP200的多所高校取得明显的进步。其中成都大学进步最大,国际排名上升172个位次,位居国内第198位;桂林电子科技大学国际排名进步124个位次,位居国内第195位;贵州大学国际排名进步118个位次,位居国内第133位;长江大学国际排名进步117个位次,位居国内第192位。

根据最新的数据,与2025年3月相比,中国大陆高校万分之学科一共51个,中国大陆共有2所高校新增ESI前万分之一学科,分别为华南理工大学和中国药科大学。本月有130所内地高校的416个学科进入ESI前千分之一,23所高校共新增27个前1‰学科。

非“双一流”高校中,广东工业大学新增2个前1‰学科,大连工业大学、沈阳农业大学、中国医科大学、昆明理工大学各新增1个前1‰学科。本月共有54所高校共新增62个ESI前1%学科。其中,南方科技大学新增3个前1%学科,天津师范大学、南通大学、湖北大学、长沙理工大学、西华大学、西南医科大学各新增2个前1%学科,其余高校各新增1个前1%学科。

2025年5月全国高校ESI排名情况

(数据中,zhongguo地质大学、zhongguo石油大学、zhongguo矿业大学不区分两地办学,南昌工程学院、南昌理工学院因英文名字相同不区分)

#LaMMA-P

通用多机器人长时任务规划框架破解任务分配难题,成功率+105%、效率+36%

2025 年 5 月,美国加州大学河滨分校 (UC Riverside) 与宾夕法尼亚州立大学 (Penn State University) 联合团队在机器人领域顶级会议 ICRA 2025 上发布最新研究成果 LaMMA-P(Generalizable Multi-Agent Long-Horizon Task Allocation and Planning with LM-Driven PDDL Planner)。

LaMMA-P 首次将大型语言模型与 PDDL 规划器深度融合,解决了异构多机器人系统中长时任务的自动分解与分配难题,大幅提升多机器人协同规划的智能水平。该技术在全新基准数据集上经过大量模拟实验验证,相比现有最先进方法 SMART-LLM,任务成功率提高 105%,执行效率提升 36%,在复杂长程任务规划上取得了突破性进展,为异构多机器人协同完成复杂任务提供了全新解决方案。

论文标题: LaMMA-P: Generalizable Multi-Agent Long-Horizon Task Allocation and Planning with LM-Driven PDDL Planner

论文链接: https://arxiv.org/abs/2409.20560 

项目主页: https://lamma-p.github.io

代码开源: https://github.com/tasl-lab/LaMMA-P

技术亮点:语言模型与经典规划算法融合,支撑通用异构多机器人长时协同任务

面对复杂长时任务和异构多机器人系统,LaMMA-P 首创性地将大语言模型的语义理解能力与 PDDL 规划器的严谨性结合,不仅解决了传统方法在任务分解和资源分配上的瓶颈,还显著提升了任务成功率与执行效率。通过全面开源的代码与 MAT-THOR 基准数据集,LaMMA-P 为多机器人协同规划开辟了新的技术路径:

  1. 大模型驱动的 PDDL 规划框架:提出将大型语言模型 (Large Language Model, LLM) 的强大任务理解和推理能力与经典规划领域定义语言 (Planning Domain Definition Language, PDDL) 规划器相结合的新框架。利用 LLM 将人类指令转化为高层任务描述,再由 PDDL 规划器进行严谨的子任务搜索和规划,实现对长时复杂任务的自动分解与分配。该方法融合了学习式推理与启发式搜索的优势,既能理解复杂自然语言指令,又能提供可靠高效的规划方案。
  2. 模块化设计与强泛化能力:LaMMA-P 采用模块化架构,将大型语言模型、PDDL 规划系统与仿真环境无缝集成。通过模块间清晰的接口,系统可根据不同机器人技能灵活分解任务并高效分配子任务。该框架支持任意数量的机器人参与,同一套算法无需修改即可扩展到更多机器人协作场景,体现出优异的泛化能力。在不同家庭任务、不同机器人组合下,LaMMA-P 都能产出有效的协同计划,表现出对任务种类和团队规模的强适应性。
  3. 新基准数据集与性能超越:构建了全新的多智能体长时任务模拟基准 MAT-THOR,基于 AI2-THOR 仿真环境设计家庭场景下的复杂协同任务(包含简单复合任务和高复杂任务两种级别)。该数据集为多机器人长程任务规划提供了标准评测平台。实验结果显示,LaMMA-P 在 MAT-THOR 基准上取得了当前最优成绩:相较于最新的大模型多机器人规划方案 SMART-LLM,LaMMA-P 的任务完成成功率提高了 105%,效率提升了 36%,在长时任务的成功执行率和执行速度两方面均大幅领先现有方法。

一.研究背景

随着多机器人系统在搜救、仓储、家庭服务等场景中日益普及,让多台异构机器人协同执行复杂任务成为机器人领域的重要课题。在现实应用中,长时任务通常需要被分解为一系列关联的子任务,并合理分配给具备不同能力的机器人个体协同完成。例如家庭助理机器人需要合作完成 “整理房间” 这样的复杂指令,其中包含搬运物品、清洁、整理等多个步骤。然而,长时任务的自动分解与多机器人分工极具挑战:如何让机器人队伍理解人类的高层意图,将其细化为可执行的子任务清单,并根据每台机器人的能力进行最佳分配,是当前智能体协作面临的难点。

传统的多机器人任务规划方法往往依赖预先定义的规则或启发式算法,在任务规模和复杂度较小时尚能奏效,但面对具有长时间跨度、复杂依赖关系的任务时往往力不从心。这类方法缺乏对自然语言指令语义的深入理解,难以及时调整规划来应对动态环境和任务变化。此外,基于大型语言模型的机器人任务规划虽然在单机器人的简单任务上取得了一定进展,但在多机器人协同的长程任务上依然存在成功率低、效率差、难以泛化等问题。为了解决上述瓶颈,研究人员开始探索将新兴的大语言模型与经典人工智能规划技术相结合,试图兼顾两者优势来提升多机器人系统的自主协同能力。LaMMA-P 正是在这样的背景下应运而生。

二.研究方法

大型语言模型和启发式搜索规划器共同驱动的多机器人规划框架

图片

面对异构多机器人长时任务规划难题,LaMMA-P 提出了融合大型语言模型与 PDDL 规划的创新框架。首先,系统利用大语言模型强大的推理与文本解析能力来理解复杂的自然语言指令,从中抽取高层任务目标和约束,并生成初步的任务分解方案。接着,LaMMA-P 将任务分解结果转换为形式化的 PDDL 表述,由经典规划器执行全局搜索与最优子任务规划,找出满足约束的最优执行序列和分配方案。在这个过程中,大语言模型负责语义理解和高层决策,PDDL 规划器保证了规划结果的严谨性和完备性。通过人机指令理解和形式规划求解的结合,LaMMA-P 实现了对长时任务既能清楚理解又能精确计算。

整个框架采用模块化设计,包括指令解析模块、任务规划模块、执行仿真模块等。指令解析模块由预训练的大型语言模型实现,输出任务结构图和初步分配建议;任务规划模块基于 PDDL,通过迭代深化搜索得到任务分配的具体行动序列;执行模块在仿真环境中验证并反馈执行结果用于可能的调整。各模块解耦的设计使得增加机器人数量或更改任务类型时无需更改框架主体逻辑,只需调整相应的任务描述和机器人能力配置,体现出高度的灵活性和通用性。

三.实验结果

性能全面超越现有方案

研究团队构建了 MAT-THOR 数据集来评估 LaMMA-P 的有效性。MAT-THOR 基准涵盖了在家庭场景下多机器人协作完成长时任务的多种情况,包括简单的顺序任务和复杂的并行任务,模拟真实家庭环境中的多样挑战。实验在不同数量机器人(包括 2 台及更多)和不同任务复杂度组合下进行,并将 LaMMA-P 与当前最新的多机器人任务规划方法 SMART-LLM 进行了对比。实验从性能对比、模块消融和可视化分析三个方面系统展示了 LaMMA-P 的优势。

1. 性能对比

LaMMA-P 在任务成功率、效率以及机器人利用率等多个核心指标上均大幅领先当前最优方法 SMART-LLM (GPT-4o):

图片

关键发现:

  • 长时任务成功率提升显著:在 Compound 任务中,成功率提升至 93%(领先 23%)。Complex 任务中,成功率提升至 77%(领先 57%)。在 Vague Command 任务中,成功率达到 45%,而现有方法完全失败。
  • 效率与机器人利用率全面提升:执行效率(Eff)在三类任务中分别提升 26% ~ 48%。机器人利用率(RU)在 Complex 任务中提升 22%,显著优化多机器人协作调度。执行动作可行性(Exe)达到 100%,保证任务分配后每一步都能顺利完成。
  • 复杂任务中优势更加突出:随着任务复杂度增加,LaMMA-P 优势愈发明显,表现出卓越的泛化和推理能力。Vague Command 场景中唯一能够成功完成任务的方法,展现强大的自然语言理解和模糊指令解析能力。

2. 模块消融分析

通过消融不同模块,验证了 LaMMA-P 各模块对整体性能的关键贡献:

图片

关键发现:

  • Precondition Identifier (P) 模块显著提升规划成功率:移除 P 模块后,Compound 任务成功率下降 14%,Complex 任务下降 9%。P 模块帮助模型更好解析先决条件,提高子任务合理性和计划成功率。
  • PDDL Validator (V) 和 Problem Generator (G) 提高执行可靠性:去除 V 和 G 后,Complex 任务执行率下降至 87%(相比完整系统的 100%)。V 模块确保生成的 PDDL 问题格式正确,有效避免因不合规计划导致的失败。
  • 完整模块组合带来最优性能:包含全部模块的 LaMMA-P 实现最佳效果,Compound 任务成功率高达 93%,Complex 任务成功率达 77%。整体效率(Eff)提升最明显,表明完整系统能够优化任务分解、资源调度与计划执行的全流程。

3. 可视化分析

通过 AI2-THOR 仿真环境可视化展示,直观体现 LaMMA-P 优化的任务规划效果:

图片

关键发现:

  • 并行与顺序任务合理调度:在 Compound 任务中,多个机器人基于自身能力并行执行不同子任务,提高整体任务完成速度。通过智能顺序安排,避免因场景拥堵或任务冲突导致的执行延迟。
  • 复杂依赖关系下的精准协作:在 Complex 任务中,机器人能够合理等待必要条件满足(如等待抽屉被打开),体现对任务先后约束的精准把控。有效减少无效等待和重复移动,提高机器人整体利用率。

四.总结与展望

多机器人协同规划新范式

LaMMA-P 的提出为多机器人长时任务协同规划提供了全新的思路:它成功地将大模型的智能推理与经典 PDDL 规划有机结合,弥补了各自的短板,显著提升了复杂任务的自动化程度和执行可靠性。这一成果标志着异构多机器人自主协作迈出了关键一步。在未来工作中,研究团队计划进一步探索端到端的优化(例如使语言模型与规划器联结形成可微分闭环),以及引入多模态感知信息(如视觉、语音)来丰富指令理解,不断提升系统在真实环境中的适应性和鲁棒性。随着代码、数据集和交互式演示的开源发布,更多研究者和开发者可以基于 LaMMA-P 框架进行拓展创新,加速多机器人协同领域的技术演进。可以预见,LaMMA-P 所代表的 “大模型驱动规划” 新范式有望在未来走出实验室,应用到智能制造、家庭服务等众多场景,推动多机器人系统朝着更加高效、智能的方向发展。

#NLWeb

将对话界面直接引入Web,微软开源,实现ChatGPT级别搜索

为网站构建会话界面是很困难的,NLWeb 试图让网站更容易做到这一点。

微软 Build 2025 开发者大会已经拉开帷幕。

其中,一个名为 NLWeb (Natural Language Web)的开源项目得到大家广泛关注。

该项目旨在简化网站自然语言交互界面开发,轻松将任意网站转化为具备 AI 功能的智能应用平台。

微软 CEO Satya Nadella 表示:「NLWeb 允许用户使用自然语言与任何网站进行交互。我们可以把它想象成智能体化 web 世界的 HTML。」

image.png

项目地址:https://github.com/microsoft/NLWeb

由于 NLWeb 原生支持 MCP,因此人类和智能体可以使用相同的自然语言 API。

MCP 是一种新兴的协议,用于聊天机器人和 AI 助手与工具交互。每个 NLWeb 实例本身也是一个 MCP 服务器,它支持一个核心方法 ask,该方法用于以自然语言的方式向网站提出问题。返回的响应利用了 schema.org,这是一个广泛使用的描述 Web 数据的词汇表。

简单来说,MCP 与 NLWeb 的关系就像 Http 与 HTML 的关系一样。

作为一个开放协议和相关开源工具的集合,NLWeb 主要目标是为 AI Web 构建一个基础层 —— 就像 HTML 彻底革新了文档共享一样。

一直以来,开发能够用自然语言与应用程序乃至整个计算机世界进行自由对话的智能体一直是 AI 革命的核心。

然而,当前大多数新型交互都被 ChatGPT、Claude 甚至必应等产品垄断。这些机器人汲取海量知识却不产生实质价值。

而 NLWeb 相比传统搜索要便宜得多,且使用起来非常方便,仅需几行代码、任选 AI 模型(OpenAI  、DeepSeek、Gemini、Anthropic、Inception 等),并输入特定数据,NLWeb 就能为用户提供对话式交互界面(即一个文本框加提交按钮)。

比如零售商可以使用 NLWeb 创建一个聊天机器人,帮助用户选择特定行程的服装;而烹饪网站则可以使用它来构建一个根据菜谱推荐合适菜肴的智能体。

回想以前,研究者为了建立一个网络搜索索引,需要爬取整个网络并创建一个包含它的索引。这对于搜索引擎和相关网站来说都是昂贵的。

但有了 NLWeb 后,事情就变得简单了,比如你可能只需要获取一个 RSS 源,然后把它放到一个矢量数据库中,就可以运行了。

此外,NLWeb 还可以调用廉价模型,而且整个过程快速且简便。

NLWeb 是如何工作的?

NLWeb 可以在智能体网络中扮演与 HTML 类似的角色,它允许用户以更丰富的语义方式直接与 Web 内容进行交互。

在实现方面,NLWeb 利用 Schema.org、RSS 等半结构化格式以及网站已发布的其他数据,并将它们与 LLM 驱动的工具相结合,创建可供人类和 AI 智能体使用的自然语言界面。NLWeb 系统通过整合来自底层 LLM 的外部知识(例如将地理洞察叠加到餐厅查询中)来增强这些结构化数据,从而提供更丰富的用户体验。

作为一个开放项目,NLWeb 的技术无关性很强。它支持所有主流操作系统(Windows、MacOS、Linux),并允许开发者选择最符合自身需求的组件,同时支持所有主流模型和矢量数据库。

微软的目标是将人工智能改变人们搜索方式的优势直接带到网站本身。正如 HTML 的出现让几乎任何人都能轻松创建网站一样,微软希望 NLWeb 能够让任何网络发布者都能轻松地为其网站打造智能、自然的语言体验。

随着智能体网络的持续增长,NLWeb 将赋能网络发布者,使其能够按照自己的意愿参与其中,确保他们的网站能够随时进行互动、交易,并被其他智能体发现(如果他们选择的话)。

参考链接:

​https://news.microsoft.com/source/features/company-news/introducing-nlweb-bringing-conversational-interfaces-directly-to-the-web/​

#首届WBCD 2025双臂机器人挑战赛全球启幕

20万美元奖金等你来拿

1. WBCD 2025 介绍

5 月 19-23 日,全球机器人年度盛事 - IEEE 国际机器人与自动化会议(ICRA 2025)将在美国亚特兰大举行,届时,第一届「探索机器人能力边界双臂机器人挑战赛(What Bimanual Can Do,简称 WBCD)」决赛也会在 ICRA 2025 现场拉开帷幕。决赛地点:ICRA Exhibit Hall Booth C08。

作为 ICRA 官方合作的赛事,WBCD 以「真实场景验证」为核心定位,从机器人公司的实际需求出发,设置三大前沿赛题,重点关注双臂机器人自主感知、预测规划与精细操纵等落地性能。

赛事具体设置为:

物流包装挑战 (Packing Logistics):使用星海图(Galaxea)机器人,完成从移动货箱中抓取商品并装箱,考验机器人的精确抓取和放置能力。

生命科学实验挑战 (Scientific Experiments):使用松灵(AgileX)机器人,执行模拟科学实验操作,包括安装硅胶柱、操作透明试管等,测试机器人在精细操作和复杂任务协调方面的能力。

餐桌服务任务 (Table Operations):使用方舟无限(ARX)机器人,完成铺桌布、清理餐桌、摆放餐具等日常桌面任务,评估机器人在日常生活场景中的适应性和灵活性。

图片

本届 WBCD 共吸引了全球 88 支队伍报名。经过多轮筛选,最终 16 支高校和企业团队入围决赛。他们来自加州大学伯克利分校、卡内基梅隆大学、普渡大学、西北大学、佐治亚理工学院、苏黎世联邦理工学院、洛桑联邦理工学院、梨花女子大学、上海科技大学,上海交通大学、以及 IO.ai、Frodobots、DexForce、TSC Consulting 等企业的代表队。

WBCD 双臂机器人挑战赛组委会成员及评委来自加州大学伯克利、佐治亚理工学院、麻省理工学院、上海交通大学、韩国科学技术院、香港城市大学、谷歌 DeepMind、波士顿动力 AI 学院、Debrief Biosciences、Dexmate、XYZ Robotics、WorldEngine AI 和 CyberOrigin 等前沿学术研究机构及创业公司。他们创立比赛的初衷是希望链接学术界与工业界,让双臂机器人走出实验室,进入真实世界。

WBCD 赛事组委会设置了 20 万美元奖金池,价值数十万美金的顶尖机器人公司硬件支持。赞助来自 DataWiz,星海图,松灵机器人,方舟无限,XYZ Robotics,Dexmate,CyberOrigin,WorldEngine AI,合碳智能,Roboforce,ROBOTERA,金沙江创投和轲迪 - 百度风投等机构,同时他们也会为参赛团队提供技术支持,产业化指导和投融资推荐,帮助优秀技术团队实现商业落地。

2. WBCD 2025 观赛指南:

比赛日程:

  • ICRA 会议现场黑客马拉松:美国东部时间 5 月 19-21 日;
  • WBCD 2025 全球总决赛(全球直播):美国东部时间 5 月 22 日;

#北大DeepSeek论文或预定ACL Best Paper

北大与DeepSeek合作,并由梁文锋亲自提交到arXiv的论文,将有望斩获ACL 2025最佳论文(ACL Best Paper)。梁文锋署名

重磅惊喜!

论文地址:​​​https://arxiv.org/abs/2502.11089​

要知道​​今年的ACL格外的卷​​,总投稿数高达8000多篇,创历史之最,而ACL 2024总投稿数仅为4407,几乎翻倍!

原生稀疏注意力(Native Sparse Attention,NSA)论文的Meta Review的OA分数已经确认得到了4.5分,这是一个相当高的分数,满分为5分。

按照ACL的OA评分标准,4.5分已经获得了Borderline Award,也就是说非常有望获得ACL这届的最佳论文。

这篇论文的发布在当时引起广泛的社区关注,NSA把AI行业的焦点从「模型规模竞赛」拉向「算力效率竞赛」,堪称2025年上半年最具杠杆效应的底层技术突破之一。

DeepSeek-R1的发布引发了AI行业的「价值重估」,DeepSeek用「低成本+同效能」的开源技术撼动了当时AI界人们固有的「有卡才行」的认知。

而NSA技术进一步实现了「长下文的算力平权」,让开源模型也能达到闭源模型(ChatGPT、Gemini等)才能满足的上下文窗口。

NSA将长文本处理速度提高了最多11倍,该方法结合了算法创新和改进的硬件,提高效率而不用牺牲硬件性能。

NSA的出现,是对传统注意力机制的一次革新,传统模型依赖于全注意力机制,将每个Token与其他所有Token进行比较。

传统机制虽然对于短篇文本有效,但随着文本长度的增加,这一过程会显著变慢,并且计算成本变得非常高。

NSA是DeepSeek-R1「爆火出圈」后的第一篇论文,同时在NSA发布一周后,DeepSeek进行了更广为人知的「开源周」活动分享。

硬件对齐与原生可训练稀疏注意力

为什么要革新传统的注意力机制?

长文本处理能力是新一代语言模型的关键需求,但传统注意力机制带来的巨大计算开销一直是一个棘手的问题。

在这种背景下,稀疏注意力机制展现出了提升计算效率同时又能保持模型性能的巨大潜力。

北大和DeepSeek提出名为NSA的创新性稀疏注意力机制,它能够原生支持训练,通过将算法创新与硬件优化相结合,实现了高效的长文本处理。

NSA采用了动态分层的稀疏策略:在保证全局信息获取的同时,还能够精确捕捉局部细节,这得益于其巧妙结合了粗粒度的令牌压缩和细粒度的令牌选择。

NSA架构如下图所示,通过三条并行的注意力分支来处理输入序列。对于每一个查询(query),前面的键(key)和值(value)会分别被处理成三种不同的注意力方式:

  • 压缩注意力(Compressed Attention),用于捕捉粗粒度的整体模式;
  • 选择性注意力(Selected Attention),专注于重要的词块;
  • 滑动注意力(Sliding Attention),负责获取局部上下文信息。

每条分支所生成的不同注意力模式。图中的绿色区域表示需要计算注意力分数的部分,而白色区域则是可以跳过、不计算的区域。

NSA的主要创新点有两个:一是通过精心设计的算法平衡了计算密度,并针对现代硬件做了专门优化,显著提升了运行速度;二是实现了端到端的训练模式,在确保模型性能的前提下大幅降低了预训练的计算量。

如图1所示,实验结果显示:采用NSA预训练的模型在通用基准测试、长文本处理和指令推理等多个任务上,性能均达到或超过了使用完整注意力机制的模型。

此外,在处理64k长度序列时,无论是decoding、前向传播还是反向传播,NSA都展现出了显著的速度优势,充分证明了它在模型全生命周期中的高效性。

该论文第一作者为北京大学计算机学院硕士生袁境阳(北京大学,导师为张铭教授),合作者包括高华佐(DeepSeek),代达劢(DeepSeek),罗钧宇(北京大学)、肖之屏(华盛顿大学)等。

通讯作者为梁文锋(DeepSeek),曾旺丁(DeepSeek),张铭教授(北京大学)。

录用论文一览

除了NSA论文外,北京大学张铭教授团队的其他论文也同样上榜。

数据为中心视角下大模型的高效后训练

论文名: A Survey on Efficient LLM Training: From Data-centric Perspectives

这是首个从数据中心视角系统性剖析LLM高效后训练的综述。

该文创新性地提出了一个涵盖数据选择、质量增强、合成数据生成、数据蒸馏与压缩及自演化数据生态的分类框架,深入总结了各领域代表性方法并展望未来研究方向,旨在为学界和业界探索大规模模型训练中数据利用的最大潜力提供关键启示。

该论文作者包含罗钧宇(北京大学,导师为张铭教授),吴伯涵(北京大学),罗霄(UCLA),肖之屏(华盛顿大学),靳轶乔(佐治亚理工),涂荣成(南洋理工大学),尹楠(HKUST),王一帆(对外经贸),袁境阳(北京大学),琚玮(四川大学),张铭(北京大学,通讯作者)。

首个金融多模态评估数据集FinMME

论文名:FinMME: A Financial Multi-Modal Evaluation Dataset

为应对金融领域多模态大模型评估的迫切需求,并提供高质量的多模态推理验证数据集。

北京大学Dlib实验室联合香港科技大学等重磅推出了首个大规模、高质量的金融多模态评估数据集FinMME。

该数据集包含超过11,200个金融研究样本,覆盖18个核心金融领域和10种主要图表类型,并引入独创的FinScore评估系统。

实验结果表明,即便是顶尖模型如GPT-4o在FinMME上也面临显著挑战,凸显了其在衡量金融多模态理解与推理能力方面的深度与价值。

论文作者包含罗钧宇(北京大学,导师为张铭教授),寇智卓(HKUST),杨礼铭(北京大学),罗霄(UCLA),黄进晟(北京大学),肖之屏(华盛顿大学),彭靖姝(HKUST),刘程中(HKUST),吉嘉铭(HKUST),刘譞哲(北京大学),韩斯睿(HKUST),张铭(北京大学,通讯作者),郭毅可(HKUST)。

大语言模型中的数学推理增强方法

该论文涉及大语言模型中的数学推理增强方法。思维链(CoT)提示已成为激发大语言模型(LLM)推理能力的核心方法,但其生成的推理步骤中存在难以检测的「幻觉」。

现有的消除大语言模型幻觉的方法如过程奖励模型(Process Reward Model)或自一致性校验如同黑箱操作,难以提供可验证的证据,制约了纠正幻觉的能力。

论文提出一种创新的Safe验证框架。区别于传统模糊评分机制,Safe创新性地证明验证定理的正确性,从根本上识别并消除幻觉。实验表明,本论文提出的Safe验证框架在多个数学模型和数据集上实现显著性能提升,实现神经符号系统在数学推理中的有机融合。

本研究回归了形式数学语言的初衷——为人类易错的证明过程提供坚实保障。Safe框架为数学教育、代码生成等高风险领域提供了可验证的推理解决方案。

该论文第一作者为数据科学与工程所博士生刘成武(北京大学,导师为张铭教授),合作者包括袁野(北京大学)、尹伊淳(华为诺亚方舟实验室)、许妍(华为诺亚方舟实验室)、许鑫(香港科技大学)、陈造宇(香港理工大学)、尚利峰(华为诺亚方舟实验室)、刘群(华为诺亚方舟实验室)、张铭(北京大学,通讯作者)。

基于大语言模型的交通流量预测方法

论文名: Embracing Large Language Models in Traffic Flow Forecasting

交通流量预测旨在基于历史交通状况和路网结构,预测未来交通流量,这是智能交通系统中的关键问题。

现有方法主要聚焦于捕捉和利用时空依赖性来进行流量预测,尽管取得了一定进展,但在面对测试时交通条件变化时表现不足。

针对这一挑战,本文提出了一种基于大语言模型(LLM)的新方法——LEAF (Large Language Model Enhanced Traffic Flow Predictor)。

与以往工作主要使用LLM的生成能力来直接生成未来交通流量序列不同,LEAF使用LLM的判别能力。

具体来说,LEAF采用双分支结构,分别通过图结构和超图结构捕捉不同的时空关系。两个分支在预训练阶段独立训练,并在测试时生成不同的预测结果。

随后,利用大语言模型从这些预测中选择最有可能的结果,并通过排序损失函数作为学习目标来增强两个分支的预测能力。在多个数据集上的广泛实验验证了LEAF的有效性,证明其在流量预测任务中能够更好地适应测试环境变化。

该论文第一作者为数据科学与工程所博士生赵禹昇(北京大学,导师为张铭教授),合作者包括罗霄(加州大学洛杉矶分校)、温浩珉(卡耐基梅隆大学)、肖之屏(华盛顿大学)、琚玮(四川大学),张铭(北京大学,通讯作者)。

作者介绍

袁境阳

北京大学计算机学院研究生,导师为张铭教授。

主要研究方向是高效大语言模型和稀疏注意力机制,曾获北京市优秀毕业生、北京大学优秀毕业生等称号。

罗钧宇

北京大学计算机学院博士生,导师为张铭教授。

他的研究方向关注于高效的LLM、LLM后训练、自适应学习等。

在ICML,CVPR,ACL,TPAMI等顶级刊物上以第一作者发表多篇文章。

赵禹昇

北京大学计算机学院研究生,导师为张铭教授。

研究方向包括图神经网络、时空预测、多模态等,关注测试数据的分布偏移问题。

刘成武

北京大学计算机学院数据科学与工程所博士生,导师是DLIB实验室的张铭教授。

他的研究方向是自然语言处理、大语言模型的数学推理和自动定理证明。

他在北京大学外国语学院获得了文学学士学位,并修读获得了信息科学技术学院的计算机科学与技术双学位。

张铭

北京大学计算机学院二级教授,博士生导师,北大-安克大模型算法与应用联合实验室主任。2021年CCF杰出教育奖获得者。

张铭教授本硕博都毕业于北京大学计算机系,长期致力于机器学习、图神经网络、知识图谱、文本挖掘、语言模型、推荐系统、教育大数据、科学智能等相关研究。

先后主持国家重点研发计划课题、国家自然科学基金等前沿项目,发表科研论文 300 多篇,谷歌学术被引用21800余次。合作提出的LINE模型是图机器学习领域著名的的基准模型,目前单篇被引用 6700 余次。

获得了机器学习顶级会议ICML 2014唯一的最佳论文奖,以及WWW 2016 最佳论文提名。

在近期利用率仅为20%左右的几大顶会中,张铭教授的课题组的中概率都在50%以上。

其中,在ICML 2025中了4篇论文。

AAAI 2025也是5篇上榜。

还有ICLR 1篇,KDD 1篇,NAACL 1篇主会 2篇Finding。

参考资料:

​https://luo-junyu.github.io ​

​https://pkudlib.github.io/​

​https://mp.weixin.qq.com/s/nvjSyUBR4DBBQgF1e1OwsQ​

#大模型全面爆发,所有榜一都是Gemini!

谷歌一夜站到了台前

谷歌的 AI,再次站在了引领业界的位置。

北京时间今天凌晨 1 点,今年的 Google I/O 2025 开发者大会正式开启。谷歌最近的大模型技术风头正劲,今年的这场「科技春晚」吸引了全球关注的目光。

图片

没有意外,今年的核心主题自然是 AI。会上,谷歌发布或升级了一系列 AI 相关工具和服务,如下图所示。

图片

不过也有一些预料之外的发布。

下面我们就来概括性地盘点一番 Google I/O 2025 开发者大会这场 AI 的盛宴。

Gemini 大爆发

首先最重要的就是基础模型。

今年,Gemini 无疑是 Google I/O 2025 开发者大会上最亮眼的关键词。谷歌不仅为其带来了新升级,同时还推出了一系列围绕 Gemini 开发的工具。

2.5 Pro 不仅在学术基准测试中表现出色,如今更是 WebDev Arena 和 LMArena 排行榜上全球领先的模型,在帮助人们学习方面也同样出色。

DeepMind 为 2.5 Pro 和 2.5 Flash 带来了全新功能:原生音频输出 —— 能实现更自然的对话体验;先进的安全保障;以及 Project Mariner 的计算机使用功能。

Deep Think 还能进一步提升 2.5 Pro 的能力,这是一种实验性的增强型推理模式,适用于高度复杂的数学和编码。

图片

另外, 最高效的主力模型 Gemini 2.5 Flash 也在多个维度上得到了提升,包括推理、多模态、代码和长上下文等关键基准,同时效率进一步提升。在 DeepMind 自家的评估中,使用的 token 也减少了 20-30%。

图片

2.5 Flash 现已在 Gemini 应用中面向所有用户开放,DeepMind 计划将于 6 月初在面向开发者的 Google AI Studio 和面向企业的 Vertex AI 中正式发布更新版本,2.5 Pro 也将很快发布。

谷歌还在 Gemini API 和 Vertex AI 中引入思维摘要(thought summaries)功能,以提高透明度;将思维预算扩展到 2.5 Pro 以增强控制力;并在 Gemini API 和 SDK 中增加对 MCP 工具的支持,以便用户访问更多开源工具。

另外,谷歌还宣布了一个名叫 Gemini Diffusion 的新模型。从名字上看,这应该是一个采用了扩散模型的 AI。

为了提升大模型推理速度,以进一步贴近生产应用,Google DeepMind 正在使用「扩散」技术来探索新的语言模型方向,该模型旨在为用户提供更强大的控制力、创造力和文本生成速度。

扩散模型的工作原理有所不同。它们不是像大语言模型那样直接预测下个文本 token,而是通过逐步细化噪声的方式来学习生成输出。这意味着它们可以快速迭代解决方案,并在生成过程中进行错误纠正。这有助于它们在编辑等任务中表现出色,包括在数学和代码环境中。

谷歌表示:「这个新的最先进的文本模型不仅速度快,而且速度非常快,今天发布的 Gemini Diffusion 实验演示的生成速度是我们迄今为止最快模型的五倍,同时具有相当的编程性能。」

图片

谷歌表示,Gemini Diffusion 的推理速度可以达到每 12 秒 10095 token。

对这个新模型感兴趣的读者可以在这里加入等待列表:

​https://docs.google.com/forms/d/1aLm6J13tAkq4v4qwGR3z35W2qWy7mHiiA0wGEpecooo/viewform?edit_requested=true​

Gemini 应用的未来也值得期待。Demis Hassabis 亲自撰写了一篇题为「我们构建通用 AI 助手的愿景」的博客文章,其中写到:「我们正在将 Gemini 扩展为一个世界模型,它可以通过模拟世界的各个方面来制定计划并想象新的体验。」

「我们的终极愿景是将 Gemini 应用打造成一个通用的 AI 助手,它可以为我们执行日常任务,处理日常的日常管理,并提供令人愉悦的新建议,从而提高我们的工作效率,丰富我们的生活。」

这一愿景的起点是 Project Astra,谷歌基于其首次探索了视频理解、屏幕共享和记忆功能等功能。

在过去的一年里,谷歌一直在将这些功能集成到 Gemini Live 中,以便让更多人体验到这些功能。同时,谷歌也在创新,例如,升级了语音输出,使其更加自然地融入原生音频,改进了记忆功能,并增加了计算机控制功能。

编程工具升级

既然是开发者大会,那必然少不了编程工具的升级。在这方面,谷歌可以说是火力全开。

首先,谷歌正式宣布了前两天悄然上线的编程智能体 Jules。据介绍,Jules 是一款异步、智能体式的编码助手,可直接与用户现有的代码库集成。它可将用户代码库克隆到安全的 Google Cloud 虚拟机 (VM) 中,了解项目的完整上下文,并执行编写测试、构建新功能、提供音频更新日志、修复错误、升级依赖项版本等任务。

Jules 以异步方式运行,让用户可在 Jules 后台运行时专注于其他任务。完成后,它会展示其计划、推理过程以及所做更改的差异。Jules 默认为私有 —— 谷歌承诺不会使用用户的私有代码进行训练,并且会在执行环境中隔离用户数据。

,时长00:31

目前,Jules 处于公测阶段(beta),访问免费,但使用量会受到限制。谷歌表示会在公测结束后推出定价机制,想要尝鲜的可得抓紧。

此外,谷歌还宣布了 Gemini Code Assist 的新升级。Gemini Code Assist 是谷歌几个月前发布的 AI 编程助手,其中包括个人版 Gemini Code Assist for individuals 和代码审查智能体 Gemini Code Assist for GitHub。谷歌表示:「自二月份发布预览版以来,我们一直在征求意见、听取反馈,并逐步实现开发者所需的功能。」

现在,谷歌宣布 Gemini Code Assist 个人版和 GitHub 版正式发布,开发者可以在不到一分钟的时间内上手。Gemini 2.5 现已支持 Gemini Code Assist 的免费版和付费版,拥有更强大的编程性能;可帮助开发者在创建视觉效果出色的 Web 应用以及代码转换和编辑等任务上表现出色。

此外,谷歌还宣布为 Gemini Code Assist 提供了更多自定义选项,包括更多自定义工作流程以适应不同项目需求的方式,更轻松地从上次中断的位置继续执行任务的功能,以及用于强制执行团队编码标准、样式指南和架构模式的新工具。

另外,Gemini Code Assist 标准版和企业版开发者也已经可以使用 200 万 token 的上下文窗口,这能帮助开发者完成大规模的复杂任务,例如错误追踪、代码转换以及为新用户生成全面的入门指南。

谷歌还展示了一个使用统计数据:Gemini Code Assist 可将开发者完成常见开发任务的成功率提高 2.5 倍。

感兴趣的用户可以在 VS Code 或 JetBrains IDE 中下载 Gemini Code Assist 插件,并通过 GitHub 应用访问代码审查智能体。此外,用户现在还可以利用 Android Studio for Business 中的 Gemini,在 Android 开发生命周期的每个阶段充分利用 Gemini。

谷歌还推出一款全新的 AI 驱动式 UI 工具:Stitch。它能基于自然语言描述或图像提示词,生成适用于桌面和移动设备的高质量 UI 设计及相应的前端代码。Stitch 能让用户快速将创意变为现实,以对话方式迭代设计,调整主题,并轻松将自己的作品导出为 CSS/HTML 或 Figma 以继续创作。

图片

谷歌还宣布了 Colab 和 Firebase Studio 的一些功能升级。其中 Colab「很快就会具有一种全新的、完全智能体的体验。只需告诉 Colab 你想要实现的目标,它就会在你的笔记本中执行操作,修复错误并转换代码,从而帮助你更快地解决难题。」可以期待一下。

最新视频、图像生成模型

谷歌最新的视频和图像生成模型 Veo 3 和 Imagen 4 凭借其优异的新功能,打破了媒体生成的界限。此外,全新的 AI 电影制作工具 Flow 已经用上了 Google DeepMind 最先进的模型,让你能够更精细地控制角色、场景和风格,创作出具有电影质感的影片。

Veo 3:视频与音频的结合

Veo 3 是一个先进的视频生成模型,它不仅提高了 Veo 2 的质量,而且首次可以生成带有音频的视频。

,时长00:08

Veo 3 今天在 Gemini 应用程序和 Flow 中为 Ultra 在美国的用户提供服务。它也适用于 Vertex AI 上的企业用户。

Veo 2 更新

Veo 2 添加了新功能,包括:

先进的参考视频功能,从而实现更佳的创意控制和一致性。

相机控制,可以帮助用户定义精确的相机运动,包括旋转,变焦,以实现完美的拍摄。

Utpainting,拓宽视频帧,并使其更容易适应任何屏幕尺寸。

对象添加和删除,让用户从视频中添加或删除对象。

图片

Flow

Flow 是一款 AI 电影制作工具,专为创意人士打造,它整合了 Google DeepMind 最先进的模型:Veo、Imagen 和 Gemini,让用户能够无缝创作电影级的片段、场景和故事。

图片

Imagen 4

Imagen 4 在精细细节方面拥有非凡的清晰度,例如复杂的织物、水滴和动物皮毛,并且在照片级写实和抽象风格方面均表现出色。Imagen 4 可以创建各种宽高比的图像,分辨率高达 2k,更适合打印或演示。它在拼写和排版方面也得到了显著提升,让你可以更轻松地创作自己的贺卡、海报甚至漫画。

图片

很快,谷歌还将推出 Imagen 4 变体,比 Imagen 3 快 10 倍。

Google Beam + 语音翻译

几年前,谷歌推出了 Starline 项目,旨在重新定义视频通信。Starline 项目实现了远程对话,让人感觉如同身处同一房间,而无需佩戴专门的眼镜或头显。

今天,谷歌宣布 Starline 项目正在演变为一个全新的 3D 视频通信平台:Google Beam。

Google Beam 平台利用 AI 赋能新一代设备,帮助人们无论身在何处都能建立有意义的联系。

Google Beam 借助最先进的视频模型,通过一个由六个摄像头组成的阵列并结合 AI 技术,将标准的 2D 视频流转化为逼真的 3D 体验,让用户以更自然、更直观的方式进行连接。

,时长00:09

,时长00:13

此外,谷歌也正在探索使用 Google Beam 进行语音翻译。这项功能将于今日在 Google Meet  上线。

Google Meet 的语音翻译功能最初将支持英语和西班牙语,未来几周将支持更多语言。

有了这项功能,用户在保持语音、语调和表情的同时,还可以享受近乎实时的翻译对话。

搜索升级

搜索可以说是谷歌的立身之本,但近段时间来已经开始受到新生代的 AI 搜索应用的冲击,而谷歌也正积极地应对。

在今天的 I/O 开发者大会上,谷歌宣布其搜索中的 AI 概览(AI Overviews)功能进行了功能升级,现已覆盖 200 多个国家和地区,支持 40 多种语言,并新增了对阿拉伯语、汉语、马来语、乌尔都语等语言的支持。

简单来说,AI 概览功能可以改进用户的搜索体验,用新类型的问题快速查找信息并浏览网络上的相关网站。当谷歌的系统认为这些信息最有帮助时,它们就会显示在谷歌搜索中,并显示醒目的网页链接,方便用户轻松了解更多信息。而且谷歌表示这个功能的速度很快:「AI 概览功能提供业内最快的 AI 响应速度」。

谷歌也表示,AI 概览确实可以帮到用户:让用户的对搜索结果更加满意,搜索频率也更高。此外,从本周开始,谷歌将在美国的 AI Overviews 中引入其最智能的模型 Gemini 2.5 的一个定制版本,以便搜索能够解决更棘手的问题。

图片

在谷歌 I/O 开发者大会上,谷歌还宣布今天起在美国正式推出 AI 模式(AI Mode)—— 无需注册 Labs。

AI 模式今年早些时候开始在 Google 实验室测试,可以说是谷歌功能最强大的 AI 搜索功能,拥有更先进的推理能力和多模态分析能力,并能够通过后续问题和有用的网络链接进行更深入的探索。在接下来的几周内,美国用户将在谷歌搜索和谷歌应用的搜索栏中看到一个新的 AI 模式标签页。

据介绍,AI 模式的底层采用了谷歌的查询扇出(query fan-out)技术,可将问题分解为子主题,并同时发出多个查询。这使得新谷歌搜索能够比传统的谷歌搜索更深入地挖掘网络内容,帮助用户发现更多网络资源,并找到与用户查询高度相关的内容。

当然,谷歌也有自己的深度搜索(Deep Search)了。谷歌宣布会通过深度搜索将深度研究功能引入 AI 模式。深度搜索使用相同的查询扇出技术,但更上一层楼。它可以发起数百次搜索,对不同的信息进行推理,并在几分钟内创建专家级的完整引用报告,从而节省用户数小时的研究时间。

图片

谷歌还为搜索引入实时功能,可实时提供帮助。事实上,之前每月已有超过 15 亿用户使用 Google Lens 来搜索他们所看到的内容。现在,谷歌宣布将 Project Astra 的实时功能引入搜索,在多模态搜索方面迈出了新的一步。借助实时搜索功能,用户可以使用摄像头与搜索实时交流所看到的内容。

图片

谷歌还将 Project Mariner 的智能体功能引入 AI 模式,可帮助用户节省购票等任务的时间。只需输入「在更下面的观众席找到两张本周六红人队比赛的平价门票」,AI 模式就会启动查询扇出,跨网站分析数百个潜在的门票选项,并提供实时价格和库存,并处理繁琐的表单填写工作。AI 模式将呈现符合确切条件的门票选项,让用户可以在任何喜欢的网站上完成购买。

图片

此外,谷歌还为搜索的 AI 模式引入了个人上下文(personal context)与定制图表等能力。

全新的 AI 购物模式

谷歌推出了全新的 AI 购物体验,其将 Gemini 功能与 Shopping Graph 进行完美结合,Shopping Graph 目前拥有超过 500 亿条商品信息,涵盖全球零售商,每条信息都包含评论、价格、颜色选择和库存情况等详细信息。并且信息是准确的、及时的,因为每小时有超过 20 亿条此类商品信息在 Google 上更新。

,时长00:23

用户还能进行虚拟试穿:只需上传一张照片,你就可以虚拟试穿数十亿种服装。

图片

该功能由一个全新的时尚定制图像生成模型支持,该模型能够理解人体结构和服装的细微差别 —— 例如不同面料在不同人体上的折叠、拉伸和悬垂效果。

试穿实验已经正式启动。当你在谷歌上选购衬衫、裤子、裙子和连衣裙时,只需点击产品详情上的试穿图标即可。之后,你可以上传自己的全身照 —— 片刻之后,就能看到衣服穿在身上的效果。

,时长00:30

结语

以上的盘点性介绍还并未穷尽谷歌今年的 I/O 大会上发布、升级或规划的一切,比如他们还推出了 Gemma 3n 的预览版本,这是一个可以在手机、笔记本电脑和平板电脑上流畅运行的开放式多模态模型,可以处理音频、文本、图像和视频。另外,谷歌在 AI 辅助科研、AI 内容鉴定(SynthID Detector)、NotebookLM、云计算、办公辅助、增强现实等多个领域都有新的动态。他们甚至还推出了新的订阅套餐:每月 249.99 美元的 Google AI Ultra!

图片

前三个月有折扣

谷歌一直是 AI 研究的先驱,早在 Transformer 架构和 AlphaGo 时代就奠定了技术基础。然而,近年来在 AI 应用层面,谷歌略显保守,未能在用户体验上与竞争对手齐头并进。此次 2025 年 I/O 大会,谷歌通过一系列重磅发布,展现了其在 AI 应用领域的强势回归。

从 AI Mode 彻底重塑搜索体验,到 Project Astra 引领多模态交互,再到 Gemini 2.5 的深度推理能力和 Project Mariner 的智能智能体,谷歌不仅追赶上了 AI 应用的浪潮,更在多个关键领域实现了超越。这场大会不仅是技术的展示,更是谷歌向未来发出的宣言:在 AI 驱动的新时代,谷歌将继续引领潮流,塑造更加智能和互联的世界。

参考链接:​https://blog.google/​

#通用AI下半场评测标准来了

九成以上模型止步白银段位,只有3个铂金!

OpenAI 研究员姚顺雨最近在其博文《AI 下半场》中提出了振聋发聩的观点:人工智能的发展正步入一个全新的阶段。在上半场,我们习惯于专注模型架构与训练方法的突破;而如今,下半场的关键在于如何评估模型的真实智能。“接下来,AI 的重点将从解决问题转向定义问题。在这个新时代,评估的重要性将超过训练”。换言之,我们需要像产品经理那样重新思考应该让 AI 解决什么问题、以及如何衡量“解决得好”。过去,Transformer、AlexNet、GPT-4 等里程碑工作让算法和模型大放异彩;但在下半场,比拼的不再是谁的模型更大、更强,而是谁能定义出更有效的评测标准,推动 AI 朝着对人类真正有用的方向演进。

这样的理念正在获得实践的支撑。近期,一支来自新加坡国立大学(NUS)和南洋理工大学(NTU)等机构领衔的团队的研究,围绕了通用多模态模型的评估而非训练展开。这篇题为《On Path to Multimodal Generalist: General-Level and General-Bench》的论文提出了全新的“通才智能”评测框架,旨在为多模态大模型(Multimodal Large Language Model, MLLM)的能力设立一把更合适的标尺。该团队强调,只有转变思路,把精力投向评测体系的革新,我们才能真正衡量 AI 是否在朝着通用智能(AGI)的目标迈进。正如姚顺雨所言,下半场 AI 的胜负手在于评测标准的制定,而非一味堆砌训练技巧。这项超过 300 页的研究由超过 30 位研究者共同完成,核心作者团队来自新加坡国立大学、南洋理工大学,联合了浙江大学、北京大兴、罗切斯特大学等多家机构的学者,这支跨学科、跨地域的多元团队集合了计算机视觉、多模态、NLP 等领域的专家。该工作录用于国际机器学习大会 ICML 2025(Spotlight 论文),在众多投稿中脱颖而出,获得评审高度评价。该工作将期待为未来的通用多模态大模型的发展指明一条明道。

  • 项目主页:https://generalist.top/ 
  • Leaderboard:https://generalist.top/leaderboard 
  • 论文地址:https://arxiv.org/abs/2505.04620
  • Benchmark:https://huggingface.co/General-Level 

“通才智能”之问,多模态大模型的短板:“拼接怪”难言智能

该工作瞄准的是多模态大模型如何进化为“全能通才”的重大命题。论文之所以引发瞩目,源于其聚焦的核心问题:当前的多模态大模型到底离“通才智能”有多远?随着 GPT-4、PaLM-E、Deepseek 等模型不断涌现,业界开始畅想 AI 从各自为战的“专才”走向举一反三的“通才”。但一个现实挑战是,缺乏衡量“通才智能”的统一标准——过往评测往往各自为政、碎片化,难以回答“大模型是不是更通用了”这一根本问题。为此,该团队提出了 General-Level 评估体系和 General-Bench 测试集,希望为 AI 社区提供一个公认的“通才智能”试金石。正如论文指出的,那些在各项任务上指标再高的模型,也未必真正更接近人类水平智能。我们需要新的评估范式来定义问题、发现短板,照亮通往 AGI 的路径。这正契合了“AI 下半场”的时代精神,也难怪工作一经发布就收获了学术界和工业界的密切关注。

在踏上“通才”之路前,团队首先剖析了当前绝大部分的多模态大模型(无论是多模态基础模型还是多模态智能体)存在的瓶颈。论文一针见血地指出:现有的大部分的多模态模型基本是基于“语言智能 LLM”所二次构建的“间接式多模态智能”,类似于用胶水拼接起来的“缝合怪”。虽然它们可以同时处理图像、文本、视频等等多种模态,但本质上往往是不同模块的堆叠+二次微调:比如用预训练视觉编码器接上语言模型,让模型“看图说话”。这种架构上的松耦合导致模型更像多个专才的拼盘,而非一个真正融会贯通的通才。这样的“多模态 Frankenstein”只是在语言智能的基础上外挂视觉、听觉接口,其多模态推理过程很大程度上仍依赖底层的大语言模型对文本的强大记忆和关联能力。模型缺乏各模态间的深度协同,更谈不上原生多模态智能,实现在跨模态/任务之间举一反三。

图片

不仅如此,简单地用传统任务准确率去评价这些模型,往往会产生误导。很多现有的 MLLM benchmarks 看似涵盖多模态任务,但不同模型各擅胜场:有的专精图像问答拿高分,有的擅长视频描述拔头筹。然而,这些分数的堆叠并不等于智能的提升。正如作者所质疑的,难道任务指标高就代表模型更接近人类智能了吗?答案远非如此简单。举个例子,一个模型如果靠暴力记忆在封闭题库上取得高分,并不能说明它具备通用理解力。同样,一个只会在单一模态侃侃而谈的模型,换个场景就可能语焉不详。由此可见,仅以各项任务的准确率为标准来衡量智能是片面的。当前的 MLLM 存在三大典型短板:

  • “拼接”导致偏科严重:大多数多模态模型只在擅长的领域表现亮眼,超出熟悉范畴就束手无策。例如很多模型能做到基本的“看图说话”,但遇到“听声音画图”或“看视频改剧本”一类跨模态任务就抓瞎,仿佛一个偏科的学霸。这说明它们缺乏各模态技能的均衡发展,更没有真正将不同能力融会贯通。
  • 生成能力薄弱:“纸上谈兵”:目前的 MLLM 普遍在内容生成上乏力。比如 GPT-4V 可以精确描述《蒙娜丽莎》的细节,但要让它画一张简笔画却完全办不到。很多模型充当了很好的解说员,却当不好创作者,正所谓理论一流但实践欠佳。这种“只懂描述不会创作”的现象表明,模型缺失了主动生成、多模态创作的能力。
  • 单向协作,缺乏“通感”:更深层的瓶颈在于,模型在不同模态间的知识迁移并不对等。目前往往是语言智能帮助了图像理解(例如利用 LLM 的知识提升了视觉问答表现),但反过来,视觉等其他模态的学习却并未真正提升模型的语言表达或推理能力。这意味着模型各模块之间没有形成双向增强的闭环,好比你看再多名画也无法直接提高写诗水平。真正的通才 AI 应当具备“通感”式的协同学习——各种模态互相促进,而非各顾各的单箭头输出。

综上,当前的多模态大模型更像多个专家的简单拼合,远未形成跨模态的融会贯通。针对这些短板,评估标准也必须升级,才能暴露模型的真实能力缺陷。General-Level 和 General-Bench 的提出,正是要回答“如何定义和衡量通才智能”这一问题,为 AI 下半场奠定新的竞赛规程。

General-Level 五级评估体系:用“协同效应”定义通才智能

要评估“通才智能”,该论文借鉴了自动驾驶分级评估的思路,创造性地提出了 General-Level 五级能力段位体系。它将多模态模型的能力划分为由低到高的五个段位,从“专才”一直到“通才”。评判标准的核心是模型是否展现出 Synergy(协同效应)——也就是不同模态、不同任务间是否互相赋能。General-Level 评估体系以“协同效应 (Synergy)”为核心,将多模态模型划分为五个能力等级,从青铜级的专才到王者级的通才,每升高一级意味着更强的协同效应。简而言之,一个真正的通才型 AI,其在某一模态/任务上学到的本领应能迁移并增强它在其他模态/任务上的表现,实现“1+1>2”的效果。

图片

具体来说,General-Level 将 MLLM 划分为如下五个等级,:

  • Level-1(青铜级):“单科”专才。此级别对应各领域的单任务专家。模型只针对特定模态的特定任务进行了优化,比如只会图像分类或语音识别等。它们在各自狭窄领域表现卓越,但不具备跨任务、跨模态的一般性。绝大多数传统 AI 模型(如只会识别图片的 ResNet 或只会翻译的 Transformer)都属于青铜段位。
  • Level-2(白银级):“多任务拼接”。这一级别是初级的多任务模型。模型能够支持不同模态或任务的输入输出,具备一定的通用性,例如一些视觉语言模型能看图回答也能文本生成。但是,这类模型通常采用模块拼接的方式整合功能,没有内部的协同增益。它们可以看作把若干青铜专才打包在一起的“综合体”,只能完成预先设计好的多种任务,却无法因为会做任务 A 而自动在任务 B 上做得更好。因此白银级被定义为“无协同效应”(No Synergy)——模型支持的任务越多、性能越高,段位评分越高,但并不要求跨任务有互助提升。
  • Level-3(黄金级):“跨任务协同”。黄金段位要求模型开始展现任务级别的协同效应。也就是说,模型在同一范式下的多个任务(例如都属于理解类任务,或都属于生成类任务)上通过联合学习,实现了 1+1>2 的效果:相比各任务独立训练的专家,通用模型因知识共享反而在若干任务上超越了单 task SOTA。这被视为出现了任务级协同(Task-level Synergy)的证据。评估方法是,将模型在每个任务上的成绩与该任务单任务专家的 SOTA 成绩比较,如果超越 SoTA 则记为一次协同加成。模型超越的任务越多、幅度越大,Level-3 评分越高。达到黄金段位,意味着模型不再只是简单兼顾多任务,而是因为多任务并举而在部分任务上表现得更好了。这标志着通才智能的开端:知识开始在相近任务间融通。正如通俗类比:“模型学会了修图之后,拍照水平也提高了”。
  • Level-4(铂金级):“理解-生成范式双修”。在这个级别,模型需要展现范式级的协同效应,即同时精通理解类任务和生成类任务,并且两种能力互相促进。所谓理解与生成的协同,可以理解为模型的阅读理解、分析判断能力和创意生成、内容创造能力是融会贯通的,不会出现一条腿长一条腿短。评估上,Level-4 通过计算模型在理解任务和生成任务上的成绩调和平均数,来看两者是否保持均衡高水平。只有当模型在“看”和“写”两方面都表现出色且互相补益,才能晋级铂金段位。这对应人类能力中的“既能读懂复杂文章又能写出好文章”。达到这一层次,模型已不再局限于单一任务范式的高手, 而是实现范式级协同(Paradigm-level Synergy),成为了跨范式的全才——既能看图说话,又能据图生文。例如论文将其比喻为“既能准确描述一部电影,又能续写其剧情”。
  • Level-5(王者级):“全模态互促的通才”。这是评估体系的顶点,代表真正实现了跨模态的全面协同。王者级模型不仅在视觉、听觉、文本的理解和生成各方面均衡强大,更实现了语言和非语言模态之间的相互赋能。换言之,模型具备高度的“通感”能力:语言智能可以加强视觉/听觉智能,反之视觉、听觉等多模态的感知也能反馈提升语言理解与表达。这就如同人类看到一幅画作能激发灵感写诗,反过来诗歌修养又丰富了对画作的解读。这种全模态协同效应(Cross-modal Total Synergy)是通才智能的终极标志。在评价上,如果模型在纯语言的 NLP 任务上也能超过单模态语言模型的 SOTA,并将这种能力融入多模态任务中,即可视为出现了完全协同。然而正如榜单所示,截至目前尚无模型达到王者段位,我们还在等待“多模态版的 ChatGPT 时刻”。

图片

通过 General-Level 这个分级体系,研究者为“通才智能”提供了一个清晰的定义标准:不是看模型会多少项任务,而是看它是否能在多任务、多模态中实现协同增益。协同效应成为评估的核心指标,直接衡量模型的“通才度”。这套体系如同给多模态模型划定了晋级之路:从杂技般的拼凑,到初步融合产生化学反应,最终迈向模态互通的 AGI。这正如姚顺雨所呼吁的,要“重新思考评估设置并创造新的评估”,不断质疑旧假设、引入新任务,才能推动 AI 突破现有套路。General-Bench 由此成为多模态 AI 下半场的一座里程碑,为行业提供了共同的试炼场。正因如此,General-Level 可被称为“通才智能的新衡量尺”:它定义了未来多模态模型努力的方向,也为我们诊断现有模型的不足提供了依据。

General-Bench 通才测试集:700 项任务炼金“全能 AI”

有了评估等级的标准,还需要相应“考卷”来对模型进行全面测评。General-Bench 正是为此打造的一套大规模多模态通才测试集。这套 Benchmark 题库堪称 MLLM 史上最全面、最严苛、最大规模的多模态考试:它囊括了 700 种不同任务、合计约 32.58 万道问题,覆盖图像、视频、音频、3D 点云、文本等 5 大最常见模态。从常规的图文理解,到开放式生成,再到跨模态推理,General-Bench 努力构建一个全面考察模型多方面能力的竞技场。

图片

具体而言,General-Bench 在设计上有以下显著特点:

  • 任务多元,场景丰富:测试集涵盖了 145 项多模态技能,29 个应用场景。既包括常见的“看图说话”图像描述、视觉问答等基础题,也有诸如“听声音画图”、“读文章配视频”等烧脑的跨模态挑战。领域上横跨物理、几何、医学、历史、艺术、人文学科等,让模型面对如同人类考试文理综合的难题。举例来说,可能出现一道物理题附带复杂图表,或一道历史题给出文物的 3D 模型让模型辨析。如此广泛的覆盖,旨在测试模型是否具备跨学科、跨模态的知识整合能力。
  • 理解+生成,全方位考察:与以往偏重选择题式的评测不同,General-Bench 注重开放式回答和内容生成。在这套考题中,模型面对的大多是非选择题,需要自由作答而非从选项中猜测。同时,相当比例的任务直接要求模型生成内容,例如看一段视频续写剧情、听一段音乐创作绘画等。这意味着模型不仅要会判断对错,还要有创造性产出的本领。这样的设计可以有效测出模型的生成能力和创造力,补足过去评测只重理解、不重生成的缺陷。正如作者强调的,未来的 AI 需要“既会看,还会画”——既能理解输入,也能产生输出。
  • 真正多模态考题:General-Bench 的一大创新是设计了跨模态组合的问题,以考察模型同时处理多模态信息的能力。在这里,任务不再是孤立的图像问答或文本总结,而是常常多模态交织:比如给模型一段音乐音频,要求它画出相应风格的图画;或者给出一段视频和一篇文章,让模型将两者信息融合进行分析。这类似于人类需要将眼睛看到的和耳朵听到的综合起来理解世界。如果说过去的基准测试更多是在考“单科”,那么 General-Bench 就是一场跨媒体、跨领域的综合性大考,逼真地模拟了 AI 在真实世界可能遇到的复杂任务。通过这些融合型题目,可以检验模型在多模态协同上的能力,看看它是否真的能像人一样将不同感官的信息打通。

如此庞大的题库是如何构建的?研究团队为保证质量和覆盖面,采用了严谨的五步数据构建流程。首先,他们明确了数据集的范围和结构:确定纳入哪些模态、元任务类型和回答范式。接着,团队广泛搜集潜在任务,通过爬取学术论文、开源数据集、在线平台等渠道汇总任务清单。随后,对每个候选任务的数据进行清洗筛选,并按照统一格式整理。整个过程中遵循“尽可能全面、多样,同时确保质量和真实性”的原则。最终产出的 General-Bench 既有开放部分(Open-Set,提供题目和标准答案,供研究者自由使用)也有闭卷部分(Close-Set,仅提供题目,答案保密用于官方评测)。这种开放+闭卷双轨设计,既鼓励学术社区广泛采用 Benchmark,又保证了排行榜评测的公平性。可以说,General-Bench 为评估多模态通才搭建了一个高标准竞技场。它的价值不仅在于出了一套难题,更在于树立了评测新风向:强调开放生成、强调多模态融合、强调动态扩展(团队称数据集将持续更新维护)。

榜单揭晓:GPT-4 段位几何?行业瓶颈尽现

当如此严苛的 General-Bench 试卷摆在当前顶尖模型面前,会是怎样的光景?论文对 100 多个先进的多模态模型在 700 多个跨模态任务上进行了测试(测试时间是 24 年底之前的多模态大模型,跟当前最新的一些版本模型稍有时间上的延迟),结果可以说是几家欢喜几家愁,更让人大跌眼镜。一些业界公认强大的模型在这场通才大考中显露出意想不到的短板。下面我们揭晓部分关键结果:

  • GPT-4V(含视觉能力的 GPT-4):这可能是公众眼中最强大的多模态模型之一。然而在 General-Bench 上,GPT-4V 的表现并非无懈可击。统计显示,GPT-4V 只回答了约 65% 的图像相关问题,对于视频类题目更是几乎束手无策。这意味着在接近三分之一的视觉题上,GPT-4V 要么答不出要么答错,更遑论对复杂的视频理解了。作为对比,一款开源模型 InternVL2.5-8B 在图像理解方面的得分竟然超过了 GPT-4V,颇令人为之一惊。这提示我们:大模型未必在所有细分能力上都占优势,有时小模型专精优化反而更胜一筹。另外,GPT-4V 缺乏视频处理能力暴露出其模态覆盖不足——这也直接将其评估段位限制在了更低级别。
  • 多模态模型整体弱项:General-Bench 的统计还发现,所有模型在音频类任务上的平均得分不足 30/100,几乎集体不及格。在需要解析语音、音乐的题目上,不论是大名鼎鼎的 GPT-4V 还是其他模型,表现都不理想。这反映出当前视觉-语言模型对声音的理解和生成还非常初级。更夸张的是,在 3D 相关任务上所有模型几乎全军覆没,最好的正确率仅有 6.7%!可见,处理三维模型、点云这样的高级感知任务,对现有 AI 仍是巨大挑战。

如果说按模态分解的成绩让人大跌眼镜,那么汇总到段位评定上则更显残酷:

  • 九成以上模型止步“白银”。据统计,约 90% 的模型只能达到 Level-2 白银段位。也就是说,它们顶多支持了若干模态和任务的组合,但没有体现出明显的协同泛化效应。换言之,这些模型只是勉强合格的“多面手”,尚未真正做到“融会贯通”。这当中不乏参数上千亿的大模型,可见规模大不等于段位高。
  • 寥寥数款模型跻身“铂金”。在测试中,只有 3 个模型达到了 Level-4 铂金段位。论文提及其中包括名为 Mini-Gemini 的模型等,它们展现出了理解与生成能力的协同效应。然而值得注意的是,这些铂金段位的模型其协同效应主要局限在图文领域。也就是说,它们基本都是在视觉-语言这两种模态下达到了理解+生成双优,但在更广泛的音频、视频等模态上未能实现同等协同。换句话说,目前的铂金通才还是“片面的通才”,距离全能尚有距离。
  • “王者段位”依然空缺。最令人警醒的是,Level-5 王者级别完全没有模型触及。没有任何参评模型能够证明自己的语言智能被其他模态提升,或能将视觉、听觉等学习反馈改进 NLP 能力。这印证了前文提到的单向协同问题:目前还没有 AI 达到全模态互促的境界。王者宝座依旧虚位以待,这也意味着距离真正的多模态 AGI 还有相当的鸿沟。

图片

General-Level 整体排行榜展示了不同模型所处的段位分布。如上图所示,目前绝大多数模型停留在 Level-2 和 Level-3,仅有极少数攀上 Level-4 铂金,而 Level-5 王者段位(黄色阶梯)尚无模型问鼎。这张图直观地回答了“你的多模态模型是青铜还是王者?”这一问题。

通过这次前所未有的通才测试,现有 MLLM 的三大致命弱点也彻底暴露无遗:

  1. 偏科严重,通用性欠缺:模型对特定模态任务驾轻就熟,但一遇到跨模态的新题型就表现失常。这说明当前模型通用性名不副实,“见多识广”还远远谈不上。是可能是实现“多模态通才”这一宏大目标最基本的障碍。
  2. 生成乏力,缺少创造:大部分模型在理解任务上还能应付,但让它们产出内容就频频失败。AI 缺乏像人一样灵活输出新内容的创造力,这将限制其解决实际问题的能力。
  3. 协同单向,缺乏通感:模型内部各模块没有形成双向增强。语言和视觉等智力没有真正融合,造成知识迁移的瓶颈。这也是为何最高段位迟迟无人问津的原因。

图片

图片

图片

这些发现无疑给业界敲响了警钟:再强大的单点模型,在通才智能的新坐标系下都可能暴露短板。GPT-4 这样的巨头依然在视频、音频、3D 等维度力不从心,更遑论实现模态互促的飞跃。这充分证明,我们需要新的评测标准来发现和正视这些瓶颈,然后对症下药地改进模型。General-Level 和 General-Bench 正提供了这样的放大镜和标尺,让我们看清 AI 通往 AGI 道路上的真实差距。

社区反响:评测框架引热议,开放平台促协作

General-Level 和 General-Bench 的推出,近期在学术界和工业界都引起了积极反响。首先,这项工作获得了顶会 ICML 的 Spotlight 认可,证明同行专家们高度认同其创新性和重要性。许多国外研究者在社交媒体上评论、转发该工作,称其为“AGI 时代评测范式的里程碑”。在开源社区,General-Bench 基准受到了热烈欢迎。论文作者将数据集发布在 Hugging Face 平台,并开放了评测代码和排行榜系统。Hugging Face 上聚集了一批关注者,不少开发者加入项目组织成为成员,共同维护数据。有社区贡献者开始考虑提交新的任务数据,希望扩充 General-Bench 的覆盖范围。这种开源协作氛围正是作者期望的——让评测框架成为全社区共同的基础设施,持续完善并被广泛采用。

与此同时,排行榜(Leaderboard)竞赛的形式也激发了良性竞争。General-Level 官方网站上线了实时榜单和提交入口,任何人都可以上传自己模型在 Close-Set 测试集上的预测结果,获取官方评估分数和段位定位。这一机制吸引了业界一些领先 AI 团队参与,不仅有学术实验室,也有企业研发部门。大家都希望尝试让自家模型冲击更高段位,并将结果分享出来交流,比如“某某模型为何只能停留在白银段位,差距在哪”;“我们发现模型在音频理解上扣分严重,看来下个版本必须补上听觉模块的短板。”团队负责人称,将会长期维护这个项目,确保社区所有的多模态大模型都能够无门槛使用这个项目的资源。

欢迎公开打榜,Leaderboard:https://generalist.top/leaderboard 

图片

图片

团队与研究背景:跨领域协作共筑评测基石

这样的突破性工作背后,是一支大规模的团队。该项目由新加坡国立大学(NUS)与南洋理工大学(NTU)牵头,汇集了计算机视觉、多模态理解、自然语言处理等方向的青年、资深专家学者。本工作由费豪博士主导整体项目推进,并分别由周源、李俊成、李祥泰、徐青山、李波波、吴胜琼博士等青年学者分别领衔各个模态、模块;并全称由张含望教授、颜水成教授坐镇通讯指导,由蔡达成教授、罗杰波教授作为项目顾问。据团队成员介绍,最初萌生这个想法,是在看到多模态模型不断刷新各种 Benchmark 的同时,却缺乏对整体智能水平的刻画。“我们训练出了很多擅长某一方面的模型,但很难说清楚 AI 整体上进步了多少”,张含望教授在相关研讨会上如此阐述初衷,“我们不妨借鉴自动驾驶行业的智能汽车分级机制,重新思考对于多模态大模型的智能分级体系”。于是大家决定索性换一个视角,不再纠结于在单一基准上卷 0.1% 的精度提升,而是设计一个能全面衡量多模态 AI 的框架。通过多次大量的内部讨论,最终确定了一个核心观点,“我们不能按照过去的简单的单个任务表现来评定模型的智能水平,而是应该按照协同泛化能力!”。一开始这个想法并不被所有人看好,因为意味着要投入巨大精力构建数据集、协调不同领域知识。但团队迎难而上,不断打磨 General-Level 算法设计,花了超过一年多的时间收集、标注清洗数据,与此同时耗费大量人力(超过 50 多位实际贡献者)和计算资源对超过 100 多个多模态大模型在 700 多个任务 30 多万条数据上进行大规模的评测,终于使整个项目成型。可以说,这项成果既是技术创新的结晶,也是对 AI 评测理念的一次重要实践。

可以说,General-Level/General-Bench 不仅是一套评测工具,更是在推广一种全新的“评测文化”。AI 社区从原先热衷跑单项指标,开始转向思考模型的全面素质;从比拼参数规模,转向比拼谁的 AI 更平衡、更通达。这种风向的变化正验证了姚顺雨的论断:AI 下半场,比的不是算法炫技,而是谁能定义正确的问题并找到衡量进步的方法。General-Level 的框架为大家提供了一个共同语言和目标,接下来就要看各路英雄如何在这新标尺下磨炼升级了。

展望:评测范式革新推动 AGI 落地

在 AI 通往 AGI 的征途上,评测标准的突破将起到指南针的作用。General-Level 和 General-Bench 的问世,正标志着业界从“算法为王”转向“评测为王”的思维转变。在这个全新的评测范式下,我们期待看到以下变化:

  • 研发重心转移:研究人员将更加重视模型的全面能力而非单点绝活。模型设计将从过去的“拼装式”朝“熔炉式”演进,力求不同模态在架构上深度融合以增强协同效应。因为新的评测会倒逼大家解决偏科和单向协同的问题,下一代模型可能在多模态统一建模、跨模态信息流动方面迎来突破。
  • 评测生态完善:随着 General-Bench 等基准流行,未来会有更多类似动态任务库加入评测体系,比如引入代码生成、机器人操作、触觉反馈等新类型任务。评测将不再是固定的一套试题,而会不断扩充,贴近真实世界需求。这将鼓励 AI 系统具备持续学习和适应新任务的能力,而不只是针对静态测试集优化。
  • AGI 进程加速:有了明确的通才智能目标(王者段位)和衡量路径,业界在朝 AGI 前进时将少走弯路。当模型在评测中逐级攀升,我们便能量化地看到 AI 离仿真人类智能还有多远。正如论文预测的那样:当某天 AI 能够通过“王者段位”的考核,真正的 AGI 或许也就呼之欲出了。虽然这一天仍未到来,但现在有了一个公认的指标去追求,无疑会大大加速 AGI 落地的步伐。

在此,我们呼吁 AI 研究社区广泛采用 General-Level 和 General-Bench 框架。一套统一的评估标准,将使得不同模型的优劣高下有据可依,也方便大家协同改进。更重要的是,它能引导我们聚焦于模型综合素质的提升,而不是陷入无尽的参数竞赛或刷榜游戏。这与姚顺雨所倡导的“像产品经理一样思考”不谋而合:先想清楚我们究竟希望 AI 为人类做什么、有哪些能力,然后再去改进算法实现它。评估标准的革新,正是明确 AI 努力方向的前提。

总而言之,AI 的下半场已经开启,一个以评测驱动进步的新时代扑面而来。General-Level 和 General-Bench 作为“通才智能”的里程碑,为这一时代写下了精彩的序章。让我们期待,在这套评测指引下,更多 AI 模型百尺竿头、更进一步,早日攀上“王者段位”。届时,通往 AGI 的大门也将随之洞开,人类与通用人工智能共创未来的愿景或将成为现实。

#飞书知识问答

飞书一个聊天框,激活了编辑部的知识资产

你是否也有这样的经历:企业知识库像一座「屎山」,总是找不到想要的资料;找一份上周会议纪要像考古;忘了哪个群里发过一份超重要的文件;每次写汇报都像重新发明轮子……

图片

归根结底,这些问题的根源是:作为人类,我们无法完全准确地记忆庞杂的企业知识,更妄论真正地理解它们。

而现在,AI 时代已然来临,我们已经可将许多知识检索和整理任务交给 AI 处理,于是问题来了:如何让 AI 真正理解我们企业自己的知识?考虑到企业知识的庞杂,简单使用「通用 AI + RAG」或直接将企业知识放入模型提示词的做法不仅效率极低,而且通常效果也并不好。

如果你在飞书办公,那么你需要的答案正是「飞书知识问答」,它不仅能满足企业的业务理解需求,而且在信息安全方面做到了极致。使用它,我们或许就能过上「什么都不用记,还能秒出结论」的生活。

图片

什么是飞书知识问答?简而言之,飞书知识问答是一个可以将你的所有企业和个人信息聚合到一起,并理解这些信息的 AI 工具。

它能基于所有在用户飞书消息、文档、知识库、妙记、服务台中的文件和文字信息,并进行深度理解,然后为用户提供相当准确的相关反馈。并且,飞书知识问答对企业组织内的新信息的整合速度也非常快 —— 做到了秒级更新,能相当好地提升用户工作效率。

同时,基于强大的 AI 能力(DeepSeek-R1 满血版或豆包),飞书知识问答还能基于检索和总结的信息推理和生成进一步的内容,成为用户得力的工作助手。

在企业用户最关心的安全性方面,飞书知识问答也有较好的基础。它实现了具体到每位用户的权限管理 —— 知识问答的权限范围与用户自己的权限始终保持一致,实现了权限的千人千面。此外,飞书使用的 DeepSeek-R1 满血版模型是火山引擎独立部署的,并与市场上其它 DeepSeek 服务完全隔离,在给用户更好、更快体验的同时,还能保障企业数据安全。同时,飞书也承诺不会将用户的任何企业知识数据用于训练 AI。

作为老用户,也是第一次时间拿到了内测资格。一番实测后,我们认为飞书知识问答的表现整体超出预期,但也有一些不足之处,比如飞书知识问答还不能完全做到「开箱即用」,仍需要企业在知识构建方面做到一定的「AI Ready」。也就是说,如果想要飞书知识问答真正发挥作用,企业自身的信息沉淀质量、知识结构、权限管理等基础建设同样重要。如果企业内部资料过于混乱、权限设置不清,AI 再聪明也会犯错。

此外,飞书知识问答也仍有不小进步空间,例如在官方发布的演示中,便出现了回答不准的现象。不管是产品优化,还是模型的能力,此类产品在企业中发挥巨大价值,都尚有较长的路要走。

也想尝鲜飞书知识问答?请访问这个链接申请:ask.feishu.cn

一手实测

知识问答是企业知识资产的激活器

对于飞书这样的企业协作与管理平台,文档与知识管理是用户的一大核心需求。在这方面,传统上使用的技术和方法包括关键词搜索、权限管理系统、版本控制与审计、知识图谱、标签系统等,而有了知识问答的飞书更是将前沿推理模型的强大理解能力整合了进来,让知识问答不止于问答,更成了企业知识资产的激活器。

接下来,我们就奉上一手实测,看看飞书知识问答是如何给企业以及打工人赋能的。

强大的信息检索能力

对于整天和「文山会海」打交道的职场人来说,扒资料、找数据是最麻烦的活儿。

信息总是散落在不同的角落里,有的群消息太多早被设成免打扰,有的文档虽然有权限,但从未打开过。而在快节奏的工作中,去逐一回溯、查找,几乎成了一件「性价比很低」的事情。这时飞书知识问答就派上用场。它上线了模糊搜索功能,仅需大致描述一下问题,就能快速在群聊中匹配到相应的信息。

举个例子。前段时间公司通知要去露营,但手头一忙就忘记具体时间和地点。我们也就是随口一问,飞书知识问答就从群聊中提取了关键的露营信息。

图片

为了防止大模型胡说八道,它还清楚标明了引用来源,轻轻一点就能定位到对话记录。

图片

除了聊天记录,飞书知识问答还能检索文档、表格、会议纪要等。

比如让它搜索火山引擎 Seed 1.5-VL 的发布时间以及背后的模型架构,飞书知识问答经过一番搜索给出了图文并茂的答案,而且它没有止步于原始问题,主动补充了训练数据规模、推理成本优势等信息。

图片

深度理解和结构化整合能力

就像「颗粒度、对齐、组合拳」等互联网黑话一样,AI 圈有着属于自己的黑话。什么 Transformer、RNN、CNN,门外汉听了简直两眼一抹黑。

不过现在我们可以喂给飞书知识问答各种学习文档,它理解消化后,就会甩给我们一份翔实的概念解释,让我们既能了解通用定义,也能知道更多业务相关信息。

图片

比如,Meta 首席 AI 科学家 Yann LeCun 曾花 48 分钟介绍了 SSL 模型,我们使用飞书妙记将其转成演讲稿后,全文 8729 个字,各种专业术语满天飞,看得人一个头两个大。

而我们只需问一句:SSL 模型到底是个啥?飞书知识问答就会翻遍有权限的文档、文件,快速理解整合出答案。

图片

此外,公司大了,规章流程也就纷繁复杂,这对于职场新人来说也是一大挑战。现在只要问一嘴:如何申请电脑显示器?浏览器插件如何安装?飞书知识问答则可以直接呈现相关制度、办事流程,甚至还能跳转服务台转人工咨询。

就拿内部的补充医疗理赔流程来说,飞书知识问答完整梳理了补充医疗理赔流程的两种方式,并特别强调金额门槛、时间节点等,让人一目了然、无须另查。

图片

业务导向的场景化生成能力

除了搜索和整合能力外,飞书知识问答还可以基于企业知识生成周报、工作计划、图表等。

就以这次团建的厨艺大赛为例。我们输入提示词:这次露营的厨艺大赛都有哪些菜品?分别会用到哪些食材?给列个表格。

图片

飞书知识问答的表现远超预期 —— 它不仅准确找到了群聊中的相关对话,还从中提取出了每位同事要做的菜品,并据此智能拆解所需食材,生成结构化表格。这不仅是对内容的搜索,更是一次对上下文的「再创作」。

图片

不止 One More Thing

飞书知识问答还有这些能力

说到 AI 问答,很多人第一反应是「能答疑解惑就行」。但在飞书,这事儿远没有这么简单。权限管理做到「千人千面」、答案来源可溯、模型随心切换…… 飞书知识问答在安全与智能之间,找到企业所需的平衡点。

千人千面的权限管理

对于企业来说,信息安全永远是头等大事。

如果把企业资料无差别地输入通用大模型,不仅存在数据泄露的风险,还可能使企业专有的知识资产成为他人的答案来源。对此,飞书知识问答通过精细化的权限管理机制,构建出「千人千面」的智能问答体验,在保障信息安全的同时,实现高效智能的知识服务。

换句话说,在使用飞书知识问答获取答案时,我们仅能基于自身已授权的信息进行检索,比如可访问的文档、所属群聊、参与过的会议等。因此即使 CEO、业务总监和普通员工问同一个问题,系统会根据其身份和权限范围给出不同的回答,从而最大限度地防止敏感信息泄露。

举个例子,这里我们几位同事在飞书知识问答中使用了同样的提示词「最近我们关注了哪些与 AI 智能体相关的内容?」,然后得到了各自权限范围内各不一样的答案。

图片

对于同一个问题,不同权限的同事在飞书知识问答中得到了不一样的响应,其中左两图来自编辑部,右图来自销售部(部分业务敏感信息已打码)

同时,飞书还承诺企业数据不会用于训练基础大模型,从源头上避免数据滥用。

飞书 AI 的权限控制机制实现了秒级响应,在信息检索阶段覆盖全量数据,而在结果返回时则进行权限校验,确保每一条答案都安全可控、及时准确。通过「检索广泛,返回精准」的策略,飞书实现了在信息安全与 AI 便利之间的高效平衡。

自动溯源,防止幻觉

长期以来,大语言模型的「幻觉」问题都是限制其在真实业务场景中落地的一大障碍。

大模型经常会生成听起来合理、却与事实不符的答案,尤其在涉及企业知识、流程规则或历史数据时,一旦「编故事」,就可能误导决策带来风险。

飞书知识问答在这一点上给出了实用的解决方案 —— 自动溯源。基于企业自身的知识库,如文档、会议纪要、飞书多维表格等,它不仅能生成回答,更能在每个答案后附上来源链接,实现可点击、可追踪的原始出处展示。

图片

在复杂、信息密集的企业环境中,这种溯源机制本质上为 AI 回答加上了「证据链」,大大提升了输出内容的可靠性的同时,也增强了企业用户在使用 AI 时的可控性和信任感。

多种模型自由切换

飞书知识问答突破了单一模型的限制,支持多种大模型的自由切换,涵盖了满血版 DeepSeek R1 和自研豆包大模型,极大地丰富了智能问答的技术底座。这样的设计不仅让系统能够充分发挥各个模型的优势,还为企业提供了灵活选择的空间,满足不同场景下的差异化需求。

图片

更重要的是,飞书知识问答不仅支持对接企业内部知识库,还融合了联网搜索与混合检索机制。这意味着,在企业本地数据无法覆盖的场景下,系统可以自动补充来自公网的实时信息,提升回答的广度与时效性。而在安全性和专属定制方面,企业还可选择自建模型或定制专属的 AI 应用,赋能企业打造符合自身业务特点的智能问答解决方案。

如何让 AI 真正理解企业知识?

飞书是这样做的

通用大模型看似无所不知,却总在企业真正关心的问题上「掉链子」。

比如你让一个通用大模型介绍一下乌克兰战争的最新情况,它能给你一份几千字的时事综述,顺便还能絮叨一些地缘政治知识;但如果你问它「我们商业化团队去年目标完成了多少?」它可能就会含糊其词。

这是因为通用大模型依赖的是大规模通用知识和实时更新的互联网数据。但企业问题的本质不同,它们不是关于公开信息的再组织,而是对组织内部知识结构、语境、权限以及业务逻辑的深入理解与适配。

企业知识碎片化严重,大量信息隐藏在会议记录、群聊讨论、内部文档与权限受限的数据中,而且语义模糊、表达不统一、上下文不完整。若仅靠通用模型去理解并回答这类问题,效果往往是不稳定、缺乏针对性,甚至错误频出的。而真正能落地的企业级知识问答,需要的不仅是「知道」,更是「理解」。

飞书做了一个重要的切口选择 —— 不是简单地用大模型去「连接」企业信息,而是构建一个理解企业知识的 AI 系统。这种理解的基础,来自几个层面的技术实现与产品逻辑。

首先,飞书知识问答系统建立在企业沉淀在飞书生态中的真实内容之上,包括文档、群聊、会议记录、多维表格等。不同于通用模型基于开放语料训练,飞书系统以「权限内信息」为前提,确保每个问题的答案来源都是企业内部可读的数据。

其次,飞书对碎片化知识进行了系统性重构:结构解析、语义统一、格式融合,甚至在技术底层解决了文档格式差异、权限隔离等难题,为 AI 构建了清晰且上下文丰富的知识基础。

在此之上,飞书并非「一套模型应对一切」,而是开放基座模型选择、接入检索增强技术(RAG),并通过 Prompt 优化、意图识别等手段,将 AI 对企业问题的响应进行深度定向,最终实现的是一种「基于业务语境」的 AI 回答能力,不是泛泛而谈,而是基于内部真实信息的语义理解和精准表达。

企业知识问答要真正有用,前提是企业自身有良好的信息沉淀习惯,而飞书恰恰构建了这样一个天然适合 AI 的场景:工作即创作、群聊即语料、文档即知识。它不是把大模型「塞进」企业,而是让 AI 在企业内部「生长」出来。这也是为什么飞书知识问答能够超越传统搜索式知识库或通用 AI 助手,成为真正能服务业务、节省协作时间、驱动生产力的系统。

现在就试试

让 AI 真正为你工作

写到这里,让我们再最后一次展示飞书知识问答的能力,让它为这篇文章撰写结语。很简单,打开飞书知识问答框,输入以下提示词。接下来,飞书会自己找到这个文档,然后为其撰写结语。

提示词:为我的飞书知识问答初稿撰写两段结语。

,时长00:36

这里我们就选择飞书知识问答建议的第一个结语吧:

当文档中的报表数据、群聊中的灵感火花、会议中的关键决策都能被 AI 精准捕捉并转化为生产力时,沉睡的企业知识便成为驱动业务增长的燃料。飞书知识问答通过秒级更新的信息整合能力与深度语义理解,让每个提问都像投入湖面的石子,激活整个知识生态的涟漪效应 —— 这或许就是智能时代「知识即战力」的最佳注解。

如果你也在飞书办公,不妨访问以下链接,申请成为第一批用 AI 激活知识价值的先行者:ask.feishu.cn

#MeanFlow

何恺明团队又发新作: MeanFlow单步图像生成SOTA,提升达50%

这段时间,大神何恺明真是接连不断地发布新研究。

这不,5 月 19 日,他又放出一篇新作!作者团队来自 CMU 以及 MIT。

论文标题:Mean Flows for One-step Generative Modeling 

论文地址:https://arxiv.org/pdf/2505.13447v1

文章提出了一种名为 MeanFlow 的单步生成建模框架,通过引入平均速度(average velocity)的概念来改进现有的流匹配方法,并在 ImageNet 256×256 数据集上取得了显著优于以往单步扩散 / 流模型的结果,FID 分数达到 3.43,且无需预训练、蒸馏或课程学习。

生成模型旨在将先验分布转换为数据分布。流匹配提供了一个直观且概念简单的框架,用于构建将一个分布传输到另一个分布的流路径。流匹配与扩散模型密切相关,但关注的是引导模型训练的速度场。自引入以来,流匹配已在现代生成模型中得到广泛应用。

本文提出了一种名为 MeanFlow 的理论框架,用于实现单步生成任务。其核心思想是引入一个新的 ground-truth 场来表示平均速度,而不是流匹配中常用的瞬时速度。

文章提出使用平均速度(在时间间隔内的位移与时间的比值)来代替流匹配中通常建模的瞬时速度。然后本文推导出平均速度与瞬时速度之间存在一个内在的关系,从而作为指导网络训练的原则性基础。

基于这一基本概念,本文训练了一个神经网络来直接建模平均速度场,并引入损失函数来奖励网络满足平均速度和瞬时速度之间的内在关系。

本文进一步证明,该框架可以自然地整合无分类器引导(CFG),并且在采样时无需额外成本。

MeanFlow 在单步生成建模中表现出了强大的性能。在 ImageNet 256×256 数据集上,仅使用 1-NFE(Number of Function Evaluations)就达到了 3.43 的 FID 分数。这一结果显著优于之前同类方法的最佳水平,相对性能提升达到 50% 到 70%(见图 1)。

图片

此外,MeanFlow 是一个自成一体的生成模型:它完全从头开始训练,没有任何预训练、知识蒸馏或课程学习。该研究大幅缩小了单步扩散 / 流模型与多步研究之间的差距。

方法介绍

MeanFlow 核心思想是引入一个代表平均速度的新场。

平均速度 u 可表示为:

图片

其中,u 表示平均速度,v 表示瞬时速度。u (z_t,r,t) 是一个同时依赖于 (r, t) 的场。u 的场如图 3 所示:

图片

平均速度 u 是瞬时速度 v 的函数,即

图片

,它是由 v 诱导的场,不依赖于任何神经网络。

进一步的,为了得到适合训练的公式,本文将 Eq.(3) 改写为:

图片

然后两边对 t 求导,把 r 看作与 t 无关的变量,得到:

图片

其中左侧的运算采用乘积法则,右侧的运算采用微积分。重新排列项,得到恒等式:

图片

这个方程称为 MeanFlow 恒等式,它描述了 v 和 u 之间的关系。

图 1 给出了最小化损失函数的伪代码。

图片

单步采样

图片

实验效果如何?

实验是在 256×256 ImageNet 数据集上进行的。

图 1 中,本文将 MeanFlow 与之前的单步扩散 / 流模型进行了比较,如表 2(左)所示。总体而言,MeanFlow 的表现远超同类:它实现了 3.43 的 FID,与 IMM 的单步结果 7.77 相比,相对提升了 50% 以上。

如果仅比较 1-NFE(而不仅仅是单步)生成,MeanFlow 与之前的最佳方法(10.60)相比,相对提升了近 70%。不难看出,本文方法在很大程度上缩小了单步和多步扩散 / 流模型之间的差距。

图片

在 2-NFE 生成中,MeanFlow 实现了 2.20 的 FID(表 2 左下)。这一结果与多步扩散 / 流模型的领先基线模型相当,即 DiT (FID 2.27)和 SiT (FID 2.15),两者的 NFE 均为 250×2(表 2 右)。

这一结果表明,few-step 扩散 / 流模型可以媲美其多步模型。值得注意的是,本文方法是独立的,完全从头开始训练。它无需使用任何预训练、蒸馏或课程学习,就取得了出色的结果。

表 3 报告了在 CIFAR-10(32×32)上的无条件生成结果,本文方法与先前的方法相比具有竞争力。

图片

表 1 为消融实验结果:

图片

最后,展示一些 1-NFE 的生成结果。

图片

#Learning to Keep a Promise

策略学习助力LLM推理效率:MIT与谷歌团队提出异步并行生成新范式

金天,麻省理工学院(MIT)计算机科学与人工智能实验室(CSAIL)博士五年级学生,师从 Michael Carbin 和 Jonathan Ragan-Kelley。他主要研究机器学习与编程系统的结合。此前曾在 IBM Research 主导实现深度神经网络在 IBM 主机上的推理部署。本科毕业于 Haverford College,获计算机科学与数学双学位。

鄭鈺熹,麻省理工学院 CSAIL 博士三年级学生,师从 Michael Carbin。她的研究方向为编程语言与机器学习的交叉领域。

大语言模型(LLM)的生成范式正在从传统的「单人书写」向「分身协作」转变。传统自回归解码按顺序生成内容,而新兴的异步生成范式通过识别语义独立的内容块,实现并行生成。

图片

如图所示,传统方法(下)按顺序生成所有内容,而异步生成(上)同时处理多个互不依赖的内容块。对比顺序生成,异步生成在 AlpacaEval 长度控制评测中实现 1.21-1.93× 的几何平均提速,对应生成质量变化(胜率)为 +2.2% 至 -7.1%。

MIT 与谷歌研究团队在最新研究 PASTA(PArallel STructure Annotation)中首次从策略学习(policy learning)角度探索异步生成范式的可能。

论文标题:Learning to Keep a Promise: Scaling Language Model Decoding Parallelism with Learned Asynchronous Decoding

论文地址:https://arxiv.org/abs/2502.11517

研究团队不依赖人工设计规则来识别异步生成机会,而通过策略学习让模型自主发现并标注这些机会,系统地优化质量与速度的平衡。这种方法使 LLM 根据内容特点自适应地确定最佳异步生成策略,为生成效率优化开创学习驱动的全新路径。

PASTA-LANG:划分独立内容的标记语言

研究人员首先开发了一种新的标记语言 PASTA-LANG,专为异步生成而设计。大模型使用它在生成过程中标记语义独立块,指示并行生成机会。这种语言包含三种核心标记:

  • <promise topic="..."/>:标记语义独立的内容块,通过 topic 属性总结内容主题,大模型用它表明「这部分将会由一个独立子线程异步生成」。
  • <async>...</async>:在 <promise> 后标识对应的异步生成的内容,表示这一部分由独立子线程负责生成。
  • <sync/>:在主线程标记同步点,表明后续内容生成将会依赖于之前的异步生成,主线程需等待所有异步线程完成后才能继续。

这些标记共同构成了一种「承诺-履行」的生成模式:大模型首先通过 <promise/> 标记「承诺」生成某些内容,推理系统再创建异步线程来「履行」这些承诺,最后在 <sync/> 处将异步内容组合。

图片

如图所示的线段长度计算案例展示了这一机制:面对计算任务(A),大模型首先识别出「坐标提取」和「长度公式」两个可并行的独立部分,生成相应的 <promise/> 标记(B),随后用 <sync/> 标记(E)表明需要等待这些内容完成。图中红色和绿色区域(C、D)显示了两个异步线程并行生成的内容,最终在(F)处组合成完整解答。

这个新的标记语言简单,可扩展性强,开启了新的未来研究范式。

PASTA 训练:从标注到优化的双阶段学习

图片

如图所示,PASTA 系统采用双阶段训练流程,使大模型自主学习使用上述标记语言,完成异步生成。

第一阶段:监督微调。研究团队首先选取 SlimOrca 指令跟随数据集,用 Gemini 1.5 Flash 为 100K 条样本添加 PASTA-LANG 标记,在样本回答中插入 <promise/>、<async> 和 <sync/> 标记,创建 PASTA 微调数据集。团队随后对 Gemma 7B 进行监督微调,得到能插入 PASTA-LANG 标记的 PASTA-SFT 模型。

第二阶段:偏好优化。为优化标注策略,团队设计了策略学习方案。团队对每个样本从 PASTA-SFT 模型采样多种标注方案,然后基于两项指标评估这些方案:理论加速比和内容质量(由 Gemini 1.5 Pro 评估)。根据评估结果,团队构建「拒绝采样数据集」,该数据集包含每个输入的最佳和最差标注方案。最后,团队用 BoNBoN 算法对 PASTA-SFT 模型进行偏好优化,得到最终的 PASTA 模型。

PASTA 推理系统:并行生成与缓存管理

推理系统设计难点。异步并行生成的主要挑战在于如何协调多个线程高效协作。传统方法通常需要为每个线程创建独立的 KV 缓存池——创建新线程时必须复制主线程的前缀内容到子线程缓存池,完成后再复制结果回主线程。这两次大规模矩阵复制操作严重限制了系统性能,使理论加速难以转化为实际收益。

KV 缓存的存储布局。PASTA 设计了交错式 KV 缓存布局,所有线程共享单一连续内存池。系统初始以连续方式存储用户输入,在推理过程中动态将不同线程在同一时间点生成的 token 交错存储在相邻位置。

注意力控制与位置编码。PASTA 通过两个机制确保大模型正确理解多线程交错存储的 KV 缓存:

  • 注意力掩码控制:限制子线程只能访问与自己相关的内容,在<sync/>后通过移除掩码使主线程能访问所有子线程生成的内容。
  • 位置编码调整:每个线程都使用独立且连续的位置编码,使线程处理自己的内容时,将交错存储的内容视为逻辑上连续的序列,确保模型能正确理解上下文。

这些设计共同确保 PASTA 能在提高速度的同时保持输出质量。

实验结果:Pareto 最优与可扩展性

PASTA 在性能与质量的平衡上取得了突破性成果,实验结果表明它不仅实现了显著加速,还在某些情况下提高了输出质量。研究团队在 AlpacaEval 基准上进行了全面评估,该基准包含 805 个具有代表性的指令跟随任务。

图片

图片

质量-速度平衡的 Pareto 前沿。如图所示,PASTA 通过调节质量权重参数生成了一系列的模型。在不同的生成质量的情况下,PASTA 均能提供非常可观的加速。结果显示,即使最注重质量的 PASTA 模型也能提供显著加速,而最快的模型则以一定的质量牺牲换取接近 2 倍的速度提升。与基于手动设计的异步生成方案(Skeleton-of-Thought, APAR)相比,PASTA 模型展现出全面优势。

可扩展性。研究结果展示了 PASTA 方法出色的可扩展性,如图所示。随着偏好优化不断推进,PASTA 模型的性能持续提升。图中清晰展示了从第一轮开始到第一轮结束,再到第二轮开始和第二轮后半程的整个优化过程,质量-速度的 Pareto 前沿大体持续向右上方推进。

这种稳定的改进趋势表明,PASTA 方法具有良好的可扩展性——随着投入更多计算资源,仍未饱和。与传统依赖固定规则的异步解码方法不同,PASTA 通过策略学习驱动的训练算法提供了可持续的优化路径,能够有效地将额外计算资源转化为更高的推理效率。

总结与展望

PASTA 首次证明,通过策略学习让 LLM 自主优化生成策略,能够突破传统自回归和基于规则的异步生成的效率极限。这一工作不仅为实时大模型应用提供了实用加速方案,更印证了未来 LLM 可能具备推理时自我优化能力的发展方向。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值