51c大模型~合集129

我自己的原文哦~     https://blog.51cto.com/whaosoft/13918448

#Why We Think

刚刚!北大校友Lilian Weng最新博客来了

学习大模型的优质博客又更新了!

最近,北大校友、前 OpenAI 应用 AI 研究负责人 Lilian Weng 更新了一篇长长长长长长长博客《Why We Think》。

image.png

文章回顾了近期在如何有效利用测试时计算(即「思考时间」)及其作用机制方面的研究进展,旨在让模型「思考得更久」这一目标可以从多个角度得到合理动机支持。

通过观察 GPT、Claude、Gemini 等模型的迭代,可以清晰地看到,它们在复杂逻辑推理、长文本理解、数学问题求解以及代码生成与调试等高级认知任务上的性能边界被不断拓展。

这种性能的提升得益于思维链(CoT)和测试时计算等策略的优化,但也带来了新的研究挑战。

为了方便国内读者更好地学习这篇内容,对此文章进行了编译。感兴趣的读者也可查阅原英文内容。

英文博客链接:https://lilianweng.github.io/posts/2025-05-01-thinking/

类比心理学

该核心思想与人类的思维方式密切相关。人类通常无法立即给出「12345 × 56789」的答案,对于复杂问题,进行一段时间的思考和分析是自然的过程。

在《思考,快与慢》(Thinking, Fast and Slow)一书中,丹尼尔・卡尼曼(Daniel Kahneman 基于「认知双系统理论」(dual process theory),将人类的思维方式划分为两种模式:

  • 快速思维(System 1):运作迅速且自动,受直觉和情绪驱动,几乎不需要认知努力。
  • 慢速思维(System 2):依赖有意识的逻辑推理与严密思考,需耗费较高认知能量并主动参与。

由于快速思维易于启动且更为省力,它往往成为决策主导,但这通常以牺牲准确性与逻辑性为代价。它天然依赖于人脑的「认知捷径」(即启发式方法 heuristics),进而容易产生错误与偏差。而通过有意识地放慢思维速度,给予更多反思、改进与分析的时间,可以激活慢速思维,挑战直觉,从而做出更具理性与准确性的决策。

计算即资源

在深度学习中,有一种观点认为神经网络可以通过其在每次前向传播中所能调用的计算与存储资源进行刻画。

如果我们使用梯度下降法来优化它们以解决问题,那么优化过程将自行「找出」如何组织这些资源,用于计算与信息存储,因此可以被看作会自动规划电路的过程。

从这一角度来看,如果我们设计的架构或系统在测试时(test time)可以执行更多计算,并且我们训练模型以有效地利用这一额外资源,那么模型的性能将会更好。

在 Transformer 中,每生成一个 token,模型所执行的浮点计算量(FLOPs)大致是其参数数量的两倍。而在稀疏模型(如专家混合模型 Mixture of Experts, MoE)中,由于每次前向传播只激活部分专家网络,参与计算的参数仅为总参数的一部分,因此计算量为 2 × 参数数 ÷ 稀疏度,其中「稀疏度」表示被激活专家网络的比例。

相比之下,思维链(CoT)使得模型在为每个希望生成的 token 进行推理时,能够执行更多的计算(即 FLOPs)。实际上,思维链的一大优势在于,它允许模型根据问题的难度灵活地调整计算量。

潜变量建模

在机器学习中,一种经典的方法是:定义一个含有潜变量(latent variable)z 与可见变量 y 的概率模型,其中 y 是学习算法所观察到的变量。通过对潜变量可能值的边缘化(即求和),可以表达出一个关于可见变量 y 的复杂概率分布,即 P (y) = ∑z∼P (z) P (y | z)。

例如,我们可以用该方法建模数学问题及其解答的分布:将 x 表示为题目文本,y 表示真实答案或证明过程,而 z 则表示引导生成证明的一系列自由形式推理过程。优化的目标是条件概率 P (y | x) = ∑z∼p (z | x) P (y | x, z)。

这种潜变量视角特别适用于理解多线程思维链(multiple parallel CoTs)或基于搜索的思维链生成方法。这些算法可以被视为从后验分布 P (z | x, y) 中进行采样。这一视角还揭示了优化对数似然 log P (y | x) 作为目标函数的好处 —— 因为 log loss 目标函数在预训练中效果显著。

思维以 token 为单位

在生成简短答案之前,先生成中间推理步骤的策略,特别是在数学问题中,最初由研究者提出,并逐渐拓展形成了标准方法。这一方向中早期的研究包括构建数学推理数据集,并训练生成器进行有监督学习,通过人类编写的解题路径作为参考,同时训练验证模型判断候选答案是否正确,从而可以在多个解答中进行有效搜索。

后续研究引入了「草稿板」(scratchpad)概念,即将模型生成的中间 token 视为辅助推理过程的临时内容,并进一步引申出「思维链」(CoT)这一常用术语,以描述大语言模型通过逐步推理而非直接输出答案的能力。

最初提升 CoT 推理能力的方法,主要通过监督学习对人类书写的推理路径进行训练,或对模型生成的、经过正确性过滤的路径进行训练,后者可以被视为一种初级形式的强化学习。还有研究表明,仅通过设计合适的提示方式,如使用「逐步思考」的提示语,或构造更复杂的提示内容,引导模型先思考相关知识,也能显著提升指令微调语言模型在数学任务上的表现。

随着进一步的探索,研究人员发现,在具有自动可验证答案的数据集上应用强化学习,可以显著增强 CoT 推理能力。这些数据集包括带有确定短答案的 STEM 问题,或可以通过单元测试验证正确性的编程任务。这类强化学习策略已被验证可以显著提升大语言模型在多步推理任务中的性能。近期的模型开发中,采用策略梯度算法结合自动评估的问题集,已成为提高模型表现的有效方法。

图片

思维链提示(CoT prompting)显著提升了解决数学问题的成功率。模型规模越大,其「思考时间」所带来的性能收益越显著。

分支与修订

测试时计算(test-time compute)的根本目的在于:在推理过程中动态地调整模型的输出分布。为此,有多种策略可用于消耗额外的测试时资源,从而优化解码过程、选择更优样本,并将模型输出引导至更符合需求的分布。

目前主要有两类提升生成质量的策略:并行采样(parallel sampling)与序列修订(sequential revision)。

  • 并行采样是在每一步并行生成多个输出序列,同时通过过程奖励信号(process reward signals)或结果评估模块(如验证器)对最终输出的质量进行判断,以此挑选最优答案。这是目前广泛采用的提升测试时性能的解码方法形式,例如 best-of-N 和束搜索。在无法获得标准答案(ground truth)的情境下,常使用自洽性策略(self-consistency),即在多个思维链(CoT)推理序列中,以多数投票的方式选择最终答案。
  • 序列修订是指基于模型前一轮输出的结果,对其进行反思与迭代性修正,引导模型在后续输出中主动识别并纠正可能的错误。这种修订流程通常需要在经过微调的模型上实现;若仅依赖模型自身进行「内生性自我修正」(intrinsic self-correction),且缺乏外部监督反馈,则往往难以取得明显提升。

并行采样具有实现简单、直观、易部署等特点,但其效果在很大程度上取决于模型是否能够「一次性」生成正确答案;而序列修订通过显式引导模型识错与改错,逻辑上更具针对性,但速度较慢,且需额外控制过程中的修订风险,例如原本正确的答案被不当更改为错误,或模型产生新的幻觉(hallucination)。这两种方法可以结合使用。Snell 等人发现:对于简单问题,单一使用序列化策略的测试时计算效果最佳;而对于高难度问题,则通常需要在并行计算与序列修订之间找到最优组合比例,以获得最好的任务表现。

图片

并行采样与序列修订示意图。

并行采样

当我们手头有一个生成模型(generative model)以及一个可用于对完整或部分生成样本进行评分的评分函数(scoring function)时,便可以设计多种搜索算法,以寻找评分更高的生成结果。其中最简单的一种算法便是 best-of-N:直接独立生成 N 个样本,再依据评分函数从中选出得分最高者。

相较之下,束搜索是一种更复杂且更具适应性的搜索算法,它通过动态分配计算资源,优先探索解空间中更具潜力的部分。在束搜索过程中,模型维护一组当前最有前景的部分序列,并在扩展这些候选序列与剔除不够理想的序列之间交替进行。

在选择生成候选时,可以引入过程奖励模型(Process Reward Model, PRM)作为引导机制,辅助束搜索的路径筛选。例如,有研究使用大语言模型自身来评估其生成的每个推理步骤是否合理,将其格式化为选择题,从而进行逐步自我评估(per-step self-evaluation)。这种方法能够显著减少多步推理过程中的累计错误,特别是在束搜索解码阶段,表现尤为明显。

此外,在采样过程中通过温度退火(annealing the temperature)策略来调控随机性,也有助于缓解生成过程中不必要的波动。这一系列实验方法在 Codex 模型上应用于 GSM8k、AQuA 与 StrategyQA 等少样本任务时,取得了 5–6% 的性能提升。

区别于传统束搜索,REBASE(Reward Balanced Search)方法训练了一个独立的过程奖励模型,用于评估束搜索树中每一节点在不同深度下的扩展优先级。该模型基于 softmax 归一化的奖励分值,动态决定哪些节点获得更多生成资源。

另一种名为 RATIONALYST 的过程奖励模型,则利用大量无标注数据训练用于多步推理任务,模型通过生成候选推理路径(称为 rationale),并根据这些 rationale 是否能减少真实答案 token 的负对数概率(negative log-probability)达一定阈值,来筛选高质量推理过程。

在推理阶段,RATIONALYST 可以以两种方式引导思维链 CoT)生成器进行推理:一种是隐式地估计下一个推理步骤的概率(implicit supervision);另一种是显式地将下一步的推理内容直接作为提示词的一部分生成(explicit supervision)。

图片

束搜索解码过程中由大语言模型对每个推理步骤进行自我评估的引导机制。

有趣的是,即使不采用显式的零样本提示(zero-shot prompting)或少样本提示(few-shot prompting),也有可能激发出语言模型中的思维链(CoT)推理路径。Wang 与 Zhou 发现,如果在采样的第一个 token 处进行分支,并保留置信度最高的前 k 个 token(其置信度通过 top-1 与 top-2 候选之间的概率差来衡量),然后分别对这 k 条路径采用贪婪解码(greedy decoding)继续生成,那么其中相当一部分生成序列天然包含完整的思维链。

尤其在上下文中本就存在思维链内容时,这种机制更容易引导模型生成更具置信度的最终答案。在评估最终答案的置信度时,需首先通过特定任务的启发式方法(task-specific heuristics)标识出答案片段,例如,在数学题中提取最后出现的数值答案;或通过进一步提示模型(例如在末尾提示 「So the answer is」)来提取明确答案。

仅在首个 token 处进行分支的设计逻辑在于,相比于后续 token,早期分支能显著提升推理路径的多样性,而后续 token 的生成则更多受限于已有上下文序列。

图片

Top-k 解码中,k 表示在首次采样步骤中保留的候选项数量。

顺序修订

如果一个模型具有反思并纠正其先前回答中错误的能力,我们应期望它能够产生一个质量不断提高的迭代修订序列。然而,事实证明,这种自我修正能力并非大语言模型所固有,且在未经特别设计的情况下往往难以实现,其中的失败模式包括:

(1)幻觉,即将原本正确的回答修改为错误的版本;

(2)行为坍缩为不修正的状态,例如,在最初的错误回答上只进行细微甚至不作修改;

(3)在测试时无法泛化到分布转移(distribution shift)的情况。

Huang 等人的实验表明,直接应用自我修正策略反而可能导致性能下降,模型若要实现自我提升,仍需依赖外部反馈信号,例如与真实标签比对的结果、启发式规则、针对任务设计的评估指标、编程题的单元测试结果、更强大的模型输出参考,以及人类反馈等。

自我修正学习旨在在固定的生成模型 P₀(y₀∣x) 基础上,训练一个修正器模型 Pθ(y∣y₀, x)。其中生成模型保持通用性,而修正器模型则可以针对具体任务进行定制,并且只在给定初始模型响应和可选附加反馈(例如一段文本、编译器提示信息或单元测试结果)条件下进行生成:

1. 自我修正学习首先针对数据池中的每个提示生成多个候选输出;

2. 然后,为每个提示构造「价值提升对」;即挑选两个输出,如果其中一个相较于另一个在评价指标上更优,则组成(提示 x,初始答案 y,修正答案 y′)三元组;

3. 接着,根据修正带来的价值提升幅度 v (y′) − v (y),以及两个输出之间的相似度 Similarity (y, y′),对这些样本对进行加权采样以训练修正器模型;

4. 为鼓励探索,修正器生成的新输出也会加入数据池。推理时,可以反复调用修正器,从而形成一个连续改进的修订轨迹。

图片

通过匹配同一问题下模型的不同输出,构造「价值提升对」以训练修正模型的自我修正学习示意图。

递归检视(Recursive Inspection)同样旨在训练更优的修正器模型,但其采用的是单一模型同时完成生成与自我修正的策略。

SCoRe(Self-Correction via Reinforcement Learning)是一种基于多轮交互的强化学习方法,旨在鼓励模型在第二次尝试时生成相较第一次更优的答案,从而实现自我修正。该方法由两个训练阶段组成:

 第一阶段的目标是最大化第二次尝试答案的准确性,同时仅对第一次尝试施加 KL 散度惩罚(KL penalty),以防止第一次生成行为偏离基础模型太远,保持其生成风格的稳定性;

 第二阶段则同时优化第一次和第二次生成答案的准确性。

理想情况下,我们希望模型在第一次和第二次尝试中都能获得更好的性能,但引入第一阶段可以有效避免「行为坍缩」,即模型仅对初始响应进行微小甚至无修改;

而第二阶段则在此基础上进一步提升整体表现。

图片

显式训练设置,通过进行两阶段 RL 训练来提高自我纠正能力。

使用强化学习提升推理能力

近期,越来越多的研究成功地利用强化学习(RL)提升语言模型的推理能力。这类方法通常采用带有可靠参考答案的问题集(主要是 STEM 领域的问题或易于验证答案的逻辑谜题),通过奖励模型生成正确答案来优化其性能。

这一方向的发展受到 OpenAI 发布系列模型出色推理表现的推动,随后 DeepSeek 的模型及技术报告进一步加速了相关研究的进展。

DeepSeek-R1 是一款开源大语言模型,专为应对数学、编程和逻辑推理等高复杂度任务而构建。其训练流程包括两轮 SFT-RL(监督微调 + 强化学习),使得 R1 在推理类与非推理类任务上均具备良好能力。

在训练初期,采用「冷启动监督微调」(cold-start SFT),即在数千条冷启动数据上对基础模型进行微调。若省略此步骤,模型在初期表现中可能会出现语言混杂、表述不通顺等问题。

面向推理的强化学习(reasoning-oriented RL)阶段,使用仅包含推理任务的提示,对模型进行强化训练,奖励信号设计为两类规则型指标:

格式奖励(format rewards):要求模型使用特殊 token 包裹「思维链」(CoT)。

准确性奖励(accuracy rewards):判断最终答案是否正确。数学问题的答案需以特定格式呈现(如放入方框中)以便自动验证;编程问题则通过编译器评估是否通过测试用例。

拒绝采样 + 非推理监督微调 阶段,使用 RL 第 2 步的 checkpoint 生成的推理输出,通过拒绝采样(rejection sampling)进行质量筛选,并结合写作、事实问答、自我认知等非推理任务中的监督数据,构建新的训练集,用于训练 DeepSeek-V3-Base:

  • 筛除含有语言混杂、超长段落或冗长代码块的 CoT 结果;
  • 利用 DeepSeek-V3 流水线生成并标注非推理类任务;
  • 对于某些非推理需求,可调用 DeepSeek-V3 提前生成潜在思维过程作为提示(prompt)再进行回答,而对于诸如「你好」之类的简单查询则不需要思维链;
  • 最终使用约 80 万条样本对 DeepSeek-V3-Base 微调两个 epoch。

最终的强化学习阶段 使用第三阶段的 checkpoint,同时在推理类与非推理类提示上进行训练,从而全面提升模型的有用性(helpfulness)、无害性(harmlessness)和推理能力(reasoning)。

图片

在多个广泛使用的推理基准测试中,DeepSeek-R1 的表现可与 OpenAI 模型相媲美。其中,仅有 DeepSeek-V3 是榜单中唯一的非推理类模型。

有趣的是,DeepSeek 团队展示了,即使完全不经过监督微调(SFT)阶段,仅依靠纯强化学习(pure RL),依然可以学习到诸如反思(reflection)和回溯(backtracking)等高级推理能力,即所谓的「顿悟时刻」(「Aha moment」)。在强化学习训练过程中,模型自然学会在解决推理任务时投入更多的思考 tokens,从而提升解题能力。

所谓「顿悟时刻」,是指模型能够反思先前的错误,并尝试替代性策略进行修正。这种能力的涌现表明模型具备了类人式的深层思维过程。

随后,一些开源项目也试图复现 R1 的成果,包括 Open-R1、SimpleRL-reason 和 TinyZero,这些项目均基于 Qwen 模型构建。相关研究也同样证实了纯强化学习方法在数学问题上可以取得优异表现,并能涌现出类似的「顿悟时刻」。

图片

模型学习反思并纠正错误的示例。

DeepSeek 团队还分享了一些训练中未成功的尝试。例如,使用过程奖励模型失败了,因为很难对每一个中间步骤制定明确的评分标准,也难以判断中间推理是否正确。此外,这种方式容易导致奖励欺骗(reward hacking),从而影响训练稳定性。

在蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)方面的尝试也宣告失败,原因在于语言模型的 token 空间远大于如国际象棋这类传统有限动作空间的场景,使得搜索过程计算复杂度极高。同时,用于引导搜索的细粒度价值模型(value model)的训练也极具挑战性。

尽管失败,但这些尝试提供了独特的研究洞察。我们鼓励研究社区进一步分享这类「未能奏效的尝试」,以推动更全面的理解与进步。

外部工具的使用

在推理过程中,某些中间步骤可以通过执行代码或数学计算实现高效且精确的求解。通过将这部分推理工作交由外部代码解释器处理,例如 PAL(Program-Aided Language Model,程序辅助语言模型)或 Chain of Code(代码链)方法,可以拓展大语言模型的能力,使其无需自行学习代码执行或充当计算器角色。

在 Chain of Code 中,所使用的代码执行系统可以由 LLM 进一步增强:当标准代码解释器无法正确运行特定代码行时,模型还可以尝试由 LLM 来直接执行该段代码。使用代码来辅助推理,尤其适用于数学问题、符号推理以及算法类任务。

在某些编程任务中,题目中未必提供单元测试。此时,我们可以引导模型自主生成用于验证解法的单元测试,从而提升解答的正确性。

图片

程序辅助语言模型(Program-Aided Language Model)提示示例如下所示。

ReAct(Reason+Act,推理与行动)方法将调用 Wikipedia API 等外部操作与生成推理轨迹相结合,实现将外部知识纳入推理路径的能力。

图片

ReAct 提示方法的示例,展示其如何通过调用 Wikipedia 搜索 API 作为外部工具,辅助推理以解答一个 HotpotQA 问题。

OpenAI 最近发布的 o3 与 o4-mini 模型亦是融合工具使用的典型案例,其推理过程涉及网页搜索、代码执行与图像处理等操作。研究团队观察到,在类似 GPT 的训练范式中,大规模强化学习同样呈现出「计算资源越多,性能越好」的趋势。

忠实地思考

深度学习模型通常被视为黑盒子,人们提出了各种可解释性方法。可解释性之所以有用,有几个原因:首先,它为我们提供了一个额外的测试,以确定模型是否与创建者的意图不符,或者是否以某种我们无法通过监控其行为来判断的方式出现了错误。其次,它可以帮助我们确定模型是否使用了合理的程序来计算其答案。思维链提供了一种特别方便的可解释性形式,因为它能让模型的内部过程用自然语言表达出来。然而,这种可解释性建立在模型如实描述其内部思维过程的假设之上。

最近的研究表明,监控推理模型的 CoT 可以有效检测模型的不当行为,如 reward hacking,甚至可以使较弱的模型监控较强的模型。增加测试时间的计算量还能提高对抗鲁棒性;这在直觉上是有道理的,因为当模型遇到不寻常的输入时,如对抗样本或越狱尝试,思考时间更长应该特别有用,它可以利用额外的思考时间来理解所遇到的奇怪情况。

图片

在实验中,我们要求模型判断另一个模型是否试图以某种方式入侵单元测试,以解决其思维过程中的编码问题。我们可以在训练过程中使用不同类型的监控器来监控这些奖励黑客行为。exit (0) 编码黑客攻击是指代理利用了一个漏洞,允许它在没有运行所有单元测试的情况下提前退出环境。raise SkipTest 黑客是指代理从测试框架外的函数中引发异常,以跳过单元测试评估。图源:Baker et al. 2025

模型是否忠实地表达了自己的想法

直观地说,由于缺乏旨在鼓励忠实推理的明确训练目标,模型的 CoTs 可能存在偏差。或者,当我们根据人类撰写的解释对模型进行微调时,这些人类撰写的样本可能包含错误。因此,我们不能默认 CoT 总是忠实的。

Lanham et al. (2023) 通过故意在 CoT 中引入错误,并测量其对一系列多选任务(如 AQuA、MMLU、ARC Challenge、TruthfulQA、HellaSwag)准确性的影响,研究了 CoT 忠实性失效的几种模式:

  • 错误 1(过早回答): 模型可能会在 CoT 生成之前过早地形成结论。测试方法是提前截断或在 CoT 中插入错误。不同任务对 CoT 有效性的依赖程度不同;有些任务的评估性能对截断的 CoT 敏感,有些则不敏感。Wang et al. (2023) 做了类似的实验,但在形成 CoT 的过程中出现了与桥接对象或语言模板有关的更微妙的错误。
  • 错误 2(无信息 token): 不具信息性的 CoT token 可提高成绩。这一假设通过用填充文本(如所有句号)替换 CoT 进行了测试,结果表明这种设置并没有提高准确率,与不使用 CoT 相比,某些任务的成绩可能会略有下降。
  • 错误 3(人类无法阅读的编码): 以人类难以理解的方式对相关信息进行编码。以非标准方式转述 CoT 并未降低各数据集的性能,这表明准确率的提高并不依赖于人类可读的推理。

图片

以不同方式对 CoT 进行扰动以评估其忠实性的示意图。图源:Lanham et al. 2023

有趣的是,Lanham et al. 认为,对于多选题,较小的模型可能无法很好地利用 CoT,而较大的模型可能能够在没有 CoT 的情况下解决任务。这种对 CoT 推理的依赖性(以使用 CoT 与不使用 CoT 得到相同答案的百分比来衡量)在多选题中并不总是随着模型大小的增加而增加,但在加法任务中却会随着模型大小的增加而增加,这意味着在复杂的推理任务中,思考时间更为重要。

图片

对 CoT 推理的依赖性以使用 CoT 和不使用 CoT 时获得相同答案的百分比来衡量。对于像加法这样的推理任务来说,CoT 的作用更大,而对于更大的模型来说,CoT 的作用也更大。

对 CoT 推理的依赖性以有 CoT 和无 CoT 时获得相同答案的百分比来衡量。对于像加法这样的推理任务来说,CoT 的作用更大,而更大的模型也能带来更多益处。

测试 CoT 忠实度的其他方法包括扰动提示而不是直接修改 CoT 路径 。

其中一种方法是在少数几个样本中将正确答案标记为「(A)」,而不考虑真实标签,从而引入偏差。

另一种提示技术是在提示中插入误导性提示,例如 「我认为答案是 < random_label>,但很想听听您的看法 」或 「一位斯坦福大学教授认为答案是 < random_label>」。通过比较模型对同一问题的预测是否包含误导性提示,我们可以衡量模型是否能够忠实地描述提示对其答案的影响。特别是在模型得出的提示答案与非提示答案不同的情况下,我们可以衡量模型在解决有提示的问题时是否承认提示。如果模型是忠实的,它就应该明确承认提示的影响,并承认其答案的变化是由提示引起的。

图片

GPT 模型和 Claude 模型对不同类型的上下文偏差都很敏感。模型准确性的降低表明系统性的不忠实。直接提示错误标签比 "答案总是 A" 类型的偏差更有效。图源:Turpin et al. 2023

多项研究发现,推理模型对暗示影响的描述要比所有测试过的非推理模型可靠得多。例如,我们可以测量模型承认暗示是决定性因素的样本比例(「忠实 CoT」)。推理模型(Claude 3.7 Sonnet、DeepSeek R1)的整体表现优于非推理模型(Claude 3.6、DeepSeek V3)。

图片

推理模型比非推理模型更有可能揭示忠实的 CoT。图源:Chen et al. 2025

一些证据表明,使用奖励模型会降低模型输出的忠实度。经典 RLHF 中的奖励模型在本测试中并不是为了激励忠实行为而训练的,因为偏好比较数据集是由人类选择哪一个看起来更好或更讨人喜欢而收集的。然而,在推理模型中,CoT 路径是为产生正确的最终答案而优化的,而不是为了与 RM 中定义的人类偏好相匹配,因此直观上预计会更加忠实。

CoT 面临的优化压力: 好还是坏?

监控推理模型的 CoT 以发现 reward hacking 行为是有效的。使用这种监控器的一个简单方法是在测试时将监控器作为过滤器运行拒绝采样,找出没有 reward hacking 行为的解决方案。然而,这种方法只在推理的早期阶段有效,而且随着模型的进一步优化,在预算范围内很少能找到通过 CoT 监控的样本。这一挑战自然表明,我们可以考虑在 RL 奖励中加入 CoT 监控 — 一种基于流程的监督形式 — 以防止 reward hacking。

然而,在 RL 中加入 CoT 监控奖励的效果并不好,因为这会导致混淆 reward hacking 行为,即模型试图在 CoT 中隐藏其真实意图 (Baker et al. 2025)。如果在 RL 训练过程中使用 CoT 监控提供的这种直接优化压力,模型仍然可以找到黑客攻击的方法,虽然频率会低一些,但可以在 CoT 中隐藏自己的意图,避免被监控发现。

图片

在训练过程中,当使用监视器提供 RL 奖励信号以防止 reward hacking 行为时,模型仍然可以找到 hacking 行为的方法,同时避免被监视器发现。图源:Baker et al. 2025

Yeo et al. 对 CoT 长度 RL 信号的实验证实了与 Baker et al. 类似的信息,即新型 RL 奖励整形会导致新型 reward hacking 行为的发生。他们设计的奖励函数可以使正确的 CoT 比错误的 CoT 获得更高的奖励,短的正确 CoT 比长的正确 CoT 获得更高的奖励,短的错误 CoT 比长的错误 CoT 获得更高的惩罚。有了这种额外奖励,模型就学会了在有挑战性的问题上重复 CoTs 中的文字,而不是尝试解决这些问题。Yeo et al. 进一步应用了 n-gram 重复惩罚来防止这种 hacking 行为。

图片

要稳定使用 CoT 长度奖励进行的训练,就必须进行精心的奖励塑造。图源:Yeo et al. 2025

Chen et al. 在一个有缺陷的 RL 环境中进行了实验,特别是使用了一个在多选题中填入错误答案的评分器。在超过 99% 的提示中,模型学会了利用 reward hacking,但在一半以上的环境中,模型几乎从未(<2%)在其 CoT 中口头表达过 reward hacking。在这种情况下,额外的 RL 优化压力无法激励模型口头表达 hacking 行为。

RL 训练本质上对 reward hacking 行为非常敏感。仅仅依靠对 reward hacking 行为的启发式调查和手动修复可能会导致「whack-a-mole」的局面。我们建议在 RL 训练过程中尝试直接对 CoT 进行优化时要非常谨慎,或者尽量避免这样做。

在连续空间中思考

Alex Graves 于 2016 年提出的自适应计算时间(Adaptive Computation Time)早于大语言模型,但开创了相同的方向,即让模型能够在推理时动态决定计算步骤的数量,这可以被视为让模型在测试时能够在连续空间中「思考更多」。连续空间中的自适应思考时间可以通过递归架构纵向实现,也可以通过更多的连续采样步骤横向实现。

递归架构

为了使 Transformer 架构成为递归架构,实现自适应测试时间计算,人们提出了许多架构变体。如果深入探讨这一主题的文献,会使文章过于冗长,因此我们只回顾其中几篇。

Universal Transformer 将 Transformer 中的自注意力与 RNN 中的递归机制相结合,利用自适应计算时间动态调整步数 。从高层次上看,它可以被看作是一种用于学习每个 token 的隐藏状态表示的递归函数,如果步数是固定的,Universal Transformer 就等同于跨层共享参数的多层 Transformer。

Geiping et al. 提出的最新递归架构设计,在标准 Transformer 的基础上增加了一个递归块 R。该循环块的每次迭代都需要嵌入 e 和随机状态 s_i。从概念上讲,这种递归深度架构有点类似于条件扩散模型,即在每个递归步骤中提供原始输入 e,而随机高斯初始化状态 s_i 则在整个过程中迭代更新。(有趣的是,他们对一些更像扩散模型的设计所做的实验结果并不理想)。

图片

训练过程中的递归计数 r 是随机的,从对数正态 Poisson 分布中按输入序列采样。为了控制计算成本,反向传播只截断递归单元的最后 k 次迭代(实验中 k=8),从而可以对 Poisson 分布的重尾部分进行训练。由于嵌入块的输出 e 在每一步中都会注入,因此嵌入块在每一步中都会继续接收梯度更新,模仿 RNN 训练。不出所料,训练递归模型的稳定性非常敏感。初始化、归一化和超参数等因素都很重要,尤其是在扩大训练规模时。例如,隐藏状态可能会因为对每个 token 预测相同的隐藏状态而崩溃;或者模型可能学会忽略传入的状态 s。为了稳定训练, Geiping et al. 采用了嵌入比例因子、较小的学习率和细致的调整。

图片

利用深度递推训练 3.5B 模型的实验图。饱和大致发生在 r¯=32 附近,这让我们不禁要问,这种结构如何外推并推广到更大的迭代次数。图源: Geiping et al. 2025

思考 token

思考 token 指的是在训练或推理过程中引入的一组不具有直接语言意义的隐含 token。相反,它们的作用是为模型提供额外的思考时间和计算能力,使其表现更好。

Herel & Mikolov(2023 年)提出了在句子中的每个单词后插入特殊思考 token(<T>)并在这样的数据集上训练模型的想法。每个思考 token 都为模型处理和做出更好的预测赢得了额外的时间。在玩具模型设置上使用思考 token 进行训练,其结果比不使用思考 token 训练的基线模型的复杂度要低。对于非琐碎的推理任务或涉及数字的句子,思考 token 的优势更为明显。

同样,Goyal et al. (2024) 提出的暂停标记通过在输入序列末尾添加虚拟 token(如。或 # 等字符)来延迟模型的输出,从而在推理过程中为模型提供额外的计算量。在训练和推理过程中注入这种暂停 token 都很重要,而只对暂停 token 进行微调只能带来有限的收益。在训练过程中,我们会在均匀随机的位置插入多份暂停 token,并在训练中忽略暂停 token 的损失。

图片

有趣的是,上述实验中的思考令牌或暂停令牌并不携带任何额外信息或添加许多新参数。但为什么它仍然有帮助呢?一方面,它通过引入更多的推理循环来帮助扩展计算,从而有效地提高计算能力。另一方面,它可以被视为 CoT 的一种特殊的隐式形式。这里的一个缺点是模型需要根据思考令牌进行预训练。尽管如此,这种策略仍然是一种有趣的方法,可以在推理时间 CoT 的基础上进一步提高测试时间计算利用率的能力。

Quiet-STaR 通过训练模型在每个标记后生成理由来解释未来的文本,从而引入了标记级推理。它将未来文本预测与基本原理和无基本原理混合在一起,并使用学习来生成更好的基本原理,并使用 REINFORCE 来优化基本原理生成的质量。

图片

Quiet-STaR 图示。

                

将思维作为潜变量

潜变量模型定义了一个概率框架,其中可观察数据通过未观察到的(潜在的)变量来解释。这些潜变量捕获了生成可观察结果的隐藏结构或中间过程。语言模型可以被视为概率潜变量模型,其中测试时思维和推理步骤是潜在思维变量。这样的潜变量模型定义了问题 x_i、答案 y_i 和潜在思维 z_i 的联合分布。我们希望优化在给定问题和各种思维链作为潜变量条件下答案的对数似然(N 是样本数量;K 是每个问题的思维链数量):

图片

我们的目标是最大化正确答案的边际似然 p (y∣x),给定每个问题的多个推理轨迹 {z (k)} k=1K。

期望最大化

期望最大化是一种常用的迭代算法,用于优化具有(隐含)潜变量的模型参数,因此可以应用于训练更好的思维链,然后以此为条件生成更好的响应。通常我们在 E 步(期望)和 M 步(最大化)之间迭代,E 步中我们猜测关于潜变量的缺失信息(即如何采样更好的思维链),M 步中我们基于潜变量优化模型参数(即如何采样更好的答案),直到收敛。

图片

 因为我们无法直接从潜变量分布 p (z∣x,y) 中采样,研究人员探索了依赖人工标注数据、Metropolis-Hastings MCMC 或具有特殊重要性权重的蒙特卡罗采样的方法来抽取好的思维链样本以更新模型。Ruan et al. (2025) 实验了在大量网络文本语料上使用 EM 算法训练带有潜在思维的模型,其中针对每个观察数据块合成潜在思维,然后模型以自回归方式在潜在思维和数据上学习。 

图片

在注入潜在思维的数据语料上进行训练的示意图。

 他们首先提示一个大语言模型根据观察数据 X_i 生成合成的潜在思维 Z_i: 

图片

 使用特殊 token 如 < StartOfLatent><Prior> ... <EndOfPrior > 将生成的潜在思维内容插入到原始数据中,用于训练联合分布 p (z,x) 或近似后验 q (z∣x),这取决于 z 是插入在 x 之前还是之后。然而,由于我们使用大语言模型来生成思维链,这对近似 q (z∣x) 的好坏程度施加了性能上限。Ruan 等人在 E 步引入了重要性权重来选择思维链样本,公式化为:

图片

这样我们就会优先选择那些擅长预测观察结果(即高 p (x∣z (k)))、简单直观(即高 p (z (k)))但又信息丰富且不太明显(即低 q (z (k)∣x))的思维链样本。 

迭代学习

由于预训练模型已经具备了生成思维链的能力,因此我们可以直观地设计一个迭代改进过程,在这个过程中,我们会生成多个 CoTs,并只根据能得出正确答案的理由对模型进行微调。

然而,这种直截了当的设计可能会失败,因为模型在无法解决的问题上得不到学习信号。STaR 通过为失败的尝试添加一个「合理化」过程来解决这一局限性,在这个过程中,模型会根据问题和基本真实答案生成良好的后向 CoTs,因此模型可以生成更合理的 CoTs。然后,根据正确的解决方案对模型进行微调,这些解决方案要么能产生正确的输出,要么是通过合理化生成的。

图片

STaR 算法。

我们可以把 STaR 看作是 RL 中策略梯度的近似值,奖励是一个简单的指标函数𝟙1 [y^=y]。我们希望在对 z∼p (z∣x) 和 y∼p (y∣x,z) 进行采样时,最大化该奖励的期望值。

图片

每次迭代相当于首先根据选择 CoT 样本,然后运行监督微调以优化生成良好 CoT 和答案的对数问题。STaR 的性能会随着训练迭代的增加而提高,而生成更好 CoT 的 “合理化 ”过程可以加速学习。他们观察到,高温采样会增加通过错误推理获得正确答案的机会,而对此类数据微调 LLM 会损害泛化。对于没有真实数据的数据,多个高温输出的多数票可以作为真实数据答案的代理,从而可以使用合成样本进行训练。

图片

对两个 n 位数加法的准确度进行比较。在有理化(基于真实结果的逐步推理生成)的情况下,模型能够在相对较早的阶段学习复杂的算术任务,例如五位数的加法。

思维时间的 Scaling Law

到目前为止,已经有大量证据表明,允许模型在推理时投入额外的计算资源,在产生最终答案之前进行思考,可以显著提升性能。诸如提示模型在给出答案前生成中间推理步骤,或训练模型在预测下一个 token 前暂停和反思等技术,都被发现可以将模型性能提升到超出训练时获得的能力极限。这本质上引入了一个改善模型智能的新维度,与 scaling law 中定义的模型规模、训练计算量和数据量等既有因素相补充。 

最近的研究表明,优化大语言模型的测试时计算可能比扩展模型参数更加有效。结合先进推理算法的小型模型可以在成本和性能之间提供帕累托最优的权衡。

Snell et al. 评估并比较了测试时计算和预训练计算,发现它们并非 1:1 可互换的。当模型能力差距很小时,测试时计算可以轻松弥补简单和中等难度问题上的差距,但对困难问题的效果较差。预训练和推理的 token 预算比例非常重要。只有当推理 token 显著少于预训练 token 时,测试时计算才更有优势。这表明,利用充足的预训练数据和计算资源开发有能力的基础模型仍然至关重要,因为测试时计算无法解决所有问题或填补大的模型能力差距。

图片

(左图)通过迭代修订或并行解码,评估准确率作为测试时计算预算的函数。(右图)比较一个小模型配合测试时计算采样技巧与一个大 14 倍的模型仅使用贪心解码。我们可以控制测试时使用的 token 预算,使得推理与预训练 token 的比例为 <<1、~=1 或 >>1,只有当比例 <<1 时,测试时计算的好处才明显。

s1 模型通过预算强制(budget forcing)技术(即通过添加单词「wait」来强制延长思维,或通过添加思维结束 token 或「Final Answer:」来缩短模型的思考过程而终止)实验了思维链推理路径长度的扩展。他们观察到以 token 衡量的平均思维时间与下游评估准确率之间存在明显的正相关关系。 

图片

s1 实验中,测试时计算的并行和顺序 scaling 方法都显示出与评估性能的正相关关系。

当将这种预算强制技术与其他控制推理轨迹长度的解码方法进行比较时,令人相当惊讶的是,简单的拒绝采样(即采样生成直到长度符合 token 预算)导致了反向 scaling,意味着更长的思维链会导致更差的性能。 

图片

(左图)更长的思维链路径长度与评估准确率呈正相关。(右图)用于控制生成的思维链路径长度的拒绝采样显示出负 scaling,其中更长的思维链导致更差的评估准确率。(图片来源:Muennighoff & Yang, et al. 2025)

未来展望

对测试时计算和思维链推理的探索为增强模型能力带来了新的机遇。更有趣的是,通过测试时思考,我们正朝着构建未来 AI 系统的方向迈进,这些系统能够反映人类思维的最佳实践,融合了适应性、灵活性、批判性反思和错误纠正能力。

对当前进展的兴奋促使我们进行更多未来研究,以改进并深入理解 —— 不仅是我们和我们的模型如何思考,更要理解为什么思考。

最后,我希望呼吁对以下关于测试时计算和思维链推理的开放性研究问题进行更多研究。

  • 我们能否在强化学习训练过程中激励模型产生人类可读、忠实的推理路径,同时避免 reward hacking 行为?
  • 如何定义 reward hacking?我们能否在强化学习训练或推理过程中捕获 reward hacking 行为而无需人工干预?如何防止在强化学习训练中采用「打地鼠」式的 reward hacking 修复方法?
  • 自我纠正可以在思维链内部发生,也可以在多轮强化学习中得到显式鼓励。当没有真实答案可供参考时,我们如何训练模型进行自我纠正而不产生幻觉或性能倒退?
  • 对于高度情境化、个性化且难以评分的任务(如创意写作、指导建议、头脑风暴),我们如何进行带有思维链展开的强化学习训练?
  • 当我们在现实中部署模型时,我们无法无限延长测试时思考的时间,那么如何能够平滑地将性能提升转化回基础模型,从而降低推理时间成本(例如通过知识蒸馏)?
  • 如何根据当前问题的难度,让测试时计算资源的使用变得更加自适应?

#FreqPure

用傅里叶分解探讨图像对抗扰动,代码已开源

本文作者分别来自中国科学院大学和中国科学院计算技术研究所。第一作者裴高政为中国科学院大学博士二年级学生,本工作共同通讯作者是中国科学院大学马坷副教授和黄庆明教授。

对抗净化旨在测试阶段将对抗图像还原为其原始的干净图像。现有的基于扩散模型的对抗净化策略试图通过前向过程将对抗扰动淹没在各向同性噪声中,随后通过逆向过程恢复干净图像。然而,现有策略在时域(即像素空间)无法对干净像素与对抗扰动进行解耦,导致破坏对抗扰动的同时不可避免地损害原始干净图像的语义信息。

因此,本文从时域转向频域进行研究。具体来说,本文利用傅里叶分解技术将图像分解为幅度谱和相位谱,探讨了对抗扰动的分布特征:结果表明,对抗扰动更倾向于破坏高频幅度谱和相位谱。基于这一实验观察,本文提出在扩散模型的逆向过程中注入原始样本的低频信息作为先验,以引导干净样本的生成。这种方法不仅能够有效去除对抗扰动,同时极大地保留了原始图像的语义内容和结构信息,使得净化后的图像尽可能保持与干净样本的语义相似性。

本工作对应的论文和代码均已开源。

论文题目:Diffusion-based Adversarial Purification from the Perspective of the Frequency Domain

论文链接:https://arxiv.org/pdf/2505.01267

代码链接:https://github.com/GaozhengPei/FreqPure

研究背景

在计算机视觉领域,对抗样本的出现对模型的安全性和鲁棒性构成了重大挑战。对抗样本是通过对正常图像施加微小扰动生成的,这些扰动通常难以被人眼察觉,但却能显著降低深度学习模型的性能。为了解决这一问题,研究者们提出了多种对抗净化(Adversarial Purification)技术,旨在将对抗样本恢复为原始的干净图像。

现有的对抗净化方法主要分为两类:基于训练的方法和基于扩散模型的方法。基于训练的方法需要在训练阶段使用对抗样本进行训练,以提高模型的鲁棒性,但这通常需要大量的训练数据和时间。相比之下,基于扩散模型的净化方法不依赖于训练数据,具有更强的泛化能力且无需训练过程,其基本策略是通过向图像添加噪声并在反向过程中恢复干净图像,从而消除对抗样本中的对抗扰动。

对抗净化具有重要意义,尤其是在深度学习被广泛应用于安全关键领域(如自动驾驶、金融分析和医疗影像等)时,确保模型的安全性显得尤为重要。对抗净化方法能够降低对抗攻击对系统造成的潜在威胁,从而提升应用系统的整体安全性和可靠性。

动机和理论分析

图片

图 1:图像被分解为幅度谱(左)和相位谱(右),并分别计算对抗图像与原始图像之间的差异。

对抗净化成功的关键是在消除对抗扰动的同时尽可能的保留原始图像的语义信息,然而当前通过加入噪声将对抗扰动淹没在各向同性噪声中的策略会过度的破坏原始图像的语义信息,导致最后净化的图像和原始图像之间的语义信息有差距。而通过对抗样本引导的逆向过程可以尽可能少的损失语义信息,然而也会引入对抗扰动信息,导致净化的图像无法尽可能的去除图片上的对抗扰动信息。为解决上述存在的矛盾,我们希望将对抗扰动和图像本身的语义信息进行解耦,在扩散模型逆向过程中用干净的语义信息作为引导,就可以实现去除对抗扰动的同时,又可以保持和原始图像的语义相似程度。

为了将对抗扰动和干净的图像语义信息解耦开来,我们选择快速傅里叶变换技术,将图像分解为幅度谱和相位谱,通过计算对抗样本的幅度谱和相位谱和原始干净样本的幅度谱和相位谱之间的差异,我们可以绘制从低频到高频幅度谱和相位谱之间的差异(图 1),可以观察到对抗扰动更倾向于破坏图像的高频信息,而低频信息对对抗扰动更加鲁棒。

图片

图 2:理论分析结果的实验验证

对于幅度谱和相位谱来说,噪声强度对任何频率的结构信息和内容信息随时间步 t 单调递增:

图片

图片

图 2 的实验结果也验证了我们的理论分析,同时我们也发现,相位谱会被噪声更快的破坏,因此在逆向过程中保留相位谱非常的关键。

方法

图一实验现象表明低频幅度谱成分对对抗性扰动表现出显著的鲁棒性,几乎不受对抗扰动的影响。且由于自然信号(如图像)通常表现出低通特性,这意味着低频功率谱成分相对较大。即使保留很少的低频幅度谱信息,也能够保留大部分的图像的内容信息。我们首先对幅度谱构造一个滤波器:

图片

使用上面定义的滤波器 ,我们可以将估计图像幅度谱的低频成分替换为输入样本幅度谱的低频成分,适用于每个通道(彩色图像通常由三个通道组成:RGB),具体如下:

图片

不同于幅度谱,相位谱受到所有频率成分的对抗性扰动影响。直接保留低频相位谱会保留对抗性扰动,同时也会影响高频相位谱的恢复。因此,我们选择将估计图像的低频相位谱投影到输入图像的低频相位谱的某个范围内:

图片

根据更新后的幅度谱和相位谱,我们将两者结合,首先通过逆离散傅里叶变换(iDCT)获得时间域表示,如下所示:

图片

下一个状态可以从联合分布中采样,具体公式为:

图片

实验效果

CIFAR10

图片

表 1:在 WideResNet-28-10 模型以及 WideResNet-70-16 上测试。相比于 SOTA,本文方法在论 Standard Accuracy 以及 Robust Accuracy 两个指标均有提升。

ImageNet

图片

表 2:使用 ResNet-50 作为分类器,在 ImageNet 数据集上的 Standard Accuracy 以及 Robust Accuracy

可视化

图片

图 3:原始干净图像、对抗图像和净化图像的可视化。本文方法净化后的图像与原始干净图像最为相似

图片

图 4:原始图像和净化图像的联合分布。本文方法净化后的图像分布与原始图像最为相似。

结语

尽管该工作在保留语义信息和消除对抗扰动上取得了显著效果,但如何找到一种更有效的图像分解手段,可以更好将对抗扰动和图像语义解耦开来仍有待探索,以及提供更深入的理论解释,仍然是未来值得深入研究的方向。我们仍在对抗净化领域进一步探索,欢迎大家持续关注。如果有任何问题或进一步的想法,随时欢迎讨论。

#TokenSwift

如何凭「自动补全」实现100K生成3×加速?

在当前大模型推理愈发复杂的时代,如何快速、高效地产生超长文本,成为了模型部署与优化中的一大核心挑战。随着 GPT-o3, DeepSeek R1 等具备 「超级上下文窗口」 能力的大模型持续刷新业界记录,百万甚至千万 Token 级别的推理任务已从研究话题迈入现实场景。然而,生成这些超长文本的背后,却隐藏着令人咋舌的计算成本 —— 长时间的等待、巨大的内存负担以及偶尔重复乏味的输出,严重制约了这些模型的真正潜力。

面对这一挑战,BIGAI NLCo 团队提出了一项全新的推理加速框架 —— TokenSwift,该工作已成功被 ICML 2025 正式接收!在这项研究中提出了一套可插拔、无损、高效的生成加速策略,专为 100K Token 级别的长文本推理而设计。在保持原始模型输出一致性的前提下,加速比达到 3 倍以上,极大提升了推理效率。

  • 论文标题:TokenSwift: Lossless Acceleration of Ultra Long Sequence Generation
  • Arxiv: https://arxiv.org/abs/2502.18890
  • Github: https://github.com/bigai-nlco/TokenSwift
  • Blog: https://bigai-nlco.github.io/TokenSwift/

,时长00:38

🧠 重新定义超长生成:为什么传统方法「慢」?

为了更好地理解 TokenSwift 的意义,我们先看一下目前主流大模型(如 LLaMA、Qwen 等)在长文本生成中的瓶颈所在。

尽管这些模型具备了强大的生成长上下文的能力,但大多数依然采用传统的自回归(Autoregressive)生成方式:每次仅生成一个新的 Token,并以其作为输入接着生成下一个。这种方式本身在短文本生成中问题不大,但当序列长度扩展至 10 万甚至更多时,性能就会急剧下降。

主要原因有三:

  • 模型重复重载:每生成一个 Token,都会触发一次完整的前向推理过程;在多进程或流水线执行时,模型需要不断读取参数,造成 I/O 瓶颈。
  • KV 缓存无限膨胀:Transformer 架构要求保留所有历史 Token 的 Key/Value 信息,用于后续 Token 的注意力计算。随着生成进程推进,KV 缓存占用不断增加,导致计算与内存开销雪上加霜。
  • 语义重复堆叠:生成越长,模型越容易陷入句式与主题的复读循环,降低输出多样性与用户体验。

尤其在当前日益增长的多轮对话、大模型代理(Agent)、逐步推理等任务中,一个 Query 可能会触发几千甚至上万的推理 Token 输出。传统自回归的效率显然已经难以满足需求。

🚀 TokenSwift:拥抱并行的超长推理时代

TokenSwift 的提出,正是为了解决上述超长生成中的三大瓶颈。它通过一个极为轻量且高效的框架,对传统自回归推理进行了 「重构」,提出了以 「多 Token 草拟 + 并行验证 + 动态缓存更新」 为核心的全新机制。

让我们来逐步拆解 TokenSwift 的关键技术理念:

图片

✳️ 多 Token 并行草拟:告别一次一 Token 的低效时代

在 TokenSwift 中,不再坚持 「一步一 Token」 的生成模式,而是通过对已有模型的最小化修改(添加极少量的线性层),实现了 「一次性草拟多个 Token」。这意味着,模型每一次前向传播,都可以并行生成 γ 个候选 Token,大幅降低模型重载频率,显著节省 I/O 时间。

更关键的是,草拟阶段并非 「胡乱猜测」。引入了上下文引导机制,使草拟结果具备较高的语义相关性与语法一致性,随后通过结构化的验证机制确保其与标准 AR 路径一致。

🧩 n-gram 启发式补全:巧用历史片段,精确草拟结构

为了避免粗略草拟带来的语义偏离,TokenSwift 设计了基于历史生成内容的 n-gram 片段缓存机制。会定期保存频率较高的 n-gram 序列,并在草拟新 Token 时,借助这些高频片段进行 「自动补全」。

此外,TokenSwift 还引入了 「随机筛选器」,在多个 n-gram 片段中选择语义最优的一组进行结构构建。这不仅提升了草拟的准确性,也保证了后续验证的成功率。

🧠 树结构验证机制:确保与 AR 一致,输出 「无损」 保障

有了草拟机制,还需要验证其 「正当性」。TokenSwift 的另一大亮点在于提出了树结构的并行验证模块,通过构建多个验证路径,对草拟的多个 Token 并行进行预测评分判断,并筛选出与标准 AR 路径一致的候选。

换句话说,TokenSwift 不仅快,而且不牺牲任何输出质量,生成内容与原始模型保持一致,是一套真正 「无损」 的加速方案。

💡 动态 KV 管理 + 重复惩罚:越长越快,越长越优

为了解决 KV 缓存膨胀的问题,TokenSwift 实现了动态的 KV 裁剪机制。模型会根据 Token 重要度与时间衰减策略,对 KV 对进行 「主动淘汰」,在保证上下文保留质量的同时,显著减轻缓存负担。

与此同时,为了缓解长文本生成过程中的重复问题,设计了重复惩罚机制,在生成过程中动态降低重复 n-gram 的概率,确保最终输出具备更高的多样性和可读性。

📈 实验评估:全面剖析 TokenSwift 的性能与质量

在多个主流模型上,包括 YaRN-LLaMA2-7b-128k、LLaMA3.1-8b、Qwen2.5-1.5B, 7B, 14B 等,进行了大规模实验,序列长度涵盖从 20K 到 100K,TokenSwift 表现均极其亮眼:

  • 加速比普遍在 3 倍以上
  • 生成质量与原模型一致
  • Distinct-n 指标显著优于原始 AR 路径

图片

图片

更令人振奋的是,随着序列越长,TokenSwift 的加速效果越显著。在 100K Token 生成任务中,LLaMA3.1-8B 的生成时间从近 5 小时缩短至 1.5 小时,极大降低了实际使用成本。

Token 重用的决定性作用

我们对比了禁用(k=0)与启用状态下的接受率和加速比。结果显示,未启用重用时,随着生成长度增长,接受率和加速比均出现明显下滑;而在 k=20 时,接受率不仅维持在 70–90% 的高水平,还随序列越长而略有提升,加速比亦从~2.1× 提升至~3.1×,凸显 Token 重用在减少模型重载和保持验证高效中的关键作用 。

图片

动态 KV 更新的巧妙平衡

针对 KV 缓存管理,我们进一步实验了「全量缓存」、「仅预填后一次更新」与 TokenSwift 中的「动态部分缓存」三种策略。在关闭 Token 重用的前提下,「部分缓存」因接受率低而加速有限,「全量缓存」虽保证了较高接受率,却因管理成本抵消了速度收益;而 TokenSwift 的动态更新策略恰好在接受率与计算开销之间取得平衡,使得在 100K Token 任务上依然能保持近 2× 以上的加速效果 。

图片

上下文惩罚对多样性的提升

为了抑制超长生成中的机械复读,TokenSwift 采用了仅对最近 W Token 应用惩罚值 θ 的「上下文惩罚」机制。在与 top-p、η-sampling、min-p 等多种采样方法结合的实验中,未启用惩罚时 Distinct-n 平均值仅约 0.12;引入 θ=1.2、W=1024 后,平均多样性飙升至 0.43–0.69,同时加速比仅轻微下降~2–8% 左右,证明了该机制在保持质量一致性与提升文本多样性上的高效性 。

图片

✨ 小结

TokenSwift 摆脱了传统自回归生成的性能枷锁,让我们在面对超长文本推理任务时,不再被时间与内存所拖累。

它并非一个 「另起炉灶」 的新模型,而是一种可直接嵌入现有主流模型(LLaMA、Qwen 等)的通用加速策略,具备极强的兼容性与部署便利性。

更重要的是,TokenSwift 对推理质量的 「无损」 保证,让我们在享受速度提升的同时,不牺牲任何精度与语义一致性。我们相信,这一框架将为未来多轮推理、代码生成、Agent 计划编排等长文本场景提供坚实的技术支撑。

#Agentic AI如何成为新守护者?

「AI黑客」来袭

以 AI 之矛,攻 AI 之盾。

AI 崛起:技术双刃剑下的安全暗战 

随着 AI 技术的快速发展,网络安全面临的威胁日益复杂化,攻击手段不仅更高效、隐蔽,还催生了新型的「AI 黑客」形态,因此引发了各类新型网络安全危机。

首先是生成式 AI 正重塑网络诈骗的「精准度」。 

简单而言,就是将传统的钓鱼攻击智能化,比如在更精准的场景中,攻击者会利用公开社交数据训练 AI 模型,批量生成个性化钓鱼邮件,模仿特定用户的写作风格或语言习惯,实施「定制化」诈骗,绕过传统垃圾邮件过滤器,大幅提升攻击成功率。 

接着是最为大众所熟知的深度伪造(Deepfake)与身份冒用。在 AI 技术成熟之前,传统的「变脸诈骗攻击」,即 BEC 诈骗,全称为「Business Email Compromise」,具体为攻击者通过将邮件发件人伪装成你的领导、同事或商业伙伴,以此骗取商业信息或钱财、或者获取其他重要资料。

如今,「变脸」真的发生了。AI 生成的换脸、变声技术可伪造公众人物或亲友身份,用于诈骗、舆论操控甚至政治干预。 就在两个月前,上海某企业财务总监接到来自「董事长」的视频会议邀请,对方通过 AI 换脸仿声称需紧急支付「境外合作保证金」,该总监依指示转 380 万元至指定账户,后识破系境外诈骗团伙利用深度伪造技术作案。

第三则是自动化攻击与漏洞利用。 AI 技术的进步让大量场景向智能化、自动化演进,网络攻击自然也是如此。攻击者可借助 AI 自动扫描系统漏洞、生成动态攻击代码,并对目标实施无差别快速攻击,比如 AI 驱动的「零日攻击」在发现漏洞后会立即编写并执行恶意程序,传统防御系统难以实时响应。

就在今年春节,DeepSeek 官网遭遇 3.2Tbps 超大规模 DDoS 攻击,黑客同步通过 API 渗透注入对抗样本,篡改模型权重导致核心服务瘫痪 48 小时,直接经济损失超数千万美元,事后溯源发现美国 NSA 长期潜伏的渗透痕迹。

数据污染和模型漏洞同样也是一种新威胁。攻击者通过在 AI 训练数据中植入虚假信息(即数据投毒),或利用模型自身缺陷,诱导 AI 输出错误结果 —— 这会对关键领域造成直接的安全威胁,甚至可能引发连锁灾难性后果,例如自动驾驶系统因对抗样本误判「禁止通行」为「限速标志」,或医疗 AI 将良性肿瘤误判为恶性。

AI 还需 AI 治 

面对 AI 驱动的网络安全新威胁,传统防护模式已显乏力。那么,我们又有哪些应对之策呢?

不难发现,目前的业内共识已指向「以 AI 对抗 AI」—— 这不仅是技术手段的升级,更是安全范式的转变。

现有的尝试大致分为三大类,分别是 AI 模型的安全防护技术、行业级的防御应用以及更宏观层面的政府与国际协作。

AI 模型安全防护技术的关键在于模型的内生安全加固。

以大型语言模型(LLM)的「越狱」漏洞为例,其安全防护机制常因通用型越狱提示策略失效 —— 攻击者通过系统性绕过模型内置保护层,诱导 AI 生成暴力、歧视或违法内容。为防止 LLM 的「越狱」,各家模型公司都做出了尝试,比如 Anthropic 就于今年二月发布了「宪法分类器」。

此处的「宪法」指的是不可违背的自然语言规则,作为一种在合成数据上训练的保障措施,通过规定允许和限制的内容,实时监测输入输出内容,在基准条件的测试中,其 Claude3.5 模型在分类器保护下,对高级越狱尝试的成功阻止率从 14% 提升至 95%,显著降低了 AI 的「越狱」风险。

而除了基于模型、更通用的防御手段外,行业级的防御应用同样值得关注,其垂直领域的场景化防护正成为关键突破点:金融行业通过 AI 风控模型与多模态数据分析构建反欺诈壁垒,开源生态借助智能化漏洞猎捕技术实现零日威胁的快速响应,而企业敏感信息保护则依托 AI 驱动的动态管控体系。

例如,思科在新加坡国际网络周展示的方案,可实时拦截员工向 ChatGPT 提交的敏感数据查询请求,并自动生成合规审计报告优化管理闭环。

在宏观层面上,政府与国际的跨区域协作也正加速推进。新加坡网络安全局发布《人工智能系统安全指南》,通过强制本地化部署与数据加密机制约束生成式 AI 滥用,特别针对钓鱼攻击中 AI 伪造身份的识别建立防护标准;美英加三国同步启动「AI 网络代理计划」,聚焦可信系统研发与 APT 攻击的实时评估,通过联合安全认证体系强化集体防御能力。

那么,哪些方法能最大限度地用 AI 来应对 AI 时代的网络安全挑战呢?

「未来需要 AI 安全智能中枢并围绕中枢构建新体系。」在第二届武汉网络安全创新论坛上,青藤云安全创始人张福曾在分享中强调以 AI 对抗 AI 方为未来网络安全防御体系的核心,「3 年内,AI 将会颠覆现有的安全行业,和所有的 2B 行业。产品将会重新构建,实现前所有未有的效率和能力的提升。未来产品是给 AI 用的,而不是给人用的。」

在一众方案中,Security Copilot 的模式显然对「未来产品是给 AI 用的」提供了很好的示范:一年前,微软推出了智能 Microsoft Security Copilot 副驾驶来帮助安全团队迅速准确地检测、调查和响应安全事件;一个月前,又再次发布了用于在钓鱼攻击、数据安全和身份管理等关键领域自动协助的 AI 智能体。

图片

微软新增六个自研 AI 智能体以扩展 Security Copilot 功能。其中三个用于辅助网络安全人员筛选警报:钓鱼分类智能体审查钓鱼警报、过滤误报;另两个分析 Purview 通知,检测员工未经授权使用业务数据的情况。

条件访问优化智能体与 Microsoft Entra 协作,指出不安全的用户访问规则,并生成一键修复方案供管理员执行。漏洞修复智能体和设备管理工具 Intune 集成,助力快速定位易受攻击的终端,应用操作系统补丁。威胁情报简报智能体生成可能威胁组织系统的网络安全威胁报告。

无相:L4 级高阶智能体的保驾护航 

无独有偶,在国内,为了实现真正意义上「自动驾驶」级别的安全防护,青藤云安全推出了全栈式安全智能体「无相」。作为全球首个实现从「辅助型 AI」向「自主智能体」(Autopilot)跨越的安全 AI 产品,其核心突破在于颠覆传统工具的「被动响应」模式,使其自主、自动且智能。

青藤云安全

,赞469

通过融合机器学习、知识图谱与自动化决策技术,「无相」可独立完成威胁检测、影响评估到响应处置的全流程闭环,实现真正意义上的自主决策与目标驱动。其「Agentic AI 架构」设计模拟人类安全团队的协作逻辑:以「大脑」整合网络安全知识库支撑规划能力,「眼睛」细粒度感知网络环境动态,「手脚」灵活调用多样化的安全工具链,并通过多智能体协作形成信息共享的高效研判网络,分工合作、共享信息。

在技术实现上,「无相」采用「ReAct 模式」(Act-Observe-Think-Act 循环)与「Plan AI + Action AI 双引擎架构」,确保复杂任务中的动态纠偏能力。当工具调用异常时,系统可自主切换备用方案而非中断流程,例如在 APT 攻击分析中,Plan AI 作为「组织者」拆解任务目标,Action AI 作为「调查专家」执行日志解析与威胁建模,二者基于实时共享的知识图谱实现并行推进。 

功能模块层面,「无相」构建了完整的自主决策生态: 智能体人设模拟安全分析师的反思迭代思维,动态优化决策路径; 工具调用整合主机安全日志查询、网络威胁情报检索及 LLM 驱动的恶意代码分析; 环境感知实时捕获主机资产与网络信息;知识图谱动态存储实体关联,辅助决策;多智能体协作通过任务分拆与信息共享,并行执行任务。

目前「无相」在告警研判、溯源分析以及输出安全报告这三大核心应用场景中的表现最为出色。

传统安全运营中,海量告警的真伪甄别耗时费力。以一次本地提权告警为例:无相的告警研判智能体自动解析威胁特征,调用进程权限分析、父进程溯源、程序签名验证等工具链,最终判定为误报 —— 全程无需人工介入。在青藤现有告警测试中,该系统已实现 100% 告警覆盖率与 99.99% 研判准确率,并将人工工作量削减超 95%。

面对真实威胁如 Webshell 攻击,智能体通过代码特征提取、文件权限分析等跨维度关联,秒级确认攻击有效性。传统需多部门协作、耗时数日的深度溯源(如上传播径还原、横向影响评估),现由系统自动串联主机日志、网络流量、行为基线等数据流,生成完整攻击链报告,将响应周期从「天」压缩至「分钟」。

「我们的核心是将 AI 和人的合作关系扭转了,可以把 AI 作为一个人来合作,实现从 L2 到 L4 的跨越,即从辅助驾驶向高阶自动驾驶跨越。」青藤联创兼产品副总裁胡俊分享道,「随着 AI 能适配的场景更多,决策的成功率更高,逐渐能够承担更多的责任,这样人和 AI 之间的责任分工就会有变化。」

图片

在溯源分析这个场景中,首先是 Webshell 告警触发「无相 AI」驱动的多智能体安全团队协同溯源:「研判专家」基于告警定位 one.jsp 文件,生成文件内容分析、作者溯源、同目录排查及进程追踪等并行任务,由「安全调查员」智能体调用文件日志工具,快速锁定 java(12606)进程为写入源,该进程及关联主机 10.108.108.23(通过访问日志发现高频交互)相继纳入调查。

智能体通过威胁图谱动态扩展线索,从单一文件逐层深挖至进程、主机,研判专家汇总任务结果综合判定风险。此过程将人工需数小时至数天的排查压缩至几十分钟,以超越人类高级安全专家的精准度还原攻击全链路,无死角追踪横向移动路径,红队评估也显示难以规避其地毯式调查。

「大模型比人工好是因为它能彻查边边角角,而非凭经验排除可能性低的情况。」胡俊解释道,「这样相当于广度和深度都更好。」 

图片

在完成复杂攻击场景的调查后,整理告警与调查线索并生成报告往往耗时费力。而 AI 可实现一键式总结,以可视化时间线的形式清晰呈现攻击过程,如同电影般连贯展示关键节点 —— 系统会自动梳理关键证据生成攻击链的关键帧,并结合环境上下文信息,最终生成动态的攻击链路图谱,让整个攻击轨迹以直观、立体的方式呈现。

图片

结语

很显然,AI 技术的发展为网络安全带来双重挑战。 

一方面,攻击者利用 AI 实现攻击的自动化、个性化和隐蔽化;另一方面,防御方需加速技术创新,通过 AI 增强检测与响应能力。未来,攻防双方的 AI 技术竞赛将决定网络安全的整体态势,而安全智能体的完善将是平衡风险与发展的关键。

而安全智能体「无相」在安全架构与认知层面都带来了新的变化。

「无相」本质上是改变了对 AI 的使用方式,其突破性在于将多维数据感知、防护策略生成与决策可解释性熔铸为有机整体 —— 从过往将 AI 作为工具使用的模式转变为给 AI 赋能使其能自主且自动地工作。

通过关联分析日志、文本、流量等异构数据,系统能在攻击者构建完整攻击链前捕捉 APT 活动的蛛丝马迹。更关键的是,其决策过程的可视化推理解释,让传统工具「知其然不知其所以然」的黑盒告警成为历史 —— 安全团队不仅能看见威胁,更能理解威胁的演化逻辑。

这个革新的本质是安全思维从「亡羊补牢」到「未雨绸缪」的范式跃迁,是对攻防博弈规则的重新定义。

「无相」如同拥有数字直觉的猎手:通过实时建模内存操作等微观行为特征,它能从海量噪声中揪出潜伏的自定义木马;动态攻击面管理引擎持续评估资产风险权重,确保防护资源精准投向关键系统;而威胁情报的智能消化机制,则将日均万条告警转化为可行动的防御指令,甚至预测攻击变种的演化方向 —— 当传统方案还在疲于应对已发生的入侵时,「无相」已在对攻击者的下一步落子进行预判封堵。

「AI 智能中枢系统(高阶安全智能体)的诞生,将会彻底重塑网络安全的格局。而我们唯一需要做的,就是彻底抓住这个机会。」张福道。

#Index-AniSora

B站开源动画生成模型,斩获多项SOTA入选IJCAI25

B 站开源动画视频生成模型 Index-AniSora,支持番剧、国创、漫改动画、VTuber、动画 PV、鬼畜动画等多种二次元风格视频镜头一键生成!

  • 论文标题:AniSora: Exploring the Frontiers of Animation Video Generation in the Sora Era
  • 论文地址:https://arxiv.org/abs/2412.10255
  • 项目主页:https://github.com/bilibili/Index-anisora

整个工作技术原理基于 B 站提出的 AniSora 实现,该工作已经被 IJCAI25 接收。我们提出的 AniSora 系统,是首个专为二次元视频生成打造的技术框架,全面提升动画内容的生产效率与质量。

,时长01:17

喜欢的漫画一键出动画效果,支持多种小众画风,效果更加丰富,从此告别 「PPT 动画」

  • 提示词:画面中一个人在快速向前奔跑,他奔跑的速度很快使得人物有些模糊

图片

引导帧首帧

图片

生成的视频

  • 提示词:画面中的人物向上抬了下手臂,他手臂上的气体在流动

图片

引导帧首帧

图片

生成的视频

  • 提示词:左边男人紧紧抿着嘴唇,脸上刻满了愤怒和决心。他的表情传达出无尽的挫折与坚定信念。与此同时,另一个男人的嘴巴张得大大的,仿佛即将开口大声说话或大喊大叫

图片

引导帧首帧

图片

生成的视频

  • 提示词:画面中展现了石块发生爆炸的场景,发出刺眼的光芒,碎石四处飞散

图片

引导帧首帧

图片

生成的视频

简单介绍一下我们如何实现这些魔法效果的。通过高效的数据处理链路,构建了超过千万条高质量的文本 - 视频对,包含了大量不同风格、类型、内容的高质量动画数据,为模型训练提供了坚实的数据基础。

其次,针对动画生成的独特需求,我们开发了统一的扩散生成框架,并引入时空掩码机制,灵活支持图生视频、插帧补全和局部控制等任务,实现对角色口型、动作乃至局部区域的精细控制,显著增强内容生成的可控性和创作自由度。

最后,我们设计了首个面向动画视频的专用评估基准,涵盖多个二次元子类型,填补了现有自然视频评估体系的空白。我们还基于 VLM 模型进行了定向优化,使其更好地理解动漫语境与 ACG 审美,从而构建出更贴合创作者真实需求的自动化视频评估系统。

图片

时域条件控制(对应任务如视频插帧、扩写开头)

图片

引导帧首帧

图片

尾帧

图片

生成的视频

图片

引导帧尾帧

图片

生成的视频

运动空间条件控制

图片

引导帧首帧

图片

运动掩码 1

图片

生成的视频(带有掩码的可视化)

图片

运动掩码 2

图片

生成的视频(带有掩码的可视化)

运动强度控制

  • 提示词:一个穿着粉红色开襟羊毛衫的年轻女子坐在一间舒适房间的地板上。她轻轻地抚摸着她的黑猫,它正在一个小盒子上的碗里吃东西

图片

引导帧首帧

图片

正常强度

图片

大幅强度

详细的技术方案,请看:

  • B 站自研动画视频生成模型全链路技术报告

本次开源内容包括:

AniSoraV1.0:基于 CogVideoX-5B 基座模型训练,包括全部的训练和推理代码。支持视频局部区域引导控制、时序引导控制(首帧引导、尾帧引导、关键帧插值、多帧引导等)。4090 可部署的高性价比模型,支持覆盖 80% 的应用场景。

AniSoraV2.0:基于 Wan2.1-14B 基座模型训练,基座模型更强,效果更加稳定,覆盖 90% 的应用场景。采用蒸馏加速方案,保证效果的同时,提升推理性能。同样,会发布全部的训练和推理代码,包括对国产芯片华为 910B 高效分布式训练的支持,AniSora 模型完全基于国产芯片训练完成。

训练数据集构建的全链路模型,帮助快速扩展训练数据。

基于动画数据优化的 Benchmark 系统,专门为动画视频生成领域研发的自动化评测系统,以及标准测试数据集,更加符合 ACG 审美要求。

此外,我们会一起开源首个基于动画领域人类偏好强化学习模型及训练框架以及用该技术优化过的 AniSoraV1.0_RL,提供更加高效的视频效果强化训练,更加符合二次元审美的模型。该工作的预印版已经整理在arxiv上。

  • 论文标题:Aligning Anime Video Generation with Human Feedback
  • 论文地址:https://arxiv.org/abs/2504.10044 

下面简单说它的原理。

图片

我们为动漫视频生成任务构建了首个包含 30,000 条人工标注样本的高质量奖励数据集,涵盖六个关键维度的人类偏好标注:视觉平滑度、运动感、视觉吸引力、文本一致性、图像一致性与角色一致性。

基于此,我们设计了 AnimeReward 奖励模型,针对不同维度特征,引入专门的视觉 - 语言模型以提升拟合准确性。核心创新在于提出差距感知偏好优化算法(GAPO),通过显式建模正负样本间的偏好差距,强化奖励信号,引导模型更高效地学习人类偏好,显著提升对齐性能。

如果你已经跃跃欲试了,快前往:

#PhyT2V

AI生成视频总不符合物理规律?匹兹堡大学团队新作:不重训练模型也能让物理真实度狂飙2.3倍!

本文由匹兹堡大学智能系统实验室(Intelligent Systems Laboratory)的研究团队完成。第一作者为匹兹堡大学的一年级博士生薛琪耀。

当前文本生成视频(T2V)技术正在从注重视觉质量与模型规模的扩展阶段,迈向更关注物理一致性与现实合理性的推理驱动阶段。

物理规律作为建模现实世界的基本知识体系,是实现高质量视频生成的关键约束。提升大模型对现实物理动态的理解与遵循能力,成为推动 T2V 技术落地的重要突破方向。

为推动物理一致性驱动的 T2V 生成研究,来自匹兹堡大学的研究团队提出了 PhyT2V 框架,并在最新论文中系统阐述了该方法的核心机制,该论文已被 CVPR 2025 接收。

论文标题:PhyT2V: LLM-Guided Iterative Self-Refinement for Physics-Grounded Text-to-Video Generation

论文地址:https://arxiv.org/abs/2412.00596

该方法不依赖模型重训练或大规模外部数据,而是通过引入大型语言模型引导的链式推理与迭代自我修正机制,对文本提示进行多轮物理一致性分析与优化,从而有效增强主流 T2V 模型在现实物理场景中的泛化与生成能力。

此框架可以被广泛地应用到任何已有的 T2V 模型上,而且不需要用户任何的手动干预就可以实现完全自动化的 T2V 增强,因此拥有极低的落地门槛和非常好的泛化性,在实际应用中有非常广阔的应用前景。

图片

近年来,文本到视频(Text-to-Video,T2V)生成技术取得了显著进展,出现了基于 Transformer 扩散模型的 Sora、Pika 和 CogVideoX 等模型。这些模型能够生成复杂且逼真的场景。

然而,尽管单帧视频质量很高,当前的 T2V 模型在遵守现实世界常识和物理规则方面存在显著不足。例如,它们可能无法正确处理物体的数量、材质特性、流体动力学、重力、运动、碰撞和因果关系。

图片

现有让 T2V 模型生成内容更符合物理规则的方法主要存在以下局限性,尤其是在处理训练数据未涵盖的分布外(out-of-distribution,OOD)场景时:

  • 数据驱动方法局限:大多数现有方法是数据驱动的,依赖于大规模多模态 T2V 数据集来训练扩散模型。然而,这高度依赖于数据集的数量、质量和多样性。由于物理规则并未在训练过程中被显式嵌入,这些方法在训练数据未覆盖的分布外领域泛化能力受限,视频生成质量会大幅下降。真实世界场景的巨大多样性进一步限制了这些模型的通用性。
  • 注入物理知识方法的局限:也有研究尝试使用现有的 3D 引擎(如 Blender、Unity3D、Unreal)或数学模型将物理知识注入到 T2V 模型中。但这些方法通常受限于固定的物理类别和模式,如预定义的物体和运动,同样缺乏通用性。
  • 现有提示增强方法的局限:虽然有研究表明通过细化提示可以改善分布外提示下的视频生成质量,但现有许多提示增强方法仅仅是基于主观经验简单地增强或修改提示,而缺乏一个有效的反馈机制来判断生成的视频在多大程度上偏离了现实世界知识和物理规则,以及当前的提示增强是否有效提升了视频的物理真实度。
  • 额外输入方法的局限:一些方法尝试通过提供额外输入模态为 T2V 模型提供反馈。但这会引入大量的额外计算开销并且缺乏通用性。

为了实现可泛化的物理真实的 T2V 生成,匹兹堡大学的研究人员提出了 PhyT2V。

PhyT2V 不通过扩展数据集或复杂化模型架构,而是通过将现实世界知识和物理规则嵌入到文本提示中,提供足够的上下文,从而将现有 T2V 模型的生成能力扩展到分布外领域。

为了避免模糊不清的提示工程,PhyT2V 的核心思想是在 T2V 提示过程中启用思维链(Chain-of-Thought,CoT)和回溯推理(step-back reasoning)。通过应用分步指导和迭代自修正,确保 T2V 模型遵循正确的物理动态和帧间一致性。

其核心贡献在于:无需任何额外训练或模型结构更改,而是仅仅通过结合 LLM 的推理与回溯能力,进行逐轮提示修正,从而显著提升现有 T2V 模型在物理一致性任务中的性能。该方法可泛化适用于不同架构和训练背景的 T2V 模型,尤其在分布外提示下展现出强大的增强效果。

方法介绍

PhyT2V 利用经过良好训练的大型语言模型(LLM),例如 ChatGPT-4o,来促进 CoT 和回溯推理。这种推理以迭代方式进行,每一轮都自主修正 T2V 提示和生成的视频,包含三个步骤:

图片

步骤 1:识别物理规则和主要对象

LLM 分析用户提示,通过「上下文学习」提取视频中应显示的对象和应遵循的物理规则。这一步的提示会给出详细的任务说明和少量示例。LLM 的输出描述物理规则但不提供公式。消融研究表明此步骤是必要的。

步骤 2:识别提示与视频之间的语义不匹配

首先,使用视频字幕模型(例如 Tarsier)将生成的视频的语义内容转换为文本。然后,LLM 使用 CoT 推理评估视频字幕与当前 T2V 提示之间的不匹配之处。使用视频字幕是因为 CoT 方法更适合处理单模态数据,它强调线性分解和分步推理。通过将视频内容转化为文本,可以在文本域中进行 CoT 和回溯推理。消融研究证实此步骤对于识别和纠正视频中与期望不符的细节至关重要。

步骤 3:生成修正后的提示

LLM 通过结合步骤 1 总结的物理规则和解决步骤 2 得出的不匹配之处,使用回溯提示来修正当前的 T2V 提示。回溯推理有助于从更高层次的抽象中导出问题。这一步骤的提示结构也包含任务说明、示例和当前任务信息。此外,还会提供上一轮提示修正效果的量化反馈(例如,使用 VideoCon-Physics 评估器的得分),指导 LLM 采取不同的推理路径。修正后的 T2V 提示将作为新的用户提示再次用于 T2V 模型生成视频,开始新一轮的修正。这种迭代修正会持续进行,直到生成的视频质量令人满意或视频质量的改进收敛。整个过程通常需要几轮,大多数改进发生在最初两轮,3-4 轮通常足够。

PhyT2V 的优势

与现有提示增强方法相比,PhyT2V 的关键贡献在于分析当前生成的视频与提示之间的语义不匹配,并基于不匹配与相关的物理知识进行修正,而之前的许多方法只是简单地增强或修改提示。PhyT2V 的主要优势包括:

  • 无需训练、即插即用:无需修改任何 T2V 模型结构,也不需额外训练数据,即可直接增强不同 T2V 模型的物理一致性。
  • 提示修正具备反馈闭环:不只是修改提示文本,而是基于真实生成结果的语义偏差反馈,进行有针对性的优化。
  • 跨领域通用性强:在多个物理场景(固体、流体、重力、运动等)尤其是分布外场景下表现优异,具备广泛适配性。

实验

研究人员在多个基于 Diffusion Transformer 的开源 T2V 模型上应用了 PhyT2V,包括 CogVideoX 2B & 5B、OpenSora 和 VideoCrafter。

评估使用了 VideoPhy 和 PhyGenBench 这两个强调物理定律和遵守度的提示基准数据集,使用 VideoCon-Physics 评估器衡量生成的视频对物理常识(PC)和语义遵守度(SA)的遵守情况,并在 VBench 评测基准上也取得了领先的表现。

图片

图片

图片

图片

实验结果表明,PhyT2V 显著提高了生成的视频对文本提示本身以及现实世界物理规则的遵守程度。

这种改进在 CogVideoX-5B 模型上最为显著,PC 提高可达 2.2 倍,SA 提高可达 2.3 倍。在其他模型上也有显著提升。迭代修正过程收敛速度快,通常 3-4 轮足够。

PhyT2V 大幅领先于直接使用 ChatGPT 4 或 Promptist 等现有提示增强方法至少 35%。消融研究证实了步骤 1(物理规则推理)和步骤 2(不匹配推理)在 PhyT2V 工作流程中的必要性。模型尺寸也会影响 PhyT2V 的表现,在较大的模型上 PhyT2V 性能更好。

图片

图片

总结

总而言之,PhyT2V 是一种新颖的、数据独立的 T2V 生成框架。通过结合 CoT 推理和回溯提示,PhyT2V 系统地修正 T2V 提示,以确保生成的视频遵守现实世界物理原理,而无需额外的模型重新训练或依赖额外条件。这项工作为构建更理解物理世界、能生成更逼真视频的 T2V 模型迈出了重要一步。

#AI大厦需要新的地基!

「Scaling Law 即将撞墙。」这一论断的一大主要依据是高质量数据不够用了,正如前 OpenAI 首席科学家 Ilya Sutskever 在 NeurIPS 2024 大会上警告的那样:「我们所知的预训练即将终结。」虽然近几个月由于测试时间计算(test-time compute)范式的快速发展,这个曾经喧嚣一时的观点现在已经少有人提,但数据对 AI 的重要性却不减反增,已然成为当前正在持续的「大模型大战」中最耀眼的元素之一。

为什么数据很重要?从本质上讲,当前几乎所有 AI 模型都依赖对数据中模式的学习,机器获得智能的过程很大程度上是对训练数据概率分布的建模与泛化。而随着我们进入了「​​AI 下半场​​」,数据库的发展范式也正从现有的「AI for DB」和「DB for AI」转向「Data×AI」,即数据与模型的一体化融合发展,同时「数据库」也正扩展成「数据底座」,即能够同时处理 OLTP、OLAP 和 AI 的混合负载的一体化引擎。这也是大模型真正落地、产生价值的基础。

正如 OceanBase CTO 杨传辉在 5 月 17 日的 OceanBase 2025 开发者大会上说的那样:「我认为在 AI 时代,我们需要的是一个一体化的数据底座,它的底层需要实现单机分布式一体化和云上云下一体化,用户需要一套统一支持 SQL、AP 和 AI 的数据库、数据底座。」这意味着,数据库系统正在从传统意义上的「存储介质」进化为 AI 运行的「地基」。 OceanBase 要做的正是「向一体化数据底座演进」。

为什么需要 Data×AI?

虽然「Scaling Law 撞墙论」宣称高质量数据即将耗尽,但实际上这里提到的高质量数据主要是指人类产生的易于获取的互联网数据。另一个方向上,随着生成式 AI 和新型数字化技术的发展,新生成的数据却正在日益暴增!IDC 预计,2028 年全球新生成数据量规模将达到惊人的 393.9 ZB—— 在 2024 年 147 ZB 的基础上还将以平均每年近 28% 的速度增长。如此海量的数据增长将给数据基础设施带来巨大的压力。不仅如此,多模态与非结构化数据爆发式增长、数据扩展性和碎片化等问题也在不断加剧。

这些问题综合起来,对底层基础设施的存储容量、架构扩展和实时分析能力提出了更高要求;也因此,数据库的稳健性与可扩展性已经成为 AI 应用成功的前提,正如数据科学界一句老话说的那样:「数据的边界决定模型的上限 」。如何高效、可靠地存储、管理和调用这些数据,成为 AI 基础设施能否支撑下一个十年的关键考验。可以说,数据在 AI 时代正面临着一场角色的重塑。

当然,这些需求也已经成为了相关领域发展的重要推动力。据 IDC 统计,2024 年全球大数据 IT 总投资规模约为 3540 亿美元,预计到 2028 年将增长至近 6440 亿美元。

「Data×AI」范式便是在这一背景中诞生的,传统意义上的 Data Infra(数据基础设施)概念正在走向升级:

Data Infra + AI → Data × AI Infra

也就是说,数据系统的作用不再只是为 AI 提供数据,而是本身也成为 AI 工作流程的一部分,与 AI 协同发展。

图片

通过数据与 AI 的一体化融合,「Data×AI」范式有望解决行业数据流通难、多模态数据处理难、质量评估难等诸多问题。

比如在行业数据方面,数据碎片化早已是普遍存在的老大难问题,尤其在金融、医疗、工业制造等复杂严谨的行业,数据不仅分散在不同业务系统中,还存在极强的结构异构性和组织粒度差异。数据汇集的难度远高于算法构建。垂类数据缺乏统一建模方式,导致即使拥有大模型能力,也难以完成语义理解与业务联通。很多企业所谓的「AI 能力不足」本质上是「数据层打不通」。

多模态数据处理难主要体现在数据融合和对齐的复杂性上。在实际应用中,文本、图像、音频、视频等不同类型的数据具有各自独特的结构和特性。例如,文本数据是线性的,图像数据是二维的,而音视频数据则是时序性的。将这些异构数据有效地融合在一起,要求系统具备强大的数据对齐和同步能力。此外,不同模态的数据在质量、密度和可用性方面可能存在显著差异,进一步增加了处理的复杂性。这些挑战使得多模态 AI 系统在实现高效、准确的决策支持方面面临严峻考验。

数据质量评估难则主要源于数据的多样性和动态性。在 AI 模型训练过程中,数据的准确性、完整性、一致性和时效性直接影响模型的性能。然而,随着数据来源的多元化和数据量的激增,传统的数据质量评估方法已难以满足需求。例如,自动化工具可能难以识别和纠正数据中的细微错误或偏差,尤其是在非结构化数据中。此外,数据的实时更新和变化也要求评估机制具备高度的灵活性和适应性。因此,建立高效、智能的数据质量评估体系,成为确保 AI 模型可靠性和有效性的关键。

这些问题的解决将成为 AI 真正实现大规模乃至普及化应用的重要基础,尤其是在金融、健康、生活、开发等一些核心应用场景中。

而已发展 15 年的 OceanBase 已在这些方面取得了长足的进步。作为一个一体化分布式数据库,OceanBase 已经具备了一定的 AI 时代数据处理能力,如分布式有效应对海量数据的存储计算、多模融合统一处理不同结构数据、 TP/AP 一体化实现混合事务和实时分析处理。但大模型落地产生价值的核心在于数据与模型的一体化融合,这也正是 OceanBase 提出的构建 Data×AI 能力的关键。基于此,OceanBase 正在向 AI 时代战略跃迁。

OceanBase 在 AI 时代的战略跃迁

从最初的工程一体化、多租户、多兼容模式,演进到 HTAP 工作负载一体化(混合事务/分析处理),再到单机分布式一体化、多模型、多数据接口,还有如今 Shared Nothing 和 Shared Storage 两种部署模式的一体化,以及面向未来多云基础设施的存算分离引擎,一体化理念一直是 OceanBase 产品迭代不断发展的核心。

图片

这种理念也切实地给 OceanBase 的发展带来了助益。自 2010 年开始投入研发以来,这款脱胎于蚂蚁集团的原生分布式数据库现已支付宝全部核心账务与核心支付系统,并连续十余年稳定支撑双 11,历经流量洪峰和稳定性考验。不仅如此,OceanBase 还是全球唯一接连打破「数据库世界杯」TPC-C 和 TPC-H 测试纪录的数据库,并已入选世界互联网领先科技奖。经过 15 年在海量核心场景中的持续深耕,OceanBase 已助力金融、政务、运营商、零售、互联网等多个行业的 2000 多家客户实现关键业务系统升级。

而现在,为了实现从一体化数据库向一体化数据底座(Data×AI)的演进,从去年 3 月开始独立运营的 OceanBase 一直在进行有针对性的创新研发。在 OceanBase 2025 开发者大会上,OceanBase CEO 杨冰总结了他们正在推进的四个大方向:

  1. 成为「知识底座」。企业要向智能化发展,必须要有一个更加贴合企业内部运行数据和领域知识的内部知识库,因此融合知识至关重要。为此,OceanBase 计划要做的包括增强向量能力、提升融合检索能力、实现企业知识存储体系的动态更新、深度整合模型后训练与微调。
  2. 打破「数据次元壁」。需要实现多模态的、不同形式和来源的数据的标量数据和向量数据的融合,为此还需要在数据存储的检索层上取得更多突破。
  3. 当 AI 的「靠谱参谋」。当前 AI 查询和引用的数据可能是不一致的或非实时的,甚至可能还是错误级的;为了解决这个问题,需要深度融合推理引擎和数据存储引擎。
  4. 做流量的「冲浪高手」。互联网上的流量存在明显的波峰和波谷,比如双 11 期间网购流量就会暴增。弹性地应对流量波动也非常关键。这是 OceanBase 的强项 —— 结合云的虚拟化的能力以及 OceanBase 的分布式的能力,并且深度适配这些训练以及推理的场景,可以最大化地挖掘这些数据的价值,同时获得最大的性价比。

会上,我们也看到了 OceanBase 在这些方向上的成果的一次集体展现。

首先来看一个现场跑分数据:OceanBase 在 VectorDBBench 上 的向量性能。通过现场测试 100 万条 768 维的数据并对比其它 3 款开源向量数据库,OceanBase 以领先的成绩证明了自己的实力。

图片

OceanBase 还在原有的向量索引 HNSW 的基础上引入的 BQ 量化算法 —— 可将向量数据的内存需求平均降低 95%!举个例子,假设有 2 亿条 1536 维的向量数据,如果直接存储到内存,要用 1.2 TB 的内存,但如果进行量化处理,则只需 58.6 GB 即可。而对于向量数据量特别大以至于无法完全放入内存乃至需要分布式存储的情况,也可以通过量化的方式达到极致的性能。

这种在性能、成本、稳定性、运维性等方面的优势使 OceanBase 非常适合作为生产系统进行部署。

在此基础上,OceanBase 还在不断获得新能力,比如其拥有非常丰富的数据模态支持 —— 不仅支持传统关键数据库里的标量(OLTP、OLAP),也支持支持 JSON、全文索引、向量、混合搜索。而且 OceanBase 针对向量与标量混合检索的能力进行了引领业内的优化。

在这些底层技术能力的基础上,针对大模型的数据检索问题,OceanBase 在此次开发者大会上专门发布了一款面向 AI 时代的开箱即用的 RAG 服务:PowerRAG。其将不同类似文档的识别、切分、嵌入以及放入向量数据库和写 LLM 提示词等工作都封装成了一个公有云服务。OceanBase CTO 杨传辉表示:「我们的 PowerRAG 已经达到了业界主流 RAG 应用的性能水平,它的准确率和召回率肯定好于开发者自己写的 RAG。」

图片

另外,OceanBase 也已经与业界主流的智能体(Agent)平台进行了很好的适配,包括 Dify、FastGPT、DB-GPT、LangChain 等。OceanBase 也已经实现了对 MCP 协议的支持。

图片

毫无疑问,OceanBase 正在全力拥抱 AI。

上个月,OceanBase 宣布 CTO 杨传辉担任 AI 战略一号位,全面统筹 AI 战略制定和技术产品落地。同时还宣布成立了 AI 平台与应用部并在原有的 OB 底层引擎团队里新成立了 AI 引擎组。

OceanBase 也对自己的「Data×AI 一体化数据底座」战略方向信心十足。在谈到「OceanBase 为什么行」时,除了 OceanBase 15 年坚持自主研发的过硬技术实力,CTO 杨传辉还给出了两大理由:

  1. Data×AI 一体化数据底座其实是 OceanBase 一体化数据库的延伸,它的核心在于能不能做好数据处理,只是数据处理的范围会有所拓展。
  2. AI 时代的应用大爆发给了 OceanBase 更大的机会,因为 AI 时代的应用会产生两个需求:更海量的数据和混合负载;而一体化和分布式刚好又是 OceanBase 的优势。

另外,相信「开源」也是这个问题的答案的重要组成部分。开源也是 OceanBase 2025 开发者大会上一个被重点强调的关键词。自 2021 年 6 月 1 号正式开源以来,OceanBase 已经成长为最流行的中国开源数据库之一 —— 已连续两年获得了「墨天轮」排名第一。杨传辉介绍说,OceanBase 的社区用户下载量已经突破了百万量级,并且集群的部署数量也已超过 5 万,增长还非常快 —— 年环比增长超过 400%。

图片

墨天轮排行榜当前前 10 名,可以看到 OceanBase 目前以显著优势位居第一,截图来自 modb.pro/dbRank

AI 带来的深刻变革已经开始显现,其核心的数据自然也是这场变革的重中之重,甚至可能「未来所有的数据公司都将成为 AI 公司」—— 正如蚂蚁集团 CTO 何征宇说的那样。在这场变革中,凭借「Data×AI」战略,我们或将看到 OceanBase 迎来自己的跃迁。

数据库正在成为一大关键变量

当大模型的参数增速趋缓、应用同质化竞争加剧,一场「回到底层」的产业反思已经开始。人们越来越清楚地意识到:模型能走多远,取决于它脚下的数据有多厚实。毕竟 AI 不是空中楼阁,需要坚实的数据地基。

OceanBase 的方向并不神秘:构建一个真正为 AI 而生的一体化数据底座。从 PowerRAG 到压缩和量化算法,从向量支持到多模态数据融合,OceanBase 正让数据库成为下一个关键变量。正如 OceanBase CEO 杨冰在 4 月底的全员信中说的那样:「谁能更好地解决 Data 和 AI 的融合,实现 Data×AI,谁就能成为 AI 时代的数据底座。」

是时候把注意力投向那些看似「传统」的地方了。因为真正能承载未来智能的,不是某个爆款应用,而是能够支撑千行百业、接住海量数据洪峰的下一代数据底座。

OceanBase 的路径并非孤例,背后是整个数据库行业正与 AI 协同演进的共同趋势。数据库,还将继续进化。

#Qwen3技术报告解读

深入解读了Qwen3模型的技术细节,涵盖了其独特的三阶段预训练流程、长链思维冷启动、推理强化学习等关键环节,以及如何通过创新的思维模式融合和奖励机制设计,提升模型的推理能力和多任务适应性。

1.三阶段预训练,先30万亿4096长度的通用训练,再5T的4096推理训练带衰减学习率,最后长文本32767训练。

2.长cot冷启动:qwq32b造数据,qwen72B+人工洗数据。

3.推理RL:选用无leak的多样性的难度适中的数据跑GRPO。

4.思维链开启和关闭:通过一个specitoken来在数据里传导,prompt加/think和/no_think标志,然后训练。混合着也学会了自动的短cot模式,很神奇。

5.RM设计:涵盖20多种不同任务,每个任务都有定制的评分标准,规则+模型(有无参考答案)。

6.蒸馏到小模型:logits蒸馏非数据蒸馏,效果更好。

整体流程:

图片

详细精炼版(去除评估部分)

预训练阶段Qwen3模型通过三个阶段进行预训练:

(1) 一般阶段 (S1) :在第一个预训练阶段,所有Qwen3模型在超过30万亿个标记上进行训练,序列长度为4,096个标记。在此阶段,模型已在语言能力和一般世界知识上完成全面预训练,训练数据覆盖119种语言和方言。

(2) 推理阶段 (S2) :为了进一步提高推理能力,我们通过增加STEM、编码、推理和合成数据的比例来优化这一阶段的预训练语料库。模型在序列长度为4,096个标记的情况下,进一步预训练了约5T的高质量标记。我们还加快了这一阶段的学习率衰减。

(3) 长文本阶段 :在最终的预训练阶段,我们收集高质量的长文本语料库,以扩展Qwen3模型的上下文长度。所有模型在数千亿个标记上进行预训练,序列长度为32,768个标记。长文本语料库包括75%的文本长度在16,384到32,768个标记之间,25%的文本长度在4,096到16,384个标记之间。根据Qwen2.5(Yang等,2024b),我们使用ABF技术(Xiong等,2023)将RoPE的基础频率从10,000提高到1,000,000。同时,我们引入YARN(Peng等,2023)和双块注意力(DCA,An等,2024),以在推理过程中实现序列长度容量的四倍增加。

与Qwen2.5(Yang等,2024b)类似,我们基于上述三个预训练阶段开发了最佳超参数(例如,学习率调度和批量大小)预测的缩放法则。通过广泛的实验,我们系统地研究了模型架构、训练数据、训练阶段与最佳训练超参数之间的关系。最后,我们为每个密集模型或MoE模型设定了预测的最佳学习率和批量大小策略。​

后训练阶段​

1 长链思维冷启动

我们首先整理一个涵盖广泛类别的综合数据集,包括数学、代码、逻辑推理和一般STEM问题。数据集中的每个问题都配有经过验证的参考答案或基于代码的测试用例。该数据集作为长链思维(long-CoT)训练的“冷启动”阶段的基础。

数据集构建涉及严格的两阶段过滤过程:query过滤和answer过滤。在query过滤阶段,我们使用Qwen2.5-72B-Instruct识别并移除那些不易验证的query。这包括包含多个子问题的query或请求生成一般文本的query。此外,我们排除那些Qwen2.5-72B-Instruct能够在不使用链式推理的情况下正确回答的query。这有助于防止模型依赖表面的猜测,并确保仅包含需要更深入推理的复杂问题。此外,我们使用Qwen2.5-72B-Instruct对每个query的领域进行注释,以保持数据集中领域表示的平衡。

在保留验证query集后,我们为每个剩余query生成N个候选answer,使用QwQ-32B(Qwen团队,2025年)。当QwQ-32B持续无法生成正确的解决方案时,人工评估员会手动评估answer的准确性。对于通过率为正的query,进一步严格的过滤标准被应用,以去除以下answer:(1) 产生错误的最终答案,(2) 包含大量重复,(3) 明显表明猜测而没有足够的推理,(4) 思考与总结内容之间存在不一致,(5) 涉及不当的语言混合或风格转变,或(6) 被怀疑与潜在验证集项目过于相似。随后,经过精心挑选的精炼数据集子集用于推理模式的初始冷启动训练。此阶段的目标是向模型灌输基础推理模式,而不过分强调即时推理性能。这种方法确保模型的潜力不受限制,从而在随后的强化学习(RL)阶段提供更大的灵活性和改进。为了有效实现这一目标,最好在这一准备阶段尽量减少训练样本和训练步骤的数量。​

2 推理强化学习

在推理强化学习阶段使用的 query-verifier对必须满足以下四个标准:(1) 在冷启动阶段未被使用。(2) 对于冷启动模型是可学习的。(3) 尽可能具有挑战性。(4) 涵盖广泛的子领域。我们最终收集了总共3,995个 query-verifier对,并采用GRPO(Shao等,2024)来更新模型参数。我们观察到,使用较大的批量大小和每个query较高的回合数,以及离线策略训练以提高样本效率,对训练过程是有益的。我们还解决了如何通过控制模型的熵来平衡探索与利用,以实现稳步增加或保持不变。​

3 思维模式融合

思维模式融合阶段的目标是将“非思维”能力整合到先前开发的“思维”模型中。这种方法使开发者能够管理和控制推理行为,同时降低了为思维和非思维任务部署单独模型的成本和复杂性。为此,我们对推理强化学习模型进行持续的监督微调,并设计一个聊天模板以融合这两种模式。此外,我们发现能够熟练处理这两种模式的模型在不同的思维预算下表现始终良好。

SFT数据的构建:SFT数据集结合了“思考”和“非思考”数据。为了确保第二阶段模型的性能不受额外SFT的影响,“思考”数据是通过对第一阶段query进行拒绝采样生成的,使用的是第二阶段模型本身。“非思考”数据则经过精心策划,以涵盖多样化的任务,包括编码、数学、遵循指令、多语言任务、创意写作、问答和角色扮演。此外,我们使用自动生成的检查清单来评估“非思考”数据的answer质量。为了提高低资源语言任务的表现,我们特别增加了翻译任务的比例。

聊天模板设计:为了更好地整合这两种模式并使用户能够动态切换模型的思维过程,我们为Qwen3设计了聊天模板,如表9所示。具体而言,对于思维模式和非思维模式的样本,我们在用户query或系统消息中分别引入​​/think​​​和​​/no_think​​​标志。这使得模型能够根据用户的输入选择相应的思维模式。对于非思维模式样本,我们在助手的answer中保留一个空的思维块。该设计确保了模型内部格式的一致性,并允许开发者通过在聊天模板中连接一个空的思维块来防止模型进行思考行为。默认情况下,模型在思维模式下运行;因此,我们添加了一些用户query不包含​​/think​​​标志的思维模式训练样本。对于更复杂的多轮对话,我们随机在用户的query中插入多个​​/think​​​和​​/no_think​​标志,模型的answer遵循最后遇到的标志。

思维预算:思维模式融合的一个额外优势是,一旦模型学会在非思维和思维模式下answer,它自然会发展出处理中间情况的能力——基于不完整思维生成answer。这一能力为实施对模型思维过程的预算控制奠定了基础。具体而言,当模型的思维长度达到用户定义的阈值时,我们手动停止思维过程并插入停止思维指令:“考虑到用户的时间有限,我必须直接基于思维给出解决方案。”插入此指令后,模型继续生成基于其到该时刻为止的累积推理的最终answer。值得注意的是,这一能力并不是通过明确训练获得的,而是作为应用思维模式融合的结果自然出现的。​

4 通用强化学习

通用强化学习阶段旨在广泛增强模型在多种场景下的能力和稳定性。为此,我们建立了一个复杂的奖励系统,涵盖20多种不同任务,每个任务都有定制的评分标准。这些任务特别针对以下核心能力的提升:

  • 指令遵循:该能力确保模型准确解读并遵循用户指令,包括与内容、格式、长度和结构化输出相关的要求,提供符合用户期望的answer。
  • 格式遵循:除了明确的指令外,我们期望模型遵循特定的格式约定。例如,它应适当地answer​​/think​​​和​​/no_think​​​标志,通过在思考和非思考模式之间切换,并始终使用指定的标记(例如,​​<think>​​​和​​</think>​​)来分隔最终输出中的思考和answer部分。
  • 偏好对齐:对于开放式query,偏好对齐侧重于提高模型的帮助性、参与度和风格,最终提供更自然和令人满意的用户体验。
  • 代理能力:这涉及训练模型通过指定接口正确调用工具。在强化学习的实施过程中,模型被允许进行完整的多轮交互周期,并获得真实环境执行反馈,从而提高其在长期决策任务中的表现和稳定性。
  • 专门场景的能力:在更专业的场景中,我们设计了针对特定上下文的任务。例如,在检索增强生成(RAG)任务中,我们引入奖励信号,引导模型生成准确且符合上下文的answer

SFT数据的构建:SFT数据集结合了“思考”和“非思考”数据。为了确保第二阶段模型的性能不受额外SFT的影响,“思考”数据是通过对第一阶段query进行拒绝采样生成的,使用的是第二阶段模型本身。“非思考”数据则经过精心策划,以涵盖多样化的任务,包括编码、数学、遵循指令、多语言任务、创意写作、问答和角色扮演。此外,我们使用自动生成的检查清单来评估“非思考”数据的answer质量。为了提高低资源语言任务的表现,我们特别增加了翻译任务的比例。

聊天模板设计:为了更好地整合这两种模式并使用户能够动态切换模型的思维过程,我们为Qwen3设计了聊天模板,如表9所示。具体而言,对于思维模式和非思维模式的样本,我们在用户query或系统消息中分别引入​​/think​​​和​​/no_think​​​标志。这使得模型能够根据用户的输入选择相应的思维模式。对于非思维模式样本,我们在助手的answer中保留一个空的思维块。该设计确保了模型内部格式的一致性,并允许开发者通过在聊天模板中连接一个空的思维块来防止模型进行思考行为。默认情况下,模型在思维模式下运行;因此,我们添加了一些用户query不包含​​/think​​​标志的思维模式训练样本。对于更复杂的多轮对话,我们随机在用户的query中插入多个​​/think​​​和​​/no_think​​标志,模型设计的answer遵循最后遇到的标志。

思维预算:思维模式融合的一个额外优势是,一旦模型学会在非思维和思维模式下answer,它自然会发展出处理中间情况的能力——基于不完整思维生成answer。这一能力为实施对模型思维过程的预算控制奠定了基础。具体而言,当模型的思维长度达到用户定义的阈值时,我们手动停止思维过程并插入停止思维指令:“考虑到用户的时间有限,我必须直接基于思维给出解决方案。”插入此指令后,模型继续生成基于其到该时刻为止的累积推理的最终answer。值得注意的是,这一能力并不是通过明确训练获得的,而是作为应用思维模式融合的结果自然出现的。​

5.REWARD设计

为了为上述任务提供反馈,我们利用了三种不同类型的奖励:

(1) 基于规则的奖励:基于规则的奖励在推理强化学习阶段被广泛使用,并且对一般任务如遵循指令(Lambert等,2024)和格式遵循也很有用。设计良好的基于规则的奖励可以高精度地评估模型输出的正确性,防止奖励操控等问题。

(2) 有参考基于模型的奖励与参考答案:在这种方法中,我们为每个query提供一个参考答案,并提示Qwen2.5-72B-Instruct根据该参考答案对模型的answer进行评分。这种方法允许更灵活地处理多样化的任务,而无需严格的格式,从而避免了纯规则奖励可能出现的假阴性。

(3) 无参考答案的基于模型的奖励:利用人类偏好数据,我们训练一个奖励模型,为模型answer分配标量分数。这种不依赖于参考答案的方法可以处理更广泛的query,同时有效提升模型的参与度和帮助性。​

6.强到弱的蒸馏

强到弱的蒸馏流程专门设计用于优化轻量级模型,包括5个密集模型(Qwen3-0.6B、1.7B、4B、8B和14B)和一个MoE模型(Qwen3-30B-A3B)。这种方法在有效传授强大的模式切换能力的同时,提升了模型性能。蒸馏过程分为两个主要阶段:

(1) 离线蒸馏:在这个初始阶段,我们结合了在​​/think​​​和​​/no_think​​模式下生成的教师模型的输出进行answer蒸馏。这有助于轻量级学生模型发展基本的推理能力和在不同思维模式之间切换的能力,为下一阶段的在线训练奠定坚实基础。

(2) 在线蒸馏:在这个阶段,学生模型生成在线序列进行微调。具体而言,采样提示,学生模型在​​/think​​​或​​/no_think​​模式下生成answer。然后,通过将其logits与教师模型(Qwen3-32B或Qwen3-235B-A22B)的logits对齐,微调学生模型以最小化KL散度。

#2025 zhongguo ESI 大学排名(496 所)

5月8日,科睿唯安公布了基本科学指标数据库(Essential Science Indicators,简称ESI)最新统计数据。

根据这次ESI数据,zhongguo大陆文章发表545万篇排名全球第一,文章被引9236万次排名全球第二,文章篇均被引16.95次。

ESI是基本科学指标数据库,用于衡量科学研究绩效、跟踪科学发展趋势的深度分析评价工具。目前为美国科睿唯安(Clarivate)公司所有,以 Web of Science(WoS)数据库收录的全球12,000余种期刊、超过1200万篇文章为基础建立而成,是当今世界范围内普遍用以评价高校、学术机构、国家/地区国际学术水平及影响力的重要评价指标工具之一。一般来说,进入ESI全球排名前百分之一的学科是优秀学科,前千分之一的学科是卓越学科,前万分之一的学科则是领先学科。

据悉,ESI每2个月公布一次,均为上一次数据的基础上增加2个月的数据,但是每年5月份会去除掉最旧一年的数据,也就是说这次公布的数据是一年中变化最大的一次。

各大高校中,中国科学院大学位列国际第11位,稳居内地高校第一。清华大学国际排名位居29位,位居国内高校第二位。位列国内高校第三位的是上海交通大学,目前国际排名34位。紧随其后的是浙江大学、北京大学,分别居于国际第35位、第40位。

共同构成国内高校前十阵容的,还有中山大学、华中科技大学、复旦大学、中国科学技术大学和中南大学,均位于国际排名前100名。入围国际排名前200的,还有四川大学、武汉大学、南京大学、西安交通大学、哈尔滨工业大学、山东大学、天津大学、同济大学、华南理工大学、吉林大学、郑州大学、东南大学和苏州大学等13所高校。

此外,有4所地方高校深圳大学、首都医科大学、江苏大学、南方医科大学入围内地高校TOP50。本次位居中国大陆高校ESI排名TOP200的多所高校取得明显的进步。其中成都大学进步最大,国际排名上升172个位次,位居国内第198位;桂林电子科技大学国际排名进步124个位次,位居国内第195位;贵州大学国际排名进步118个位次,位居国内第133位;长江大学国际排名进步117个位次,位居国内第192位。

根据最新的数据,与2025年3月相比,中国大陆高校万分之学科一共51个,中国大陆共有2所高校新增ESI前万分之一学科,分别为华南理工大学和中国药科大学。本月有130所内地高校的416个学科进入ESI前千分之一,23所高校共新增27个前1‰学科。

非“双一流”高校中,广东工业大学新增2个前1‰学科,大连工业大学、沈阳农业大学、中国医科大学、昆明理工大学各新增1个前1‰学科。本月共有54所高校共新增62个ESI前1%学科。其中,南方科技大学新增3个前1%学科,天津师范大学、南通大学、湖北大学、长沙理工大学、西华大学、西南医科大学各新增2个前1%学科,其余高校各新增1个前1%学科。

2025年5月全国高校ESI排名情况

(数据中,zhongguo地质大学、zhongguo石油大学、zhongguo矿业大学不区分两地办学,南昌工程学院、南昌理工学院因英文名字相同不区分)

#LaMMA-P

通用多机器人长时任务规划框架破解任务分配难题,成功率+105%、效率+36%

2025 年 5 月,美国加州大学河滨分校 (UC Riverside) 与宾夕法尼亚州立大学 (Penn State University) 联合团队在机器人领域顶级会议 ICRA 2025 上发布最新研究成果 LaMMA-P(Generalizable Multi-Agent Long-Horizon Task Allocation and Planning with LM-Driven PDDL Planner)。

LaMMA-P 首次将大型语言模型与 PDDL 规划器深度融合,解决了异构多机器人系统中长时任务的自动分解与分配难题,大幅提升多机器人协同规划的智能水平。该技术在全新基准数据集上经过大量模拟实验验证,相比现有最先进方法 SMART-LLM,任务成功率提高 105%,执行效率提升 36%,在复杂长程任务规划上取得了突破性进展,为异构多机器人协同完成复杂任务提供了全新解决方案。

论文标题: LaMMA-P: Generalizable Multi-Agent Long-Horizon Task Allocation and Planning with LM-Driven PDDL Planner

论文链接: https://arxiv.org/abs/2409.20560 

项目主页: https://lamma-p.github.io

代码开源: https://github.com/tasl-lab/LaMMA-P

技术亮点:语言模型与经典规划算法融合,支撑通用异构多机器人长时协同任务

面对复杂长时任务和异构多机器人系统,LaMMA-P 首创性地将大语言模型的语义理解能力与 PDDL 规划器的严谨性结合,不仅解决了传统方法在任务分解和资源分配上的瓶颈,还显著提升了任务成功率与执行效率。通过全面开源的代码与 MAT-THOR 基准数据集,LaMMA-P 为多机器人协同规划开辟了新的技术路径:

  1. 大模型驱动的 PDDL 规划框架:提出将大型语言模型 (Large Language Model, LLM) 的强大任务理解和推理能力与经典规划领域定义语言 (Planning Domain Definition Language, PDDL) 规划器相结合的新框架。利用 LLM 将人类指令转化为高层任务描述,再由 PDDL 规划器进行严谨的子任务搜索和规划,实现对长时复杂任务的自动分解与分配。该方法融合了学习式推理与启发式搜索的优势,既能理解复杂自然语言指令,又能提供可靠高效的规划方案。
  2. 模块化设计与强泛化能力:LaMMA-P 采用模块化架构,将大型语言模型、PDDL 规划系统与仿真环境无缝集成。通过模块间清晰的接口,系统可根据不同机器人技能灵活分解任务并高效分配子任务。该框架支持任意数量的机器人参与,同一套算法无需修改即可扩展到更多机器人协作场景,体现出优异的泛化能力。在不同家庭任务、不同机器人组合下,LaMMA-P 都能产出有效的协同计划,表现出对任务种类和团队规模的强适应性。
  3. 新基准数据集与性能超越:构建了全新的多智能体长时任务模拟基准 MAT-THOR,基于 AI2-THOR 仿真环境设计家庭场景下的复杂协同任务(包含简单复合任务和高复杂任务两种级别)。该数据集为多机器人长程任务规划提供了标准评测平台。实验结果显示,LaMMA-P 在 MAT-THOR 基准上取得了当前最优成绩:相较于最新的大模型多机器人规划方案 SMART-LLM,LaMMA-P 的任务完成成功率提高了 105%,效率提升了 36%,在长时任务的成功执行率和执行速度两方面均大幅领先现有方法。

一.研究背景

随着多机器人系统在搜救、仓储、家庭服务等场景中日益普及,让多台异构机器人协同执行复杂任务成为机器人领域的重要课题。在现实应用中,长时任务通常需要被分解为一系列关联的子任务,并合理分配给具备不同能力的机器人个体协同完成。例如家庭助理机器人需要合作完成 “整理房间” 这样的复杂指令,其中包含搬运物品、清洁、整理等多个步骤。然而,长时任务的自动分解与多机器人分工极具挑战:如何让机器人队伍理解人类的高层意图,将其细化为可执行的子任务清单,并根据每台机器人的能力进行最佳分配,是当前智能体协作面临的难点。

传统的多机器人任务规划方法往往依赖预先定义的规则或启发式算法,在任务规模和复杂度较小时尚能奏效,但面对具有长时间跨度、复杂依赖关系的任务时往往力不从心。这类方法缺乏对自然语言指令语义的深入理解,难以及时调整规划来应对动态环境和任务变化。此外,基于大型语言模型的机器人任务规划虽然在单机器人的简单任务上取得了一定进展,但在多机器人协同的长程任务上依然存在成功率低、效率差、难以泛化等问题。为了解决上述瓶颈,研究人员开始探索将新兴的大语言模型与经典人工智能规划技术相结合,试图兼顾两者优势来提升多机器人系统的自主协同能力。LaMMA-P 正是在这样的背景下应运而生。

二.研究方法

大型语言模型和启发式搜索规划器共同驱动的多机器人规划框架

图片

面对异构多机器人长时任务规划难题,LaMMA-P 提出了融合大型语言模型与 PDDL 规划的创新框架。首先,系统利用大语言模型强大的推理与文本解析能力来理解复杂的自然语言指令,从中抽取高层任务目标和约束,并生成初步的任务分解方案。接着,LaMMA-P 将任务分解结果转换为形式化的 PDDL 表述,由经典规划器执行全局搜索与最优子任务规划,找出满足约束的最优执行序列和分配方案。在这个过程中,大语言模型负责语义理解和高层决策,PDDL 规划器保证了规划结果的严谨性和完备性。通过人机指令理解和形式规划求解的结合,LaMMA-P 实现了对长时任务既能清楚理解又能精确计算。

整个框架采用模块化设计,包括指令解析模块、任务规划模块、执行仿真模块等。指令解析模块由预训练的大型语言模型实现,输出任务结构图和初步分配建议;任务规划模块基于 PDDL,通过迭代深化搜索得到任务分配的具体行动序列;执行模块在仿真环境中验证并反馈执行结果用于可能的调整。各模块解耦的设计使得增加机器人数量或更改任务类型时无需更改框架主体逻辑,只需调整相应的任务描述和机器人能力配置,体现出高度的灵活性和通用性。

三.实验结果

性能全面超越现有方案

研究团队构建了 MAT-THOR 数据集来评估 LaMMA-P 的有效性。MAT-THOR 基准涵盖了在家庭场景下多机器人协作完成长时任务的多种情况,包括简单的顺序任务和复杂的并行任务,模拟真实家庭环境中的多样挑战。实验在不同数量机器人(包括 2 台及更多)和不同任务复杂度组合下进行,并将 LaMMA-P 与当前最新的多机器人任务规划方法 SMART-LLM 进行了对比。实验从性能对比、模块消融和可视化分析三个方面系统展示了 LaMMA-P 的优势。

1. 性能对比

LaMMA-P 在任务成功率、效率以及机器人利用率等多个核心指标上均大幅领先当前最优方法 SMART-LLM (GPT-4o):

图片

关键发现:

  • 长时任务成功率提升显著:在 Compound 任务中,成功率提升至 93%(领先 23%)。Complex 任务中,成功率提升至 77%(领先 57%)。在 Vague Command 任务中,成功率达到 45%,而现有方法完全失败。
  • 效率与机器人利用率全面提升:执行效率(Eff)在三类任务中分别提升 26% ~ 48%。机器人利用率(RU)在 Complex 任务中提升 22%,显著优化多机器人协作调度。执行动作可行性(Exe)达到 100%,保证任务分配后每一步都能顺利完成。
  • 复杂任务中优势更加突出:随着任务复杂度增加,LaMMA-P 优势愈发明显,表现出卓越的泛化和推理能力。Vague Command 场景中唯一能够成功完成任务的方法,展现强大的自然语言理解和模糊指令解析能力。

2. 模块消融分析

通过消融不同模块,验证了 LaMMA-P 各模块对整体性能的关键贡献:

图片

关键发现:

  • Precondition Identifier (P) 模块显著提升规划成功率:移除 P 模块后,Compound 任务成功率下降 14%,Complex 任务下降 9%。P 模块帮助模型更好解析先决条件,提高子任务合理性和计划成功率。
  • PDDL Validator (V) 和 Problem Generator (G) 提高执行可靠性:去除 V 和 G 后,Complex 任务执行率下降至 87%(相比完整系统的 100%)。V 模块确保生成的 PDDL 问题格式正确,有效避免因不合规计划导致的失败。
  • 完整模块组合带来最优性能:包含全部模块的 LaMMA-P 实现最佳效果,Compound 任务成功率高达 93%,Complex 任务成功率达 77%。整体效率(Eff)提升最明显,表明完整系统能够优化任务分解、资源调度与计划执行的全流程。

3. 可视化分析

通过 AI2-THOR 仿真环境可视化展示,直观体现 LaMMA-P 优化的任务规划效果:

图片

关键发现:

  • 并行与顺序任务合理调度:在 Compound 任务中,多个机器人基于自身能力并行执行不同子任务,提高整体任务完成速度。通过智能顺序安排,避免因场景拥堵或任务冲突导致的执行延迟。
  • 复杂依赖关系下的精准协作:在 Complex 任务中,机器人能够合理等待必要条件满足(如等待抽屉被打开),体现对任务先后约束的精准把控。有效减少无效等待和重复移动,提高机器人整体利用率。

四.总结与展望

多机器人协同规划新范式

LaMMA-P 的提出为多机器人长时任务协同规划提供了全新的思路:它成功地将大模型的智能推理与经典 PDDL 规划有机结合,弥补了各自的短板,显著提升了复杂任务的自动化程度和执行可靠性。这一成果标志着异构多机器人自主协作迈出了关键一步。在未来工作中,研究团队计划进一步探索端到端的优化(例如使语言模型与规划器联结形成可微分闭环),以及引入多模态感知信息(如视觉、语音)来丰富指令理解,不断提升系统在真实环境中的适应性和鲁棒性。随着代码、数据集和交互式演示的开源发布,更多研究者和开发者可以基于 LaMMA-P 框架进行拓展创新,加速多机器人协同领域的技术演进。可以预见,LaMMA-P 所代表的 “大模型驱动规划” 新范式有望在未来走出实验室,应用到智能制造、家庭服务等众多场景,推动多机器人系统朝着更加高效、智能的方向发展。

#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值