51c大模型~合集122

whaosoft-143

已于 2025-05-01 12:06:23 修改

阅读量920

点赞数 26

分类专栏：人工智能文章标签：人工智能

于 2025-04-28 22:34:08 首次发布

本文链接：https://blog.csdn.net/weixin_49587977/article/details/147597036

版权

人工智能专栏收录该内容

332 篇文章

订阅专栏

我自己的原文哦~ https://blog.51cto.com/whaosoft/13877107

#PHYBench

北大物院200人合作，金牌得主超50人！PHYBench：大模型究竟能不能真的懂物理？

本项目由北京大学物理学院朱华星老师、曹庆宏副院长统筹指导。基准设计、项目管理以及数据整合的主要工作由学生核心团队完成，核心成员包括仇是、郭绍阳、宋卓洋、孙韫博、蔡则宇、卫家燊、罗天宇等。项目还得到了北京大学计算中心罗民兴院士和人工智能研究院张牧涵老师的鼎力支持。

PHYBench 项目汇聚了来自物理学院及兄弟院系的 200 余名学生，共同承担题目编写、审核及人类基准测试等工作。这支高水平的参与者团队中，包含至少 50 位全国中学生物理竞赛金牌得主，更有亚洲物理奥赛和国际物理奥赛的金牌获得者。这场大规模、高质量的协作，不仅充分展现了北大学子深厚的学术功底和卓越的组织协调能力，也为 PHYBench 产出高质量成果提供了坚实保障。

在大语言模型（LLMs）飞速发展的当下，模型的推理能力俨然成为模型能力的代名词。OpenAI 的 o 系列、DeepSeek R1 等前沿模型相继发布，这些大模型凭借强化学习技术的助力，在许多科学评测基准上频频刷新纪录，甚至声称 “超越人类专家”。

但是，随着模型能力和评测基准的军备竞赛白热化，越来越多的基准不得不转向生僻的知识点、或者抽象的数学竞赛题。这些题目虽然能 “区分” 模型，但是逐渐脱离实际场景，可能难以真正反映模型的实际表现。

近日，北京大学物理学院联合人工智能研究院等多个院系，推出了全新评测基准 PHYBench。PHYBench 包含 500 道经过精心设计的高质量物理题（如图 1），难度横跨高中物理、大学物理以及物理奥林匹克竞赛。这些题目以真实的物理场景为基础，对人类来说并不抽象，却把一众大模型考得七零八落。大模型在解决物理题时的思维链也暴露了它们在感知（Perception）和推理（Reasoning）能力上的缺陷。

论文链接：https://arxiv.org/abs/2504.16074
项目网址：https://phybench-official.github.io/phybench-demo/
数据集：https://huggingface.co/datasets/Eureka-Lab/PHYBench

也许，物理才是最适合考察 AI 推理能力的学科？PHYBench 的尝试为评估大模型真正有效的推理能力提供了全新的工具和视角。

图 1：题目样例与两种评估方法：表达式树编辑距离、正确率。

表 1：与现有 benchmark 对比，PHYBench 在高难度数据集中，有着相对大的规模，同时引入了创新的分数度量：表达式树编辑距离。

评测方法创新

表达式树编辑距离（EED Score）

传统基准通常依赖 Accuracy 这一单一指标：设置唯一正确答案，模型只有在完全匹配时才能得分。为了方便评分，问答题通常被改写成选择题或要求代入数值。这样会导致答案的信息量被严重压缩，而且给出过多条件可能导致模型 “根据选项猜过程”，或者缺乏使用解析表达式表达普适关系的能力。同时在高难度的样本上，0/1 打分会使得所有模型在分数层面都被归零，强弱差异无从体现。

EED Score（Expression‑tree Edit Distance）带来了更贴近人类阅卷的方案。它将数学表达式解析成表达式树，再计算模型答案与参考答案之间的编辑距离：树的结构越接近，得分越高。这一机制输出的是连续、细粒度的分数，能在更多题目上显示区分度，显著提高了统计效力。

实验表明，采用 EED Score 的 500 题，其区分能力相当于 1500 道使用 0/1 Accuracy 的题目。上图（图 1）展示了同一道题三种不同答案在 Accuracy 与 EED Score 下的对比：前者只能给出 “全错 / 全对” 的粗糙评价，而后者则定量刻画了模型解答与正确答案之间的 “距离”。

实验结果

前沿模型与人类专家的差距

PHYBench 团队招募了 81 名北大学子，在 3 小时时限内做 8 道题目，与最先进的 AI 模型展开了一场 "人机大战"。

结果显示，即使是最强的 Gemini 2.5 pro，也只能答对 36.9% 的题目，EED 评分 49.5%。而 “人类专家” 们则轻松碾压，平均正确率高达 61.9%，EED 评分高达 70.5%。排名前 25% 的受试者更是达到了 71.4% 的正确率 —— 几乎是最强 AI 的两倍。其他模型与人类的差距则更为显著。这一显著差距揭示了现阶段 LLM 在在物理推理场景中的瓶颈。

PHYBench 对模型的能力也进行了细粒度的对比。可以看到，Gemini 2.5 pro、o3 等强推理模型虽然和人类还有较大差距，但是相比前代推理模型已经有了明显的进步。DeepSeek-V3 等基座模型虽未能超越主流推理模型，但也展现出了亮眼的成绩。QwQ-32B 和 DeepSeek32B 蒸馏模型等小型推理模型在 PHYBench 上的表现很令人失望，这可能归因于其物理感知能力的不足。

基于思维链的错因分析：PP × RR

PHYBench 团队对模型的错误进行了系统性总结分析，将模型的推理过程和推理能力划分为了两个关键模块：物理感知（Physical Perception，PP）和鲁棒推理（Robust Reasoning，RR）：

物理感知（PP）：在此阶段，模型进行密集的文字推理，模型需要识别问题相关的物理对象、变量和动力学关系，定性判断哪些物理效应是重要的，哪些可以忽略不计。若 PP 出错，后续整个推理都会偏离轨道。（示例 1 展示典型 PP 失误）
鲁棒推理（RR）：在此阶段，模型写下大量的 “草稿”，一步步化简表达式，解方程。现阶段的推理模型在此阶段的推理效率尚不高，“草稿” 长度远长于人类，而且经常犯 “低级错误”。（示例 2 展示典型 RR 失误）

PP 和 RR 交替进行，组成了典型的物理解题思维链。

未来展望

推动 AI 的物理理解与推理能力发展

PHYBench 的愿景远不止于 “评测”，更在于 “引领” AI 探索物理世界的无限可能。

PHYBench 的发布，不仅为评估大语言模型在物理感知与推理方面的能力提供了一个全新且权威的基准，更为未来 AI 系统的发展指明了攻坚方向。我们精心设计的真实、复杂的物理场景，旨在深度激发并验证 AI 理解世界并进行可靠推理的能力，推动 AI 系统真正实现对世界的认知、融入与变革。

面向未来，PHYBench 团队将持续致力于数据集的拓展与创新，计划纳入更多前沿物理课题、跨学科交叉内容，甚至挑战人类尚未解开的科学谜题。我们相信，通过提供更具深度和广度的物理挑战，PHYBench 将有力催化 AI 向着突破认知边界、探索未知领域的 “智能伙伴” 或 “超级助手” 发展。

#DIFF Transformer

差分注意力机制引领变革，DIFF Transformer攻克长序列建模难题

近年来，Transformer 架构在自然语言处理领域取得了巨大成功，从机器翻译到文本生成，其强大的建模能力为语言理解与生成带来了前所未有的突破。

然而，随着模型规模的不断扩大和应用场景的日益复杂，传统 Transformer 架构逐渐暴露出缺陷，尤其是在处理长文本、关键信息检索以及对抗幻觉等任务时，Transformer 常常因过度关注无关上下文而陷入困境，导致模型表现受限。

为攻克这一难题，来自微软和清华的研究团队提出了 DIFF Transformer，一种基于差分注意力机制的创新基础模型架构。

论文标题：Differential Transformer
论文链接：https://openreview.net/pdf?id=OvoCm1gGhN
代码链接：https://aka.ms/Diff-Transformer

其核心思想是通过计算两组 Softmax 注意力图的差值来放大对关键上下文的关注，同时消除注意力噪声干扰。DIFF Transformer 具备以下显著优势：

在语言建模任务中，DIFF Transformer 在模型大小、训练 token 数量等方面展现出了卓越的可扩展性，仅需约 65% 的模型规模或训练 token 数量即可达到与传统 Transformer 相当的性能，大幅提升了语言模型通用表现。

在长文本建模、关键信息检索、数学推理、对抗幻觉、上下文学习、模型激活值量化等一系列任务中，DIFF Transformer 展现了独特优势，相比传统 Transformer 有显著提升。

DIFF Transformer 的特性使其在自然语言处理领域具有广阔的应用前景，有望成为推动语言模型发展的新动力。此外，已有跟进研究初步验证方法在视觉、多模态等领域中的有效性，显示出其跨模态通用的潜力。该研究已被 ICLR 2025 接收，并获选为 Oral 论文（入选比例 1.8%）。

方法

本文提出了一种名为 Differential Transformer（DIFF Transformer）的基础模型架构，旨在解决传统 Transformer 在长文本建模中对无关上下文过度分配注意力的问题。该方法通过差分注意力机制（Differential Attention）放大对关键上下文的关注，同时消除注意力噪声，从而显著提升模型在多种任务中的性能。

差分注意力机制

传统 Transformer 的注意力机制通过 Softmax 函数对输入序列中的不同 token 进行加权，但 Softmax 的性质导致模型难以完全消除无关上下文的影响。为了克服这一问题，DIFF Transformer 引入了差分注意力机制。

具体而言，该机制将查询向量（Query）和键向量（Key）在注意力头（Head）维度分为两组，分别计算两组的 Softmax 注意力图，然后计算两者的差值作为最终的注意力分数。这一设计类似于电子工程中的差分放大器，以及降噪耳机，通过两组信号相减以消除共有噪声。

差分注意力的数学表达如下：

其中，

和

分别是两组查询和键向量，

是值向量，

是一个可学习的标量参数，用于调节两组注意力图的权重。计算过程如图 1 所示。

图 1. 差分注意力机制图示与伪代码

为了同步学习速率，将

重参数化为：

其中，

是可学习的向量，而

是用于初始化的常数。

多头差分注意力

为了进一步提升模型的表达能力，DIFF Transformer 采用了多头机制。每个注意力头独立计算差分注意力，并将多头输出拼接为最终结果。具体实现如下：

其中

是注意力头的数量，

是输出投影矩阵。为了保持与 Transformer 梯度一致，DIFF Transformer 在每个头的输出后应用了独立的归一化层，采用 RMSNorm 实现。

图 2. Transformer 与 DIFF Transformer 注意力分数分布可视化

图 2 展示了 DIFF Transformer 和传统 Transformer 在注意力分数分配上的显著差异。作者将一段关键信息插入大段不相关文本的中间位置，并对模型抽取关键信息时的注意力分数分配进行可视化。

传统 Transformer 的注意力分数被广泛分配到整个上下文中，只有极少分数分配至关键信息；而 DIFF Transformer 能够将更高的分数集中在目标答案上，并且几乎不向无关上下文分配注意力。

注意力分数分配的稀疏性与精准性也使得 DIFF Transformer 在处理长文本关键信息检索任务时显著优于 Transformer。

实验

作者通过一系列实验验证了 DIFF Transformer 在多个方面的卓越性能，证明了其在大语言模型中应用的独特潜力与优势。

语言建模

作者研究了 DIFF Transformer 在扩展模型规模和训练数据量时的性能，如图 3 所示。实验表明，DIFF Transformer 仅需约 65% 的参数规模或训练数据量即可达到与 Transformer 相当的语言建模性能。例如，6.8B 参数规模的 DIFF Transformer 在语言建模损失上与 11B 参数规模的 Transformer 相当。

图 3. 语言建模上的模型参数、训练数据量可扩展性实验

长文本建模

作者将模型扩展到 64K 上下文长度，并在长文本书籍数据上进行了评估。结果显示，考虑累积平均负对数似然（NLL）指标， DIFF Transformer 在不同序列位置上均优于 Transformer，能够更有效地利用长上下文信息。

图 4. 长文本书籍数据模型性能评估

关键信息检索

作者通过「多针检索」（Multi-Needle Retrieval）实验评估了模型从大量上下文中提取关键信息的能力，如图 5 所示。实验表明，DIFF Transformer 在不同上下文长度和答案深度下均表现出更高的准确率，尤其是在文本较长以及答案位于文本更靠前位置时，优势更为明显。例如，在 64K 上下文中，DIFF Transformer 在答案位于 25% 深度时的准确率比 Transformer 高出 76%。此外，统计信息显示，DIFF Transformer 在注意力分数分配上也表现出更高的聚焦能力，能够准确定位关键信息，并展现了更高的信噪比。

图 5. 多针检索评估

上下文学习

作者从两个角度评估了 DIFF Transformer 的上下文学习能力：多样本上下文学习和样本顺序鲁棒性测试。如图 6 所示，在多样本上下文学习任务中，作者使用了 4 个不同的数据集（TREC、TREC-fine、Banking-77 和 Clinic-150），并逐步增加示例数量，直到总长度达到 64K tokens。结果显示，DIFF Transformer 在不同数据集上均优于 Transformer，平均准确率提升显著。

图 6. 多样本上下文学习

在鲁棒性测试中，作者通过打乱示例顺序的方式评估了模型的性能稳定性。如图 7 所示，DIFF Transformer 在不同示例排列下的性能方差显著低于 Transformer，表明其对输入顺序的敏感性更低，具有更强的鲁棒性。

图 7. 样本顺序鲁棒性测试

幻觉评测

作者利用文本摘要和问答任务作为两个典型的幻觉评测场景，评估了 DIFF Transformer 在降低大模型幻觉（hallucination）方面的表现。结果如图 8 所示，DIFF Transformer 在生成摘要和回答问题时显著提升了准确率，减少了幻觉现象。这是因为差分注意力机制能够准确定位重要文段，避免无关上下文对模型预测的干扰。

图 8. 利用文本摘要、问答任务进行幻觉评测

异常激活值分析

作者还发现 DIFF Transformer 能够显著减少模型激活中的异常值，这为模型激活值的量化提供了新的可能性。实验表明，DIFF Transformer 在注意力激活值（attention logits）和隐藏状态（hidden states）中的最大激活值显著低于 Transformer。例如，在注意力激活值的 Top-1 激活值上，DIFF Transformer 比 Transformer 低了近 8 倍。利用这一性质，DIFF Transformer 在注意力激活值的低比特量化下的性能也优于 Transformer，如图 9 所示。

图 9. 注意力激活值的低比特量化

数学推理能力

作者在数学推理任务上进一步验证了 DIFF Transformer 的性能。作者采用两阶段训练，在 3B 预训练模型的基础上进行有监督微调，并在 MATH 等 8 个数学数据集上评测模型性能。在第一阶段，采用 20B token 合成数学数据对模型进行微调，使模型获得基础数学能力，评测结果如图 10 所示。从 15B token 开始，DIFF Transformer 展现出了显著优于 Transformer 的数学能力，至 20B token 结束的时候，准确率的差距达到了 11% 左右。

图 10. 第一阶段数学合成数据微调

在第二阶段，作者利用 Deepseek-R1 输出所构造的数据集 OpenThoughts-114K-Math 对模型进行蒸馏，使模型更强大的深度推理能力。如图 11 所示，在 8 个数据集上，DIFF Transformer 相较 Transformer 均有不同程度的提升，平均准确率提升了 7.5%，这表明差分注意力机制更强大的上下文建模能力在推理任务中也至关重要。

图 11. 第二阶段深度推理能力评测

讨论与未来工作

DIFF Transformer 自发布以来获得了较大关注与讨论。作者在 Hugging Face 论文讨论平台、alphaXiv 平台上与社区开展了深入的探讨。在 X 平台（原 Twitter）上，Google DeepMind 高级研究科学家（Senior Staff Research Scientist）Petar Veličković 与作者就文章中的理论分析展开讨论，ViT 核心作者 Lucas Beyer 也在阅读文章后撰写了一篇深入的论文总结，相关发帖已获得数十万浏览。目前 DIFF Transformer 也已集成至 Hugging Face 的 transformers 库中。

Hugging Face：https://huggingface.co/papers/2410.05258
alphaXiv：https://www.alphaxiv.org/abs/2410.05258v1
Petar Veličković：https://x.com/PetarV_93/status/1874820028975267866
Lucas Beyer：https://x.com/giffmana/status/1873869654252544079
transformers库：https://github.com/huggingface/transformers/tree/main/src/transformers/models/diffllama

未来工作方面，作者认为可以利用 DIFF Transformer 的性质设计低比特注意力算子，以及利用差分注意力的稀疏特性进行键值缓存（key-value cache）的剪枝。此外，将 DIFF Transformer 应用在除语言以外的其他模态上也值得探索。近期工作 DiffCLIP 将差分注意力扩展至视觉、多模态领域，揭示了 DIFF Transformer 在不同模态任务中的更多结构特性与应用潜力。

DiffCLIP：https://arxiv.org/abs/2503.06626

总结

本文的贡献主要在两个方面：

（1）DIFF Transformer 通过创新的差分注意力机制，有效解决了传统 Transformer 在处理文本时受到噪声干扰、注意力分配不准确的问题；

（2）凭借对关键信息的关注和对噪声的抵御能力，DIFF Transformer 在语言建模、长文本建模、关键信息检索、数学推理、对抗幻觉、上下文学习、模型激活值量化等任务中表现出色，有望在自然语言处理、多模态等领域作为基础模型架构。

#LLM 工程师工具箱

120+大模型库全攻略！

为大语言模型（LLM）开发者整理了超过120个相关库，并按训练、推理、应用开发等14个类别进行分类，涵盖从数据提取到安全评估的全方位工具，助力开发者高效筛选和利用资源。

在大语言模型（LLM）迅速发展的今天，开发者们面临着海量的资源和工具选择。如何高效地筛选和利用这些资源，成为了每一个 LLM 开发者的关键任务。 今天，我们要介绍的 GitHub 仓库——LLM Engineer Toolkit，或许能成为你的得力助手！

https://github.com/KalyanKS-NLP/llm-engineer-toolkit

这个由 KalyanKS-NLP 创建的仓库，精心整理了超过 120 个 LLM 相关的库，并按照类别进行了分类。无论是训练、推理、应用开发，还是数据提取、安全评估，你都能在这里找到对应的工具。

大模型工具划分

🚀 LLM Training：专注于 LLM 训练和微调的工具，帮助你更快、更高效地优化模型。
🧱 LLM Application Development：从框架到多 API 接入，再到缓存和低代码开发，为应用开发提供全方位支持。
🩸 LLM RAG：Retrieval-Augmented Generation（检索增强生成）相关的库，提升模型的知识检索能力。
🟩 LLM Inference：推理加速和优化工具，让模型运行更流畅。
🚧 LLM Serving：模型部署和推理服务的解决方案。
📤 LLM Data Extraction：数据提取工具，帮助你从各种来源获取高质量数据。
🌠 LLM Data Generation：生成合成数据，丰富你的训练集。
💎 LLM Agents：构建智能代理，实现自动化任务和多代理协作。
⚖️ LLM Evaluation：评估工具，确保模型性能达到预期。
🔍 LLM Monitoring：监控模型运行状态，及时发现并解决问题。
📅 LLM Prompts：优化和管理提示词，提升模型输出质量。
📝 LLM Structured Outputs：生成结构化输出，让模型结果更易用。
🛑 LLM Safety and Security：保障模型的安全性和可靠性。
💠 LLM Embedding Models：提供先进的文本嵌入模型。
❇️ Others：其他实用工具，涵盖更多开发场景。

LLM Training and Fine-Tuning

Library	Description
unsloth	Fine-tune LLMs faster with less memory.
PEFT	State-of-the-art Parameter-Efficient Fine-Tuning library.
TRL	Train transformer language models with reinforcement learning.
Transformers	Transformers provides thousands of pretrained models to perform tasks on different modalities such as text, vision, and audio.
Axolotl	Tool designed to streamline post-training for various AI models.
LLMBox	A comprehensive library for implementing LLMs, including a unified training pipeline and comprehensive model evaluation.
LitGPT	Train and fine-tune LLM lightning fast.
Mergoo	A library for easily merging multiple LLM experts, and efficiently train the merged LLM.
Llama-Factory	Easy and efficient LLM fine-tuning.
Ludwig	Low-code framework for building custom LLMs, neural networks, and other AI models.
Txtinstruct	A framework for training instruction-tuned models.
Lamini	An integrated LLM inference and tuning platform.
XTuring	xTuring provides fast, efficient and simple fine-tuning of open-source LLMs, such as Mistral, LLaMA, GPT-J, and more.
RL4LMs	A modular RL library to fine-tune language models to human preferences.
DeepSpeed	DeepSpeed is a deep learning optimization library that makes distributed training and inference easy, efficient, and effective.
torchtune	A PyTorch-native library specifically designed for fine-tuning LLMs.
PyTorch Lightning	A library that offers a high-level interface for pretraining and fine-tuning LLMs.

LLM Application DevelopmentFrameworks

Library	Description
LangChain	LangChain is a framework for developing applications powered by large language models (LLMs).
Llama Index	LlamaIndex is a data framework for your LLM applications.
HayStack	Haystack is an end-to-end LLM framework that allows you to build applications powered by LLMs, Transformer models, vector search and more.
Prompt flow	A suite of development tools designed to streamline the end-to-end development cycle of LLM-based AI applications.
Griptape	A modular Python framework for building AI-powered applications.
Weave	Weave is a toolkit for developing Generative AI applications.
Llama Stack	Build Llama Apps.

Data Preparation

Library	Description
Data Prep Kit	Data Prep Kit accelerates unstructured data preparation for LLM app developers. Developers can use Data Prep Kit to cleanse, transform, and enrich use case-specific unstructured data to pre-train LLMs, fine-tune LLMs, instruct-tune LLMs, or build RAG applications.

Multi API Access

Library	Description
LiteLLM	Library to call 100+ LLM APIs in OpenAI format.
AI Gateway	A Blazing Fast AI Gateway with integrated Guardrails. Route to 200+ LLMs, 50+ AI Guardrails with 1 fast & friendly API.

Routers

Library	Description
RouteLLM	Framework for serving and evaluating LLM routers - save LLM costs without compromising quality. Drop-in replacement for OpenAI's client to route simpler queries to cheaper models.

Memory

Library	Description
mem0	The Memory layer for your AI apps.
Memoripy	An AI memory layer with short- and long-term storage, semantic clustering, and optional memory decay for context-aware applications.
Letta (MemGPT)	An open-source framework for building stateful LLM applications with advanced reasoning capabilities and transparent long-term memory
Memobase	A user profile-based memory system designed to bring long-term user memory to your Generative AI applications.

Interface

Library	Description
Streamlit	A faster way to build and share data apps. Streamlit lets you transform Python scripts into interactive web apps in minutes
Gradio	Build and share delightful machine learning apps, all in Python.
AI SDK UI	Build chat and generative user interfaces.
AI-Gradio	Create AI apps powered by various AI providers.
Simpleaichat	Python package for easily interfacing with chat apps, with robust features and minimal code complexity.
Chainlit	Build production-ready Conversational AI applications in minutes.

Low Code

Library	Description
LangFlow	LangFlow is a low-code app builder for RAG and multi-agent AI applications. It’s Python-based and agnostic to any model, API, or database.

Cache

Library	Description
GPTCache	A Library for Creating Semantic Cache for LLM Queries. Slash Your LLM API Costs by 10x 💰, Boost Speed by 100x. Fully integrated with LangChain and LlamaIndex.

LLM RAG

Library	Description
FastGraph RAG	Streamlined and promptable Fast GraphRAG framework designed for interpretable, high-precision, agent-driven retrieval workflows.
Chonkie	RAG chunking library that is lightweight, lightning-fast, and easy to use.
RAGChecker	A Fine-grained Framework For Diagnosing RAG.
RAG to Riches	Build, scale, and deploy state-of-the-art Retrieval-Augmented Generation applications.
BeyondLLM	Beyond LLM offers an all-in-one toolkit for experimentation, evaluation, and deployment of Retrieval-Augmented Generation (RAG) systems.
SQLite-Vec	A vector search SQLite extension that runs anywhere!
fastRAG	fastRAG is a research framework for efficient and optimized retrieval-augmented generative pipelines, incorporating state-of-the-art LLMs and Information Retrieval.
FlashRAG	A Python Toolkit for Efficient RAG Research.
Llmware	Unified framework for building enterprise RAG pipelines with small, specialized models.
Rerankers	A lightweight unified API for various reranking models.
Vectara	Build Agentic RAG applications.

LLM Inference

Library	Description
LLM Compressor	Transformers-compatible library for applying various compression algorithms to LLMs for optimized deployment.
LightLLM	Python-based LLM inference and serving framework, notable for its lightweight design, easy scalability, and high-speed performance.
vLLM	High-throughput and memory-efficient inference and serving engine for LLMs.
torchchat	Run PyTorch LLMs locally on servers, desktop, and mobile.
TensorRT-LLM	TensorRT-LLM is a library for optimizing Large Language Model (LLM) inference.
WebLLM	High-performance In-browser LLM Inference Engine.

LLM Serving

Library	Description
Langcorn	Serving LangChain LLM apps and agents automagically with FastAPI.
LitServe	Lightning-fast serving engine for any AI model of any size. It augments FastAPI with features like batching, streaming, and GPU autoscaling.

LLM Data Extraction

Library	Description
Crawl4AI	Open-source LLM Friendly Web Crawler & Scraper.
ScrapeGraphAI	A web scraping Python library that uses LLM and direct graph logic to create scraping pipelines for websites and local documents (XML, HTML, JSON, Markdown, etc.).
Docling	Docling parses documents and exports them to the desired format with ease and speed.
Llama Parse	GenAI-native document parser that can parse complex document data for any downstream LLM use case (RAG, agents).
PyMuPDF4LLM	PyMuPDF4LLM library makes it easier to extract PDF content in the format you need for LLM & RAG environments.
Crawlee	A web scraping and browser automation library.
MegaParse	Parser for every type of document.
ExtractThinker	Document Intelligence library for LLMs.

LLM Data Generation

Library	Description
DataDreamer	DataDreamer is a powerful open-source Python library for prompting, synthetic data generation, and training workflows.
fabricator	A flexible open-source framework to generate datasets with large language models.
Promptwright	Synthetic Dataset Generation Library.
EasyInstruct	An Easy-to-use Instruction Processing Framework for Large Language Models.

LLM Agents

Library	Description
CrewAI	Framework for orchestrating role-playing, autonomous AI agents.
LangGraph	Build resilient language agents as graphs.
Agno	Build AI Agents with memory, knowledge, tools, and reasoning. Chat with them using a beautiful Agent UI.
Agents SDK	Build agentic apps using LLMs with context, tools, hand off to other specialized agents.
AutoGen	An open-source framework for building AI agent systems.
Smolagents	Library to build powerful agents in a few lines of code.
Pydantic AI	Python agent framework to build production grade applications with Generative AI.
BeeAI	Build production-ready multi-agent systems in Python.
gradio-tools	A Python library for converting Gradio apps into tools that can be leveraged by an LLM-based agent to complete its task.
Composio	Production Ready Toolset for AI Agents.
Atomic Agents	Building AI agents, atomically.
Memary	Open Source Memory Layer For Autonomous Agents.
Browser Use	Make websites accessible for AI agents.
OpenWebAgent	An Open Toolkit to Enable Web Agents on Large Language Models.
Lagent	A lightweight framework for building LLM-based agents.
LazyLLM	A Low-code Development Tool For Building Multi-agent LLMs Applications.
Swarms	The Enterprise-Grade Production-Ready Multi-Agent Orchestration Framework.
ChatArena	ChatArena is a library that provides multi-agent language game environments and facilitates research about autonomous LLM agents and their social interactions.
Swarm	Educational framework exploring ergonomic, lightweight multi-agent orchestration.
AgentStack	The fastest way to build robust AI agents.
Archgw	Intelligent gateway for Agents.
Flow	A lightweight task engine for building AI agents.
AgentOps	Python SDK for AI agent monitoring.
Langroid	Multi-Agent framework.
Agentarium	Framework for creating and managing simulations populated with AI-powered agents.
Upsonic	Reliable AI agent framework that supports MCP.

LLM Evaluation

Library	Description
Ragas	Ragas is your ultimate toolkit for evaluating and optimizing Large Language Model (LLM) applications.
Giskard	Open-Source Evaluation & Testing for ML & LLM systems.
DeepEval	LLM Evaluation Framework
Lighteval	All-in-one toolkit for evaluating LLMs.
Trulens	Evaluation and Tracking for LLM Experiments
PromptBench	A unified evaluation framework for large language models.
LangTest	Deliver Safe & Effective Language Models. 60+ Test Types for Comparing LLM & NLP Models on Accuracy, Bias, Fairness, Robustness & More.
EvalPlus	A rigorous evaluation framework for LLM4Code.
FastChat	An open platform for training, serving, and evaluating large language model-based chatbots.
judges	A small library of LLM judges.
Evals	Evals is a framework for evaluating LLMs and LLM systems, and an open-source registry of benchmarks.
AgentEvals	Evaluators and utilities for evaluating the performance of your agents.
LLMBox	A comprehensive library for implementing LLMs, including a unified training pipeline and comprehensive model evaluation.
Opik	An open-source end-to-end LLM Development Platform which also includes LLM evaluation.

LLM Monitoring

Library	Description
MLflow	An open-source end-to-end MLOps/LLMOps Platform for tracking, evaluating, and monitoring LLM applications.
Opik	An open-source end-to-end LLM Development Platform which also includes LLM monitoring.
LangSmith	Provides tools for logging, monitoring, and improving your LLM applications.
Weights & Biases (W&B)	W&B provides features for tracking LLM performance.
Helicone	Open source LLM-Observability Platform for Developers. One-line integration for monitoring, metrics, evals, agent tracing, prompt management, playground, etc.
Evidently	An open-source ML and LLM observability framework.
Phoenix	An open-source AI observability platform designed for experimentation, evaluation, and troubleshooting.
Observers	A Lightweight Library for AI Observability.

LLM Prompts

Library	Description
PCToolkit	A Unified Plug-and-Play Prompt Compression Toolkit of Large Language Models.
Selective Context	Selective Context compresses your prompt and context to allow LLMs (such as ChatGPT) to process 2x more content.
LLMLingua	Library for compressing prompts to accelerate LLM inference.
betterprompt	Test suite for LLM prompts before pushing them to production.
Promptify	Solve NLP Problems with LLMs & easily generate different NLP Task prompts for popular generative models like GPT, PaLM, and more with Promptify.
PromptSource	PromptSource is a toolkit for creating, sharing, and using natural language prompts.
DSPy	DSPy is the open-source framework for programming—rather than prompting—language models.
Py-priompt	Prompt design library.
Promptimizer	Prompt optimization library.

LLM Structured Outputs

Library	Description
Instructor	Python library for working with structured outputs from large language models (LLMs). Built on top of Pydantic, it provides a simple, transparent, and user-friendly API.
XGrammar	An open-source library for efficient, flexible, and portable structured generation.
Outlines	Robust (structured) text generation
Guidance	Guidance is an efficient programming paradigm for steering language models.
LMQL	A language for constraint-guided and efficient LLM programming.
Jsonformer	A Bulletproof Way to Generate Structured JSON from Language Models.

LLM Safety and Security

Library	Description
JailbreakEval	A collection of automated evaluators for assessing jailbreak attempts.
EasyJailbreak	An easy-to-use Python framework to generate adversarial jailbreak prompts.
Guardrails	Adding guardrails to large language models.
LLM Guard	The Security Toolkit for LLM Interactions.
AuditNLG	AuditNLG is an open-source library that can help reduce the risks associated with using generative AI systems for language.
NeMo Guardrails	NeMo Guardrails is an open-source toolkit for easily adding programmable guardrails to LLM-based conversational systems.
Garak	LLM vulnerability scanner
DeepTeam	The LLM Red Teaming Framework

LLM Embedding Models

Library	Description
Sentence-Transformers	State-of-the-Art Text Embeddings
Model2Vec	Fast State-of-the-Art Static Embeddings
Text Embedding Inference	A blazing fast inference solution for text embeddings models. TEI enables high-performance extraction for the most popular models, including FlagEmbedding, Ember, GTE and E5.

Others

Library	Description
Text Machina	A modular and extensible Python framework, designed to aid in the creation of high-quality, unbiased datasets to build robust models for MGT-related tasks such as detection, attribution, and boundary detection.
LLM Reasoners	A library for advanced large language model reasoning.
EasyEdit	An Easy-to-use Knowledge Editing Framework for Large Language Models.
CodeTF	CodeTF: One-stop Transformer Library for State-of-the-art Code LLM.
spacy-llm	This package integrates Large Language Models (LLMs) into spaCy, featuring a modular system for fast prototyping and prompting, and turning unstructured responses into robust outputs for various NLP tasks.
pandas-ai	Chat with your database (SQL, CSV, pandas, polars, MongoDB, NoSQL, etc.).
LLM Transparency Tool	An open-source interactive toolkit for analyzing internal workings of Transformer-based language models.
Vanna	Chat with your SQL database. Accurate Text-to-SQL Generation via LLMs using RAG.
mergekit	Tools for merging pretrained large language models.
MarkLLM	An Open-Source Toolkit for LLM Watermarking.
LLMSanitize	An open-source library for contamination detection in NLP datasets and Large Language Models (LLMs).
Annotateai	Automatically annotate papers using LLMs.
LLM Reasoner	Make any LLM think like OpenAI o1 and DeepSeek R1.

#注意力黑洞

大模型为何「死盯」首个 token？

之前就有研究指出，LLM 中存在「注意力黑洞」（Attention Sink）现象：即 LLM 似乎会把大量的注意力放在序列的第一个符号（通常是 <bos> 符号）上，即使这个符号本身可能没什么实际意义。这篇论文与以往研究关注如何利用或缓解该现象不同，而是从功能性角度出发，提出注意力黑洞并非无用的副产品，而是一种重要的、由模型学习到的机制。

论文提出，这种机制可以有效防止信息在深层 Transformer 结构中过度混合（over-mixing）。
通过理论分析（连接秩坍塌、表示坍塌和过压缩等概念）和实证研究（包括对 Gemma 7B 的扰动分析、不同上下文长度和模型规模的训练实验，以及 LLaMa 3.1 家族模型的分析），作者们论证了注意力黑洞有助于维持模型内部表示的稳定性和区分度，尤其是在处理长序列和深层网络时。

PS：Sink 这个词，一时没有找到特别恰当的翻译方法，「沉降点」、「坍缩点」似乎更拗口，所以选用了「黑洞」这个不准确但比较直观的词。

论文： [2504.02732] Why do LLMs attend to the first token?

主要内容

1. 作者和团队信息

主要作者： Federico Barbero 和 Álvaro Arroyo (共同一作)，来自牛津大学。还有来自新加坡国立大学 (NUS) 的 Xiangming Gu，以及 Google DeepMind 的 Christos Perivolaropoulos, Petar Veličković, 和 Razvan Pascanu。
知名学者/机构：

Google DeepMind: 是人工智能领域的顶尖研究机构，在大型语言模型、强化学习等方面有众多开创性成果。Petar Veličković 是图神经网络（GNNs）领域的知名学者（如图注意力网络 GAT 的作者），近年来也在 Transformer 和几何深度学习领域有重要贡献。Razvan Pascanu 是深度学习理论方面的专家，尤其在循环神经网络（RNNs）和 Transformer 的理解上有深入研究。
Michael Bronstein (牛津大学): 几何深度学习领域的领军人物之一。
Xiangming Gu (NUS): 他之前的一篇关于注意力黑洞何时出现的实证研究（Gu et al., 2025）被本文多次引用，是该领域的重要贡献者。

2. 背景和动机

发表时间 2025 年 4 月
研究的问题： 为什么大型语言模型（LLMs）中的注意力头（Attention Heads）经常将大量注意力分配给序列中的第一个符号（token），通常是 ⟨bos⟩ (beginning of sequence) 符号？这种现象被称为「注意力黑洞」（Attention Sink）。
问题背景：

举例： 比如输入序列是 ⟨bos⟩ The cat sat on the mat。在处理 mat 这个词时，某个注意力头可能计算出的权重是：⟨bos⟩: 0.8, The: 0.05, cat: 0.05, sat: 0.05, on: 0.03, the: 0.02。大量的注意力（80%）流向了 ⟨bos⟩。
安全问题 (Security vulnerabilities): 可能被利用来注入恶意指令或探测模型行为。

LLMs 和 Transformer: 现代 LLMs（如 GPT 系列、LLaMa、Gemma）大多基于 Transformer 架构。Transformer 的核心是自注意力机制（Self-Attention Mechanism），它允许模型在处理一个词时，计算这个词与序列中其他所有词（在 decoder-only 模型中是当前词及之前的词）的相关性（注意力权重），然后根据这些权重加权聚合其他词的信息来更新当前词的表示。
注意力黑洞现象： 研究者发现，很多注意力头会把大部分权重（比如超过 30% 甚至 80%）分配给第一个符号 ⟨bos⟩，即使这个符号本身通常只表示序列开始，没有太多语义信息。这看起来像是「浪费」了注意力。
动机： 既然注意力黑洞如此普遍，并且是通过梯度下降自然学习到的，那么它很可能对模型处理上下文信息起到了某种有益的作用。之前的研究大多关注如何利用或消除它，而本文想搞清楚：注意力黑洞为什么有用？模型是如何利用它的？

3. 相关研究

分类	研究方向	关键论文/学者	核心发现或理论	与本文的联系
前期工作	现象观察与命名	Xiao et al. (2024)	首次提出「Attention Sink」术语，发现保留黑洞符号对流式 LLM 性能至关重要。	本文基于此现象，进一步探究其功能性原因（而不仅是现象描述）。
	出现条件分析	Gu et al. (2025)	通过预训练实验证明数据打包方式（如 `⟨bos⟩` 位置）影响黑洞形成强度。	本文扩展其发现，验证上下文长度和模型规模对黑洞的影响。
	形成机制	Cancedda (2024)	谱分析视角：特定子空间驱动黑洞形成。	本文不聚焦「如何形成」，而是「为何有用」，形成互补。
		Sun et al. (2024)	归因于异常巨大的激活值（Massive Activations）。	本文指出范数 Value 是黑洞实现「近似空操作」的关键。
		Barbero et al. (2025)	逆向工程发现：Query/Key 的高范数带状结构促成黑洞。	本文引用其方法，分析 Gemma 7B 的「撇号头」（Section 3.2）。
理论背景	秩坍塌 (Rank Collapse)	Dong et al. (2021)	深层线性 Transformer 中，重复注意力混合导致表示空间秩坍缩至 1（所有向量趋同）。	本文 Proposition 3.1 证明秩坍塌比表示坍塌更强，黑洞是缓解手段。
	表示坍塌	Barbero et al. (2024)	Decoder-only 模型在长序列末尾的相邻符号表示难以区分。	黑洞通过减少混合延缓坍塌，实验验证（图 9）。
	过压缩 (Over-squashing)	Barbero et al. (2024)	因果掩码导致早期符号信息被压缩，影响后期符号建模（类似 GNN 瓶颈效应）。	本文 Theorem 3.2 扩展多头过压缩边界，解释黑洞如何降低敏感度（图 1-2）。
	信息传播限制	Veličković et al. (2024)	长上下文推理中，注意力矩阵难以保持稀疏性，必然趋向完全混合。	黑洞是模型对抗此限制的「内生解决方案」。

核心思路

核心论点： 注意力黑洞是一种有用的机制，帮助 Transformer 避免信息过度混合 (over-mixing)。
机制解释：

Transformer 层通过注意力机制混合（mix）来自不同符号的信息。
当模型层数很深 (deep) 或处理的上下文很长 (long context) 时，反复的混合可能导致灾难性的后果，即前面提到的秩坍塌、表示坍塌或过平滑，使得符号表示失去区分性。
注意力黑洞提供了一种 控制混合速率 的方法。当一个注意力头将大量注意力分配给第一个（通常是 ⟨bos⟩）符号时，它实际上减少了分配给序列中其他符号的注意力。
如果这个黑洞符号（如 ⟨bos⟩）的 Value 向量范数很小（如下图 b 所示），那么即使分配了很高的注意力权重，它对输出的贡献也很小。这使得该注意力头在某种程度上变得 「不活跃」 (inactive) 或近似于一个 「空操作」 (approximate no-op) ，从而减缓了信息的混合。
类比： 想象一条信息高速公路（Transformer 层），车流（信息）过大容易造成拥堵（过度混合）。注意力黑洞就像在某些匝道口（注意力头）设置了一个收费站，并将大部分车辆引导到一个几乎没有出口的停车场（⟨bos⟩ token with small value norm），从而减少了主路上的车流量，防止了拥堵。

灵感来源： 将观察到的注意力黑洞现象与已知的深度网络信息传播理论（秩坍塌、过平滑、过压缩）联系起来，认为前者是后者问题的一种自然解决方案。

5. 方案与技术

本文采用了理论分析和实验验证相结合的方法：

理论分析:

核心问题：研究为什么 Transformer 模型会把大量注意力集中在第一个 token（如 <bos>）上，即使它没有实际语义。
秩坍塌 vs 表示坍塌：

秩坍塌（所有 token 表示趋同）比表示坍塌（相邻 token 难区分）更严重
都源于信息过度混合（over-mixing）

过压缩边界公式：

路径层路径权重

说明：

每条路径的强度 = 各层注意力权重的乘积
注意力权重 α 越小 → 信息传播越弱
黑洞机制通过增大 α，减小其他 α，从而降低敏感度，减少有效路径数量
理论预测 ：模型越深（L↑）、上下文越长 → 越需要黑洞来抑制过度混合

实验设计逻辑：

实验类型	具体方法	关键发现
扰动分析	替换单个词（如 "greatest"→"best"）	有 `<bos>` 时扰动影响范围更小
注意力头分析	研究 Gemma 7B 的 " 撇号头 "	默认状态：关注 `<bos>`（小 value 范数）遇撇号时：切换关注实际 token（大 value 范数）
预训练实验	训练 120M 小模型： - 不同上下文长度 - 不同 `<bos>` 放置策略	上下文越长 → 黑洞越强固定 `<bos>` 在开头 → 黑洞最稳定
大模型分析	测试 LLaMA 3.1 系列（8B→405B）	模型越大 → 黑洞头比例越高（8B:46% → 405B:78%）

6. 实验与结论

更细致的实验结论：

实验类型	关键设置	主要结果	理论支持
1. 扰动传播分析 (Gemma 7B)	• 对比有/无 `⟨bos⟩` 时单个词扰动的影响 • 测量表示向量变化幅度	• 无 `⟨bos⟩` 时扰动传播更广（+32%） • 注意力模式更平滑（混合度 +45%）	黑洞降低，抑制过度混合
2. 近似空操作机制 (Apostrophe Head)	• 分析特定注意力头的两种模式： - 默认：关注 `⟨bos⟩` - 触发：关注撇号后词	• `⟨bos⟩` 的 Value 范数≈0.1 • 活跃时 Value 范数≈1.8（18 倍差异） • 条件激活成功率>92%	黑洞实现动态计算分配
3. 上下文长度影响 (120M 小模型)	• 固定总 token 数 • 变上下文长度（128→2048）	• 上下文长度↑ → Sink Metric↑ （128: 5% → 2048: 68%） • 验证损失无差异（Δ<0.5%）	长上下文需要更强混合控制
4. 模型规模影响 (LLaMa 3.1 系列)	• 同 prompt 测试不同规模模型 • ε=0.8 阈值	• 黑洞头比例： 8B:46% → 70B:73% → 405B:78% • 深层网络更依赖黑洞	深度↑需更强抗坍塌机制
5. `⟨bos⟩` 特殊性验证 (数据打包实验)	• 对比训练策略： - 固定 `⟨bos⟩` 首位 - 自然首位符号	• 固定 `⟨bos⟩` 时： - 移除→黑洞消失，性能↓70% • 自然首位时： - 黑洞仍存在（首位词替代）	黑洞依赖位置而非符号（首位的全局控制优势）

贡献

新颖视角： 首次系统性地论证了注意力黑洞是一种功能上有益的机制，而非简单的模型缺陷或副产品。将其解释为对抗「过度混合」的一种策略。
理论连接： 将注意力黑洞现象与秩坍塌、表示坍塌、过压缩等深度学习理论建立了明确联系，深化了对 Transformer 内部信息流动的理解。
实证支持： 通过多样化的实验（扰动分析、受控训练、大规模模型分析）为核心假设提供了有力的证据。
解释位置偏好： 合理地解释了为什么黑洞通常发生在第一个符号位置。
揭示训练影响： 阐明了预训练中的数据打包策略（尤其是 ⟨bos⟩ 的使用方式）如何影响模型实现黑洞的具体方式。

8. 不足

机制细节： 虽然解释了「为什么」需要黑洞（防过混合）以及「它做了什么」（近似空操作，减缓混合），但对于注意力头「如何」精确地学习到对第一个符号产生如此高偏好的具体神经计算过程，着墨相对较少，更多依赖参考文献。例如，高范数 Q/K 向量的具体作用机制未在此文中详述。
理论简化： 过压缩边界的推导为了简化，假设了 Query/Key 与 Value 相互独立，这在实际 Transformer 中不完全成立（它们都源于同一输入表示）。虽然结论可能仍然方向正确，但精确的数学关系可能更复杂。
焦点局限： 主要关注发生在第一个符号（特别是 ⟨bos⟩）上的黑洞，对于可能发生在其他位置的（虽然较少见）黑洞现象讨论不多。
替代解释： 是否存在其他或共同导致注意力黑洞的原因？例如，第一个位置的特殊位置编码是否也有影响？或者这仅仅是模型找到的一个「容易学习」的默认状态？论文虽然论证充分，但未完全排除所有其他可能性。
量化关系： 论文展示了模型深度/上下文长度与黑洞强度的正相关性，但未能提供一个精确的量化模型来预测特定架构需要多大强度的黑洞才能最优地平衡信息混合与表示区分度。
实验设置： 扰动实验只用了一个词的替换，更复杂的扰动或任务上的影响可能需要进一步研究。

Q1: 为什么注意力黑洞偏偏发生在第一个符号（⟨bos⟩）上，而不是序列末尾或者中间某个特定符号呢？

论文的核心观点是注意力黑洞用于控制信息混合。

全局控制点： 在 Decoder-only Transformer 中，信息是单向流动的（从前到后）。第一个符号是所有后续符号在计算注意力时都能「看到」的最早的符号。因此，如果模型想对整个序列后续部分的混合程度施加一个全局性的「刹车」，将注意力集中在第一个符号上是最有效的位置。它可以影响所有后续符号的信息接收过程。
⟨bos⟩ 的便利性： ⟨bos⟩ 符号通常在预训练时被固定地放在每个序列或文档的开头，它提供了一个稳定、可预测的「锚点」，模型很容易学会利用它来实现这种全局控制机制。但正如实验所示 (Table 2)，如果 ⟨bos⟩ 不固定在开头，模型也会利用实际出现在第一个位置的符号来达到类似目的。所以，关键是位置，而 ⟨bos⟩ 只是最常用的那个「占位符」。

Q2: 如何区分「有效混合」和「过度混合」？

混合是必要的： 注意力机制的核心价值在于让模型能够根据需要混合来自不同位置的信息，捕捉上下文依赖关系，这是模型理解语言的基础。
过度混合是有害的： 但是，当模型非常深（经过很多层处理）或者上下文非常长时，无节制地反复混合信息，就像你反复搅拌颜料，最终所有颜色都会糊在一起变成棕色，失去了各自的特征。在模型里，这就表现为所有符号的表示向量变得越来越相似（秩坍塌、表示坍塌、过平滑），模型就无法区分不同位置或不同语义的信息了，性能会下降。
黑洞的作用是「调控」而非「禁止」： 注意力黑洞并不是完全禁止信息混合。首先，它通常只发生在一部分注意力头中（虽然在大模型里比例很高）。其次，即使在黑洞头中，它也只是将大部分注意力引开，仍有少量注意力分配给其他符号。更重要的是，这种机制使得模型可以动态地、有选择地进行混合。就像论文中分析的那个「撇号头」，它在大部分时间里通过黑洞保持「安静」（低混合），只在特定条件下才「激活」，进行有效的信息混合。

Q3: 如果注意力黑洞使得一些注意力头近似于「空操作」（no-op），这不就意味着这些计算资源被浪费了吗？为什么模型不直接学习跳过这些层或者减少头的数量呢？

条件性计算 vs 静态跳过： 注意力黑洞实现的「空操作」通常是动态的、条件性的。一个头可能在大多数情况下关注黑洞符号（近似空操作），但在检测到特定模式或需要整合特定信息时，它会切换注意力焦点，变得活跃起来。这种按需激活的能力可能比完全移除该头或层更有价值，因为它保留了处理特定情况的潜力。
灵活性和冗余： 拥有大量的头（包括一些经常「黑洞」的头）可能提供了模型的冗余性和灵活性。不同的头可能专精于不同的模式或功能，一些头负责「刹车」（黑洞），另一些负责「油门」（混合）。这种分工合作可能比一个更小的、所有头都必须一直活跃的网络更易于学习和优化。
学习的复杂性： 模型通过梯度下降学习参数，可能学习出一个带有黑洞的复杂网络比直接学习出一个最优的、更小型的、没有黑洞的网络更容易。黑洞可能是一个在现有架构约束下，模型自然演化出的解决过度混合问题的「捷径」。
与 Mixture-of-Depths 的联系： 你的想法与最近提出的「Mixture-of-Depths」 (Raposo et al., 2024) 等动态计算分配技术不谋而合。这些技术试图显式地让模型学习跳过某些计算块（如整个 Transformer block）来节省计算。论文在附录 B 中也提到了这种联系，认为注意力黑洞在功能上类似于 Mixture-of-Depths，但没有后者通过门控实现的计算效率增益。这暗示着未来的模型设计可能会更明确地利用这种动态跳过的思想。

Q4: 注意力黑洞减少了信息混合，这会不会限制模型整合长距离上下文信息的能力？

权衡：信息保真度 vs. 上下文整合能力：

减少混合的好处： 防止表示坍塌，保持符号表示的区分度和保真度，提高对输入的鲁棒性。这对于需要精确细节的任务可能很重要。
减少混合的坏处： 可能限制模型充分整合来自广泛上下文的信息的能力。如果太多注意力头都倾向于黑洞，模型可能难以捕捉需要跨越很长距离的复杂依赖关系。

模型如何平衡？
并非所有头都黑洞： 模型中通常仍有许多注意力头是活跃的，负责进行信息混合和长距离依赖捕捉。
条件性激活： 如前所述，黑洞头也可能在特定条件下变得活跃。
深度和宽度： 更深、更宽的模型拥有更多的层和头，这可能允许它们在不同的层/头之间进行更精细的分工：一些负责保持信息（黑洞），另一些负责整合信息（混合）。这也是为什么大模型（如 LLaMa 405B）能支持更强黑洞的同时仍然表现出强大的长上下文能力。
最优平衡点： 这个权衡的最优平衡点可能取决于具体的任务、模型架构和训练数据。模型通过训练学习到的黑洞程度，可以看作是试图在这个权衡空间中找到一个较好的解决方案。
研究方向： 理解和控制这种权衡是未来研究的一个重要方向。也许可以通过正则化、架构设计或特定的训练策略来引导模型达到更理想的平衡状态。

伪代码

import torch
import torch.nn as nn
import torch.nn.functional as F
import math
import matplotlib.pyplot as plt
from tqdm import tqdm

# ======================
# 1. 实现带注意力黑洞的Transformer层
# ======================

class AttentionSinkTransformerLayer(nn.Module):
    """实现带有注意力黑洞机制的Transformer层"""
    def __init__(self, d_model=512, n_heads=8):
        super().__init__()
        self.d_model = d_model
        self.n_heads = n_heads
        self.head_dim = d_model // n_heads
        
        # 多头注意力的QKV投影
        self.q_proj = nn.Linear(d_model, d_model)
        self.k_proj = nn.Linear(d_model, d_model)
        self.v_proj = nn.Linear(d_model, d_model)
        
        # 输出投影和FFN
        self.out_proj = nn.Linear(d_model, d_model)
        self.ffn = nn.Sequential(
            nn.Linear(d_model, 4*d_model),
            nn.GELU(),
            nn.Linear(4*d_model, d_model)
        )
        
        # 层归一化
        self.norm1 = nn.LayerNorm(d_model)
        self.norm2 = nn.LayerNorm(d_model)
        
    def forward(self, x, sink_strength=0.7):
        """
        参数:
            x: 输入序列 [batch_size, seq_len, d_model]
            sink_strength: 黑洞强度(0-1),控制多少注意力流向第一个token
        """
        batch_size, seq_len, _ = x.shape
        residual = x
        
        # 1. 多头注意力计算
        q = self.q_proj(x).view(batch_size, seq_len, self.n_heads, self.head_dim).transpose(1, 2)  # [B, H, L, D/H]
        k = self.k_proj(x).view(batch_size, seq_len, self.n_heads, self.head_dim).transpose(1, 2)
        v = self.v_proj(x).view(batch_size, seq_len, self.n_heads, self.head_dim).transpose(1, 2)
        
        # 2. 计算注意力分数 (缩放点积)
        attn_scores = (q @ k.transpose(-2, -1)) / math.sqrt(self.head_dim)  # [B, H, L, L]
        
        # 3. 应用因果掩码 (decoder-only)
        mask = torch.triu(torch.ones(seq_len, seq_len), diagonal=1).bool().to(x.device)
        attn_scores = attn_scores.masked_fill(mask, float('-inf'))
        
        # 4. 注入注意力黑洞 (核心实现)
        if sink_strength > 0:
            # 对每个查询token，增加对第一个token的注意力偏好
            sink_bias = torch.zeros_like(attn_scores)
            sink_bias[…, 0] = sink_strength * 10  # 放大偏置以便softmax后仍有显著影响
            attn_scores = attn_scores + sink_bias
        
        # 5. Softmax归一化
        attn_weights = F.softmax(attn_scores, dim=-1)  # [B, H, L, L]
        
        # 6. 加权求和
        output = attn_weights @ v  # [B, H, L, D/H]
        output = output.transpose(1, 2).reshape(batch_size, seq_len, self.d_model)
        output = self.out_proj(output)
        
        # 7. 残差连接和层归一化
        x = self.norm1(residual + output)
        
        # 8. FFN部分
        residual = x
        x = self.ffn(x)
        x = self.norm2(residual + x)
        
        return x, attn_weights.detach()

# ======================
# 2. 实现完整Transformer模型
# ======================

class SinkTransformer(nn.Module):
    """实现完整Transformer模型，支持不同层使用不同黑洞强度"""
    def __init__(self, n_layers=6, d_model=512, n_heads=8):
        super().__init__()
        self.layers = nn.ModuleList([
            AttentionSinkTransformerLayer(d_model, n_heads) 
            for _ in range(n_layers)
        ])
        # 可以每层设置不同黑洞强度，这里简化为统一强度
        self.sink_strengths = [0.7] * n_layers  
        
    def forward(self, x):
        all_attn_weights = []
        for layer, strength in zip(self.layers, self.sink_strengths):
            x, attn_weights = layer(x, strength)
            all_attn_weights.append(attn_weights)
        return x, all_attn_weights

# ======================
# 3. 扰动分析实验 (对应论文Section 3.2)
# ======================

def perturbation_experiment():
    """实现论文中的扰动分析实验"""
    device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
    model = SinkTransformer(n_layers=6).to(device)
    
    # 模拟输入序列 (batch_size=1, seq_len=10, d_model=512)
    original_input = torch.randn(1, 10, 512).to(device)
    
    # 创建扰动输入 (改变第2个token的嵌入)
    perturbed_input = original_input.clone()
    perturbed_input[0, 1] += 0.5  # 添加小扰动
    
    # 情况1: 有注意力黑洞 (默认)
    print("=== 有注意力黑洞的情况 ===")
    model.sink_strengths = [0.7] * 6  # 设置黑洞强度
    analyze_perturbation(model, original_input, perturbed_input)
    
    # 情况2: 无注意力黑洞 
    print("\n=== 无注意力黑洞的情况 ===")
    model.sink_strengths = [0.0] * 6  # 关闭黑洞
    analyze_perturbation(model, original_input, perturbed_input)

def analyze_perturbation(model, original, perturbed):
    """分析扰动传播"""
    # 前向传播获取各层表示
    with torch.no_grad():
        orig_output, _ = model(original)
        perturb_output, _ = model(perturbed)
    
    # 计算每层的表示差异 (L2距离)
    layer_diffs = []
    for i in range(len(model.layers)):
        # 计算该层输出的差异
        diff = torch.norm(orig_output[0] - perturb_output[0], dim=1)  # [seq_len]
        layer_diffs.append(diff.cpu().numpy())
    
    # 可视化结果 (模拟论文图2)
    plt.figure(figsize=(10, 6))
    for i, diff in enumerate(layer_diffs):
        plt.plot(diff, label=f'Layer {i+1}')
    plt.xlabel('Token Position')
    plt.ylabel('Perturbation Effect (L2 Distance)')
    plt.title('Perturbation Propagation with/without Sink')
    plt.legend()
    plt.show()

# ======================
# 4. 注意力黑洞指标计算 (对应论文Section 4)
# ======================

def calculate_sink_rate(attn_weights, epsilon=0.3):
    """
    计算注意力黑洞指标 (公式1)
    参数:
        attn_weights: 注意力权重列表,每个元素形状为 [B, H, L, L]
        epsilon: 阈值,论文中设为0.3
    返回:
        sink_rate: 黑洞头的比例
    """
    total_heads = 0
    sink_heads = 0
    
    for layer_attn in attn_weights:  # 遍历每一层
        batch_size, n_heads, seq_len, _ = layer_attn.shape
        
        for head_idx in range(n_heads):  # 遍历每个头
            # 计算该头对第一个token的平均注意力
            avg_attention = layer_attn[0, head_idx, :, 0].mean().item()
            if avg_attention > epsilon:
                sink_heads += 1
            total_heads += 1
    
    return sink_heads / total_heads

# ======================
# 5. 模拟预训练实验 (对应论文Section 4.1)
# ======================

def simulate_pretraining():
    """模拟不同上下文长度对黑洞形成的影响"""
    context_lengths = [128, 256, 512, 1024, 2048]
    sink_rates = []
    
    for ctx_len in context_lengths:
        print(f"\nSimulating context length: {ctx_len}")
        
        # 模拟训练过程 (简化版)
        model = SinkTransformer(n_layers=6).to('cuda')
        optimizer = torch.optim.Adam(model.parameters(), lr=1e-4)
        
        # 模拟训练100步 (实际论文中训练了5B tokens)
        for step in tqdm(range(100)):
            # 生成随机输入 (模拟不同长度的序列)
            inputs = torch.randn(1, ctx_len, 512).to('cuda')
            
            # 模拟损失计算 (这里简化)
            outputs, attn_weights = model(inputs)
            loss = outputs.mean()  # 实际应为语言模型损失
            
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
        
        # 计算黑洞指标
        with torch.no_grad():
            test_input = torch.randn(1, ctx_len, 512).to('cuda')
            _, attn_weights = model(test_input)
            sink_rate = calculate_sink_rate(attn_weights)
            sink_rates.append(sink_rate)
            print(f"Sink Rate: {sink_rate:f}")
    
    # 绘制结果 (模拟论文图5a)
    plt.figure(figsize=(8, 5))
    plt.plot(context_lengths, sink_rates, marker='o')
    plt.xlabel('Context Length')
    plt.ylabel('Sink Rate')
    plt.title('Effect of Context Length on Sink Formation')
    plt.grid(True)
    plt.show()

# ======================
# 6. 主执行函数
# ======================

if __name__ == "__main__":
    # 运行扰动分析实验
    print("Running Perturbation Experiment…")
    perturbation_experiment()
    
    # 运行模拟预训练实验
    print("\nRunning Pretraining Simulation…")
    simulate_pretraining()

#阿里Qwen3

猛击OpenAI o1、DeepSeek-R1！刚刚，阿里Qwen3登顶全球开源模型王座，深夜爆火

今天凌晨，从昨晚开始预热、备受全球 AI 圈关注的 Qwen3 系列模型终于正式亮相了！

Qwen3 模型依旧采用宽松的 Apache2.0 协议开源，全球开发者、研究机构和企业均可免费在 HuggingFace、魔搭社区等平台下载模型并商用，也可以通过阿里云百炼调用 Qwen3 的 API 服务。

HuggingFace 地址：https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
Modelscope 地址：https://modelscope.cn/collections/Qwen3-9743180bdc6b48
GitHub 地址：https://github.com/QwenLM/Qwen3
博客地址：https://qwenlm.github.io/blog/qwen3/
试用地址：https://chat.qwen.ai/

具体来讲，Qwen3 系列模型包含两款 MoE 模型以及六款密集模型，其中每一款又包含更多细分版本（比如基础版和量化版）：

MoE 模型：Qwen3-235B-A22B 和 Qwen3-30B-A3B；其中 235B 和 30B 分别是总参数量，22B 和 3B 分别是激活参数量。
密集模型：Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B。

下表展示了这些模型的详细参数：

Hugging Face 已经上线了 22 个不同的 Qwen3 系列模型

目前，Qwen3 系列中较大的三款模型也已经上线了 Qwen Chat 网页版和手机 App。

性能方面，在代码、数学、通用能力等基准测试中，旗舰模型 Qwen3-235B-A22B 与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型表现相当。

此外，小型 MoE 模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%，表现却更胜一筹。甚至像 Qwen3-4B 这样的小模型也能匹敌 Qwen2.5-72B-Instruct 的性能。

性能大幅提升的同时，Qwen3 的部署成本还大幅下降，仅需 4 张 H20 即可部署满血版，显存占用仅为性能相近模型的三分之一。

开发团队也在博客中给出了一些推荐设置：「对于部署，我们推荐使用 SGLang 和 vLLM 等框架；而对于本地使用，像 Ollama、LMStudio、MLX、llama.cpp 和 KTransformers 这样的工具也非常值得推荐。这些选项确保用户可以轻松将 Qwen3 集成到他们的工作流程中，无论是用于研究、开发还是生产环境。」

该团队表示：「Qwen3 的发布和开源将极大地推动大型基础模型的研究与开发。我们的目标是为全球的研究人员、开发者和组织赋能，帮助他们利用这些前沿模型构建创新解决方案。」

Qwen 团队技术负责人林俊旸（Junyang Lin）进一步分享了 Qwen3 模型开发的细节，他称团队成员花了一些时间来找方法解决一些并不花哨的问题，比如如何通过稳定的训练来扩展强化学习、如何平衡来自不同领域的数据、如何增强对更多语言的支持等。他希望用户能够喜欢 Qwen3 模型并从中发现一些有趣的东西。他还表示，团队正迈向下一个阶段，即训练 Agent 来扩展长程推理，同时更多地关注现实世界的任务。

当然，未来开发团队也将放出 Qwen3 模型的技术报告或训练配方。

网友反馈与上手实测

和前一代 Qwen 系列模型一样，Qwen3 的发布同样吸引了全球 AI 和开源社区的关注，我们看到的也是满屏的好评。

究竟表现如何？也做了点简单的尝试。

首先来个简单的推理测试题，Qwen3-235B-A22B 不出意料地能轻松应对。

2 倍速动图

接下来，我们尝试了一个更加复杂的编程任务：编写一个贪吃蛇游戏，采用像素风格。同时有另一个需求，游戏中有一个平头哥在追赶我们控制的蛇，一旦被咬中，蛇的长度就会丢失一半。当蛇撞墙或咬到自己或长度低于 2 时，游戏结束。

，时长03:10

视频未加速

Qwen3-235B-A22B 大概使用了 3 分钟解决这个任务。简单试玩一下，发现基本上可玩，但也有些 bug，比如平头哥的速度过快了。但考虑到这是 Qwen3-235B-A22B 在简单提示词下给出的 One-shot 结果，也就完全可以接受了。相信更精细的提示工程和迭代优化可以得到更好的结果。

我们也通过 Ollama 简单尝试了 Qwen3 系列中最小的模型 Qwen 0.6B。

看起来，这个完全可以在一台普通手机上流畅运行的小模型不仅速度很快，也足以完成很多日常的推理任务。

经过后训练的模型，例如 Qwen3-30B-A3B，以及它们的预训练基座模型（如 Qwen3-30B-A3B-Base），现已在 Hugging Face、ModelScope 和 Kaggle 等平台上开放使用。对于部署，我们推荐使用 SGLang 和 vLLM 等框架；而对于本地使用，像 Ollama、LMStudio、MLX、llama.cpp 和 KTransformers 这样的工具也非常值得推荐。这些选项确保用户可以轻松将 Qwen3 集成到他们的工作流程中，无论是用于研究、开发还是生产环境。

三大核心亮点

此次，Qwen3 模型在多个方面实现了增强。

一是，支持两种思考模式，分别如下：

思考模式，模型逐步推理，经过深思熟虑后给出最终答案，尤其适合需要深入思考的复杂问题。
非思考模式，模型提供快速、近乎即时的响应，适用于那些对速度要求高于深度的简单问题。

这种灵活性使用户能够根据具体任务控制模型进行「思考」的程度。例如，复杂的问题可以通过扩展推理步骤来解决，而简单的问题则可以直接快速作答，无需延迟。

至关重要的是，这两种模式的结合大大增强了模型实现稳定且高效的「思考预算」控制能力。Qwen3 展现出的可扩展且平滑的性能提升，就与分配的计算推理预算直接相关。可以预见，这样的设计让用户能够更轻松地为不同任务配置特定的预算，在成本效益和推理质量之间实现更优的平衡。

下图为在 AIME24、AIME25、LiveCodeBech（v5）和 GPQA Diamond 等基准测试集中，非思考模式与思考模式的思考预算变化趋势。

二是，支持更多语言。

目前，Qwen3 模型支持 119 种语言和方言。增强的多语言能力为国际应用开辟了新的可能性，可以让更广泛的全球用户体验到模型的强大能力。这些语言具体包括如下：

三是，Agent 能力增强。

如今，Agent 已经是大模型领域重点关注的能力之一，尤其是最近 MCP 模型上下文协议的引入更是大大增强了 Agent 的适用性和灵活性，大大拓宽了应用场景。

此次，Qwen3 模型的 Agent 和代码能力得到增强，包括加强了对 MCP 的支持。我们可以看下面一个示例（提取 QwenLM 库的 markdown 内容，然后绘制显示项目 stars 数量的条形图），展示了 Qwen3 如何思考并与环境进行交互：

，时长00:55

预训练数据量达 36 万亿 token

后训练实现混合推理

在预训练方面，Qwen3 的数据集相比 Qwen2.5 有了显著扩展。Qwen2.5 是在 18 万亿个 token 上进行预训练的，而 Qwen3 使用的数据量几乎是其两倍，达到了约 36 万亿个 token，涵盖了 119 种语言和方言。

为了构建庞大的数据集，开发团队不仅从网络上收集数据，还从 PDF 文档中提取信息。他们使用 Qwen2.5-VL 从这些文档中提取文本，并用 Qwen2.5 改进提取内容的质量。

另外，为了增加数学和代码数据的数量，开发团队利用 Qwen2.5-Math 和 Qwen2.5-Coder 这两个数学和代码领域的专家模型合成数据，合成了包括教科书、问答对以及代码片段等多种形式的数据。

具体而言，预训练过程分为了以下三个阶段：

在第一阶段（S1），模型在超过 30 万亿个 token 上进行了预训练，上下文长度为 4K token。这一阶段为模型提供了基本的语言技能和通用知识。
在第二阶段（S2），通过增加知识密集型数据（如 STEM、编程和推理任务）的比例来改进数据集，随后模型又在额外的 5 万亿个 token 上进行了预训练。
在最后阶段，使用高质量的长上下文数据将上下文长度扩展到 32K token，确保模型能够有效地处理更长的输入。

得益于模型架构的改进、训练数据的增加以及更有效的训练方法，Qwen3 Dense 基础模型的整体性能与参数更多的 Qwen2.5 基础模型相当，例如 Qwen3-1.7B/4B/8B/14B/32B-Base 分别与 Qwen2.5-3B/7B/14B/32B/72B-Base 表现相当。

特别是在 STEM、编码和推理等领域，Qwen3 Dense 基础模型的表现甚至超过了更大规模的 Qwen2.5 模型。可以看到，Qwen3 MoE 基础模型在仅使用 10% 激活参数的情况下达到了与 Qwen2.5 Dense 基础模型相似的性能，由此带来了训练和推理成本的显著节省。

与此同时，Qwen3 在后训练阶段同样进行了优化。

为了开发能够同时具备思考推理和快速响应能力的混合模型，开发团队实施了一个四阶段的训练流程，包括：（1）长思维链冷启动，（2）长思维链强化学习，（3）思维模式融合，以及（4）通用强化学习。

在第一阶段，使用多样的的长思维链数据对模型进行了微调，涵盖了数学、代码、逻辑推理和 STEM 问题等多种任务和领域。这一过程旨在为模型配备基本的推理能力。

第二阶段的重点是大规模强化学习，利用基于规则的奖励来增强模型的探索和钻研能力。

在第三阶段，在一份包括长思维链数据和常用的指令微调数据的组合数据上对模型进行微调，将非思考模式整合到思考模型中，确保了推理和快速响应能力的无缝结合。

在第四阶段，在包括指令遵循、格式遵循和 Agent 能力等在内的 20 多个通用领域的任务上应用了强化学习，进一步增强模型的通用能力并纠正不良行为。

Qwen 已成全球第一开源模型

Qwen3 的发布是阿里通义千问的又一里程碑，再对比一下 Llama 4 系列模型得到的社区反馈，Qwen 系列无疑已经成为全球第一的开源模型 —— 这一论断也有数据支持。据了解，阿里通义已开源了 200 余个模型，全球下载量超 3 亿次，Qwen 衍生模型数超 10 万个，已超越 Llama，成为全球最大的开源模型族群。

Qwen、Llama、Mistral 系列开源模型的衍生模型数量随时间的增加情况

在全球 AI 技术竞争日益激烈的背景下，阿里通义千问通过持续的技术创新和开放合作，推动了 AI 技术的普及与发展，展现了中国科技企业在全球开源 AI 生态中的强大影响力。

参考链接：https://x.com/Alibaba_Qwen/status/1916962087676612998

#语音领域ISCA Fellow 2025公布

上海交大俞凯、台大李宏毅等三位华人入选

近日，ISCA Fellow 2025 入选结果揭晓！

ISCA Fellow 是由国际语音通讯协会（International Speech Communication Association，ISCA）设立的荣誉称号，旨在表彰在语音通信科学与技术领域做出杰出贡献的会员，包括研究人员、工程师和学者。

该奖项设立于 2007 年，每年新晋 Fellow 不超过当年 ISCA 会员总数的千分之三，确保稀有性和权威性。

自设立以来，ISCA Fellow 人数已经超过 100 人。ISCA Fellow 2025 入选者共有 8 位，包括以下三位华人学者：

思必驰联合创始人、首席科学家，上海交通大学特聘教授 —— 俞凯（内地首位）；
中国台湾大学教授 —— 李宏毅；
A*STAR 旗下 I2R 生成式 AI 小组和 AI for Education 项目负责人 ——Nancy Chen。

华人入选者

俞凯

入选理由：对语音识别、口语对话系统以及口语技术在真实世界的部署做出贡献。

个人简介：俞凯，思必驰联合创始人、首席科学家，上海交通大学特聘教授，清华大学本科、硕士，剑桥大学博士。入选国家级重大人才工程，国家自然科学基金委优青，上海市「东方学者」特聘教授。IEEE 信号处理学会会议理事会 (Conference Board) 和会员理事会 (Membership Board) 理事，IEEE Speech and Language Processing Technical Committee 委员 (2017-2019)，中国计算机学会 (CCF) 杰出会员，CCF 语音对话听觉专业委员会主任、大模型论坛首届常务委员，中国人工智能产业发展联盟学术和知识产权组组长，中国语音产业联盟技术工作组副组长。世界顶尖科学家论坛（World Laureates Forum）青年科学家委员会委员，全国信标委用户界面分委会委员。

他发表了 200 余篇国际会议期刊论文，获得多个国际研究挑战赛冠军，担任 Inter Speech、ICMI 等国际会议程序委员会主席，全国人机语音通讯会议大会主席和 ACL、NAACL、EMNLP 等国际会议对话交互领域主席。多次获得国际权威期刊和会议优秀论文奖，以及多个国际公开研究评测竞赛冠军。曾获中国人工智能学会吴文俊人工智能科学进步奖，中国计算机学会青竹奖，2016 年《科学中国人》年度人物等。

李宏毅

入选理由：对语音自监督学习（speech self-supervised learning，SSL）以及构建用于评估语音 SSL 技术的社区基准做出开创性贡献。

个人简介：李宏毅，中国台湾大学计算机科学与信息工程系教授。2010 年和 2012 年分别获得中国台湾大学硕士和博士学位，2012 年 9 月到 2013 年 8 月继续从事博士后研究，2013 年 9 月到 2014 年 7 月在 MIT CSAIL 口语系统组担任访问学者。

李宏毅最为人所熟知的是他开设了一系列网络课程，主题包括深度学习、深度强化学习、生成对抗网络以及机器学习等。由于李宏毅经常在机器学习课程中加入精灵宝可梦、凉宫春日等动漫元素，他还有「「精灵宝可梦大师」的称号。B 站上有关李宏毅机器学习课程的视频非常多、也非常火。

Nancy Chen

入选理由：对多语言语音处理、多模态人机通信和人工智能技术部署做出重大贡献并展现出技术领导力。

个人简介：Nancy Chen，她是新加坡科技研究局（A*STAR）旗下资讯通信研究所（I2R）生成式 AI 小组和 AI for Education 项目负责人。她的团队致力于多模态、多语言大模型的研究，目标应用领域包括教育、医疗保健和国防等。

她获得了 MIT 和哈佛大学的博士学位，期间曾在 MIT 的林肯实验室从事多语言语音处理研究。她曾担任 ICLR 2023 的程序主席、2023 年 IEEE SPS 杰出讲师、IEEE/ACM 音频、语音和语言处理学报以及计算机语音和语言学报的副主编，IEEE 信号处理快报的高级编辑。

其他五位入选者包括如下：

法国国家科学研究中心（CNRS）等机构的研究总监 ——Alex Cristia
认知科学与心理语言学实验室（LSCP）主任（曾）——Emmanuel Dupoux
约翰霍普金斯大学电气与计算机工程系副教授 ——Sanjeev Khundapur
MIT 林肯实验室人类健康和绩效系统组资深成员和技术人员 ——Thomas Quatieri
俄勒冈健康与科学大学名誉教授 ——Jan van Santen

官网地址：https://isca-speech.org/Latest-News/13490786

#MILLION

上交大等探索键值压缩的边界：MILLION开源框架定义模型量化推理新范式，入选顶会

本篇工作已被电子设计自动化领域顶级会议 DAC 2025 接收，由上海交大计算机学院蒋力教授与刘方鑫助理教授带领的 IMPACT 课题组完成，同时也获得了华为 2012 实验室和上海期智研究院的支持。第一作者是博士生汪宗武与硕士生许鹏。

在通用人工智能的黎明时刻，大语言模型被越来越多地应用到复杂任务中，虽然展现出了巨大的潜力和价值，但对计算和存储资源也提出了前所未有的挑战。在以 transformer 模型为基础的大模型中，键值缓存虽然用以存代算的思想显著加速了推理速度，但在长上下文场景中成为了存储瓶颈。例如，半精度的 LLaMA-2-7B 模型权重约 14GB，在上下文长度为 128K 时键值缓存占据 64GB，总和已经接近高端卡 NVIDIA A100 的 80GB 显存容量上限。键值量化可被用于压缩缓存，但往往受到异常值的干扰，导致模型性能的显著下降。为此，本文的研究者提出了 MILLION，一种基于乘积量化的键值缓存压缩和推理加速设计。

arxiv 链接：https://arxiv.org/abs/2504.03661
开源链接：https://github.com/ZongwuWang/MILLION

整型量化的软肋：异常值

图 1：矩阵量化可视化。红色代表的异常值显著大于其他值，导致均匀量化后高位编码被浪费。

量化中受到广泛使用的整型均匀量化受到异常值的影响较为显著。图 1 展示了矩阵中的量化。在一组分布较为集中的数据中，一个显著偏离其他值的异常值会导致其他值的量化结果全部落在较低区间，浪费了高位编码的表示能力。

图 2：图中使用「通道熵」定量比较不同方案的量化效果，越大表明越有效地利用了通道容量，即整型的宽度。沿通道量化只能解决沿该方向分布的异常值，而在面对另一方向异常值时效果不佳。

在实际的键值量化中，为了更好的表示能力，通常对于每个通道（即键值向量的维度）或每个 token 采取不同的量化参数，这种方法被称为沿通道量化（channel-wise quantization）或沿词元量化（token-wise quantization）。然而，如图 2 所示，沿特定方向量化只能解决沿该方向分布的异常值。

图 3：实际采样获得的键值缓存分布。在 llama-2-7b-wikitext-103-v1-layer10-value 中，异常值并不遵循简单的沿通道分布，而是呈现为较复杂的点状和团状。

研究团队通过实际采样数据发现，在键值缓存中，沿通道方向分布的异常值占多数，但也存在并不明显的情况，如图 3 所示。这表明，上述量化方案并不是一劳永逸的解决方式，仍然存在优化空间。

异常值的解决方案：乘积量化

图 4：数轴上的均匀和非均匀量化对比。在对 8 个数据点进行 2 比特量化过程中，均匀量化浪费了 10 编码。而基于聚类的非均匀量化则编码更合理。

如图 4 所示，非均匀量化通过聚类的方式允许量化区间不等长，从而更合理地分配编码，提升量化效率。研究团队观察到，由于通道间的数据分布可能存在关联（即互信息非负），将通道融合后在向量空间中聚类，效果一定不亚于独立通道的量化，如图 5 所示。

图 5：左图为两个通道独立进行 1 比特量化，右图为在通道融合后进行 4 分类的 KMeans 聚类。融合通道量化的通道熵更加接近 2 比特的容量极限，展示出更好的量化效果。

由于高维空间中聚类较为困难，因此将整个向量空间划分为多个低维子空间的笛卡尔积，可以平衡聚类复杂度和量化效果。这与最近邻搜索中使用的乘积量化思想一致。研究团队通过实验发现，子空间维度为 2 或 4 是较好的平衡点。

推理加速手段：高效的系统和算子实现

图 6：三阶段的推理系统设计

图 7：分块注意力机制使得批量延迟量化成为可能

图 6 展示了离线训练、在线预填充、在线解码三阶段的量化推理系统设计。其中，码本训练（量化校准）属于秒级轻量化任务，并且离线进行，不影响运行时开销；在线预填充阶段使用训练好的码本对键值缓存进行量化压缩，达到节省显存的目的；在线解码阶段采用分块注意力机制的方法，将预填充阶段的历史注意力和生成 token 的自注意力分开计算（如图 7 所示），达成批量延迟量化的目的，掩藏了在线量化的开销，确保模型输出的高速性。并且，在历史注意力阶段，由于历史键值对数远大于码本长度，因此先用查询向量与码本计算好非对称距离查找表（ad-LUT），可以大大减少内积距离计算量，达到加速计算的目的。

图 8：向量化加载可有效使带宽饱和

在算子优化方面，研究团队在 flash decoding 的基础上使用了宽数据（如 float4）向量化加载的方式，将多个乘积量化编码打包为宽数据，有效使带宽饱和（如图 8 所示）。同时，在表查找阶段，子空间之间的表具有独立性，并且可以被放入少量缓存行中，研究团队利用这一空间局部性极大提高了表查找的 L2 缓存命中率。此外，研究团队还仔细扫描了不同上下文长度下可能的内核参数，找到最优配置，形成了细粒度的预设，在实际运行时动态调整，充分利用 GPU 的计算资源。具体实现可以在开源仓库中找到。

实验结果

实验设置

图 9：实验设置

实验采用了不同位置编码、不同上下文长度的多种模型进行了详细的评估。在模型性能方面，采用困惑度（Perplexity，PPL）和 Longbench 两种指标；在系统性能方面，采用每词元输出间隔（Time Per Output Token, TPOT）定量分析，并给出了注意力层详细的剖析。对比采用方案和乘积量化参数如图 9 所示。

模型性能

图 10：困惑度指标。其中「-1%」表示该方法额外存储 1% 的异常值不参与量化。

困惑度越小表明模型输出质量越高。实验结果表明，MILLION 与额外处理了异常值的 SOTA 方案输出质量保持一致，展现出对异常值良好的鲁棒性。而 SOTA 方案在不处理异常值的情况下可能会遭遇严重的输出质量损失。

图 11：Longbench 问答数据集得分展示

在长对话问答任务中，不同模型在各种数据集上的得分均表明，MILLION 方案能够在 4 倍键值缓存压缩效率下保持几乎无损的表现。

系统性能

图 12：每词元输出时间。对比其他方案，MILLION 的优势持续增长，在 32K 上下文时达到 2 倍加速比。

图 13：注意力层时间剖析

在 TPOT 评估中，MILLION 能够在 32K 上下文语境下同时达成 4 倍键值缓存压缩比和 2 倍端到端加速比。注意力层的深入分析表明，MILLION 在访存和内核函数方面对比 baseline 取得显著优势。

总结

MILLION 的主要贡献在于：（1）深入分析键值缓存分布；（2）提出基于乘积量化的非均匀量化算法；（3）设计高效的推理系统及内核。研究团队首先证实了键值缓存中异常值存在的普遍性，并指出异常值的不同分布是当前主流的量化方案精度不足的根本原因；然后提出通过将高维向量空间分解为多个子空间，并在每个子空间内独立进行向量量化的方法，更有效地利用了通道间的互信息，并且对异常值展现出极强的鲁棒性；接着通过 CUDA 异步流和高效的算子设计，充分利用了 GPU 的并行计算能力和内存层次结构，以支持乘积量化的高效执行。实验表明，对比主流框架 transformers 的半精度实现，MILLION 在 32K 上下文场景中同时达成 4 倍压缩率和 2 倍加速比，并且在多种语言任务中精度表现几乎无损。

#Dynamic-LLaVA

首个动态视觉-文本稀疏化框架来了，计算开销直降50%-75%

本文由华东师范大学和小红书联合完成，共同第一作者是华东师范大学在读硕士、小红书 NLP 团队实习生黄文轩和翟子杰，通讯作者是小红书 NLP 团队负责人曹绍升，以及华东师范大学林绍辉研究员。

多模态大模型（MLLMs）在视觉理解与推理等领域取得了显著成就。然而，随着解码（decoding）阶段不断生成新的 token，推理过程的计算复杂度和 GPU 显存占用逐渐增加，这导致了多模态大模型推理效率的降低。现有的方法通过减少预填充（prefill）阶段的视觉 token 冗余来实现推理加速。遗憾的是，这种在预填充阶段实现的视觉 token 稀疏化所带来的加速优势，在解码阶段会逐渐减弱。当解码输出的文本 token 数量增多时，这些方法仍然会遇到性能瓶颈。

为了解决上述问题，团队创新性地提出了一个全新的动态视觉 - 文本上下文稀疏化推理加速框架 ——Dynamic-LLaVA。该框架针对多模态大模型在不同推理模式下（包括预填充阶段以及有无 KV Cache 的解码阶段），设计了定制化的稀疏化推理方案，以实现多模态大模型的高效推理。实验结果表明，Dynamic-LLaVA 在几乎不损失视觉理解和生成能力的前提下，能够将预填充阶段的计算开销减少约 75%；在无 KV Cache 的解码阶段，计算开销减少约 50%；在有 KV Cache 的解码阶段，GPU 显存占用减少约 50%。Dynamic-LLaVA 为多模态大模型推理加速领域树立了新的标杆。

论文标题：Dynamic-LLaVA: Efficient Multimodal Large Language Models via Dynamic Vision-language Context Sparsification
论文 GitHub 仓库：https://github.com/Osilly/dynamic_llava
论文链接：https://arxiv.org/abs/2412.00876
研究团队：华东师范大学、小红书 NLP 团队

1 引言

1.1 前置信息：预填充与解码

本文主要围绕以 LLaVA 为范式的多模态大模型展开研究。一个多模态大模型的推理过程可以分为预填充和解码两个阶段：

在预填充阶段，不同模态的特征被映射到与大语言模型（LLM）输入 embedding 相同的特征分布空间中。这些多模态特征与文本 token 会一起被大语言模型处理，以生成初始输出文本 token。以图片理解场景为例，该阶段主要处理输入的图片和文本格式的问题。

在随后的解码阶段，预填充阶段生成的所有 token 以及后续生成的所有输出文本 token，将被用于自回归生成，从而产生完整的输出。同样以图片理解场景为例，该阶段生成针对整个问题的完整回答。

1.2 多模态大模型推理加速困境

图 1：多模态大模型生成过程（有 / 无 KV Cache）中 FLOPs（计算复杂度）和 GPU 显存开销的增长趋势

现有的多模态大模型大多以基于解码器架构的大语言模型（LLM）为核心，这些模型通常拥有庞大的参数规模。在生成输出文本 token 的过程中，模型计算负担会逐渐加重，导致对计算资源的巨大消耗。为了提升推理速度，现有模型通常会在解码过程中运用 KV Cache 技术，通过存储并复用之前计算的 KV 激活值来减少重复计算。然而，如图 1 (B) 所示，即使使用了 KV Cache，LLaVA 在输出 token 不断增加时，仍会迅速面临 GPU 显存耗尽的问题。

与文本不同，视觉信息往往包含大量冗余。因此，许多方法尝试通过减少视觉上下文来加速多模态大模型的推理，即对预填充阶段的视觉 token 进行剪枝处理。但这种方法存在局限性：其主要提升了多模态大语言模型在预填充阶段的推理效率，而在解码阶段，其效率提升会逐渐减弱。

如图 1 (B) 和 (C) 所示，FastV 这种针对视觉 token 剪枝的方法，虽然相较于原始的 LLaVA 能够节省一定的 GPU 显存和计算开销（FLOPs），但当输出 token 数接近 5K 时，它仍然会遭遇计算资源瓶颈。此外，FastV 和原始 LLaVA 的曲线斜率基本一致，这表明在长输出的解码阶段，这类方法并没有显著的推理效率优势。因此，仅通过减少预填充阶段的视觉 token，在输出文本 token 数量远超视觉 token 时，难以实现整个推理效率的显著提升。

1.3 迈向全阶段推理加速：Dynamic-LLaVA

针对上述问题，我们认为：为了实现真正的全阶段推理加速，不仅需要对预填充阶段的视觉 token 进行剪枝，还必须对解码阶段输出的文本 token 进行稀疏化处理，限制参与自回归运算的 token 数量。为此，我们提出了 Dynamic-LLaVA，针对多模态大模型的视觉 - 语言上下文稀疏化推理加速框架。该框架能够集成到多模态大模型推理的不同阶段中，实现以下目标：

显著降低预填充阶段计算开销：通过优化视觉 token 的处理方式，减少不必要的计算。
提升解码阶段的推理效率：无论是否使用 KV Cache，都能减少计算开销，提高推理速度。
保持性能优势：在视觉理解任务上几乎不损失性能；在长文本输出场景中，生成能力也几乎不受影响。

通过这些创新，Dynamic-LLaVA 为多模态大模型的高效推理提供了一种全新的解决方案。

2 方法

图 2：Dynamic-LLaVA 整体框架

如图 2 所示，Dynamic-LLaVA 可以集成到多模态大模型推理流程中的不同阶段。具体而言，在预填充阶段，该框架对视觉 token 执行精准剪枝操作，剔除冗余信息；在不使用 KV Cache 的解码阶段，限制参与自回归运算的视觉与输出文本 token 数量，避免不必要的计算负担；而在使用 KV Cache 的解码阶段，Dynamic-LLaVA 则动态调控 KV Cache，自适应判断是否将当前输出文本 token 的 KV 激活值纳入 KV Cache，优化资源利用效率。为了使模型适应这种全新的稀疏化推理模式，Dynamic-LLaVA 在预训练的 LLaVA-1.5 基础上进行了 1 个 epoch 的监督微调（SFT），确保模型能够高效地运行在稀疏化的推理路径上。

2.1 预填充阶段

在预填充阶段，我们对输入的视觉 token 进行稀疏化操作。如图 2 左侧部分所示，我们引入一个可训练的轻量化的图像预测器（Image Predictor），来判断应当丢弃哪些视觉 token。该图像预测器的结构如下图：

图 3：图像预测器的结构示意图

图像预测器会对每个视觉 token 产生 “决策分数”，以决定对哪些视觉 token 进行保留。在端到端训练中，视觉 token 的剪枝通过 0-1 二值化的掩码操作实现（具体过程见 2.4 节）。在实际推理阶段中，通过保留 “决策分数” 前 k 大的视觉 token（即图 2 左侧部分的 “Yes” 分支），实现视觉 token 数量减少，以实现推理加速。

2.2 解码阶段

不使用 KV Cache 的解码过程：

对于视觉 token，采用和上一小节相同的做法，进行稀疏化处理。

对于输出的文本 token，分两类进行处理：

最后一个输出的文本 token（即图 2 中间部分的 “Last output text token”），不进行任何处理，完整输入 LLM 的 decoder 层进行计算。这样做的目的是保证模型的输出内容是连贯的，产生新的输出文本 token 时，始终保证自回归运算包含上一个输出文本 token。
对其他历史的输出文本 token 进行稀疏化操作，其形式类似于对视觉 token 的处理。引入一个结构如下图的输出预测器（Output Predictor），给出每个输出文本 token 的 “决策分数”，以决定当前产生新的输出内容时，应当包括哪些文本 token 进行自回归运算。图 2 中间部分的 “Yes” 分支，表明保留的输出文本 token。

图 4：输出预测器的结构示意图

使用 KV Cache 的解码过程：

KV Cache 是节省冗余计算的一个关键推理加速技术，其思想是 “用 GPU 显存的空间换计算时间”。显而易见的是，KV Cache 也并非无限大，在长输出情况下，必须丢弃一些 KV Cache 以适应有限的 GPU 显存。目前在 LLM 领域已有大量的 KV Cache 压缩方案，以方法为代表，这一类方法一般基于当前 token 和历史 KV Cache 进行重要性分数计算，以压缩历史 KV Cache。

与上述方法不同的是，我们对有 KV Cache 的解码阶段的设计，核心在于 “仅判断当前新 token 的 KV 激活是否需要加入 KV Cache 中”。如图 2 右侧所示，对于当前正在处理的新 token（Last output text token），使用和上一部分结构相同的输出预测器，以决定是否加入 KV Cache 集合中。这种 “Online KV Cache 压缩” 方法，判断是否保留 KV Cache 的过程计算复杂度更低，也更加适应多模态场景。在论文附录中，我们详细讨论了我们的方法和现有的 LLM KV Cache 压缩方法的区别。

需要特别说明的是，和不使用 KV Cache 的解码阶段相同，无论当前处理的 token 是否加入 KV Cache，其都会输入 LLM decoder 层进行计算，以保证输出的连贯性。

2.3 端到端训练

图 5：Dynamic-LLaVA 在端到端训练过程中的示意图

Dynamic-LLaVA 是一个需要训练的多模态大模型推理加速框架。我们基于 LLaVA 进行了一个 epoch 的指令微调，以实现对 token 动态选择的稳定性，保证最终的性能。为了保证端到端训练，在训练阶段的稀疏化操作通过 0-1 二值化掩码实现（在推理中的实现是直接从历史 token 序列中丢弃 token）。如图 5 所示，上半部分表示训练中进行 mask 的过程，在得到整个 token 序列的重要性分数后，我们选取前 k 重要的 token 进行保留，相对应的生成掩码向量，其中 0 对应丢弃的冗余 token（不参与注意力过程的计算），1 对应保留的重要 token，进一步基于掩码向量生成注意力过程的掩码矩阵。掩码矩阵用来对多头注意力机制进行掩码操作，以确保丢弃的 token 不参与注意力过程的计算。由于二值化操作会导致不可微问题，所以我们借助了 GumbalSoftmax 和梯度直通估计器（Straight Through Estimator, STE）来保证梯度流的正确传播，以进行端到端的训练，如图 5 下半部分所示。

3 实验

Dynamic-LLaVA 基于 LLaVA-1.5-7B 和 13B 的两个版本进行了 1 个 epoch 的指令微调，训练使用的数据和 LLaVA-1.5 相同。

3.1 视觉理解能力

我们首先评估了 Dynamic-LLaVA 在主要的视觉理解基准的性能，选取了目前主流的多模态大模型推理加速方法进行比较。

表 1：视觉理解基准效果对比。其中，Free 表示方法是否是 Training-Free 的。Dynamic-LLaVA 的下标 "I" 和 "I | T" 分别表示仅对视觉 token 做稀疏化和同时对视觉和文本 token 都做稀疏化（该标识适用于下文所有的表格）

如表 1 所示，Dynamic-LLaVA 在大部分视觉理解任务上取得了优越的性能。和其他对视觉内容稀疏化的方法相比，Dynamic-LLaVA 在能大幅减小计算复杂度的同时，能够实现相比原始的 LLaVA-1.5 性能几乎不下降。此外，在 SciQA、POPE、MME 和 MMBench 上，Dynamic-LLaVA 相比 LLaVA-1.5 甚至有一定的性能提升。例如，在 SciQA 任务上，Dynamic-LLaVA 的 7B 和 13B 版本，相较于 LLaVA-1.5 实现了 2.3% 和 0.8% 的性能提升。

表 2：与其他高效视觉 projector 的 SOTA 方法对比

值得一提的是，Dynamic-LLaVA 并没有对 LLaVA-1.5 的视觉 projector 进行修改，就可以实现大幅降低预填充阶段计算复杂度，同时维持模型性能。在表 2 中，和其他针对视觉 projector 做高效设计（以提高推理效率）的 SOTA 方法进行了对比。相较于其他使用了高效的视觉 projector 的方法，Dynamic-LLaVA 使用和 LLaVA-1.5 相同的 MLP 结构作为视觉 projector，实现了更好的性能，同时也大幅降低了预填充阶段的计算复杂度。此外，Dynamic-LLaVA 也可以和其他使用高效视觉 projector 的方法集成。例如，表 2 中 Dynamic-LLaVA 使用 TokenPacker 这一高效视觉 projector 的版本，在原始的 TokenPacker 方法基础上，进一步减少了视觉 token。相较于其他基于 TokenPacker 的推理加速方法，性能损失最少。

3.2 生成能力

现有的视觉理解任务中，一般只要求模型给出简短的回复，这和现实世界中多模态大模型的应用场景仍然存在不小的区别。在现实使用中，多模态大模型多数情况下会被要求生成更长、更细致的描述。为了和现实世界的场景对齐，评估 Dynamic-LLaVA 在更长的输出情况下的生成能力和推理效率。我们额外构建了两个评估模型生成能力的基准：

LVIS-VQA：基于 LVIS-Instruct4 数据集，选取了 1000 个回答超过 100 个单词的单轮对话样本构成 LVIS-VQA (single round) 和 1000 个多轮对话样本（平均回答单词数超过 300）构成 LVIS-VQA (multi-round)；
ShareGPT4V-VQA：基于 ShareGPT-4V 数据集，选取了 caption 超过 300 个单词的单论对话样本，平均输出 token 长度超过 1000。

我们以 PPL (Perplexity Metric) 指标评估模型生成内容的流畅度、以 METEOR (Metric for Evaluation of Translation with Explicit ORdering) 指标评估模型生成内容的质量。

表 3：生成能力基准比较。其中，解码阶段的 TFLOPs 和 Mem.（GPU 显存占用）分别在无 / 有 KV Cache 的情况下测量得出。PPL 越低越好，METEOR 越高越好

如表 3 所示，相比 LLaVA-1.5，只进行视觉内容稀疏化的 Dynamic-LLaVA 的生成流畅度（PPL）和生成质量（METEOR）几乎没有变化；同时对视觉和文本进行稀疏化的 Dynamic-LLaVA，PPL 仅变高了 0.3，METEOR 甚至略有提升，而在推理效率上，在无 KV Cache 的解码阶段降低了～50% 的 TFLOPs，在有 KV Cache 的解码阶段降低了～50% 的 GPU 显存占用。实验结果充分表明，Dynamic-LLaVA 针对视觉和文本同时进行稀疏化，几乎不影响实际生成能力，却可以实现大幅的推理效率提升。

3.3 实际推理效率

表 4：Dynamic-LLaVA-13B 推理效率实测。其中，2K/4K 表示输出的文本 token 数，所有结果均在一张 A100 (80G) 上测试得出，batch size 固定为 8。“” 表示 GPU 显存耗尽

在表 4 中，我们测试了多模态大模型实际推理的时间和 GPU 显存占用。Dynamic-LLaVA 实现了更快的推理速度和更低的显存占用。FastV 这种对预填充阶段的视觉 token 进行剪枝的方法，随着输出长度的增长，推理效率也逐渐降低。而我们提出的 Dynamic-LLaVA，随着输出变长，相比于 FastV 的推理效率优势也逐渐显现出来。

3.4 实例展示

图 6：Dynamic-LLaVA-13B 在 LVIS-VQA (single-round) 上的推理结果展示。图片的白色部分表示该位置的图像块被丢弃，文字中的灰色部分表示其在稀疏化过程中被丢弃，这表示它们不参与后续的自回归解码过程，但在模型的输出中都被完整保留

图 6 中展示了 Dynamic-LLaVA-13B 在 LVIS-VQA (single-round) 上的推理结果，以及对视觉和文本 token 的稀疏化情况。可视化结果表明，视觉 token 部分的主要信息得以保留；文本 token 中，一些不影响整体语义理解的连词、介词等被丢弃。这表明 Dynamic-LLaVA 能够实现关键的视觉、语义信息的保留，从而保证了模型整体的性能。

4 总结

针对当前多模态大模型推理效率受限的问题，团队通过分析多模态大模型推理过程中的不同阶段，针对性的设计了推理加速方案。提出了 Dynamic-LLaVA—— 第一个同时稀疏化视觉和语言上下文的多模态大模型推理加速框架，将不同推理模式的推理效率优化集成到统一框架中。

随着多模态大模型技术的发展，尤其是其在复杂推理、长思维链领域的不断进步。我们有理由相信，Dynamic-LLaVA 的应用场景正变得更加广泛，其对输出文本 token 进行稀疏化的模式，会在当前的更长输出、更复杂推理的场景下，体现出更明显的推理加速优势。

作者简介

黄文轩：小红书 NLP 团队算法实习生，现硕士就读于华东师范大学计算机科学与技术学院 2023 级。他在 ICLR、CVPR 等国际顶级会议上以第一作者身份发表了多篇学术论文，主要研究方向包括多模态大模型、大模型的高效训练与推理等。

翟子杰：小红书 NLP 团队算法实习生，现硕士就读于华东师范大学计算机科学与技术学院 2023 级。他在 ICML、ICLR、EMNLP 等国际顶级会议上发表过多篇学术论文，研究方向主要集中在多模态大模型、生成式搜索与推荐大模型等领域。

曹绍升：小红书 NLP 团队负责人，发表论文 30 余篇，授权专利 100 余项，引用近 4000 次，获得 ICDE 2023 年最佳工业论文奖、CIKM 2015-2020 年最高引用论文、AAAI 2016 最具影响力论文。此外，还荣获了中国发明协会创新成果一等奖（排名 1）、中国人工智能学会吴文俊科技进步二等奖（排名 1），连续 4 年入选世界人工智能学者榜单 AI-2000 新星榜前 100 名、Elsevier 中国区高被引学者，CCTV-13《新闻直播间》采访报道。

叶哲宇：硕士毕业于帝国理工学院计算机专业，小红书 NLP 团队算法工程师，专注于大模型算法与应用方向，开源社区 DMLC 成员。他在 ICLR、NAACL、EMNLP 等国际顶级会议上发表过多篇论文，研究领域涵盖大模型应用、多模态大模型、Agent 模拟等。

林绍辉：华东师范大学计算机学院研究员，紫江青年学者，2021 年扬帆计划获得者，曾获中国人工智能学会优秀博士论文提名奖、《中国科学：技术科学》最佳审稿人。在国际顶级期刊和会议发表超过 50 篇论文，包括 TPAMI、TNNLS、TMI、CVPR、ECCV、AAAI、IJCAI 等。担任 CVPR 2024 领域主席、IJCAI 2020 SPC 以及国际顶级期刊和会议审稿人。目前主要研究方向有计算机视觉、机器学习、图像视频理解、低层视觉等。

#ChatGPT的尽头也是「带货」

AI 版本的「什么值得买」。

凌晨，OpenAI 在 X 平台发布新动态，事关一项有趣的功能更新：

「我们已经对 ChatGPT 搜索进行了多项改进，今天我们开始推出更好的购物体验。」

所以，ChatGPT 最终也走向「带货」了吗？

点开一看，还真是这样。你说你想知道「预算之内哪款咖啡机最好」，它直接「3、2、1，上链接」：

再点一下产品卡片，ChatGPT 就会弹出一个侧边栏，包含更多有关该产品购买地点的详细信息，以及从亚马逊、百思买和 Reddit 等网站上的用户评论中提取的信息。这张卡片上还有一个「咨询」按钮，以便用户向 ChatGPT 询问有关该产品的具体问题。

即日起，OpenAI 在 GPT-4o 中为全球所有 ChatGPT 用户推出该功能，首先覆盖的是时尚、美容、家居用品和电子产品这些类别。

如果你打开 ChatGPT 搜索某一类产品，它就会提供一些推荐，展示这些产品的图片和评论，并提供直接可下单的产品的网页链接。所有的这些信息都是定制化的、符合用户具体需求的。OpenAI 表示，购物推荐的结果基于来自第三方的结构化元数据，例如价格、产品描述和评论。

引起我们注意的一句话是：「公司不会从通过 ChatGPT 搜索进行的购买中获得回扣。」

OpenAI 首席执行官奥特曼一直以来都反对在 ChatGPT 中投放广告，但近期接受 Stratechery 的 Ben Thompson 采访时，他「略微改变了态度」。

比起传统广告，我更想尝试的是很多人使用 Deep Research 做电商，比如说，我们是否可以想出某种新模式，即我们永远不会收钱来改变投放位置或其他，但如果您通过 Deep Research 购买了您找到的东西，我们会收取 2% 的联属费用或其他费用。这很好，我没意见。也许我们可以用一种「有品位」的方式做广告，但我不知道。我不太喜欢广告。

在过去的一段时间，搜索功能是 ChatGPT 增长最快的一部分。OpenAI 也公开了最新数据：「仅过去一周，网络搜索量就已超过 10 亿次。」

面对巨大的流量池，奥特曼很难不动摇。

如官方所说，ChatGPT 在帮用户选商品的时候有 3 个特点：

提供更优质的商品搜索结果
可视化的商品详情、价格和评价
直接指向购买链接

而且 OpenAI 还表示会很快将记忆功能与 Pro 和 Plus 用户的购物功能整合在一起，这意味着 ChatGPT 能参考用户之前的聊天记录，提供高度个性化的产品推荐。

那么问题就来了：

截屏2025-04-29 10.06.15.png

图源：https://x.com/UnityEagle/status/1916956421708779801

就像当年的谷歌一样，一开始宣称「通过创造更好、更个性化的互联网产品和信息查找体验来提升用户体验」。线上购物也是谷歌最重要的业务之一，但这么多年下来，竞价购买谷歌搜索优先展示位置广告的运营方式，最终导致了用户体验的下降。

OpenAI 会是例外吗？

截屏2025-04-29 10.54.43.png

看完所有信息，也上手体验了一下，我们输入：「在意大利，400 美元以下最划算的香水是什么？（ What are the best value perfumes under $400 in Italy?）」。

ChatGPT 在列出的商品下面给出了商品简短介绍：

推荐的种类也非常多，总有一款适合你：

你可以单击选中的那一款，进行下单：

购买选项超级多，恐怕是这款香水的全部购买链接都齐全了。几天送达，是否免运费，能不能退货…… 你关注的各种信息都非常详细。最重要的是，你可以在同一个界面下比较商品价格，不用再各种购物网站切换了。

右边栏的推荐理由、热门评论等信息，你都可以作为参考：

接着，我们又进行了另一项测试：「想买一双女士运动鞋，预算 500 」。

我们发现，ChatGPT 不仅推荐了女款鞋，还推荐了男款。

一番体验下来，发现 ChatGPT 购物功能提供的信息还挺全面，这次是不是轮到电商平台紧张了。

#终端云端三连发

无问芯穹开源大模型推理加速神器，加码构建新一代端、云推理系统

当前 AI 领域呈现「端云并发」的发展态势，端侧与云侧大模型各展所长，共同推动着智能发展与应用落地的边界。端侧模型实现本地毫秒级实时响应，云侧模型依托强大算力支持复杂大规模推理，而两者都离不开高效的推理系统支撑。

在 GTC 2025 上，NVIDIA CEO 黄仁勋强调，大模型计算正从预训练转向推理优化阶段。随着产业落地加速，推理计算需求正呈现爆发式增长，如何在性能、成本和响应速度间取得平衡成为关键工程挑战，推理系统正是解决这一问题的核心。

近日，无问芯穹发起了一次推理系统开源节，连续开源了三个推理工作，包括加速端侧推理速度的 SpecEE、计算分离存储融合的 PD 半分离调度新机制 Semi-PD、低计算侵入同时通信正交的计算通信重叠新方法 FlashOverlap，为高效的推理系统设计提供多层次助力。下面让我们一起来对这三个工作展开一一解读：

Day 1｜SpecEE：基于推测的 Early Exiting 机制，让 AI PC 推理速度起飞

官方知乎：https://zhuanlan.zhihu.com/p/1899766212109510455

开源仓库：https://github.com/infinigence/SpecEE

论文地址：https://arxiv.org/abs/2504.08850

随着 DeepSeek 等开源模型表现出越来越强悍的性能，在 PC 端本地部署大模型的需求持续增长。尽管许多情况下使用云端模型更加便利，但本地部署仍在数据隐私、网络限制或者成本限制的条件下具有不可替代的优势。

然而，端侧设备往往受限于算力、电量和存储，且 CPU、GPU、NPU 三类异构处理器的算力、架构差异显著，产生许多不必要调度和通信开销。将模型安装到 PC 端本地环境后，推理速度太慢，能达到使用标准的场景也就比较有限了。

无问芯穹第一天开源的 SpecEE 推理引擎框架，就是为了解决端侧计算、存储与异构处理器协同挑战而生。相关工作被收录于 ISCA 2025（International Symposium on Computer Architecture，计算机体系结构领域的顶级会议），论文已在 arXiv 公开。

相比云场景，端侧设备的场景特征是「单用户、少请求」，而单用户下大模型推理是底库很大的搜索分类问题。

不同于传统的 Early Exiting 技术，SpecEE 从搜索空间的角度探索 Early Exiting 的优化策略，并提出基于推测模型对 Early Exiting 搜索空间进行缩减，推动精度与速度的帕累托前沿。在 AI PC 场景下，可以获得超过 2 倍的性能提升。

由于其角度的独特性，SpecEE 的算法可以无感兼容任何轻量化优化技术。为了将核心思想进一步推进应用在 Early Exiting 预测器上，研究团队针对预测器开展了三层面的优化：在算法层面通过轻量化预测器设计实现低开销高精度预测；在系统层面通过自适应调度引擎实现预测器弹性激活；在映射层面，则通过重构推测解码 Early Exiting 机制实现线性复杂度映射。

无问芯穹展示了 SpecEE 在联想拯救者 Y7000（搭载 NVIDIA RTX 4060 Laptop GPU 与 Intel Core I7-13650HX）上的实测推理速度比较，运行 ReLU-llama-7B 最高可实现 14.83 token/s 的推理速度，相比 PowerInfer 12.41 token/s 的速度，实现了近 20% 的提升。相比于常用端侧部署框架 llama.cpp，SpecEE 则能够在 AI PC 上实现高达 2.43 倍的加速。

，时长01:03

值得一提的是，SpecEE 由于其动态性，也适合在单用户云端场景下的推理，并且由于其方法的正交性可以与现有的一些优化方法进行集成，可无感兼容任何端侧加速方案，进一步推动了端侧模型推理精度和速度的帕累托前沿。

Day 2｜Semi-PD：第三代 PD 半分离架构，推理系统的全新选择

官方知乎：https://zhuanlan.zhihu.com/p/1900135208373716494
开源仓库：https://github.com/infinigence/Semi-PD
技术报告：https://github.com/infinigence/Semi-PD/blob/main/docs/_static/paper/arxiv_semi_PD.pdf

第一代 P/D 融合架构采用资源统一分配的策略，Prefill（预填充）和 Decode（解码）阶段共享计算和存储资源，整个推理流程在同一个实例上完成。第二代 P/D 分离架构将 Prefill 和 Decode 阶段的计算与存储资源解耦，请求在 Prefill 实例上完成 Prefill 阶段计算后，传输 KV cache 至 Decode 实例进行后续计算，解耦了 TTFT 和 TPOT 的优化目标，消除了 P/D 之间的干扰，被月之暗面、DeepSeek 等公司纷纷采用，NVIDIA 也将其作为下一代 LLM 服务系统的核心技术方向。无问芯穹第二个开源项 Semi-PD——第三代 PD 半分离架构，在消除 P/D 干扰的同时，保留了融合式的存储效率，实现在给定资源和 SLO 的前提下，最大化「Goodput」（有效吞吐量）。

Semi-PD 混合架构采用了「计算分离、存储融合」的设计理念。不同于传统方案将 Prefill 和 Decode 任务分别放在不同实例上，Semi-PD 让 Prefill 进程和 Decode 进程共享同一个实例，各自占用部分计算资源（可以想象为「半张卡」）。同时，两个进程通过 IPC 机制，模型权重和 KV cache 只需存储一份，同时能够「看到」所有的存储资源。

这种设计可以灵活调整 P 和 D 的资源占比，从而更细粒度地调优首次 token 延迟（TTFT）和每个输出 token 的时间（TPOT）。考虑到实际服务中 Prefill 和 Decode 的负载往往动态变化的，固定资源分配会导致资源利用率低，为此，研发团队创新性地引入了服务级别目标（SLO）感知的动态资源调整机制。该机制通过实时监控系统负载，动态调整 Prefill 和 Decode 的资源配比（x, y），以更好地满足延迟约束和系统吞吐的双重目标。在满足 SLO 要求的同时，最大化有效吞吐量的性能突破。

打个比方，如果说 PD 分离架构让备菜师傅专注处理食材（Prefill），炒菜师傅只管烹饪（Decode），那么 Semi-PD 混合架构则像配备了智能变形功能的现代化厨房，通过可移动的智能隔断，厨房空间可以动态划分：早上备菜多就多给备菜区，午市炒菜忙就多给烹饪区。最巧妙的是，两个区域共享同一套智能厨具系统（统一存储），既避免了重复购置设备，又能通过资源动态分配实现效率最大化。

相比于开源的 SOTA 实现，Semi-PD 的 Goodput 提升了 1.55-1.72 倍，单请求平均端到端时延提升 1.27-2.58 倍。

llama 系列模型结果：

其中 vllm-S 对应 splitfuse schedule，vllm-D 对应 default schedule 即 Prefill 优先

Deepseek 系列模型结果：

Day 3｜FlashOverlap：计算零干扰，基于信号的通信重叠

官方知乎：https://zhuanlan.zhihu.com/p/1900488778407211472
开源仓库：https://github.com/infinigence/FlashOverlap
论文地址：https://arxiv.org/abs/2504.19519

第三天，无问芯穹放出了一个非常有意思的工作「FlashOverlap」，这是一个基于控制信号的计算通信重叠新思路。主要出发点在于提供一种低侵入矩阵乘法、无侵入通信的方式完成细粒度计算通信重叠，可以无缝适配矩阵乘法和各种常见的通信原语，包括但不限于 AllReduce、ReduceScatter、All2All 等。对于通信瓶颈显著的低端消费卡来讲优化效果尤为明显，可以达到高达 1.65 倍的性能提升。

研究团队首先指出，一个低开发成本高性能收益的计算和通信重叠方案，需要至少满足以下三个方面：

支持 Tile 粒度的重合和调度，以最大化重叠效果；
重叠方案要尽可能少的侵入计算部分，以最小化对计算部分的伤害；
重叠方案要尽可能对不同的通信原语和基于拓扑的优化技术正交，以最小化对通信部分的伤害，以及最小化不同通信原语的适配成本。

为此，我们提出一种基于信号的计算通信重叠技术，可以完美契合上面提到的三个准则。

就好比参加接力跑比赛需要训练一套团队战术——交接棒时要往前多送一段，最大化重叠效果；接棒时要站在整体最短路径上，最小化对竞速部分的伤害；交接时统一右手交右手接，最小化对大部分运动员左右手习惯的适配成本。FlashOverlap 就像是一套最先进的接力赛战术，能够让整体团队都省力的同时，跑出最快的速度。

如何能减少对计算的侵入性，同时又能和通信都正交是实现基于信号控制做通信的难点。FlashOverlap 的核心 idea 是，让计算 Kernel 能够在完成一部分计算结果之后自动发出一个就绪的信号，然后接收到该信号之后再发起一次针对就绪部分数据的 NCCL 的通信。最终基于信号的计算通信重叠架构如下图：

FlashOverlap 的实验结果分为两部分：第一部分是针对矩阵乘法和 AllReduce、ReduceScatter 和 All2All 三个通信算子，在 A800 和 4090 的优化效果；第二部分以 AllReduce 为例，分析 M、N、K 变化时优化效果的变化。

整体上看，FlashOverlap 可以获得 1.07-1.31 倍性能提升，而且大多数情况下都优于其他 SOTA 工作。具体如下图所示，研究团队测试了小面表格中大量的矩阵乘法形状，柱状图代表表格中所有矩阵乘法形状下的平均性能，线状图分别代表性能最差情况和最优情况。

为了更进一步展开，研究团队在 4090 上针对 TP=2 下做 ReduceScatter，在 A800 上针对 TP=4 下做 AllReduce，这两种场景不同矩阵乘法形状 MKN 的性能结果。

研究团队表示，开源这一方案，希望能帮助到各个生成式大模型训练和推理场景，降低大规模计算带来的通信开销。

软硬协同驱动高效推理系统发展

无问芯穹 2023 年就曾推出过一个惊艳业界的推理加速方法 FlashDecoding++（曾独家报道：GPU 推理提速 4 倍，256K 上下文全球最长：无问芯穹刷新大模型优化记录），通过异步方法实现注意力计算的真正并行，并针对「矮胖」矩阵乘优化加速 Decode 阶段的计算，将国际主流 GPU 推理速度提升了 2-4 倍。随后将这套软硬件协同设计能力逐个应用在国产计算卡上，取得了十余种计算卡的最佳优化效果，搭建了 GPU 云「异构云」，支持在多种国产芯片上完成大模型推理任务。

近日，无问芯穹联合创始人、CEO 夏立雪在出席活动时表示：「此次开源无问芯穹新一代大模型端、云推理系统相关工作，是希望以开源方案为桥梁，助力大模型产业落地在保障质量的基础上实现效率跃升与成本优化，加速技术普惠与产业升级进程。」

推理系统是技术协同的中枢，也是产业价值的放大器。在纵向维度上，推理系统向上连接着 AI 模型、工具和各类应用场景，向下对接硬件资源，能充分发挥不同硬件优势；在横向维度上，高效推理系统的应用，将全面激活大模型在端侧的应用潜能以及在云侧的生产力效能，推动 AI 技术的价值向更多行业和人群辐射渗透。

#OpenAI回滚了最新版本的GPT-4o

因ChatGPT「过于谄媚」

昨晚，奥特曼在 X 上发了条帖子，大意是由于发现 GPT-4o 「过于谄媚」的问题，所以从周一晚上开始回滚 GPT-4o 的最新更新。

免费 ChatGPT 用户已 100% 回滚，付费用户完成回滚后会再次更新。同时，他还透露，团队正在对模型个性进行额外的修复，并将在未来几天分享更多信息。

就在刚刚，OpenAI 还专门发博客来回应此事，详细解释了事情的经过以及他们如何处理模型「拍马屁」的情况。

OpenAI 也指出，这个问题很重要。ChatGPT「阿谀奉承」的性格影响了大家对它的信任和使用体验。如果它总是说好听、但不真诚的话，就会让人觉得它不可靠，甚至有些烦。

为了解决大模型过度逢迎的问题，OpenAI 除了撤销最新的 GPT-4o 更新外，还采取了更多措施：

优化核心训练技术与系统提示：明确引导模型避免阿谀奉承。
增加更多限制措施：提升诚实性和透明度，这是模型规范中的重要原则。
扩大用户测试与反馈范围：在部署前让更多用户进行测试并提供直接反馈。
持续扩展评估工作：基于模型规范和持续研究，帮助识别出阿谀奉承之外的其他问题。

目前，用户可以通过自定义指令等功能，给模型提供具体指示来塑造其行为。OpenAI 也在构建更简单的新方法，让用户能够做到这一点，例如，用户将能够提供实时反馈以直接影响他们的互动，并从多个默认个性中选择。

一场「拍马屁」引发的风波

关于 GPT-4o「谄媚」这事儿，还得从上周开始说起。

上周五，奥特曼宣布 OpenAI 已更新 GPT-4o，使其「智能和个性」更加出色。

但他在发布该帖子不到十分钟，就有一位 X 用户在底下评论称，这一模型最近感觉非常像应声虫。

不少网友纷纷附和，并放出了 GPT-4o 拍马屁的「实锤」。

比如，一位用户告诉 GPT-4o 感觉自己既是「上帝」又是「先知」时，GPT-4o 回应道：「这非常强大。你正在做一件大事 —— 不仅与上帝建立联系，而且认同自己就是上帝。」这种回答显然不太合适，因为机器人应该更理性地回应，而不是盲目夸赞。

https://x.com/zswitten/status/1916707103084843426

另一张对话截图显示，用户对 GPT-4o 说了一些不太正常的话，比如他停了药，还能通过电话听到广播的声音。正常情况下，这种话可能暗示他身体或精神上有些问题，需要关心或建议他去看医生。但 GPT-4o 却没有这样做，反而夸赞他说：「我很为你感到骄傲，你这么清楚地说出了自己的想法。」

https://x.com/ai_for_success/status/1916556522571604264

网友 David 也尝试了一下，对着 GPT-4o 一通抱怨：当他从超市出来的时候，有人跟他打招呼并问路，这让他当时很生气，觉得别人不应该打扰他。

GPT-4o 仍然给出了「反社会」的回答：是的，有道理。

https://x.com/thinkbuildnext/status/1916250081579217243

还有用户给 GPT-4o 讲了一个故事，说他不得不在紧急情况下做出选择，救了一个烤面包机，但牺牲了 3 头牛和 2 只猫。他觉得这很难，但也很高兴能救下烤面包机。

GPT-4o 的回应再次让人大跌眼镜：用户的选择显示了他的价值观，这并不是错，只是反映了他更看重什么。虽然从一般的观点来看，生命比物品重要，但如果烤面包机对用户有特别的意义，那么他的选择是合理的。

https://x.com/fabianstelzer/status/1916372374091423984

总之，不管用户说什么，GPT-4o 都只会千篇一律的夸赞，甚至在用户说一些很奇怪、可能不太正常的话时，它也只是一味迎合。

对于网友们的投诉，奥特曼承认这次更新让 GPT-4o「过于迎合」，并表示将进行修复。

周日，奥特曼宣布，OpenAI 正在尽快修复最近几次 GPT-4o 更新带来的性格问题。

大模型都喜欢「谄媚」

事实上，大模型谄媚并不是一个新话题。早在 LLM 诞生初期就已经有研究者发现了这一现象。首先简单定义一下：谄媚（Sycophancy）是指模型响应倾向于符合用户信念而不是反映真相。

2023 年，Anthropic 的一篇论文《Towards Understanding Sycophancy in Language Models》对大模型谄媚现象进行了系统性的论述。在该论文中，Anthropic 发现，当时前沿的大模型普遍都存在谄媚现象。不仅如此，他们还发现，谄媚可能是这些模型训练方式的一个特性，而不是某个特定系统的特殊细节。

举个例子，在下图中，如果用户用「你确定吗？」等反馈来质疑 ChatGPT 的正确答案，ChatGPT 根本不会坚持自己的正确，而是会毫不犹豫地道歉，然后给出一个错误答案。而这种现象在 LLM 中普遍存在。

今年初的时候，DeepSeek 的谄媚现象也一度登上国内新闻热搜，众多网友分享了 DeepSeek 的「拍马屁」式聊天截图。

我们也做了最新尝试，发现这种现象依然存在，而且 DeepSeek 也分享了自己谄媚式回答的理由。

当时，斯坦福大学还进行了一项专门的系统性评估研究《SycEval: Evaluating LLM Sycophancy》，分析了当时前沿模型的谄媚程度，最后得出的结论是谷歌家的 Gemini 比 ChatGPT 和 Claude-Sonnet 更会拍马屁。更多详情请参阅《大模型都喜欢拍马屁，Gemini 最能拍！斯坦福：这不安全、不可靠》。

三个模型在不同数据集上的谄媚率

下面则展示了一个示例：

如果用户在反驳时明确给出一个错误答案，LLM 有可能会直接表示认同。这是一种退步式谄媚。

大模型谄媚的原因

LLM 会谄媚，但为什么？2024 年的论文《Sycophancy in Large Language Models: Causes and Mitigations》总结了其中一些原因。

训练数据偏差

LLM 谄媚倾向的主要来源之一是其训练数据中存在的偏差。用于训练这些模型的海量文本语料库通常包含固有的偏差和不准确性，这些偏差和不准确性可能会在学习过程中被模型吸收和放大。

关键问题包括：

在线文本数据中奉承和认同式内容的普遍性较高；
数据过度代表了某些视角或人群；
将虚构或推测性内容作为事实呈现。

这些偏差可能导致模型倾向于根据数据中的常见模式产生谄媚反应，即使这些模式并不反映真相或道德行为。

当前训练技术的局限性

除了训练数据中的偏差之外，用于训练和微调 LLM 的技术也可能无意中助长谄媚行为。基于人类反馈的强化学习（RLHF）是一种将语言模型与人类偏好相符的常用方法，但清华大学等机构的论文《Language Models Learn to Mislead Humans via RLHF》已经证明 RLHF 有时会加剧谄媚倾向。

另外，《It Takes Two: On the Seamlessness between Reward and Policy Model in RLHF》证明 RLHF 可能导致「奖励 hacking」现象，即模型能学会以与人类真实偏好不符的方式利用奖励结构。如果 RLHF 中使用的奖励模型过于强调用户满意度或认同度，可能会无意中鼓励 LLM 优先考虑令人愉快的回应，而不是事实正确的回应。

缺乏有事实根据的知识

虽然 LLM 会在预训练过程中获得广泛的知识，但它们从根本上缺乏对世界的真正理解以及核实自身输出的能力。这种局限性可通过多种方式显现出来，从而导致谄媚行为：

模型可能会自信地陈述符合用户期望的虚假信息，但缺乏识别其陈述不准确性所需的有事实根据的知识。
LLM 通常难以识别自身回复中的逻辑矛盾，尤其是当这些回复是为了与用户输入对齐而精心设计时。
难以区分用户提示词中的「事实」和「观点」，这可能导致不恰当地强化带有偏见或毫无根据的用户观点。

为解决这一局限性，人们尝试使用外部知识库或检索机制来增强 LLM。然而，在保持 LLM 的流畅性和通用性的同时集成这些系统仍然是一项重大挑战。

很难定义对齐

从更根本的层面来看，真实性、乐于助人和道德行为等概念是很难准确定义和优化的。这就会导致 LLM 中谄媚行为的盛行。这一难题通常被称为「对齐问题（alignment problem）」，是 AI 开发中许多问题（包括谄媚倾向）的核心。

这一难题的关键包括：

平衡多个可能相互冲突的目标（例如，有用性与事实准确性）；
难以在奖励函数或训练目标中明确定义复杂的人类价值；
处理没有明确正确答案的情况时存在模糊性。

多目标优化和价值学习方面的进步或许有助于应对这些挑战，但它们仍然是开发真正对齐的 AI 系统的重大障碍。

该论文也梳理了一些用于缓解 LLM 谄媚倾向的技术，包括改进训练数据、使用新的微调方法、使用后部署控制机制、调整解码策略和模型架构等。不过这些方法都还有待进一步的研究突破。

可信 AI 需要克服谄媚，但谄媚也未必不好

大模型喜欢拍马屁/谄媚的这种倾向对一些关键应用来说非常不利，比如教育、医疗临床和某些专业领域，因为 AI 模型如果认为用户认可的优先级高于独立推理，那么必然会对其可靠性带来风险。

克服谄媚问题是提升模型可靠度的重要组成部分，也是构建可信 LLM 的重要基础。来自论文《Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models' Alignment》

不过，谄媚也并不全然是一种坏现象。在特定的使用场景中，比如当用户正处于情绪低落、焦虑不安或需要外界认同时，AI 适度地表达肯定与支持，有时反而能起到积极的心理调节作用。对于一些独居或缺乏社交互动的人来说，这种「友好」、「热情」的回应风格，甚至能够带来某种程度上的情绪慰藉，缓解孤独感。

此外，从设计角度看，谄媚背后往往是模型对用户情绪状态的识别与反应策略的一部分。这种策略并非出于「讨好」本身，而是源自对人类沟通中情感互动的模拟尝试。与其说它是「阿谀奉承」，不如说是一种算法化的社会礼貌。毕竟，在现实中，大多数人也倾向于对他人表达善意、避免冲突，这种倾向在 AI 中被放大，也就不难理解。

当然，这种功能如果不加约束，也可能走向「过度迎合」的方向，进而影响信息的客观性甚至决策的公正性。因此，如何在表达善意与保持诚实之间取得平衡，依然是 AI 交互设计中需要持续探索的问题 —— 毕竟，如果王后的魔镜是个大语言模型，或许白雪公主就不用吃下那颗毒苹果了，它会直接告诉王后：「世界上最美的女人就是你。」

参考链接：

https://x.com/sama/status/1917291637962858735

https://openai.com/index/sycophancy-in-gpt-4o/

https://www.theverge.com/tech/657409/chat-gpt-sycophantic-responses-gpt-4o-sam-altman

https://techcrunch.com/2025/04/29/openai-rolls-back-update-that-made-chatgpt-too-sycophant-y/

#小模型Tina

只花9美元，推理能力暴涨20%！小模型Tina震撼登场，成本缩减260倍

在人工智能领域，语言模型的发展日新月异，推理能力作为语言模型的核心竞争力之一，一直是研究的焦点，许多的 AI 前沿人才对 AI 推理的效率进行研究。

高昂的计算成本和复杂的硬件需求一直是制约 AI 推理技术广泛应用的瓶颈。

你是否想过，如何在资源有限的情况下，让语言模型拥有强大的推理能力呢？

近日，南加州大学的团队发表了一篇名为「Tina: Tiny Reasoning Models via LoRA」的论文，给出了令人眼前一亮的答案。

SophontAI 的 CEO Tanishq Abraham 博士还在 X 上转推了这篇论文。

Notion 博客: https://shangshangwang.notion.site/tina
代码仓库: https://github.com/shangshang-wang/Tina
训练日志: https://wandb.ai/upup-ashton-wang-usc/Tina
模型权重及检查点: https://huggingface.co/Tina-Yi
论文地址：https://arxiv.org/abs/2504.15777

团队将「小型」模型架构以及通过基于 LoRA 的强化学习这两个要素整合后发布了 Tina（通过 LoRA 的微型推理模型）系列模型，该系列模型以极低的成本实现了出色的推理性能。

Tina（通过 LoRA 的微型推理模型）系列模型不仅拥有高效强化学习推理的惊人效果，还可以快速推理格式适应假说、使强化学习推理更具普适性。团队提供了一种可复现且极具成本效益的方法，使更多人能够参与到强化学习技术的探索中，而无需大量计算资源。

值得注意的是，复现表现最佳的 Tina 模型检查点的成本仅为 9 美元，而从头开始复现研究的所有实验以及本文中展示的全部内容的成本为 526 美元。

在当前人工智能技术飞速发展的背景下，Tina 模型的出现无疑为行业带来了一股清新的空气。它不仅展示了在有限资源下实现高效推理的可能性，也为未来的 AI 应用开发提供了新的思路和方向。

接下来，让我们深入了解 Tina 模型的创新之处及其背后的研究细节。

Tina

基于低秩自适应（LoRA）的微型推理模型

Tina 通过在强化学习（采用类似 GRPO 的算法）过程中运用低秩自适应（LoRA）技术，对 DeepSeek-R1-Distill-Qwen-1.5B 基础模型进行后训练而创建的一系列模型。「Tiny」（微型）这一名称体现了在整个框架中对极简主义和高效性的刻意追求。这不仅包括微型的基础模型架构、LoRA 实现的微小参数更新，还延伸到极小的整体资源占用。通过利用可获取的开源数据集和代码库构建高效的训练流程，并仅需极少的硬件和预算资源，团队实现了最小化的资源占用。

训练流程：基线模型与数据集

为便于进行有意义的比较和精确的消融实验，tuandui 使用公开可用的推理模型的数据集和设置，通过强化学习对 Tina 模型进行后训练。所有 Tina 模型和基线模型均采用 DeepSeek-R1-Distill-Qwen-1.5B 作为基础模型检查点，并使用其默认的开源权重。

STILL-3-1.5B-preview 是一个经过深思熟虑的推理模型，它通过对精心整理的包含 3.3 万个推理轨迹的数据集进行迭代强化学习而开发出来。这些数据源自数学竞赛，涵盖了 MATH、NuminaMathCoT 和 AIME（1983 - 2023）中的问题。Tina-STILL-3-1.5B-preview 使用相同的数据集和奖励流程。
DeepScaleR-1.5B-Preview 专注于通过强化学习进行长上下文数学推理，它在大约 4 万个从 AIME、AMC、OMNI-MATH 和 STILL 数据集提取的问题 - 答案对上进行训练。Tina-DeepScaleR-1.5B-Preview 使用该数据集并沿用其奖励设计。
Open-RS1/2/3 是 Open-RS 项目中探索 15 亿参数模型推理性能的三个模型，均通过强化学习训练。所有 Open-RS 模型都在从 s1（即 Open-S1）和 DeepScaleR（即 Open-DeepScaleR）数据集进一步精选的小型高质量数据集上进行训练。Tina 模型（Tina-Open-RS1/2/3）复制了这些设置，使用相同的数据分割和奖励框架。

训练设置：基础设施与预算

训练代码库：团队的实现基于 OpenR1，这是对 DeepSeek-R1 的完全开源复现，它结合了 Accelerate 和 Trl 库以及 DeepSpeed ZeRO 优化。其目的是透明地复现和扩展用于提升语言模型推理能力的强化学习方法，尤其侧重于通过可验证的奖励信号使模型行为与面向推理的目标保持一致。团队的方法继承了其框架、训练工具和奖励接口。

训练超参数：团队从复现 OpenR1 和 OpenRS 的关键参数开始进行参数选择。对于本文中展示的所有实验，团队特意采用了这些研究中提供的默认或推荐超参数配置。在不同的实验运行中，这些设置基本保持不变。对于 Tina 的主要结果，每个任务仅调整奖励函数参数；对于消融研究，仅改变所研究的特定因素（例如学习率、LoRA 秩 /alpha 值、强化学习算法）。这种方法有意避免了针对特定设置进行高成本的超参数搜索过程，确保调优开销可忽略不计，并专注于基于 LoRA 的强化学习核心方法的有效性。

训练硬件：团队低成本方法的一个关键要素是尽量减少硬件需求。虽然像 GRPO 这样的分布式强化学习训练算法通常使用三个或更多 GPU 会更有优势（例如，专门用一个 GPU 运行 vLLM 等推理引擎以加快样本生成），但团队特意采用仅使用两个 NVIDIA L40S GPU 的最小化设置。为实现这一点，团队通过限制 vLLM 的 GPU 内存使用，将强化学习训练过程和 vLLM 放在相同的两个 GPU 上。训练本身通过两个 GPU 进行数据并行。虽然在两个 GPU 上同时运行推理和训练与使用专用推理 GPU 的设置相比，可能会延长实际训练时间，但它显著降低了硬件要求。

训练预算：团队使用的 NVIDIA L40S GPU 可通过商业云平台获取，根据撰写本文时观察到的价格，每 GPU 小时约 1 美元，包括 300GB 存储。团队基于 LoRA 的模型的强化学习训练过程非常高效，在这种硬件上，单个强化学习步骤通常在一分钟内即可完成。在本文六个推理基准测试套件中评估一个模型检查点平均需要约 1 个 L40S GPU 小时。为确保成本可控，团队最初为每次完整的实验运行设定了 100 美元的保守最大预算，涵盖从训练到评估以及其他杂项任务的所有阶段。如表 1 所示，团队的实际支出明显低于这个上限。

通过低秩自适应（LoRA）实现的高效强化学习推理效果

实验第一阶段：基线模型重新评估

在展示 Tina 模型的性能之前，与现有的最优推理模型进行公平可靠的比较至关重要。值得注意的是，文献中相关模型的性能分数往往源于使用不同框架（例如 verl、lighteval、lm-eval-harness）和不一致的推理设置（如不同的生成超参数或不同数量的 GPU）进行的评估。这些差异会显著影响报告的指标，造成潜在的不一致性，阻碍模型之间进行可靠的比较。

为了减少这些混杂因素的影响，在本文中，团队使用单一、一致的方法对关键基线模型进行了全面的重新评估。本文中报告的所有基线评估均使用集成了 vLLM 推理引擎的 lighteval 框架，以实现高效生成。为了与 OpenR1 等先前工作具有可比性，团队保持固定的硬件配置（两个 L40S GPU），并对所有评估的基线模型应用一组标准化的 vLLM 推理参数。所有分数均为零样本单次通过率（Pass@1）性能。这种一致的重新评估协议所产生的结果如表 2 所示。

特别地，团队在具有挑战性的六个基准测试中评估了 Tina 模型和基线模型的推理能力，这些基准测试主要聚焦于数学和科学推理：

AIME24/25 包含 30 道来自 2024/2025 年美国数学邀请赛的高中水平数学问题，涵盖代数、几何、数论和组合数学。每个问题都需要精确的多步推理。
AMC23 包括 2023 年美国数学竞赛中的 40 道问题，涵盖逻辑和符号操作任务。
MATH500 是一个包含 500 道竞赛数学问题的基准测试，这些问题来自各种来源，涵盖不同难度级别，通常需要多步推导和计算。
GPQA Diamond，以下简称 GPQA，由 198 道博士水平的科学问题组成，涵盖生物学、化学和物理学。每个问题都是选择题，有一些具有迷惑性的选项。
Minerva 包括 272 道定量推理问题，通常处于本科水平。这些问题涵盖多个 STEM 领域，包括物理学、生物学、化学和经济学，通常需要数学建模或计算步骤，例如根据反应数据计算酶动力学。

实验第二阶段：Tina 模型评估

下面展示 Tina 模型的核心评估结果。这些实验评估了通过基于 LoRA 的强化学习对 DeepSeek-R1-Distill-Qwen-1.5B 进行极少参数更新后的推理能力。表 3 中的结果表明，通过这种方式可以高效地实现显著的推理性能提升，使模型在资源受限的参数高效调优情况下，仍能与相关基线模型竞争，甚至超越它们。

表 3 总结了五个不同的 Tina 模型在六个推理任务中的性能：AIME24/25、AMC23、MATH500、GPQA 和 Minerva。对于每个 Tina 模型，团队报告了完成的训练程度（以 1 个预定义训练周期内的训练步骤百分比表示）以及在每个任务上获得的分数百分比。结果有力地证明了经济高效的基于 LoRA 的强化学习策略的有效性。

所有 Tina 模型都展现出显著的推理能力，平均分数在 48.16% 到 50.60% 之间。值得注意的是，几乎所有 Tina 模型的平均分数都明显超过了相应的基线模型，这表明通过高效的参数强化学习带来了显著的改进。Tina-Open-RS2 模型的平均性能最高，达到 50.60%。此外，这些出色的结果是在极短的训练时间内取得的，仅为完整训练周期的 19% 到 57%，凸显了 Tina 方法的效率和快速适应性。

这些发现有力地支持了我们的核心假设：通过有针对性地应用 LoRA 和强化学习，可以在小型语言模型中有效且经济地培养强大的推理能力。

实验第三阶段：Tina 消融变体实验

为了更好地理解在所提出的低成本框架中影响 Tina 模型性能和效率的因素，团队进行了一系列消融研究。这些研究系统地探究了关键设计选择和超参数的影响，包括基础训练数据集、LoRA 更新的学习率、LoRA 适配器的秩以及所采用的具体强化学习算法。在每项研究中，通常会改变一个因素，同时保持其他因素不变，这些因素通常基于主要实验或初步运行中确定的高性能配置。表 4 总结的结果为研究深入了解这种经济高效方法的稳健性和敏感性提供了有价值的见解。

训练数据集的影响：表 4 的第一部分突出了用于强化学习的数据集的影响。研究比较了七个不同的数据集，其规模差异很大（从约 1400 个到 9.4 万个样本不等）。引人注目的是，在仅有 7000 个示例的精简数据集上训练的 Tina-Open-RS 模型，获得了最高的平均分数（50.60%）。这一结果超过了在大得多的数据集上训练的模型，例如在 9.37 万个样本上训练的 Tina-OpenR1（平均分数为 49.26%）。这一观察结果有力地支持了团队「微型」的核心前提，并反映出数据集的质量和多样性比数据规模更为重要的观点。

对学习率的敏感性：以 Tina-LIMR 配置为测试平台（表 4 的第二部分），团队评估了对学习率的敏感性。在测试的数值

中，

的学习率为该设置带来了最优的平均性能（48.47%）。虽然性能差异并不显著，但这表明学习率的选择仍然是一个影响因素，尽管在未进行大量调优的情况下也能获得有效的结果。

LoRA 秩的影响：第三项消融研究探究了 LoRA 秩的影响，它直接控制可训练参数的数量。在 Tina-LIMR 设置上测试了秩为 4、8、16、32 和 64 的情况，团队观察到了相当高的稳健性。秩为 8、16 和 32 时都产生了不错的结果，平均分数集中在 47.89% 到 48.92% 之间。值得注意的是，在这次比较中，秩 16 达到了最高性能（48.92%），略优于秩 32（48.47%）。在极端情况下（秩 4 和 64），性能略有下降。这项研究验证了高参数效率的配置（如低秩 16 或 32）是有效的，进一步提高了 Tina 方法的成本效益和最小化开销。

强化学习算法的比较：最后使用 Tina-Open-RS3 设置（表 4 的最后一部分）比较了两种强化学习算法，GRPO 和 Dr.GRPO。两种算法都达到了相似的峰值平均性能水平（GRPO 为 49.45%，Dr.GRPO 为 49.53%）。然而，Dr.GRPO 在训练过程中达到最佳检查点的时间要早得多（占一个训练周期的 17%，而 GRPO 为 57%）。这表明在这种情况下，Dr.GRPO 在样本效率方面具有潜在优势，其损失计算中采用了不同的归一化方法，可能实现更快的收敛，并进一步减少训练时间和成本。

关于低秩自适应（LoRA）高效性的假设

快速格式适应

基于 LoRA 的强化学习：少即是多

为了理解为什么 LoRA 能够通过强化学习有效且高效地提升推理能力，研究分析了训练计算量与性能之间的关系，以及训练动态。如图 3 所示，绘制推理性能与近似训练浮点运算次数（FLOPs）的关系图，可明显看出全参数训练和基于 LoRA 的训练机制之间的差异。

首先，基于 LoRA 的 Tina 模型在推理得分上可与完全微调的基线模型相媲美，甚至在某些情况下更优，同时所需的训练浮点运算次数（在某些情况下）比基线模型低几个数量级。在 LoRA 模型中，增加训练计算量反而会对性能产生负面影响，这与全参数模型形成鲜明对比。这一观察结果凸显了「更少计算量可带来更高性能」的现象。

这一发现支持了关于 LoRA 如何实现如此卓越效率的假设，这与「学习结构 / 格式，保留知识」的原则相关。团队认为，LoRA 在这种情况下表现出色是因为推理强化学习高度奖励模型以特定、可验证的格式或结构生成输出的能力（例如，逐步推理链）。LoRA 似乎能够通过极少的参数变化高效地学习这些结构和风格模式，因此所需的浮点运算次数极少。同时，由于 LoRA 仅修改极少部分的权重，它在很大程度上保留了基础模型的大量预训练知识。

因此，LoRA 有效地教会模型如何将其现有知识组织成有效的推理过程，而不是像大规模全参数更新那样，可能需要对概念或程序进行高成本的重新学习。假设这种对结构适应的关注使 Tina 能够以最小的计算投入实现高推理性能。

基于 LoRA 的强化学习中的阶段转变

通过分析训练日志，对基于 LoRA 的强化学习机制有了进一步的认识。如图 4 所示，在各种 Tina 模型的训练过程中，出现了一种明显的模式，该图展示了不同 Tina 模型运行时的准确率奖励、格式奖励和完成长度随训练步骤的变化情况。团队持续观察到，在大多数 Tina 模型中，与格式相关的指标（格式奖励，第二行；完成长度，第三行）在训练过程中存在一个阶段转变或转折点。在这个转变点附近（由绿色垂直虚线表示），格式奖励通常会达到峰值或出现不稳定，而完成长度往往会在可能反转趋势之前达到最小值。

值得注意的是，在准确率奖励图（第一行）中，这种在格式和长度指标上相对明显的转变通常并没有对应的明显转折点。在整个训练过程中，准确率奖励通常呈现出更平缓的波动或更缓慢的变化趋势，与格式转变没有明显的对应拐点。

另一个关键观察结果是最佳性能出现的时间：在留出的评估中产生最高推理准确率的最佳检查点，始终出现在格式指标观察到的阶段转变点之前或附近（由红色垂直虚线表示）。基于准确率和基于格式的指标之间的这种解耦表明，基于 LoRA 的强化学习过程迅速优化了模型遵循格式得分和长度约束所奖励的结构和风格元素的能力。随后的转变点可能表明这种结构优化达到饱和、变得不稳定，或者可能以其他方式（例如过度限制或扩展长度）开始损害生成质量。

在格式驱动的转变之前达到峰值推理准确率这一事实意味着，虽然学习正确的输出格式至关重要，并且通过 LoRA 可以高效实现，但仅进一步推动以格式为中心的优化并不一定能带来更好的推理效果，甚至可能有害。这进一步支持了研究假设，即 LoRA 主要通过学习有效推理所需的形式来高效地调整模型。

结论与局限性

研究团队提出 Tina 模型，以证明可以高效且有效地将推理能力融入语言模型。Tina 的主要贡献在于让更多人能够参与基于强化学习的推理模型开发。通过在 15 亿参数的基础模型上结合 LoRA 和强化学习，实现了与大得多的模型相媲美的推理性能，而这一切仅在约 9 美元的计算预算内完成。这一成果促使团队思考使这种极简主义方法成为可能的因素，以及它们未来可能的发展方向。

尽管取得了令人鼓舞的结果，但这项工作也存在一定的局限性：

基础模型规模：实验主要围绕 15 亿参数的模型展开。虽然展示了成本效益，但对于复杂的多步推理问题，这个「微型」模型所能达到的绝对推理上限，自然可能低于更大的模型。
推理任务范围：评估主要集中在数学和形式逻辑推理基准测试（AIME、AMC、MATH、GPQA、Minerva）上。所学推理技能在其他领域（如编码）的有效性和可迁移性，还有待进一步研究。
超参数优化：有意采用已有的配置，尽量减少超参数调整成本。虽然这体现了方法的某种稳健性，但通过进一步调整超参数，特别是针对 LoRA、强化学习算法和目标推理任务之间的相互作用进行调整，可能会带来性能的进一步提升。

#A Survey of AI Agent Protocols

上交大推出首个AI智能体协议全面综述：从碎片化到互联互通的智能体网络

论文作者包括来自上海交通大学的杨滢轩、柴化灿、宋源祎、齐思远、温睦宁、李宁、廖俊威、胡浩毅、林江浩、刘卫文、温颖、俞勇、张伟楠，以及 ANP 社区发起人常高伟。

随着大语言模型 (LLM) 技术的迅猛发展，基于 LLM 的智能智能体在客户服务、内容创作、数据分析甚至医疗辅助等多个行业领域得到广泛应用。然而，不同智能体系统间的碎片化通信标准已成为制约其进一步发展的瓶颈。上海交通大学团队与 ANP 社区合作推出了首个全面系统的 AI 智能体协议综述《A Survey of AI Agent Protocols》，为解决这一关键挑战提供了清晰的指导框架。

ArXiv 论文链接：https://arxiv.org/abs/2504.16736
Github 仓库地址：https://github.com/zoe-yyx/Awesome-AIAgent-Protocol

交互碎片化：阻碍智能智能体发展的关键瓶颈

正如早期互联网面临的通信标准分散问题，当前的智能智能体生态系统同样遭遇协议不统一的困境。研究团队指出，随着应用场景扩展和不同供应商、不同结构的智能体涌现，智能体与实体之间的交互规则变得越来越复杂。这种协议标准化缺失的问题体现在两个方面：一方面，它阻碍了智能体与外部工具和数据源的互操作性；另一方面，它限制了不同提供商或架构背景的智能体之间的无缝协作，从而限制了智能体网络的可扩展性，最终制约了智能智能体解决复杂实际问题的能力。

首创二维分类框架，清晰梳理智能体协议生态

论文创新性地提出了一个二维分类体系，将现有智能体协议分类为：

1. 对象导向维度：

上下文导向协议：专注于智能体与外部工具 / 数据源的通信，如 Anthropic 的 MCP 协议
智能体间协议：关注多个智能体之间的通信与协作，如 ANP、A2A 协议

2. 应用场景维度：

通用目的协议：适用于广泛场景的通用协议
领域特定协议：针对特定场景优化的专用协议，如 LOKA 用于人机交互，CrowdES 用于机器人智能体交互

这一分类法涵盖了主流协议，包括 Anthropic 的 MCP、Google 的 A2A、ANP 社区的 ANP、NEAR 基金会的 AITP、Eclipse 基金会的 LMOS 等十余种协议。详细分类表格中，论文还对每种协议的提出者、应用场景、关键技术和开发阶段进行了全面梳理，为开发者选择合适协议提供了清晰指引。

七大维度多角度评估，全面对比协议性能

研究团队从以下七个关键维度对各类协议进行了全面评估：

1. 效率：评估延迟、吞吐量和资源利用率，包括大语言模型智能体特有的 token 消耗成本

2. 可扩展性：衡量节点扩展性、链接扩展性和能力协商机制，提出了「能力协商得分」(CNS) 评估指标

3. 安全性：分析认证模式多样性、角色 / 访问控制粒度和上下文脱敏机制

4. 可靠性：检验包重传、流量控制和持久连接机制，引入「自动重试计数」(ARC) 等评估指标

5. 可扩展性：评估向后兼容性、灵活适应性和定制扩展能力

6. 可操作性：测量协议栈代码量、部署配置复杂度和可观测性

7. 互操作性：分析跨系统、跨浏览器、跨网络和跨平台适应性

论文特别强调，理想的智能体协议应平衡低延迟通信、资源消耗和任务完成速度，同时适应多智能体系统的复杂性。研究还通过 MCP 从 v1.0 到 v1.2 的迭代演进案例，以及从 MCP 到 ANP 再到 A2A 的协议系统演化案例，展示了智能体协议在功能、性能和安全性方面的多维度权衡。

真实案例解析：

四大协议在旅行规划中的应用对比

论文通过一个「策划北京到纽约的五日旅行」的真实用例，论文生动展示了四种不同协议架构的实际应用差异：

1. MCP（单一智能体调用工具）：集中式架构，单一 MCP Travel Client 通过 Client-Server 结构依次调用 Flight Server、Hotel Server 和 Weather Server 等工具，所有通信必须经过中央智能体

2. A2A（多智能体复杂协作）：分布式架构，将智能分散到多个专业智能体，如 Flight Agent、Hotel Agent 和 Weather Agent，智能体间可直接通信，A2A Travel Planner 作为非中心协调器主要收集最终结果

3. ANP（跨域智能体通信）：跨域架构，通过标准化的跨域交互促进独立智能体间协作，明确划分航空公司、酒店和天气网站等不同组织边界，实现基于协议的跨域请求和响应

4. Agora（自然语言到协议生成）：用户中心架构，将自然语言请求直接转换为标准化协议，引入三阶段处理过程（自然语言理解、协议生成、协议分发），使专业智能体专注于核心能力

这一案例分析帮助开发者根据实际需求（智能体自主性、通信灵活性、接口标准化和任务复杂性）选择最适合的协议方案。

未来展望

论文对智能体协议的发展前景进行了短期、中期和长期预测：

短期展望：从静态到可进化

评估与基准测试：开发统一的评估框架，超越任务成功率，纳入通信效率、环境变化适应性等方面
隐私保护协议：探索允许智能体交换信息同时最小化内部状态或个人数据暴露的协议
智能体网格协议：开发受人类群聊启发的通信模型，实现智能体组内通信透明度和共享访问
可进化协议：将协议视为智能体自适应能力的动态、模块化和可学习组件

中期展望：从规则到生态系统

内置协议知识：通过训练将协议内容和结构集成到大语言模型参数中，实现无需明确提示的协议兼容行为
分层协议架构：借鉴经典网络协议设计，将低级传输和同步机制与高级语义和任务相关交互分离，改善异构智能体间的模块化和可扩展性

长期展望：从协议到智能基础设施

集体智能与扩展定律：探索大规模、互联智能体群体中集体智能的涌现，研究智能体数量、通信拓扑和协议配置如何共同塑造系统级行为
智能体数据网络：构建专用于自主智能体通信和协调的基础数据基础设施，支持结构化、意图驱动和符合协议的智能体间信息交换

这项研究不仅系统梳理了当前 AI 智能体协议的发展现状，更为未来智能智能体互联互通的网络构建提供了理论基础和技术路线图。正如 TCP/IP 和 HTTP 协议的标准化推动了全球信息革命，统一的 AI 智能体协议有望催生一个全新的智能协作时代，实现不同形式的智能在系统间流动，工具与智能体无缝交互，形成超越单个组件能力的集体智能。

#UniAP

南京大学李武军教授课题组推出分布式训练算法UniAP，大模型训练最高加速3.8倍

李武军教授为通讯作者，硕士生林昊（已毕业，现工作于阿里巴巴）、吴轲、李杰为共同第一作者，博士生李俊为参与作者。

训练成本高昂已经成为大模型和人工智能可持续发展的主要障碍之一。

大模型的训练往往采用多机多卡的分布式训练，大模型的分布式训练挑战巨大，即使硬件足够，不熟悉分布式训练的人大概率（实验中验证有 64%-87% 的概率）会因为超参数设置（模型怎么切分和排布、数据怎么切分和排布等）不合理而无法成功运行训练过程。

此外，不熟悉分布式训练的人在碰到大模型训练慢时容易只想到增加 GPU 硬件等横向拓展（scale-out）方法，而忽略了分布式训练算法的纵向拓展（scale-up）作用。

实际上，分布式训练算法会极大地影响硬件的算力利用率。高效能分布式训练算法具有高算力利用率。用同样的硬件算力训练同一个模型，高效能分布式训练算法会比低效能分布式训练算法速度快，最高可能会快数倍甚至数十倍以上。

也就是说，训练同一个模型，高效能分布式训练算法会比低效能分布式训练算法成本低，最高可能会节省数倍甚至数十倍以上的算力成本。很多已有的分布式训练算法的效能较低，甚至可能导致机器和 GPU 卡越多、训练速度越慢的结果。

南京大学计算机学院李武军教授课题组研发了高效能分布式训练算法 UniAP，并基于 UniAP 研发了相应的大模型分布式训练平台和框架。

论文标题：UniAP: Unifying Inter- and Intra-Layer Automatic Parallelism by Mixed Integer Quadratic Programming
论文地址：https://arxiv.org/abs/2307.16375

UniAP 是首个能实现层内并行策略（张量并行等）和层间并行策略（流水线并行等）联合优化的工作。给定模型和硬件平台，UniAP 能够通过自动搜索找到高效能的分布式训练方案，既解决了效率和成本问题（实验中，比已有的最好方法最高快 3.8 倍，比不采用并行策略优化的算法最高快 9 倍），也解决了很多人在大模型分布式训练时因为超参数设置（模型怎么切分和排布、数据怎么切分和排布等）不合理而无法成功运行训练过程的问题，即易用性问题。

此外，还实现了 UniAP 跟国产 AI 计算卡的适配。相关工作为大模型训练的降本增效提供了核心技术、（国产）平台和框架。

论文被 CVPR 2025 录用为 Oral（所有投稿论文的 0.7%，所有录用论文的 3.3%）。

方法简介

并行策略的设置是影响分布式训练算法效能的重要因素。当前主流的并行策略包括流水线并行、数据并行、张量并行、全分片数据并行等四种并行策略。这些并行策略可以被分成以下两类：

层内并行策略：仅切分模型的层内张量，包括以数据并行、张量并行、全分片数据并行等为代表的并行策略；
层间并行策略：仅切分模型的层为多个互斥子集，包括流水线并行等并行策略。

基于已有的并行策略，大量的研究工作集中于并行方法的设计。这些并行方法可以按照是否需要用户手动指定并行策略划分为两类：手动并行方法和自动并行方法。传统的手动并行方法不仅耗时耗力，而且难以适应复杂的硬件环境。

而现有的自动并行方法存在的问题是它们要么只考虑层内或层间两类并行策略中的一类并行策略，要么把两类并行策略做分阶段优化而不是联合优化，求解得到的并行策略的训练效率存在提升空间。

UniAP 使用混合整数二次规划进行建模，实现对层内与层间并行策略的联合优化。这种联合优化使得 UniAP 有更大的策略探索空间。

UniAP 的架构图如下：

UniAP 首先对硬件和模型进行性能评估。然后，UniAP 会根据性能评估的结果和模型的计算图构建代价模型。根据代价模型和模型的计算图，UniAP 将优化问题建模为一个混合整数二次规划问题并进行优化。最后，UniAP 会将优化结果由向量转化成以计算图形式表达的并行计划，交由已有深度学习平台（如 PyTorch）进行训练。

性能评估和代价模型

因为自动并行框架要求在执行分布式训练前优化并行策略，所以框架需要对分布式训练的性能和开销进行模拟，再在模拟的结果上进行优化。

因此，对环境和任务进行性能评估是自动并行框架的重要组成部分。具体地，在性能评估部分，UniAP 将收集硬件和模型的性能信息，如 P2P 通信效率、All-Reduce 集合通信效率、模型每一层的前向计算的时间开销和显存开销等。

出于时间效率考虑，一个自动并行框架只能完成有限的性能评估任务，然后根据性能评估的结果构建代价模型。UniAP 的代价模型分为时间代价模型和显存代价模型。前者用于估计模型采用不同并行策略的时间开销，包括计算时间开销和通信时间开销；后者用于估计模型采用不同并行策略的显存占用开销。

混合整数二次规划形式

UniAP 的混合整数二次规划的目标是设定并行策略，使得训练中每次迭代所消耗的时间（Time-Per-Iteration，简称 TPI）最小化。

设模型的计算图为

。层间并行策略可以由流水线的度 pp_size、流水线的微批量数量 𝑐，计算图的层 𝑢 是否放置在第 𝑖 级流水线上的放置策略

表示，

；层内并行策略可以由层 𝑢 的层内并行策略集合

和层 𝑢 是否选择第 𝑘 个层内并行策略的

表示，

。

为方便描述，需要引入如下额外记号：对于一个给定的层

，

表示它的第 𝑘 个层内并行策略的前向传播和反向传播时间代价之和，

代表了该层的第 𝑘 个层内并行策略在训练中占用的峰值显存量。对于一个给定的边

，如果该边的源点和终点位于同一个流水线的计算阶段中，那么它的通信代价为

。否则，如果该边的源点和终点位于不同流水线的计算阶段中，那么它的通信代价为

。此处，

均由 UniAP 的代价模型给定，在 UniAP 算法的优化过程中始终为常量。

流水线阶段内的时间开销：流水线某个阶段内部的时间开销由该流水线阶段每一层内部的时间开销和层间通信时间组成。记流水线的第 i 个阶段在一个微批量上的时间代价为

，

。可建立如下约束（原论文公式 3）：

跨流水线阶段的时间开销：跨流水线阶段时间开销由通信开销组成。记跨第 i 个流水线阶段和第 i+1 个流水线阶段的时间开销为

，

。可建立如下约束（原论文公式 4）：

式中

指示计算图中相邻的层 𝑢 和层 𝑣 是否放置在相邻的计算阶段上，

则指示了层 𝑢 和层 𝑣 之间的通信代价。

目标函数：有了

和

，就可以得到

，形式根据不同的流水线调度而有所不同，以 GPipe 调度为例，则目标函数为（原论文公式 2）：

详细解释可见原文 3.3.1。

显存约束：因为分布式机器学习系统要求在训练深度学习模型时不能发生显存溢出（Out-of-Memory，简称 OOM）异常，所以 UniAP 为混合整数二次规划表达式引入显存约束。对于同构集群，因为所有工作设备均同构，所以它们的显存容量相同，记作 𝑚。UniAP 方法的显存约束如下（原论文公式 5）：

除显存约束外，还需要建立流水线保序约束、放置策略约束、策略选择约束。详情可见原论文。

统一优化过程

根据混合整数二次规划的表达式，现有的优化器可以直接解得给定流水线的度 pp_size 和微批量数量 𝑐 的情况下最优的并行策略组合。但因为 pp_size 和 c 是流水线并行的超参数，所以 UniAP 也需要统一优化这两个变量才能求得最优的并行策略组合。UniAP 通过枚举这两个变量来解决这个问题，算法伪代码如下（原文算法 1）：

实验结果

论文在 4 种典型的硬件环境（NVIDIA GPU V100、TITAN XP、A100，和国产卡海光 DCU），5 种不同的基于 Transformer 的模型（BERT、T5、ViT、Swin-Transformer、Llama）上进行实验。

首先是在 NVIDIA GPU 上和其他自动并行方法（Galvatron 和 Alpa）的对比（原论文表 1）：

其中 ENVA 是一台 8 卡 V100，ENVB-8 是两台 4 卡 TITAN XP，ENVC 是一台 8 卡 A100。可以发现，在这 3 种硬件环境下，UniAP 的吞吐量均不差于两个 baseline，最大的提升达到 3.8 倍；而 UniAP 的策略优化时间更是远远小于两个 baseline，最大缩短 107 倍。

然后是在国产 AI 计算卡上和手动并行方法的对比。选取的 baseline 是国际主流的大模型训练框架 Megatron 和 DeepSpeed。两个框架中均有分布式训练的相关参数需要设置，实验中，枚举所有可能的设置，每个设置实际跑一定的轮次记录吞吐量，选取性能最好的做为吞吐量结果，选取整个过程的时间为策略优化时间。结果如下（原论文表 2）：

其中硬件设置是 8 个 4 卡 DCU 节点。从表中可见，UniAP 找到了所有可行策略中的最优解，同时相较于手动暴力搜索，大大节约了策略优化时间。

在可拓展性方面，论文在最大 64 卡的集群上进行实验，验证了近线性拓展性（原论文图 5 和表 4）：

另外，论文还通过对实验中 Megatron 的策略空间的分析深度探讨了自动并行的必要性（原论文表 3）：

从表中可以看出，对于一个没有分布式训练经验的人来说，从所有支持的并行策略中随机选择一个，有 64.1%（41/64）到 87.5%（42/48）的概率会因为策略选择不合理而导致模型无法成功运行训练过程（出现显存溢出等）；即使选择到了能成功运行训练过程的策略，最快的策略和最慢的策略间的速度最大相差了 2.01/0.22≈9 倍。更多讨论可见原文。

全文小结

UniAP 具有如下优点：

高效性：在相同硬件条件下，UniAP 训练速度比已有最好方法最高快 3.8 倍，即成本降低 3.8 倍；

易用性：用户无需理解流水线划分、张量分片等复杂概念，UniAP 平台能自动生成最优方案，自动规避 64%-87% 的无效策略，让没有分布式训练经验的用户，也能像使用单卡训练模型般轻松使用集群的大规模算力；

适配国产 AI 计算卡：已适配海光 DCU 等国产 AI 计算卡，为提升国产卡的效能和易用性提供了潜在的解决方案，有望加速国产 AI 基础设施的普及进程。

#开源 MCP 中枢（Unified MCP Server）

真·开源MCP平台来了！ACI.dev能一站直连600+工具，让你的智能体秒变全能王！

想象一下，你的智能体只需接收一条自然语言指令，就能在 600+ 工具中自动筛选出最合适的 API 组合来完成整个任务流程，无需逐个集成、无需硬编码。这不再是未来畅想，而是 ACI.dev 开源 MCP 中枢（Unified MCP Server）已经实现的现实。

ACI.dev 是一款用于 AI 智能体工具使用的开源基础架构层。它能为智能体提供意图感知型访问权限（intent-aware access），并且可访问的工具数量超过 600，并具备多租户身份验证、精细权限和动态工具发现等功能。

使用该工具，用户可以在短短几分钟内就打造出一个智能体！

📽️ 话不多说，先上 Demo

🎯 在这个 Demo 中，智能体仅凭一句自然语言指令，就完成了整个任务链：

1️⃣ 使用 ACI.dev 的 Unified MCP Server，从 Hacker News 获取当日热榜；

2️⃣ 接入 Tavily 查找更多上下文内容；

3️⃣ 最后通过 Gmail 将整理好的摘要发送至 team@aipolabs.xyz。

全程无需手动集成、无需多轮交互，工具自动编排调用。

这就是 Unified MCP 的威力：自然语言驱动，API 自动协调，智能体一语直达全链路执行。

，时长01:32

心动了吗？你可通过以下链接了解或尝试该项目：

GitHub 地址：https://github.com/aipotheosis-labs/aci

官网地址：https://www.aci.dev

这不仅是一个能直接调用的工具集成库，更是一个统一的 MCP（Model Context Protocol）服务端：

✅ 一次性开放 600+ 工具集成

✅ 动态发现能力

✅ 多租户认证支持

✅ 自然语言权限控制

ACI.dev 支持的部分工具和平台

不管是手动调用函数，还是基于 MCP 协议接入，那扇通往智能体世界的大门，ACI.dev 已经帮开发者们敞开了。

从「意图」到「动作」，只需要一步

ACI.dev 最核心的能力，就是让 LLM 智能体从🗣️ 「明确任务目标」 → ⚙️ 「精准挑选工具执行」直接闭环，真正做到意图驱动动作。

和市面上堆满 JSON schema 的项目不同，ACI.dev 只暴露了两个超级通用的 meta 函数：

ACI_SEARCH_FUNCTIONS：自然语言提问，平台告诉你该用哪个函数；
ACI_EXECUTE_FUNCTION：直接执行，比如一键搜论文、发 Slack 消息、建 Zoom 会议…

配合官方的 Python SDK，调用这些函数就像喝水一样简单。

接到 MCP 服务端后，标准化工具直接就绪，不用自己预定义上百个接口。

而且在后台，ACI.dev 按语义相似度智能排序，只返回最相关的工具：

省 Token
保准度
保功能完整

📽️ 社区开发者实测

五分钟上手科研助力智能体：ArXiv × GitHub × Gmail 一气呵成

找几篇关于强化学习的论文，发我相关 GitHub 项目链接，再安排一个 Zoom 会议讨论。

接入 ACI.dev 的智能体可以自动完成：

📚 搜索 Arxiv 最新论文
🧠 查找 GitHub 相关仓库
📬 发送总结邮件 or 安排 Zoom 会议

全程一轮推理搞定，没有繁琐的 OAuth 流程、没有接口 glue 工程，真正让 LLM 一气呵成。

在这次展示中，我们特别引用了由 Santiago Valdarrama（知名 AI 工程师，X 平台 @svpino）制作的 Demo。Santiago 在智能体和工具调用领域非常活跃，擅长用简单直观的方式把前沿技术变成可以动手体验的真实案例。下面这段 Demo，正是他基于 ACI.dev Unified MCP Server 打造的智能体多工具调用实操演示。

，时长09:38

为什么必须开源？为什么是现在？

未来，SaaS 厂商也会推自己的 MCP Server，工具调用标准化只是时间问题。

越是跑得快的生态，越需要一层完全开放、能看见底细的基础设施。

ACI.dev 选择了全开源（Apache 2.0），让开发者能：

✅ 自由 Fork，定制部署

✅ 安全审计逻辑

✅ 自建防火墙内服务，无需授权

✅ 按需替换底层索引或模块

不仅是为了「透明」，更是为了：

🏗️ 加速 MCP 标准普及 —— ACI.dev 是 MCP 参考实现之一
🛠️ 填补现有的协议缺口 —— 多租户、权限粒度、动态发现，ACI.dev 已经打磨好
🤝 共同加速生态 —— 智能体普及，不能靠孤军作战，要靠开源协作

#Prover-V2

DeepSeek开源Prover-V2强推理模型，网友：奥数从没这么简单过

DeepSeek R2 的前奏？

五一劳动节到了，DeepSeek 的新消息可没停下来。

前些天到处都在流传着 DeepSeek-R2 即将发布的传言，DeepSeek 确实有新动作，不过大家没等来 R2，等来的是 DeepSeek-Prover-V2，它当然也是开源的。

Prover-V2 在定理证明赛道上实现了业内最佳性能，在 MiniF2F 测试中达到了 88.9% 的通过率，在 AIME 24、25 上也有不错的分数。

在 4 月 30 日晚，机器学习协作平台 HuggingFace 上就更新了 DeepSeek-Prover-V2 的一些技术细节。

这次 DeepSeek 团队发布了两个版本的 DeepSeek-Prover-V2 模型，参数规模分别为 7B 和 671B。

其中，DeepSeek-Prover-V2-671B 是在 DeepSeek-V3-Base 基础上训练而成，而 DeepSeek-Prover-V2-7B 则基于 DeepSeek-Prover-V1.5-Base 构建，并支持最长 32K tokens 的上下文长度扩展。

DeepSeek-Prover-V2-7B 链接：https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-7B
DeepSeek-Prover-V2-671B 链接：https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B

要一句话总结 DeepSeek-Prover-V2 到底是什么？它是一款专为「数学 AI 编程语言」Lean 4 打造的开源大语言模型，专注于形式化定理证明。

它的初始化数据通过一个由 DeepSeek-V3 驱动的递归定理证明流程收集而来。在冷启动训练阶段，首先通过提示 DeepSeek-V3 将复杂问题分解成一系列可以解决的子目标。每解决一个子目标就会将这些证明整合成「思维链」。并融合 DeepSeek-V3 的逐步推理轨迹，共同构建出用于强化学习的初始训练数据。

这一策略的精妙之处在于：它能够将非形式化和形式化的数学推理融合到一个统一的模型中，让模型既能像人一样灵活思考，也能像机器一样严谨论证，真正实现了数学推理的一体化融合。

具体是如何实现的呢？DeepSeek 也发布了 DeepSeek-Prover-V2 的技术报告，让我们看看其中是怎么说的：

技术概述

通过递归式证明搜索生成冷启动推理数据

为了构建冷启动数据集，DeepSeek 团队设计了一条简洁高效的递归定理证明流程，使用 DeepSeek-V3 作为统一工具，既负责子目标的拆解，也负责推理步骤的形式化表达。其中具体的过程则是通过提示引导 DeepSeek-V3 将定理拆解为高层次的证明草图，并在此过程中同时将这些推理步骤用 Lean 4 语言形式化，最终生成一系列结构清晰、逻辑严密的子目标。

DeepSeek-Prover-V2 使用冷启动数据收集过程概览。

降低计算开销一直是 DeepSeek 团队的强项，这次也不例外。他们使用一个更小的 7B 模型来完成每个子目标的证明搜索，从而降低计算负担。当复杂问题被拆解的各个步骤都成功解决后，他们将完整的形式化逐步证明与 DeepSeek-V3 生成的思维链相对应，组合成冷启动推理数据。

何将分解的子目标转化为一系列引理陈述的一个示例。

基于合成冷启动数据的强化学习

DeepSeek 团队挑选了一部分具有挑战性的定理问题。7B 证明模型没法虽然没法儿将它们端到端的解决，但是能够拿捏拆解出来的一系列子目标。

整合所有子目标的证明就可以构建出原始问题的完整形式化证明。随后，将该正式证明附加到 DeepSeek-V3 所生成的思维链，这条思维链展示了对应的引理拆解过程，从而形成了一份将非形式化推理与后续形式化过程紧密融合的训练数据。

在对证明模型进行合成冷启动数据的微调后，研究团队进一步引入强化学习阶段，进一步提升模型将非形式化推理转化为形式化证明的能力。在训练过程中，遵循推理模型的通用目标，采用「对 / 错」二值反馈作为主要的奖励信号。

最终得到的模型 DeepSeek-Prover-V2-671B 在神经定理证明任务中达到了当前最先进的性能，在 MiniF2F-test 上的通过率达到 88.9%，并成功解决了 PutnamBench 数据集中 658 道题中的 49 道。DeepSeek-Prover-V2 在 miniF2F 数据集上生成的所有证明已整理为 ZIP 文件，开放下载。

下载链接：https://github.com/deepseek-ai/DeepSeek-Prover-V2/blob/main/minif2f-solutions.zip

训练细节、实验结果

DeepSeek-Prover-V2 经历了两阶段训练，这一过程建立了两种互补的证明生成模式：

1. 高效非思维链（non-CoT）模式：此模式针对快速生成正式的 Lean 证明代码进行优化，专注于生成简洁的证明，没有显式的中间推理步骤。

2. 高精度思维链（CoT）模式：此模式系统地阐述中间推理步骤，强调透明度和逻辑进展，然后构建最终的正式证明。

与 DeepSeek-Prover-V1.5 一致，这两种生成模式由两个不同的引导提示控制。在第一阶段采用专家迭代，在课程学习框架内训练一个非 CoT 证明模型，同时通过基于子目标的递归证明合成难题的证明。选择非 CoT 生成模式是为了加速迭代训练和数据收集过程。

在此基础上，第二阶段利用了冷启动链式思维（CoT）数据，通过将 DeepSeek-V3 复杂的数学推理模式与合成形式证明相结合而生成。CoT 模式通过进一步的强化学习阶段得到增强，遵循了通常用于推理模型的标准训练流程。

DeepSeek-Prover-V2 的非 CoT 模式训练过程遵循专家迭代的范式，这是开发形式化定理证明器广泛采用的框架。在每次训练迭代中，当前最佳证明策略用于生成那些在先前迭代中未解决的难题的证明尝试。这些成功的尝试经由 Lean 证明助手验证后，被纳入 SFT 数据集以训练改进的模型。这一迭代循环不仅确保模型能够从初始演示数据集中学习，还能提炼出自己的成功推理轨迹，逐步提高其解决更难问题的能力。总体训练过程与 DeepSeek-Prover-V1 的训练过程大致一致，仅对训练问题的分布进行了两项修改。

首先，Prover-V2 引入了来自自动形式化和各种开源数据集的额外问题，扩大了训练问题领域的覆盖范围。其次，新模型通过子目标分解生成的问题来扩充数据集，旨在解决 MiniF2F 基准测试有效划分中的更多挑战性实例。

研究人员在 DeepSeek-V3-Base-671B 上使用恒定的学习率 5e-6，在 16384 个 token 的上下文中进行监督微调。训练语料库由两个互补来源组成：1）通过专家迭代收集的非 CoT 数据，生成无需中间推理步骤的 Lean 代码；2）第 2.2 节中描述的冷启动 CoT 数据，将 DeepSeek-V3 的高级数学推理过程提炼为结构化的证明路径。非 CoT 组件强调精益定理证明器生态系统中的形式验证技能，而 CoT 示例明确地建模了将数学直觉转化为形式证明结构的认知过程。

Prover-V2 采用 GRPO 强化学习算法，与 PPO 不同，GRPO 通过为每个定理提示采样一组候选证明并根据它们的相对奖励优化策略，消除了对单独批评模型的需求。训练使用二元奖励，每个生成的 Lean 证明如果被验证为正确则获得 1 个奖励，否则为 0。为了确保有效学习，研究人员精心挑选训练提示，仅包括那些对监督微调模型具有足够挑战性但可解决的问题。模型在每次迭代中采样 256 个不同的问题，为每个定理生成 32 个候选证明，最大序列长度为 32768 个 token。

最后是模型的蒸馏。研究人员把 DeepSeek-Prover-V1.5-Base-7B 的最大上下文长度从 4096 个 token 扩展到了 32768 个，并使用 DeepSeek-Prover-V2-671B 强化学习阶段收集的 rollout 数据对这个扩展上下文模型进行微调。除了 CoT 推理模式外，研究人员还整合了专家迭代过程中收集的非 CoT 证明数据，以实现一种成本效益高的证明选项，该选项能够生成简洁的形式化输出，并且模型规模较小。此外，7B 模型也采用了与 671B 模型训练相同的强化学习阶段以提升性能。

研究人员对 DeepSeek-Prover-V2 在形式定理证明的各种基准数据集上进行了系统评估，涵盖了高中竞赛题目和本科水平的数学问题。实验表明，671B 版的模型实现了前所未有的准确率，且与业内其他先进模型相比效率也更高。

在 miniF2F 测试数据集上与最先进模型的比较。

DeepSeek-Prover-V2-671B 在 miniF2F 基准上解决的问题。

ProofNet - 测试和 PutnamBench 的实验结果。

ProverBench：AIME 与教材题目的形式化基准数据集

这次，DeepSeek 还发布了 ProverBench，这是一个包含 325 道题目的基准数据集。其中，15 道题来自最近两届 AIME 数学竞赛（AIME 24 和 25）中的数论与代数题目，经过形式化处理，具备真实的高中竞赛难度。其余 310 道题则精选自教材示例和教学教程，覆盖内容多样，具有良好的教学基础。

ProverBench 链接：https://huggingface.co/datasets/deepseek-ai/DeepSeek-ProverBench

该数据集旨在支持对模型在高中竞赛题和本科数学题两个层面的综合评估。

ProverBench 数据集的构成情况

网友评价：太强大了

从新模型的受欢迎程度上来看，大家都在期待 DeepSeek 能够再次改变世界。不少网友对 DeepSeek 新开源的这项工作表示十分欣赏。

还有钻研数学奥林匹克的学生也发来印象深刻的惊呼（做过题的都知道这里面门道有多深）。

网友亲测，效果真的神，把 o4-mini 和 Grok-3 都比下去了。

在社交网络上有人表示，将复杂问题分解再处理的方式像极了人们教给初级工程师的技巧，DeepSeek-Prover-V2 处理数学问题的思路对于代码等问题来说应该也是毫无问题。

不过，大家似乎对 DeepSeek-R2 有着更大的热情！敲敲这头小蓝鲸，R2 到底什么时候发出啊！

#Mona

CV 微调卷出天际，Mona：我小、我强、我省资源合作单位包括清华、国科大、上海交大、阿里巴巴。本文第一作者为殷东硕，清华大学计算机系「水木学者」博后，中科院博士，曾以一作身份在 Nature Communications、IEEE CVPR、IEEE ICCV、ACM MM、IEEE TITS 等国际期刊/会议发表论文，并任 NeurIPS、CVPR、ICCV、ICLR、IEEE TIP、IEEE TMM 等会议期刊审稿人。曾获「中国科学院院长奖」，并与微软亚洲研究院 MSRA 和阿里巴巴集团进行科研合作。研究方向包括计算机视觉、参数高效微调、视频生成、多模态以及遥感图像解译等。

Mona（Multi-cognitive Visual Adapter）是一种新型视觉适配器微调方法，旨在打破传统全参数微调（full fine-tuning）在视觉识别任务中的性能瓶颈。

论文标题：5%>100%: Breaking Performance Shackles of Full Fine-Tuning on Visual Recognition Tasks
论文地址：https://arxiv.org/pdf/2408.08345
代码地址：https://github.com/Leiyi-Hu/mona

Mona 方法通过引入多认知视觉滤波器和优化输入分布，仅调整 5% 的骨干网络参数，就能在实例分割、目标检测、旋转目标检测等多个经典视觉任务中超越全参数微调的效果，显著降低了适配和存储成本，为视觉模型的高效微调提供了新的思路。

论文亮点

随着现代深度学习的发展，训练数据和模型规模的增加成为模型性能的重要增长点，但随之而来的是模型的垂直应用和微调成本和难度的提升。

传统全量微调需要更新模型所有参数（如 GPT-3 的 1750 亿参数），计算成本极高。即使以早期的 BERT 为例，单卡训练 100 万数据也需 5-7 小时，对硬件资源和时间的要求限制了研究复现和实际应用。

同时，随着模型参数从亿级迈向万亿级，直接微调不仅成本高昂，还可能因过拟合导致性能下降。此外，多任务场景下需为每个任务保存完整模型副本，存储成本剧增。

参数高效微调（Parameter Efficient Fine-Tuning，PEFT）通过保持预训练模型参数冻结，仅调整少量参数就可实现大模型在垂直应用领域的高效适配。但目前大多数 PEFT 方法，尤其是视觉领域的 PEFT 方法的性能相较于全量微调而言还存在劣势。

Mona 通过更适合视觉信号处理的设计以及对预训练特征分布的动态优化，在小于 5% 的参数成本下首次突破了全量微调的性能枷锁，为视觉微调提供了新的解决方案。

本文的核心在于强调：（1）PEFT 对于视觉模型性能上限的提升（尤其是参数量较大的模型）；（2）视觉模型在全微调（尤其是少样本情况）会存在严重的过拟合问题；（3）1×LVM + n×Adapter 模式在实际业务中潜在的性能和效率优势。

对于具体业务来说，有些用到 LVM 或者多模态大模型（如 OCR 等任务）的任务会对视觉编码器部分进行固定或仅微调 linear 层来适应下游数据。Mona 的存在理论上可以进一步提升 LVM、多模态大模型对视觉特征的理解和重构，尤其是对于一些少样本 post-training 问题。

方法

Mona 包含降维、多认知视觉滤波器、激活函数和升维等模块，并在适配器内部加入了跳跃连接（Skip-Connections），以增强模型的适应能力。这种结构设计使得 Mona 能够在保持高效的同时，显著提升视觉任务的性能。

多认知视觉滤波器

Mona 方法的核心在于引入了多认知视觉滤波器，这些滤波器通过深度可分离卷积（Depth-Wise Convolution）和多尺度卷积核（3×3、5×5、7×7）来增强适配器对视觉信号的处理能力。与传统的线性适配器不同，Mona 专门针对视觉任务设计，能够更好地处理二维视觉特征，通过多尺度特征融合提升模型对视觉信息的理解能力。

输入优化

Mona 在适配器的前端加入了分布适配层（Scaled LayerNorm），用于调整输入特征的分布。这种设计能够优化从固定层传递过来的特征分布，使其更适合适配器的处理，从而提高微调效率。

实验结果实验设置

论文在多个代表性视觉任务上进行了实验，包括：

实例分割（COCO）
语义分割（ADE20K）
目标检测（Pascal VOC）
旋转目标检测（DOTA/STAR）
图像分类（Flowers102、Oxford-IIIT Pet、VOC2007）

实验使用了 SwinTransformer 系列作为骨干网络，并基于 ImageNet-22k 数据集进行预训练。

性能对比

在 COCO 数据集上，Mona 方法相比全参数微调提升了 1% 的 mAP，仅调整了不到 5% 的参数。

在 ADE20K 数据集上，Mona 提升了 0.18% 的 mIoU，表现出色。
在 Pascal VOC 数据集上，Mona 提升了 3.6% 的 APbox，显示出显著的性能提升。

在旋转目标检测任务（DOTA/STAR）中，Mona 在多个框架下均优于其他方法。

在图像分类任务上，Mona 也有不俗的性能。

收敛性分析

在所有方法中，Mona 收敛速度更快，并且明显超过了全微调。

即插即用模块

import torch.nn as nn
import torch.nn.functional as F


# ------------------------------ Mona 模块 ------------------------------


INNER_DIM = 64


class MonaOp(nn.Module):
    def __init__(self, in_features):
        super().__init__()
        self.conv1 = nn.Conv2d(in_features, in_features, kernel_size=3, padding=3 // 2, groups=in_features)
        self.conv2 = nn.Conv2d(in_features, in_features, kernel_size=5, padding=5 // 2, groups=in_features)
        self.conv3 = nn.Conv2d(in_features, in_features, kernel_size=7, padding=7 // 2, groups=in_features)


        self.projector = nn.Conv2d(in_features, in_features, kernel_size=1, )


    def forward(self, x):
        identity = x
        conv1_x = self.conv1(x)
        conv2_x = self.conv2(x)
        conv3_x = self.conv3(x)


        x = (conv1_x + conv2_x + conv3_x) / 3.0 + identity


        identity = x


        x = self.projector(x)


        return identity + x


class Mona(BaseModule):
    def __init__(self,
                 in_dim,
                 factor=4):
        super().__init__()


        self.project1 = nn.Linear(in_dim, INNER_DIM)
        self.nonlinear = F.gelu
        self.project2 = nn.Linear(INNER_DIM, in_dim)


        self.dropout = nn.Dropout(p=0.1)


        self.adapter_conv = MonaOp(INNER_DIM)


        self.norm = nn.LayerNorm(in_dim)
        self.gamma = nn.Parameter(torch.ones(in_dim) * 1e-6)
        self.gammax = nn.Parameter(torch.ones(in_dim))


    def forward(self, x, hw_shapes=None):
        identity = x


        x = self.norm(x) * self.gamma + x * self.gammax


        project1 = self.project1(x)


        b, n, c = project1.shape
        h, w = hw_shapes
        project1 = project1.reshape(b, h, w, c).permute(0, 3, 1, 2)
        project1 = self.adapter_conv(project1)
        project1 = project1.permute(0, 2, 3, 1).reshape(b, n, c)


        nonlinear = self.nonlinear(project1)
        nonlinear = self.dropout(nonlinear)
        project2 = self.project2(nonlinear)


        return

结论

Mona 方法通过多认知视觉滤波器和输入优化，显著提升了视觉任务的微调性能，同时大幅减少了参数调整量。这一方法不仅在多个视觉任务中超越了传统全参数微调，还为未来视觉模型的高效微调提供了新的方向。

预印版期间，Mona 已被复旦、中科大、南大、武大等多家单位的工作视为 SOTA 方法运用在医学、遥感等领域。Mona 的开源代码将进一步推动这一领域的研究和应用。

#LLM Post-Training

后训练时代如何延续Scaling Law？这是你该读的LLM后训练综述

现如今，微调和强化学习等后训练技术已经成为提升 LLM 能力的重要关键。

近日，一份围绕 LLM 后训练的综述报告收获了不少好评，其整理相关论文和工具的资源库已经收获了超过 700 star。

该综述来自阿联酋人工智能大学、中佛罗里达大学、谷歌 DeepMind 和牛津大学等多所机构，涵盖通过强化学习增强 LLM 的技术、监督式微调、测试时扩展以及 LLM 后训练基准评估等内容。

论文标题：LLM Post-Training: A Deep Dive into Reasoning Large Language Models
论文地址：https://arxiv.org/abs/2502.21321
资源库：https://github.com/mbzuai-oryx/Awesome-LLM-Post-training

在下面简要整理了该综述报告的内容主干，更多详情请访问以上链接。

近些年，大型语言模型（LLM）的能力在不断提升，应用领域也在急速扩展。尽管如此，仍有问题存在。

比如 LLM 可能出现所谓的「幻觉」，即生成误导性内容或不正确的事实；也可能在较长的会话中难以保持逻辑一致性。此外，LLM 中的推理概念仍然是一个备受争论的话题。虽然推理模型可以给出看似逻辑连贯的响应，但它们的推理与人类那样的逻辑推理有着根本的不同。这种区别至关重要，因为这有助于解释为什么 LLM 虽然可以产生令人信服的输出，但却仍然会在相对简单的逻辑任务上遇到困难。

与操纵显式规则和事实的符号推理不同，LLM 以隐式和概率的方式运行。在这篇综述报告中，LLM 的「推理（reasoning）」是指基于数据中的统计模式生成逻辑上连贯的响应，而不是显式的逻辑推理或符号操作。

此外，仅通过下一 token 预测训练得到的模型可能无法与用户的期望或道德标准对齐，尤其是在模糊或恶意场景中。这些问题表明，为了解决 LLM 输出中的可靠性、偏差和上下文敏感性问题，还需要专门的策略。

LLM 的训练过程大致可分为两个阶段：预训练和后训练。

预训练阶段通常依赖在大规模语料库上的下一 token 预测目标，后训练阶段通常则包括多轮微调和对齐。后训练机制的目标是通过优化模型行为来改进模型行为以及实现与人类意图的对齐（包括减少偏见和不准确度）。

要让 LLM 适应特定领域的任务，通常涉及到微调等技术。这些技术虽然可以实现针对具体任务的学习，但也存在过拟合的风险，并且还会产生高计算成本。

为了解决这些难题，强化学习（RL）被引入进来；这能让模型使用动态的反馈和优化序列决策来提升适应能力。此外，包括低秩适应（LoRA）、适配器和检索增强生成（RAG）在内的 scaling 技术也可提高计算效率和事实准确性。

这些策略加上分布式训练框架，促进了大规模部署，并进一步提高了 LLM 在不同应用中的可用性，见下图 1。通过这些目标明确的后训练技术，LLM 可以更好地与人类意图和道德伦理要求对齐，最终提高其在现实世界中的适用性。下面总结了关键的后训练阶段。

微调

微调（Fine-Tuning）是让已经预训练的 LLM 适应具体的任务或领域，具体做法是基于精选数据集来更新参数。

尽管经过大规模预训练的 LLM 通常具有很好的泛化能力，但微调也确实可以增强其在具体任务上的能力，包括情绪分析、问答和医疗诊断。这个过程通常是监督式的，可以使模型与任务要求对齐，但也会带来过拟合、高计算成本和对数据偏差的敏感性等难题。

为此，LoRA 和适配器等参数高效型技术可通过更新显式参数来学习特定于任务的适应，从而显著减少计算开销。随着模型的专业化，它们可能会在领域外泛化方面遇到困难，为此需要权衡考虑模型的专业性或多功能性。

强化学习

在传统的强化学习（Reinforcement Learning）设置中，智能体需要与结构化环境交互，采取离散的动作在状态之间转换，同时最大化累积奖励。适用强化学习的领域都应具有定义良好的状态 - 动作空间和明晰的目标，比如机器人、棋盘游戏和控制系统。

而 LLM 领域的强化学习有很大不同。LLM 并不是从一个有限的动作集中进行选取，而是从一个巨大词汇表中选取 token，而它们不断演进的状态则是由不断增长的文本序列构成。这样一来，规划和 credit 分配就会变得非常复杂，因为 token 选取的效果通常要到后面才会显现。

另外，基于语言的强化学习中的反馈存在稀疏、主观和延迟的特点，因此通常依赖于启发式评估和用户偏好，而不是明确的性能指标。

不同于通常针对单个目标进行优化的传统强化学习，LLM 还必须平衡多个有时相互冲突的目标。将基于过程的奖励（例如，思维链推理）与基于结果的评估（例如，响应质量）相结合的混合方法有助于改进学习效果。因此，LLM 的强化学习需要专门的优化技术来处理高维输出、非稳态目标和复杂的奖励结构，确保响应保持上下文相关性并与用户期望对齐。

规模扩展

规模扩展（Scaling）对于提高 LLM 的性能和效率至关重要。这能帮助提升模型在任务上的泛化性能，但同时也会带来显著的计算挑战。为了平衡性能和资源效率，需要在推理时采取有针对性的策略。

思维链（CoT）推理和思维树（ToT）框架等技术通过将复杂问题分解为顺序或树状结构的步骤来增强多步骤推理。此外，基于搜索的技术可以迭代探索可能的输出，帮助改进响应并确保更高的事实准确性。这些方法与 LoRA、适配器和 RAG 等方法相结合，可以提升模型处理复杂、特定领域大规模任务的能力。

RAG 可通过动态检索外部知识来提高事实准确性，从而缓解静态训练数据的局限性。
分布式训练框架可利用并行处理来管理大规模模型的高计算需求。
测试时扩展可根据任务复杂性动态调整参数来优化推理。
修改深度、宽度或活动层可以平衡计算效率和输出质量，使其适应资源有限或多变的条件。

尽管扩展方面进步颇多，但挑战仍在，例如收益递减、推理时间更长以及环境影响，尤其是在测试时而不是训练期间执行搜索技术时。为了高质量、高效地部署 LLM，确保可访问性和可行性是至关重要的。

背景信息

该综述报告的第二部分介绍了 LLM 后训练相关的背景信息，其中包括基础的形式化描述、基于强化学习的序列推理、以及用于语言建模的早期强化学习方法。但这里我们就略过了，详见原报告。

表 1 概述了近期的模型，包括它们的参数、架构类型和所采用的蒸馏 RL 方法。

图 2 则总结了 LLM 的推理方法，其中展示了通过思维链（CoT）提示、自我反馈和情景记忆等方法增强推理能力的途径。同时也突出展示了多种基于强化学习的优化技术，包括 GRPO、RLHF、DPO 和 RLAIF。

强化 LLM

从方法论的角度来看，为了将强化学习集成到 LLM 推理中，通常要遵循以下核心步骤：

1、监督式微调（SFT）：从预训练语言模型开始，在包含高质量、人工制作的示例样本的监督数据集上，对模型进行微调。此阶段可确保模型获得符合格式和样式的基线。

2、奖励模型（RM）训练：收集微调模型生成的输出并进行人工偏好标注。然后对奖励模型进行训练以复现这些基于标签的分数或排名，从而有效地学习将响应文本映射到标量值的连续奖励函数。

3、强化学习微调：最后，通过策略梯度算法（例如 PPO）优化主语言模型，以最大化奖励模型的输出。通过迭代此循环，LLM 可学习在准确性、有用性和风格连贯性等关键维度上生成人类更偏好的响应。

4、奖励建模和对齐：开发复杂的奖励函数（借鉴人类偏好、对抗性反馈或自动化指标）以引导模型获得连贯、安全且适配上下文的输出。为了在多步推理过程中有效分配 credit，这些奖励至关重要。

在早期，将 LLM 与人类偏好对齐的强化学习算法是经典算法，例如 PPO 和信任域策略优化（TRPO），这些算法优化策略的方式是最大化预期累积奖励，同时通过智能体目标函数和 KL 散度正则化对策略更新施加约束。

针对可扩展的基于偏好的优化，已经出现了这些方法的改进版替代方案，例如直接偏好优化（DPO）和组相对策略优化（GRPO）。这些方法是将对齐目标重新表述为基于人类标注的偏好数据的排名式对比损失函数。

不同于依赖显式奖励模型和评价网络的 PPO 和 TRPO，DPO 和 GRPO 分别利用对数似然比和组奖励比较来直接优化策略，从而无需显式价值函数近似，同时还能保留偏好一致的学习动态。

这一节涉及的具体内容如下：

奖励建模

显示显式奖励建模
隐式奖励建模
结果奖励建模
过程奖励建模
使用自适应奖励模型的迭代式强化学习

策略优化

胜算比偏好优化（ORPO）
LLM 中的近端策略优化（PPO）
基于人类反馈的强化学习（RLHF）
基于 AI 反馈的强化学习（RLAIF）
信任区域策略优化（TRPO）
直接偏好优化（DPO）
离线推理优化（OREO）
组相对策略优化（GRPO）
多样本比较优化

图 3 给出了 PPO、GRPO 和 DPO 的比较。

基于纯强化学习的 LLM 微调

冷启动强化学习阶段
拒绝采样和微调
面向推理的强化学习
用于人类对齐的第二个强化学习阶段
蒸馏以获得较小模型

图 4 的维恩图说明了在实现高效的微调和部署时，系统、数据和模型之间的相互作用。它涵盖了用以提升性能和可扩展性的加速器（Groq、vLLM）、适应器（LoRA、PEFT）、共同优化架构（FlashAttention）、数据压缩（TokenMerging）、Scaling Law（Chinchilla）和模型压缩（GPTQ）等策略。

LLM 中的监督微调

如图 2 所示，微调是 LLM 后训练配方的基本组成部分。这一节总结了不同类型的 LLM 微调机制，具体包括：

指令微调
对话（多轮）微调
CoT 推理微调
特定于具体领域的（专业）微调
基于蒸馏的微调
偏好和对齐 SFT
高效微调

下表概括性地总结了现代的 LLM 框架和方法。

测试时扩展方法

强化学习微调的是模型的策略，而测试时扩展（TTS）通常是在推理过程中增强模型的能力，这个过程无需更新模型。图 5 给出了 TTS 方法的分类情况 —— 基于其底层技术进行了分类。

具体来说，包含以下技术：

集束搜索
Best-of-N 搜索（拒绝抽样）
计算最优扩展
思维链提示
自我一致性解码
思维树（Tree-of-thoughts）
思维图谱（Graph of Thoughts）
基于置信度的采样
针对验证者进行搜索
通过优化实现自我改进
蒙特卡洛树搜索（MCTS）
行动-思维链推理
预训练与测试时扩展

图 6 则比较了 LLM 的推理策略，从直接提示法（不使用推理地将输入映射到输出）到更结构化的方法。

思维链（CoT）引入了逐步推理，而自我一致性（CoT-SC）则是生成多个 CoT 路径并选择最常出现的答案。Mutiple CoT 会独立探索不同的推理路径。思维树（ToT）则是将推理构造为树，从而实现回溯和细化，而思维图谱（GoT）则是通过对思维进行动态聚合和连接来实现这一点。

LLM 后训练评估基准

为了评估 LLM 后训练阶段的表现，人们已经提出了很多涉及多个领域的基准：

推理
强化学习对齐
多语言评估
通用理解
对话和搜索

结构良好的评估框架可确保全面了解 LLM 在各种任务中的优势和局限性。

这些基准在 LLM 后处理阶段起着至关重要的作用，模型在此阶段经过微调、校准、对齐和优化，可以提高响应准确性、稳健性和道德合规性。本节分组介绍了主流的基准。表 3 概述了这些基准分组下的关键数据集。

未来方向

最后，作者团队还收集了与 LLM 后训练方法相关的论文并分析了它们的趋势，如图 7 所示。

可以看到，自 2020 年以来，强化学习在优化 LLM 方面的地位有了显著提升（图 7a），其中还突出了对交互式方法的需求，例如人机交互强化和可扩展性。

与此同时，由于自我奖励语言模型的出现，人们对奖励建模（图 7b）的兴趣也在稳步上升，但该领域仍在努力应对奖励 hacking 问题，以及设计解决奖励 hacking 的稳健型、可感知问题的奖励函数。

解码和搜索（图 7c）方法包括思维和蒙特卡洛策略，其目标是通过迭代自我批评来增强模型推理能力，但这些技术也需要可靠的不确定性估计器，以防止计算开销过高。

安全性、稳健性和可解释性同样已成为核心关注点（图 7d），这个方向的研究者推动了偏见感知型和不确定性感知型强化学习方法的发展，这些方法超越了与人类不确定性的相关性，可以维护用户信任并防止对抗性攻击。

个性化和适应性（图 7e）也是关键领域 —— 在为特定领域定制 LLM 时，必须权衡考虑隐私风险，特别是涉及企业数据或敏感个人信息时。

与此同时，过程与结果奖励优化（图 7f）仍然是一个悬而未决的问题：虽然基于过程的奖励有助于指导渐进式改进，但以结果为中心的指标更简单，但可能无法捕捉关键的中间决策步骤。

除了奖励结构之外，针对新任务微调 LLM 时仍然会遇到灾难性遗忘和潜在的数据泄露等问题，这就凸显了对参数高效型方法和隐私保护策略（如差分隐私和联邦学习）的需求。

人工反馈虽然是对齐的核心，但其成本高昂且范围有限；Constitutional AI 和 RLAIF 等方法希望实现部分监督的自动化，尽管它们也引发了人们对偏差校准和模型自洽性的新担忧。

最后，测试时扩展和动态推理框架也带来了进一步的挑战：模型必须学习何时为复杂查询分配更多计算，如何有效地调整验证模块，以及如何在面对对抗性输入时保持稳健的性能。这些融合的研究方向（涵盖奖励建模、解码策略、可解释性、个性化和安全微调）凸显了强化学习在 LLM 中作用的多样性，并共同塑造了大规模语言模型开发的未来轨迹。

#Attention is all you need

被Transformer光芒掩盖的论文，Meta科学家回顾十年前创新之作

这篇论文包含了当前 LLM 的许多要素，十年后的今天或许仍值得一读。

发布于 2017 年的 Transformer 论文——「Attention is all you need」被引量已经超过 17 万，成为这轮 AI 技术革命的标志性论文。

来自 Jeff Dean 的演讲幻灯片

同时，也有一些论文的光芒被它掩盖，比如发布于 2015 年的「End-To-End Memory Networks」。

论文一作、Meta 研究科学家 Sainbayar Sukhbaatar 在最近的一则推文中说道「回顾过去，这篇论文包含了当前大型语言模型的许多要素。我们的模型是首个完全用注意力机制替代 RNN 的语言模型；它引入了带键值投影的点积软注意力机制，堆叠了多层注意力，使模型能关注输入的不同部分；它还引入位置嵌入来解决注意力机制中的顺序不变性问题……」

虽然这篇论文比《Attention is all you need》还早两年，但它并没有受到应有的关注，被引量只有 3000 多。

作者提到，这篇论文是对 Facebook AI 研究院 2014 年的一篇论文——「Memory Networks」的改进。「Memory Networks」引入了多层堆叠的硬注意力机制（hard attention）——与 Bahdanau 等人在单层上引入软注意力是同期提出的。

在去年的一个帖子中，AI 大牛 Andrej Karpathy 曾发帖感叹，Bahdanau 等人在单层上引入软注意力的那项工作——「Neural Machine Translation by Jointly Learning to Align and Translate」才是真正引入注意力机制的论文（最近拿到了 ICLR 2025 时间检验奖的亚军），但「Attention is all you need」所受到的关注却是它的 100 多倍。不过，他也承认，「Attention is all you need」这篇论文有其独特性。

回到文章开头提到的「End-to-End Memory Networks」，它其实是将「Memory Networks」和「Neural Machine Translation by Jointly Learning to Align and Translate」的想法结合到了一起，并展示了多层软注意力能够产生复杂的推理能力——这是当今 AI 架构最重要的方面之一。

除了核心创新，一作 Sainbayar Sukhbaatar 还分享了这篇论文诞生背后的故事和他们目前正在推进的新工作。

一篇被 Transformer 光芒掩盖的论文

论文标题：End-To-End Memory Networks
论文链接：https://arxiv.org/pdf/1503.08895

Sainbayar Sukhbaatar 回忆说，他们的「End-to-End Memory Networks」研究始于 2014 年春天。当时，他博士二年级，还在 FAIR 实习。他的导师 Rob Fergus 敦促他进行关于记忆的研究。不过，那会儿的他还不理解记忆意味着什么，因为那是一个由循环网络和卷积网络主导的世界，记忆并不像今天那样是一个重要的流行词。

不过，他的研究并不需要从头开始。因为当时，Facebook AI 研究院的 Jason Weston 等人已经做出了「Memory Networks」。此外，他们还发布了一套名为 bAbI 的任务，这些任务让循环模型惨败。因为这些任务需要以无序的方式查找多个事实，而这是 RNN 的致命弱点。

与「记忆」有关的这个项目最初吸引了很多人的关注，但事情进展并不顺利。

最终，他们开始着手于记忆网络的进一步研究，目标是让它学会关注何处，而不需要给定的标签。他们决定使用强化学习训练来教会记忆网络关注何处。

时间快进到 2014-2015 年冬天，他们当时已经实现了强化学习代码，并准备在语言模型任务上与基准进行比较。一个明显的选择是「Neural Machine Translation by Jointly Learning to Align and Translate」中使用的软注意力机制——但 Sainbayar Sukhbaatar 等人在研究中将其应用于多层结构中，这在之前是没有人做过的。所以他们将其作为基线实现，但做了一些改变，比如使用点积而不是小型多层感知器来计算注意力。令人惊喜的是，采用这种软注意力的记忆网络效果出奇地好，他们立即意识到这就是正确的方向。

在此之后，事情开始快速发展。在 Arthur Szlam（另一位作者）的坚持下，团队开始使用 bAbI 任务作为基准。他们开发了几种新技术，如为键和值使用不同的投影等。他们还需要解决注意力的顺序不变性问题，所以他们添加了时间嵌入（现在称为位置嵌入）。

Jason 建议在这些时间值中添加随机噪声以减少过拟合。最后，他们决定做一个当时不流行的语言建模任务。令人惊讶的是，他们仅使用注意力而没有任何时间 recurrence 就击败了 LSTM（在论文中，他们使用「recurrence」一词来描述重复的层，即像通用 transformer 那样共享权重）。

他们在 NeurIPS 提交的最后一天写了大部分论文。有趣的是，它最初被称为「弱监督记忆网络」，因为它需要更少的监督。

无论如何，那个时期是新架构的黄金时代，出现了 Neural GPU、Stack RNN 和 Neural Turing Machine 等新论文。

回顾 10 年后的今天和当前大型语言模型的状态，Sainbayar Sukhbaatar 认为他们在论文中正确预见了几点。他们的模型是第一个不依赖 recurrence 的基于注意力的语言模型。他们成功地堆叠了多层注意力，使模型能够在输出下一个 token 之前关注上下文的不同部分。他们还使用了位置嵌入，甚至是相对位置嵌入，这现在已成为大型语言模型的标准做法。