我自己的原文哦~ https://blog.51cto.com/whaosoft/13869815
#大模型何以擅长小样本学习?
这项研究给出详细分析
近年来,大语言模型(LLM)在人工智能领域取得了突破性进展,成为推动自然语言处理技术发展与通用人工智能实现的核心力量。上下文学习能力(In-Context Learning, ICL)是 LLM 最显著且重要的能力之一,它允许 LLM 在给定包含输入输出示例的提示(prompt)后,直接生成新输入的输出,这一过程仅通过前向传播而无需调整模型权重。这种能力使得 LLM 能够基于上下文中的示例快速理解并适应新任务,展现出强大的小样本学习和泛化能力。理解 LLM 是如何实现 ICL 的,对于提高模型性能与效率、提升模型可解释性与 AI 安全、推广大模型应用与改进小样本学习算法具有重要意义,也是近来机器学习研究热点之一。有以下关键问题需要回答:
1.LLM 能够学到哪些学习算法,例如梯度下降、比较近邻等?
2. 在具体问题的 ICL 过程中在执行哪一种学习算法?
3. 如何进一步提升 LLM 的 ICL 能力?
ICL 通常建模为将多个已知样例与预测目标输入一起,拼接成序列输入 LLM 中的 transformer 模型,输出对目标的预测(图 1 左)。现有工作已证明 ICL 在不同模型和数据分布条件下,能够分别实现如线性回归和梯度下降等具体的学习算法,从已知样例中学习到任务对应输入输出映射,并作用于目标输入上产生预测输出。而这种学习算法是 transformer 模型通过预训练过程得到的,现实中 LLM 的预训练涉及海量的文本数据,含有复杂的语义信息,难以用单一的数学分布建模。现有工作对 ICL 实现小样本学习算法的解释难以泛化到真实世界场景或实际 LLM。为了对 ICL 的小样本学习能力有更直观的认识,在近期发表于 ICLR2025 的工作 “Why In-Context Learning Models are Good Few-Shot Learners?” 中我们对 ICL 模型作为元学习器的本质进行了建模与研究,以对上面三个问题进行了回答。
- 论文链接:https://openreview.net/pdf?id=iLUcsecZJp
- 代码链接:https://github.com/ovo67/Uni_ICL
1. 将 LLM 建模为元学习器覆盖学习算法空间
ICL 模型可以学到所有传统元学习器学到的算法。元学习(Meta-Learning)是一种 “学习如何学习” 的方法,可通过设计模型使其能够快速适应新任务应用于小样本学习。它通过在多个相关任务上进行训练,学习到一种通用的学习策略或算法,从而在面对新任务时能够快速调整自身参数或结构,实现快速优化和泛化。借助元学习领域成熟的理论基础与方法经验,理论证明了作为实现学习算法的模型,基于 transformer 的 ICL 模型与传统的元学习器相比具有更强的表达能力(图 1 右)。
图 1 大语言模型的上下文学习示例,以及上下文学习模型在学习算法空间中与传统元学习模型的关系。
2. ICL 模型学到并执行在预训练分布上最优的算法
ICL 算法的学习是通过对预训练数据分布的拟合。在预训练充足的情况下,ICL 模型能够学习到在预训练任务集上最优(在与训练数据分布上最小化损失)的学习算法,从而在仅有少量样本的情况下实现快速适应。我们构建三类已知最优算法(Pair-wise metric-based/Class-prototype metric-based/Amortization-based 三种任务的最优算法分别可由元学习器 MatchNet/ProtoNet/CNPs 学习得到,图 3a)的任务。首先分别在单一种类任务集上训练,测试表明 ICL 性能与该预训练数据下能学到的最优算法表现相当(图 2 上)。然后再混合三种任务集上训练,三种传统元学习器的性能都有所下降,而 ICL 的性能依然与单一种类任务训练得到的最优性能一致(图 2 下)。以上结果说明 ICL 模型能够学习到预训练任务集上最优的学习算法,并且与传统的元学习器相比 ICL 模型具有更强的表达能力,因为它们不仅能够学习到已知的最优学习算法,还能够根据数据的分布特性表达出传统视野之外的学习算法,这使得 ICL 模型在处理多样化任务时具有显著优势。
图 2(上)分别在三种任务集上训练并对应测试的测试表现;(下)在混合任务集上训练并分别测试三种任务的性能表现。
我们还对 ICL 模型学习到的算法的泛化性进行了实验研究。展示出了其作为深度神经网络受数据分布影响的特性:其预训练过程本质上是在拟合以特定结构输入的训练任务集的数据分布,而无法保证学习到显式的基于规则的学习算法,这一发现纠正了现有工作将 ICL 解释为算法选择(Algorithm Selection)的过程。这将导致 ICL 模型在预训练数据受限或测试数据分布有偏移时性能表现不及预期(图 3)。
图 3 ICL 与 “算法选择” 行为的比较(a)两种模型在三类已知最优算法的任务上训练,在未知最优算法任务上测试;(b)对于测试任务 ICL 可以处理而 “算法选择” 无法处理;(b)ICL 对测试数据分布敏感而 “算法选择” 不敏感。
3. 将传统深度网络的相关方法迁移到元学习层面以提升 ICL 性能
基于上述对 ICL 模型作为学习算法强表达、难泛化的认识,可以将 ICL 模型对特性与传统深度神经网络的特性进行类比。我们提出通过 “样本 - 任务” 的概念映射将传统深度学习技巧迁移到元学习层面以优化 ICL 模型。例如实现了基于任务难度的元课程学习提升 ICL 模型预训练过程的收敛速度:图 4 展示了对于线性回归任务以递增非零维度数量作为课程的效果,元 - 课程学习能有效加速 ICL 模型的收敛,但不一定提升其最终性能。
图 4 元 - 课程学习(左)训练过程 loss 变化;(中)200000 episodes 时的测试结果;(右)500000 episodes 时的测试结果。
又例如实现了基于领域划分的元 - 元学习,即将训练数据划分为多个领域,每个领域含有一个训练任务集和验证任务集,即可将以单个任务为输入的 ICL 模型作为待适应网络,构建元 - 元学习器在每个领域上利用训练任务集进行适应。实验效果如图 5 所示,提升了 ICL 模型的有限垂域数据高效适应能力。
图 5 采用元 - 元学习的 ICL 模型分别在给定每领域 64/256/1024 个任务时的适应表现。
4. 总结
本文通过将 ICL 模型建模为元学习器,证明了 ICL 模型具有超过已有元学习器的表达学习算法的能力;ICL 执行在预训练数据分布上最优的算法,而不一定具有可泛化的规则;可以将传统深度网络有关技术迁移到元学习层面用以提升 ICL,如元 - 课程学习加速预训练收敛,元 - 元学习提升少数据领域微调快速适应能力。
作者介绍
吴世光,清华大学电子工程系博士研究生,本科毕业于清华大学电子工程系。当前主要研究方向包括元学习与大语言模型。
王雅晴,现任北京雁栖湖应用数学研究院(BIMSA)副研究员,长期从事机器学习、人工智能和科学智能的研究,致力于构建高效、低成本的智能算法,以精准匹配海量数据的科学解释并解决现实问题。她在 NeurIPS、ICML、ICLR、KDD、WWW、SIGIR、TPAMI、JMLR、TIP 等国际顶级会议和期刊上发表 27 篇论文,总被引用 4500 次。2024 年,她入选全球前 2% 顶尖科学家榜单。
姚权铭,现任清华大学电子工程系助理教授,研究方向为机器学习和深度学习。共发表文章 100 + 篇,涵盖机器学习领域顶级期刊 JMLR、IEEE TPAMI 和顶级会议 ICML、NeurIPS、ICLR 等,累计引用超 1.2 万余次。担任 ICML、NeurIPS、ICLR 等会议领域主席,NN、TMLR、MLJ 等期刊(资深)编委。获首届蚂蚁 In Tech 科技奖、国际人工智能学会(AAAI)学术新星、国际神经网络学会(INNS)青年研究员奖、吴文俊人工智能学会优秀青年奖,同时入选全球 Top 50 华人 AI 青年学者榜和福布斯 30under30 精英榜。
#TinyLLaVA-Video-R1
北航推出全开源TinyLLaVA-Video-R1,小尺寸模型在通用视频问答数据上也能复现Aha Moment!
当前,基于强化学习提升多模态模型的推理能力已经取得一定的进展。但大多研究者们选择 7B+ 的模型作为基座,这对于许多资源有限的科研人员而言仍存在显著的门槛。
同时,在视频推理领域,由于高质量强推理性数据较为稀少,通用问答数据较难激发模型的深层次逻辑推理能力,因此先前一些初步尝试的效果大多不尽如人意。
近日,北京航空航天大学的研究团队推出小尺寸视频推理模型 TinyLLaVA-Video-R1,其模型权重、代码以及训练数据全部开源!
该工作验证了小尺寸模型在通用问答数据集上进行强化学习也能有不错的效果,与使用相同数据进行监督微调的模型相比,TinyLLaVA-Video-R1 在多个 benchmark 上都有性能提升。同时,模型还能在训练与测试的过程中多次展现自我反思与回溯行为!
- 论文标题:TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning
- 论文地址:https://arxiv.org/abs/2504.09641
- Github:https://github.com/ZhangXJ199/TinyLLaVA-Video-R1
在推特上,HuggingFace AK 也连续两次转发推荐了这篇文章:
为什么选择 TinyLLaVA-Video 作为 Base Model?
图表 1 TinyLLaVA-Video 整体框架
虽然现有的开源视频理解模型基座具有强大的理解与感知能力,但由于其训练数据不透明,使用开源视频数据进行后训练可能会引入不可控的变量,从而影响实验结果和结论的可靠性。
因此,北航团队选择训练过程完全可溯源的 TinyLLaVA-Video 作为 Base Model,该模型采用 Qwen2.5-3B 作为语言模型,SigLIP 作为视觉编码器。虽然 TinyLLaVA-Video 仅有 3.6B 的参数,且在预训练阶段为了控制训练时长并未使用大量数据,但其仍能在多个 Benchmark 上能够优于现有的多个 7B+ 模型。
TinyLLaVA-Video-R1 主要做了什么?
引入少量人工标注的高质量冷启动数据
该工作发现,受限于小尺寸模型的能力,当直接使用 TinyLLaVA-Video 作为基础模型,随着训练的进行,模型有一定的概率学会「偷懒」,所有的响应虽然符合格式要求,但并不给出思考过程,响应均为<think> </think> <answer> option </answer>,同时在 Qwen2-VL-2B 上进行实验也得到相似的实验现象。
而当使用人工标注的 16 条 CoT 数据为模型进行冷启动后,在实验的过程中就不再出现这样的现象,同时,模型也将更快学会遵守格式要求。因此该工作认为,冷启动对于小尺寸模型推理是必要的,即使是极少量的冷启动数据,对于稳定模型训练也是很有帮助的。
引入长度奖励与答案错误惩罚
现有的许多推理工作仅仅设置格式奖励而没有添加长度奖励,但受限于小尺寸语言模型的能力,在这种设置下进行训练并不会使模型的响应长度增加,甚至出现一点下降。
在引入连续长度奖励后,模型的响应长度在训练过程中显著增加,如图所示。然而在这种设置下,模型为了增加响应长度而进行了一些无意义的推理,这不仅没有提高性能,反而导致训练时间显著增加。
因此,TinyLLaVA-Video-R1 进一步将答案错误惩罚纳入总奖励,观察到模型响应的质量有所提升,并且在整个训练过程中输出长度和奖励也能够保持增长。
为 GRPO 的优势计算引入微小噪声
同时,TinyLLaVA-Video-R1 在实验中也观察到了优势消失的问题:当集合中的所有响应都是正确的,并且给予相同的奖励时,它们计算出的优势会消失到零。这一现象影响了策略更新,降低了样本效率。为了最大化对每个样本的利用,TinyLLaVA-Video-R1 在优势计算时引入了额外的高斯噪声
,尽管这种噪声仅引起轻微的扰动,但它能够确保组内响应优势的多样性。
实验结果
首先,TinyLLaVA-Video-R1 验证了使用强化学习能够明显提升模型性能,与使用相同数据进行监督微调的 TinyLLaVA-Video-SFT 相比,TinyLLaVA-Video-R1 在多个 benchmark 中均有更佳的表现。
同时,TinyLLaVA-Video-R1 能够理解和分析视频内容,逐步评估每个选项,并最终给出答案。与仅输出最终答案的模型相比,该模型能够生成有意义的思考过程,使其回答更加可解释且有价值。这也是视频推理模型相对于传统视频理解模型的重要提升与优势。
与其他使用强化学习提升模型推理能力的工作相似,北航团队也在 TinyLLaVA-Video-R1 上复现了「Aha Moment」,即模型在思考的过程中引发紧急验证等行为。实验结果也验证了,即使使用弱推理的通用视频数据对小尺寸模型进行训练,也能够引发模型的回溯与自我反思。
后续,北航团队也将进一步研究小尺寸视频推理模型,未来工作将包括引入高质量视频推理数据与强化学习算法改进。
同时,TinyLLaVA 系列项目也始终致力于在有限计算资源下研究小尺寸模型的训练与设计空间,坚持完全开源原则,完整公开模型权重、源代码及训练数据,为资源有限的研究者们理解与探索多模态模型提供平台。
#CS25: Transformers United V5
OpenAI、谷歌等一线大模型科学家公开课,斯坦福CS 25春季上新!
在斯坦福,有一门专门讲 Transformer 的课程,名叫 CS 25。这门课曾经邀请过 Geoffrey Hinton、Andrej Karpathy 以及 OpenAI 的 Hyung Won Chung、Jason Wei 等一线大模型研究科学家担任讲师,在 AI 社区引起广泛关注。
最近,这门课又上新了。这一春季学期课程名为「CS25: Transformers United V5」,邀请了 Google DeepMind 推理团队创立者和现任负责人 Denny Zhou、OpenAI Canvas 项目负责人 Karina Nguyen、OpenAI 研究科学家 Hongyu Ren(任泓宇)、Meta 视频生成团队研究科学家 Andrew Brown 等知名研究者,深入探讨 AI 领域的最新突破。
而且,这门课是完全开放的,任何人都可以现场旁听或加入 Zoon 直播,无需注册或与斯坦福大学建立关联。
- 课程地址:https://web.stanford.edu/class/cs25/recordings/
课程结束后,他们还会把课程的视频上传到官方 YouTube 账号。目前,新学期视频第一期已经上传。
整个学期的课程表如下:
想要听直播的同学记得在太平洋夏令时间每周二下午 3:00 - 4:20(北京时间每周三上午 6:00 - 7:20)蹲守,具体信息请参考官方网站。
往期热门课程
V2:Geoffrey Hinton——Representing Part-Whole Hierarchies in a Neural Network
AI 领域传奇人物 Geoffrey Hinton(「深度学习教父」)分享了他对神经网络中部分-整体层次结构的最新研究,提出了 GLOM 模型,旨在模拟人类视觉系统处理复杂场景的能力。
讲座探讨了 GLOM 如何通过动态解析树结构增强 Transformer 在视觉任务中的表现,解决自注意力机制的计算效率瓶颈。Hinton 结合深度学习的演变历程,从感知机到 RNN 再到 Transformer,展望了神经网络在模拟认知过程和提升视觉理解中的未来潜力。
- 视频地址:https://www.youtube.com/watch?v=CYaju6aCMoQ&t=2s
V2:Andrej Karpathy——Introduction to Transformers
Andrej Karpathy(前 Tesla AI 总监、OpenAI 研究员)系统介绍了 Transformer 架构的原理与影响。他从 2017 年《Attention is All You Need》论文出发,拆解了自注意力机制(Self-Attention)、多头注意力(Multi-Head Attention)及 Transformer 在大型语言模型(如 ChatGPT)中的核心作用。
讲座还探讨了 Vision Transformer(ViT)等跨领域应用,并展望了模型高效化和多模态学习的未来。Karpathy 结合自身从斯坦福学生到业界先锋的经历,回顾了深度学习从 RNN 到 Transformer 的演变。
- 视频地址:https://www.youtube.com/watch?v=XfpMkf4rD6E
V3:Douwe Kiela——Retrieval Augmented Language Models
Douwe Kiela(Contextual AI 首席执行官兼斯坦福符号系统客座教授)深入探讨了检索增强生成(Retrieval-Augmented Generation, RAG)作为解决大型语言模型(LLM)局限性的关键技术。讲座介绍了 RAG 的基本概念,即通过外部检索器提供上下文信息,缓解幻觉(hallucination)、信息时效性和定制化问题。
Kiela 回顾了语言模型的历史,追溯至 1991 年的神经语言模型,澄清了 OpenAI 并非首创的误解,并调研了 RAG 的最新进展,如 Realm、Atlas 和 Retro 架构,分析其优劣。他还探讨了 RAG 与长上下文模型的效率对比、指令微调(instruction tuning)的重要性以及未来的研究方向,如多模态 RAG 和预训练优化。
- 视频地址:https://www.youtube.com/watch?v=mE7IDf2SmJg
V4:Jason Wei & Hyung Won Chung of OpenAI
OpenAI 研究科学家 Jason Wei 和 Hyung Won Chung 分享了关于大型语言模型(LLM)和 Transformer 架构的洞见。
Jason Wei 探讨了语言模型的直观理解,强调下一词预测作为大规模多任务学习的本质,并分析了扩展律(scaling laws)与个体任务的涌现能力。Hyung Won Chung 则从历史视角审视 Transformer 架构的演变,聚焦计算成本指数下降的驱动作用,提出通过连接过去与现在预测 AI 未来的统一视角。
两位讲者结合在 OpenAI 的工作经验(如 FLAN-T5、Codex),展望了 Transformer 在多模态和通用 AI 中的潜力。
#跨机型诊断难题新突破
上交大、商飞、东航打造国产大飞机时序大模型智能诊断新路径
近日,上海交通大学航空航天学院李元祥教授团队,联合上海飞机设计研究院和东方航空技术有限公司 MCC,在国产大飞机核心系统的智能诊断方向取得重要突破。研究团队围绕引气系统的跨机型诊断难题,首次构建基于时序大模型的统一诊断框架,实现了来自空客 A320、A330 等成熟机型的运行知识向国产 C919 的有效迁移,为新机型在数据稀缺条件下的早期健康管理提供了智能化解决方案。
相较于传统方法多依赖单一机型、模型容量有限且泛化性差,该研究提出一种 “预测下一个信号 token” 的自监督预训练方法,联合利用三类机型的飞行数据开展训练,成功学习到通用的信号健康表征。在此基础上,设计了高度适配工程场景的联合损失函数,显著提升了模型在下游异常检测和基线预测任务中的表现。研究进一步验证了,基于时序大模型的飞参建模方式能够有效打破机型壁垒,实现诊断知识在多型号间的共享与迁移。相关论文已被国际工程信息学领域的一区 Top 期刊《Advanced Engineering Informatics》接收发表。
- https://www.sciencedirect.com/science/article/pii/S1474034625001685
- https://arxiv.org/pdf/2504.09090
背景介绍
引气系统(Bleed Air System, BAS)作为保障飞行安全与乘客舒适度的核心环节,承担着舱压调节、空调供气和发动机防冰等多项关键功能。由于系统工作环境复杂且高度依赖发动机压气机供气,BAS 常见故障如超压、低压和过热,不仅频繁发生,还可能导致机舱减压、设备损坏甚至安全事故,成为影响飞行任务稳定执行的重要隐患。
现有研究多依赖基于特定机型构建的统计模型或轻量级深度模型,虽在健康监测与风险评估中具备一定有效性,但面临两个根本瓶颈:一是模型强依赖特定机型数据分布,难以在不同飞机平台间迁移使用;二是对大量故障标签的依赖,使其难以适配如 C919 等新型飞机在早期运营阶段数据稀缺的实际情况。特别是在国产大飞机持续服役推广的背景下,如何在多机型之间共享诊断知识、降低数据门槛、提升模型的泛化能力,成为工程界亟待破解的关键课题。
主要创新
为了解决多机型之间诊断迁移难、C919 数据稀缺等问题,团队提出了一种基于时序大模型的统一诊断框架。团队构建了涵盖 A320、A330 和 C919 三种机型的引气系统飞行数据集,并设计了一种自监督学习策略,通过 “预测下一个信号 token” 的方式,让模型在不依赖故障标签的情况下,学会抽取多机型通用的健康状态特征。
在此基础上,团队针对工程上新机型故障样本极少的现实,设计了一个结合基线预测与异常检测的联合损失函数。这个机制不仅提升了模型对下游任务的适应性,也让诊断结果更具解释性。
结果
实验表明,该模型在多个任务中表现优于现有方法,尤其是在 C919 这样数据稀少的场景下,准确率提升明显。
在跨机型数据的预训练基础上进行微调的下游任务的精度和准确度显著超越当前流行的 SOTA 方法,并且将有预训练和没有预训练的相比,性能也有明显提升,验证了预训练在本系统的有效性。
可视化分析进一步验证了模型的表示能力。通过 t-SNE 将不同机型的信号语义映射至二维空间,结果显示模型能够清晰划分正常与异常状态,即使传感器配置存在差异,仍具备良好的判别能力。
此外,团队还探索了模型规模与任务性能之间的关系。结果表明,在结构不变的前提下增加参数量,模型预测准确性随之提升,体现出明显的规模效应。这为未来构建更高容量、更强泛化能力的飞行信号基础模型提供了支撑。
未来研究方向
本研究展示了时序大模型在数据稀缺、系统异构等复杂工业场景下的应用潜力,不仅为国产大飞机早期运营提供了有效的健康保障手段,也为我国广泛存在的工业设备场景(如轨道交通、能源系统、制造产线等)带来了通用化智能诊断的技术启发。以统一模型、共享知识、适应多样系统的能力,将为各类工业场景的运维升级提供新思路。
未来,研究团队将进一步拓展飞行关键系统的建模范围,构建覆盖发动机、空调系统、辅助动力装置等多个子系统的飞参时序大模型,推动跨系统、多机型的统一建模与诊断研究。同时,团队还计划引入文本、图谱等多源信息,发展融合飞参信号与维修记录、舱内语音等的多模态模型架构,持续提升故障预测的准确性与模型的交互性,面向未来构建智能化的飞机健康管理系统。
#Embodied-Reasoner
具身交互推理: 图像-思考-行动交织思维链让机器人会思考、会交互
OpenAI 的 o1 系列模型、Deepseek-R1 带起了推理模型的研究热潮,但这些推理模型大多关注数学、代码等专业领域。如何将这种深度推理模型扩展到智能体和具身领域,让机器人通过思考和推理来完成复杂具身交互等任务?
近期,来自浙江大学、中科院软件所和阿里巴巴的团队提出了 Embodied-Reasoner,让机器人或智能体拥有深度思考和交互决策能力,从而在真实物理世界完成环境探索、隐藏物体搜索、交互和搬运等长序列复杂任务。
可以想象,未来某一天,机器人能够帮你在房间里找钥匙、信用卡等容易遗忘的小物件。它可以观察房间、分析和思考,然后一步一步地搜索,最后帮你找到它们。
论文标题:Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks
论文地址:https://arxiv.org/abs/2503.21696
项目主页:https://embodied-reasoner.github.io
代码地址:https://gitee.com/agiros/EmbodiedReasonerhttps://github.com/zwq2018/embodied_reasoner
HuggingFace:https://huggingface.co/datasets/zwq2018/embodied_reasoner
一分钟看懂 Embodied-Reasoner
,时长01:28
简介
尽管深度思维模型在数学和编码任务上展现出卓越的推理能力,但不同于数学、代码等文字模态上的推理,具身领域的推理有几个重要的挑战需要解决:
- 首先,具身模型不同于单轮聊天对话,需要通过交互方式运行。它们必须持续与环境交互,收集视觉反馈,并基于这些反馈做出合理的行动(文本模态)。因此,模型每次需要处理多轮次的、图文交织的冗长输入,而后产生连贯、符合上下文的推理和决策。
- 其次,与数学任务主要依赖于逻辑推理和专业知识不同,具身场景中推理还需要更丰富的能力,包括多模态的感知、基于物理世界的常识推断、空间关系理解、时序的推理以及面对环境交互失败后的自我反思等能力,这些都对大模型提出了更高要求。
- 最后,当前的 LLM 主要以语言形式输出,无法直接控制机器人执行物理交互。因此,如何设计合理的语义动作空间让「思考」和「行动」解耦也是一个难点。
如刚才视频中展示的具体例子,当具身智能体在未知房间中搜索隐藏物体时,它必须利用物理常识推断潜在的搜索区域(步骤 1、3),理解物体的空间关系以规划高效的探索路径(步骤 1、5),并运用时序推理回忆先前尝试中的相关线索(步骤 9),同时反思先前的失败。这些多方面的推理要求对多模态模型提出了挑战。
实验发现,即使是像 OpenAI o3-mini 这样的先进 LLM,在这些具身交互任务中也经常难以展现可靠的推理和决策,容易出现重复的搜索或前后不一致的行为。
基于上述挑战,团队提出了 Embodied-Reasoner,将深度思考能力扩展到具身交互任务。其关键的两点包括:
- 纯文本模态上的推理似乎无法解决这种长序列的具身任务。因此,Embodied-Reasoner 设计了图文交织的思维链:观察-思考-行动,三者相互交织构成真正的多模态思维链。这个设计类似于最近刚刚推出的 OpenAI 的 o3 和 o4-mini 模型,集成了图片编辑(缩放、裁剪等)等中间动作,也创造了图文交织的多模态思维链。
- 设计了多样化的思考因子适应不同的交互阶段,包括情景分析、任务规划、空间推理、行为反思和多重验证等。这些多样化的思考因子能够促进模型从不同角度进行推理和思考。
为了开发这种能力,如上图所示,我们构建了一个数据引擎,自动合成连贯的观察-思考-行动轨迹,引入了具身场景下多样化的思考过程,例如情境分析、空间推理、自我反思、任务规划和自我验证。这些连贯的、图像-文本交错的轨迹引导模型学习如何基于其交互历史和空间布局进行规划和推理,从而提升其空间和时间推理能力。
此后,我们引入了一个三阶段迭代训练流程,结合了模仿学习、自我探索和自我纠正微调。该流程首先利用合成轨迹进行模仿学习以培养基本交互能力,然后通过拒绝采样微调增强探索能力,最后经反思调优培养自我纠正能力。
下面是一个具体的例子:
如上图所示,模型需要空间推理能力来理解厨房布局和物体关系,基于常识知识推断潜在位置(冰箱、餐桌),系统地搜索未探索区域,并通过实时观察调整计划,同时避免重复搜索。
技术方案
任务定义
任务环境:使用广泛采用的 AI2-THOR 模拟器构建了具身任务环境,该模拟器提供物理模拟和实时视觉观测。实验使用 120 个独特的室内场景(如厨房)以及 2,100 个可交互物体(如信用卡和微波炉)。实验通过 AI2-THOR 的 API 控制机器人的移动(如向前移动)和交互(如拾取物体),同时在每一步返回视觉观察。
任务类别:机器人初始化在未知房间的一个角落,视野有限,即只能看到房间的一部分。本节设计了日常生活中四种常见的交互任务,复杂度依次增加:
- 搜索:在未知房间中搜索物体,如钥匙链。它可能放置在某处或隐藏在容器内。
- 操作:搜索后与物体交互,如「找到一盏灯并打开开关」。
- 运输:找到隐藏物体后,将其运输到另一个位置。这涉及多个搜索和操作步骤。
- 复合任务:按顺序涉及多个运输任务,如「将鸡蛋放入微波炉,加热后放在桌子上。之后,找到……」。
动作定义:虽然 AI2-THOR 提供了许多低层级的动作,但本节的任务侧重于高级规划和推理,而非运动控制。此外,低级动作可能导致过多交互,因此本节在原子动作基础上封装了 9 个高级动作:观察、向前移动、导航至 {}、放入 {}、拾取 {}、切换 {}、关闭 {}、打开 {}、终止。
「观察-思维-行动」交织的思维链合成
为了开发适用于具身场景的 o1 风格推理模型,本节首先设计了一个需要高级规划和推理,而非低级运动控制的具身任务,即搜索隐藏物体。接着,基于模拟器设计了一个数据引擎,用于合成交互式推理语料库:任务指令和相应的关键动作序列。
每个动作产生一个视觉观察,形成交互轨迹。最后,数据引擎为每个动作生成多种思考链,如情境分析、任务规划、空间推理、反思和验证,创建了一个具有观察-思考-行动上下文的交互式推理语料库。
- 指令合成(Instruction Synthesis)
- 基于物理环境约束设计多样化任务模板(如「将 A 从容器取出放入 B」)。
- 通过物体属性筛选可行组合(A 需为可拾取物,B 需为容器)。
- 利用 GPT-4o 进行指令风格多样化处理。
- 通过指令组合构建不同难度梯度的任务。
- 动作序列合成(Action Sequence Synthesis)
- 从属关系图:数据引擎使用模拟器的元数据构建一个从属关系图。
- 关键动作序列:数据引擎利用构建的从属关系图和合成的指令模板推导出完成任务所需的最小动作序列(关键动作)。
- 添加额外的搜索过程:除了关键动作序列外,数据引擎还通过插入额外的搜索过程来合成探索路径。
- 观察-动作序列中插入多样化的思考过程
在运行合成的动作(
)后,数据引擎获得一个交互轨迹:
,其中 oi 表示第一人称视角图像。然后,数据引擎为每个动作生成多种深度思考内容(
),从而创建一个图文交织的上下文:观察-思考-行动。
多样化思考模式:首先,本节定义了五种思考模式,模拟人类在不同情况下的认知活动:情境分析(Situation Analysis)、任务规划(Task Planning)、空间推理(Spatial Reasoning)、自我反思(Self-reflection)和双重验证(Double Verification)。本章节使用简洁的提示来描述每种模式,指导 GPT-4o 合成相应的思考过程。
从观察-行动中推导思考:对于每次交互,数据引擎指导 GPT-4o 选择一种或多种思考模式,然后基于交互上下文生成详细的思考。这些思考被插入到观察和行动之间(
)。具体来说,数据引擎用之前的交互轨迹(
)和即将到来的动作(
)提示 GPT-4o,生成一个合理的思考过程(
)。它应该考虑最新的观察(
)并为下一步动作(
)提供合理的理由,同时与之前的思考保持逻辑一致。
模型训练策略
多轮对话格式:考虑到交互轨迹遵循交织的图像-文本格式(观察-思考-行动),Embodied-Reasoner 将其组织为多轮对话语料库。在每个回合中,观察到的图像和模拟器的反馈作为用户输入,而思考和行动则作为助手输出。在训练过程中,我们仅对思考和行动 token 计算损失。
为了增强推理能力,Embodied-Reasoner 设计了三个训练阶段:模仿学习、拒绝采样微调和反思调优,这些阶段将通用视觉语言模型逐步提升为具有深度思考能力的具身交互模型:
- 第一阶段模仿学习:使用数据引擎生成少量的指令-轨迹对,大多数包含有限的搜索过程或仅由关键动作组成(观察-思考-关键动作)。然后在此数据集上微调 Qwen2-VL-7B-Instruct,使其学会理解交织的图像-文本上下文,输出推理和动作 token。经过微调得到 Embodied-Interactor。
- 第二阶段拒绝采样微调,学习搜索:使用上一阶段的模型采样大量生成轨迹进行进一步训练,并且使用数据引擎来评估这些采样轨迹。该阶段一共保留了 6,246 个成功轨迹进行微调,最后得到 Embodied-Explorer。
- 第三阶段反思微调:上一阶段的模型有时会产生不合理的动作,特别是在长序列交互任务中,如幻觉。此外,机器人经常会遇到临时硬件故障,这要求模型能够对不合理行为进行自我反思,识别异常状态,并及时纠正。如上图所示,第三阶段使用 Embodied-Explorer 在先前任务上采样大量轨迹。对于失败的轨迹,我们定位第一个错误动作并构建自我纠正轨迹。对于成功的轨迹,我们插入异常状态来模拟硬件故障。这一步骤补充了 2,016 条反思轨迹(每条轨迹平均 8.6 步)。
交织思维链分析
统计结果:我们为三个训练阶段合成了 9,390 个独特的任务指令及其观察-思考-行动轨迹,即〈场景, 指令, 交织的多模态思维链〉。如下面表格所示,在第一阶段,数据引擎合成了 1,128 条轨迹数据。在第二阶段,通过拒绝采样保留了 6,246 条探索轨迹。在第三阶段,数据引擎合成了 2,016 条自我纠正轨迹。所有合成的数据集涵盖 107 个多样化的室内场景(如厨房和客厅),包括 2,100 个可交互物体(如鸡蛋、笔记本电脑)和 2,600 个容器(如冰箱、抽屉)。所有轨迹包含 64K 张第一人称视角的观察图像和 8M 个思考 token。
测试任务:此外,我们在 12 个全新场景中构建了 809 个测试案例,这些场景与训练场景不同。然后,人工设计了任务指令并标注相应的关键动作和最终状态:〈指令,关键动作,最终状态〉。值得注意的是,测试集还包含 25 个精心设计的超长序列决策任务,每个任务涉及四个子任务的组合,并涵盖至少 14 个、最多 27 个关键动作。
思考模式的分布:本节统计了所有轨迹中五种思考模式的频率。如下图所示,Task Planning 和 Spatial Reasoning 出现最频繁,分别为 36.6k 和 26.4k 次。这意味着每条轨迹包含约四次 Task Planning 和三次 Spatial Reasoning。此外,Self-Reflection 通常在搜索失败后出现,每条轨迹平均出现两次。这些多样化的思考促进了模型的推理能力。
思考模式之间的转换:五种思考模式之间的转移概率如下图所示。实验发现它们之间的关系是灵活的,取决于具体情况。通常从 Situation Analysis 开始,随后是 Task Planning(55%)和 Spatial Reasoning(45%)。在导航到未知区域时,它经常依赖 Spatial Reasoning(Action→S:42%)。如果搜索尝试失败,它会转向 Self-Reflection(Action→R:33%),当(子)任务完成时,它有时会进行 Double Verification(Action→V:3%,S→V:6%)。这种多样化的结构使模型能够学习自发思考和灵活适应性。
实验分析对比实验
实验对比了通用的 VLMs 和近期出现的视觉推理模型,例如 o1、Claude-3.7-sonnet-thinking 等。
从上表的实验结果来看,Embodied-Reasoner 显著优于所有推理模型和 VLMs,成功率比 GPT-o1 高出 9.6%,比 GPT-o3-mini 高出 24%,比 Claude-3.7-Sonnet-thinking 高出 13%。它在搜索效率和任务完成度方面也明显领先,尤其在复杂任务(如复合和运输任务)上表现更为突出,在复合任务上比第二好的模型 GPT-4o 高出 39.9%。通过三阶段训练(模仿学习、拒绝采样调优和自我纠正轨迹微调),模型性能从基础的 14.7% 逐步提升至 80.9%,减少了其他模型常见的重复搜索和不合理规划问题,展现出更强的深度思考和自我反思能力,尽管规模小于先进推理模型。
分析:深度思考范式如何增强具身搜索任务?
对长序列任务更具鲁棒性:Embodied-Reasoner 在处理复杂的长序列决策任务时表现出显著优势。实验结果显示,当任务所需的关键动作数量增加时,基线模型的成功率急剧下降,特别是在任务超过五个动作时。而 Embodied-Reasoner 在大多数复杂情况下仍能保持超过 60% 的成功率,展现出对长序列任务的强大鲁棒性。
自发地为复杂任务生成更长的推理链:面对复杂任务时,Embodied-Reasoner 会自动生成更深入的思考过程。数据显示,随着任务复杂度增加,其输出 token 从 1,000 增长到 3,500 左右,几乎是 Gemini-2.0-flash-thinking 的五倍。这种深度思考能力使其能够规划更高效的搜索路径并避免冗余动作,而其他模型如 Gemini-2.0-flash-thinking 则无法通过扩展推理时间来应对更复杂的具身任务。
深度思考减轻了重复搜索行为:实验引入重复探索率(RER)来衡量模型在轨迹中重复导航到同一区域的频率。Embodied-Reasoner 和 Explorer 在所有任务类型中都表现出显著较低的 RER。在复合任务中,Embodied-Explorer 的 RER 仅为 26%,而 GPT-o3-mini 和 Qwen2-VL-72B 分别达到 54% 和 43%。Embodied-Reasoner 通过回忆过去观察、反思先前探索动作并制定新计划,增强了时序推理能力,有效减少了重复搜索行为。
真实世界实验
为了评估 Embodied-Reasoner 的泛化能力,本节设计了一个关于物体搜索的真实世界实验,涵盖三个场景中的 30 个任务:6 个厨房任务、12 个浴室任务和 12 个卧室任务。在测试过程中,人类操作员手持摄像机捕捉实时视觉输入。模型分析每张图像并生成动作命令,然后由操作员执行这些动作。
上图展示了一个例子:「你能帮我找到咖啡并加热它吗?」Embodied-Reasoner 在两次探索(步骤 1、2)后排除了台面和餐桌,最终在橱柜中找到咖啡(#7)并将其放入微波炉加热(#11)。然而,实验观察到 OpenAI o3-mini 未能制定合理的计划,先前往微波炉而不是搜索咖啡。此外,它经常忘记搜索并表现出重复搜索行为,这与本章节之前的分析一致。
,时长00:23
,时长00:23
总结
Embodied-Reasoner 的贡献包括:
- 一个将深度思考扩展到具身场景的框架,解决了交互式推理的独特挑战;
- 一个数据引擎,合成多样化的多模态思维链,包含交错的观察、思考和行动;
- 一个三阶段训练流程,逐步增强交互、探索和反思能力;
- 广泛的评估,相比最先进模型取得了显著改进,特别是在复杂的长序列交互任务中。
Embodied-Reasoner 已发布于 AGIROS 智能机器人操作系统开源社区。AGIROS 智能机器人操作系统开源社区由中国科学院软件研究所发起,旨在通过凝聚智能机器人操作系统产学研用各方力量,共同推动智能机器人操作系统技术及生态的发展,全面推进智能机器人领域的开源开放协同创新,为智能机器人产业夯实基础。
研究团队来自浙江大学、中科院软件所、阿里巴巴和中科南京软件技术研究院,在多模态模型、具身智能体、机器人共用算法框架技术等方面拥有丰富的研究经验。共同一作为张文祺(浙江大学博士生)与王梦娜(中科院软件所硕士生),通讯作者为中科院软件所副研究员李鹏与浙大庄越挺教授。该团队曾开发了数据分析智能体 Data-Copilot,在 github 上获得超过 1500 stars, 开发multimodal textbook,首月在huggingface上超过15000次下载。
#ReSo
基于奖励驱动和自组织演化机制,全新框架ReSo重塑复杂推理任务中的智能协作
本文由上海人工智能实验室,悉尼大学,牛津大学联合完成。第一作者周恒为上海 ailab 实习生和 Independent Researcher 耿鹤嘉。通讯作者为上海人工智能实验室青年科学家白磊和牛津大学访问学者,悉尼大学博士生尹榛菲,团队其他成员还有 ailab 实习生薛翔元。
ReSo 框架(Reward-driven & Self-organizing)为复杂推理任务中的多智能体系统(MAS)提供了全新解法,在处理复杂任务时,先分解生成任务图,再为每个子任务匹配最佳 agent。将任务图生成与奖励驱动的两阶段智能体选择过程相结合,该方法不仅提升了多智能体协作的效率,还为增强多智能体的推理能力开辟了新路径。
- 论文标题:ReSo: A Reward-driven Self-organizing LLM-based Multi-Agent System for Reasoning Tasks
- 论文链接:https://arxiv.org/abs/2503.02390
- 代码地址:https://github.com/hengzzzhou/ReSo
研究背景:LLM 推理能力的掣肘与突破口
近年来,增加推理时间(Inference Time Scaling)被广泛认为是提升大语言模型(Large Language Models, LLMs)推理能力的重要途径之一。一方面,通过在训练后阶段引入强化学习与奖励模型,可优化单一模型的推理路径,使其在回答前生成中间步骤,表现出更强的逻辑链构建能力;另一方面,也有研究尝试构建多智能体系统(Multi-Agent Systems, MAS),借助多个基座模型或智能体的协同工作来解决单次推理难以完成的复杂任务。
相较于单模型的推理时间扩展,多智能体方法在理论上更具灵活性与可扩展性,但在实际应用中仍面临诸多挑战:
(1)多数 MAS 依赖人工设计与配置,缺乏自动扩展与适应性的能力;
(2)通常假设所有智能体能力已知,然而 LLM 作为 “黑箱式” 的通用模型,在实际任务中往往难以预先评估其能力边界;
(3)现有 MAS 中的奖励信号设计较为粗糙,仅依赖结果反馈或自我评估,难以有效驱动优化过程;
(4)缺乏基于数据反馈的动态演化机制,限制了 MAS 系统在大规模任务中的表现与泛化能力。
上述限制提出了一个核心问题:能否构建一种具备自组织能力的多智能体系统,使其能够通过奖励信号直接从数据中学习协作策略,而无需大量人工干预?
为应对这一挑战,作者提出了 ReSo—— 一个基于奖励驱动、自组织演化机制的多智能体系统架构。该方法通过引入协同奖励模型(Collaborative Reward Model, CRM),在任务图生成与智能体图构建之间建立反馈闭环,从而实现基于细粒度奖励的智能体动态优化与协作演化。与现有多智能体方案相比,ReSo 在可扩展性与优化能力上均具优势,并在多项复杂推理任务上达到了领先性能。
ReSo 框架流程图
ReSo 框架:Task Graph + Agent Graph,重塑 MAS 推理能力
具体来说,作者提出了两项核心创新:(1) ReSo,一个奖励驱动的自组织 MAS,能够自主适应复杂任务和灵活数量的智能体候选,无需手动设计合作解决方案。(2) 引入协作奖励模型 (CRM),专门用于优化 MAS 性能。CRM 可以在多智能体协作中提供细粒度的奖励信号,从而实现数据驱动的 MAS 性能优化。
1. 问题定义
对于一个解决任意问题 Q 的多智能体任务,作者将其定义为如下算法:
其中
负责根据输入问题构建任务分解图,确保将问题结构化地分解为子任务及其依赖关系。
则动态地选择并分配合适的代理来解决已识别的子任务。这种模块化设计使得每个组件能够独立优化,从而实现更高的灵活性和可扩展性。
2. 任务图生成:明确子任务和依赖关系
ReSo 首先使用一个大语言模型将复杂问题分解,转化为分步骤的有向无环任务图 (DAG Task Graph),为后续智能体分配提供基础。
在实践中,对于任务分解,作者既测试了了已有的闭源模型(如 gpt4o),也在开源 LLM (如 Qwen-7b) 上进行监督微调 (SFT) 来执行更专业的任务分解。为了微调开源 LLM,作者构建了合成数据(见后文数据贡献章节),明确要求 LLM 将 Q 分解为逻辑子问题,指定它们的执行顺序和依赖关系,并以 DAG 格式输出。
3. 两阶段智能体选择:从粗到细,精挑细选
一旦获得任务图,作者就需要将每个子任务分配给最合适的代理。作者将此代理分配过程表示为
。从概念上讲,
会根据大型代理池 A 中最合适的代理对任务图中的每个节点进行分类,从而构建一个代理图,将每个节点映射到一个或多个选定的代理。
具体来说,作者提出了动态智能体数据库(DADB)作为 Agent 选择的代理池:通过构建一个动态数据库,存储智能体的基本信息、历史性能及计算成本,以供未来生成初步质量评分。
在 DADB 的基础上,对于使智能体选择算法具有可扩展性、可优化性,作者提出了两阶段的搜索算法:
- 粗粒度搜索(UCB 算法):利用上置信界(UCB)算法筛选候选智能体。
给定 DADB A 和一个子任务 vj,作者希望首先从所有智能体中筛选出一批有潜力的候选智能体(数量为 k)。
为此,作者采用了经典的上置信界(UCB)策略,该策略兼顾 “探索” 和 “利用” 的平衡:
其中:Q (
):DADB 给出的预评分,N:系统到目前为止分配过的智能体总数,n (
):智能体
被选中的次数,ε≪1:防止除以 0 的微小常数,c:超参数,控制探索(少被用过的智能体)与利用(高评分智能体)之间的平衡。
最后,作者按 UCB 分数对所有智能体排序,选择前 k 个作为当前子任务的候选集:
- 细粒度筛选(协作奖励模型 CRM):通过协作奖励模型对候选智能体进行细粒度评估,最终选择最优智能体。
在完成粗粒度筛选、选出了候选智能体集合之后,作者需要进一步评估这些智能体在当前子任务
上的实际表现。这一步是通过一个协同奖励模型(Collaborative Reward Model, CRM) 来完成的。
这个评估过程很直接:
每个候选智能体 ai 对子任务
生成一个答案,记作
(
);
然后作者通过奖励模型来评估这个答案的质量,得到奖励值 r (
,
):
其中 RewardModel 会综合考虑以下因素来打分:
A. 当前智能体
的角色与设定(即其 static profile);
B. 子任务
的目标;
C. 以及该智能体在先前的推理过程中的上下文。
在所有候选智能体被评估后,作者将奖励值最高的智能体 a 分配给子任务
,并将其生成的答案作为该子任务的最终解。这个评估与分配过程会对任务图中的每一个子任务节点重复进行,直到整张图完成分配。
1. 从训练到推理:动态优化与高效推理
- 训练阶段:利用 CRM 奖励信号动态更新 DADB,实现自适应优化。
其中:R (
) 表示当前该智能体的平均奖励;n (
) 是它至今参与的任务次数;r (
,
) 是它在当前子任务中的奖励。
类似地,作者也可以用同样的方式更新该智能体的执行开销(例如运行时间、资源消耗等),记作 c (
,
)。
通过不断迭代地学习和更新,DADB 能够动态地根据历史数据评估各个智能体,从而实现自适应的智能体选择机制,提升系统的整体性能和效率。
- 推理阶段:在测试阶段,作者不再需要奖励模型。此时,作者直接使用已经训练好的 DADB,从中选择最优的智能体候选者,并为每个子任务挑选最优解。
2. 从 MCTS 视角看 ReSo:降低复杂度,提升扩展性
任务图经过拓扑排序后,形成一棵决策树,其中每个节点代表一个子任务,边表示依赖关系。在每一层,作者使用 UCB 修剪树并选择一组有潜力的智能体,然后模拟每个智能体并使用 CRM 评估其性能。由此产生的奖励会更新智能体的动态配置文件,从而优化选择策略。MAS 的构建本质上是寻找从根到叶的最佳路径,最大化 UCB 奖励以获得最佳性能。
数据集生成:Mas-Dataset
由于缺乏高质量的 MAS 数据集,作者提出了一种自动化方法来生成多智能体任务数据。这个过程包括随机生成任务图、填充子任务以及构建自然语言依赖关系。提出了一个单个 sample 就具有多学科任务的数据集。开源了数据合成脚本论文合成了 MATH-MAS 和 Scibench-MAS 数据集,复杂度有3,5,7。复杂度为 7 的意思为,单个题目中由7个子问题组成,他们来自不同的领域(数学,物理,化学)。子问题之间有依赖关系,评测模型处理复杂问题的能力。下图是个 Scibench-MAS 复杂度为 3 的例子:
实验结果
主要结果
表 1 的实验结果实验表明,ReSo 在效果上匹敌或超越现有方法。ReSo 在 Math-MAS-Hard 和 SciBench-MAS-Hard 上的准确率分别达到 33.7% 和 32.3% ,而其他方法则完全失效。图 3 显示,在复杂推理任务中,ReSo 的表现全面优于现有 MAS 方法,展现了其卓越的性能和强大的适应性。
#DeepWiki
Devin开发团队开源DeepWiki,助你快速读懂所有GitHub代码库
最近,独角兽 AI 公司 Cognition AI(Cognition Labs)推出了一个开源项目——DeepWiki,旨在为 GitHub 上的公共代码仓库生成 AI 驱动的交互式文档,堪称「GitHub 仓库的免费百科全书」。
用户可以通过官网直接访问,也可以将 GitHub 链接中的「github.com」替换为「deepwiki.com」。
- 体验地址:http://deepwiki.com
它通过分析代码、README 和配置文件,自动生成结构化的技术文档、交互式图表,并提供一个对话式 AI 助手,帮助开发者快速理解项目结构和逻辑——无需反复查阅稀少的 README 文件或晦涩的注释信息!
,时长00:28
DeepWiki 自发布以来,热度持续走高,吸引了众多用户,并获得了积极的反馈。
DeepWiki 主要有以下核心功能:
- 自动生成文档:
DeepWiki 可以将任意 GitHub 公共仓库转化为类似维基百科的文档页面,包含项目目标、核心模块、依赖关系图等。通过分析代码逻辑(如 if-else 结构、跨文件引用),生成通俗易懂的说明,适合新手和资深开发者。
- 对话式交互:
用户可以通过自然语言向 DeepWiki 提问,例如「如何实现用户鉴权?」或「解释 MVC 架构」,AI 会基于代码分析给出精准解答。基于 Devin 技术提供支持,支持中文等语言对话,增强全球开发者的使用体验。
- 交互式图表:
自动生成可点击的交互式图示,包括类层次结构(class hierarchies)、依赖关系图(dependency graphs)和工作流程图(workflow charts),用户可以放大缩小,自由探索各模块之间的关联。
- 深度研究(Deep Research)模式:
面向高阶用户,DeepWiki 支持运行高级分析任务,如检测潜在漏洞、建议优化方向,或将当前仓库与其他仓库进行对比分析。体验拥有一位资深工程师随时待命的感觉!
,时长00:18
Deep Research 模式。
已索引的仓库可直接访问,如果目标公共仓库尚未被索引,用户可请求 DeepWiki 进行索引。
,时长00:08
索引演示。
据团队成员介绍,DeepWiki 已索引 3 万个仓库,处理超 40 亿行代码,约 1000 亿个 Token,投入逾 30 万美元计算成本。但它是完全开源免费的,公共仓库无需登录即可访问(如果你想提交你的私有 GitHub 仓库到 DeepWiki,需要使用 Devin 账号登录)。
据猜测,DeepWiki 可能整合了 Cognition AI 的 Devin AI 技术(2024 年发布的 AI 软件工程师),结合大规模语言模型(LLM)、代码分析和云计算基础设施。
但 DeepWiki 目前存在索引数据未获第三方验证、暂不支持 GitHub Issues/PR 检索、复杂项目文档准确性需验证、私有仓库需注册且功能可能受限等局限,建议结合人工验证使用。
Cognition AI
Cognition AI(也称 Cognition Labs)是一家成立于 2023 年的人工智能公司,专注于开发人工智能驱动的软件工程工具,旨在加速科学发现和提升开发者生产力。其核心使命是「构建能够像人类一样推理和协作的 AI,助力人类解决复杂问题」。
他们在 2024 年 3 月发布了全球首个人工智能软件工程师 Devin,能够自主完成复杂编码任务,引起了不小的关注。
- 体验链接:https://devin.ai/
团队成员多为顶尖程序员,共获得 10 块 IOI 金牌,凸显其在算法和编程领域的实力,包括前 OpenAI、Google DeepMind 等公司的高级研究员和工程师,具备从模型训练到产品部署的端到端经验。
值得一提的是,团队以华人为核心,首席执行官 Scott Wu、首席技术官 Steven Hao、首席产品官 Walden Yan 均为华人。
参考链接:https://www.xugj520.cn/en/archives/ai-github-documentation-deepwiki.htmlhttps://apidog.com/blog/deepwiki/
#Kimi-Audio
秒杀同行!Kimi开源全新音频基础模型,横扫十多项基准测试,总体性能第一
六边形战士来了。
今天,kimi 又发布了新的开源项目 —— 一个全新的通用音频基础模型 Kimi-Audio,支持语音识别、音频理解、音频转文本、语音对话等多种任务,在十多个音频基准测试中实现了最先进的 (SOTA) 性能。
结果显示,Kimi-Audio 总体性能排名第一,几乎没有明显短板。
例如在 LibriSpeech ASR 测试上,Kimi-Audio 的 WER 仅 1.28%,显著优于其他模型。VocalSound 测试上,Kimi 达 94.85%,接近满分 。MMAU 任务中,Kimi-Audio 摘得两项最高分;VoiceBench 设计评测对话助手的语音理解能力,Kimi-Audio 在所有子任务中得分最高,包括一项满分。
研发人员开发了评估工具包,可在多个基准任务上对音频 LLM 进行公平、全面评估 ,五款音频模型(Kimi-Audio、Qwen2-Audio、Baichuan-Audio、StepAudio、Qwen2.5-Omni)在各类音频基准测试中的表现对比。紫线(Kimi-Audio)基本覆盖最外层,表明其综合表现最佳。
目前,模型代码、模型检查点以及评估工具包已经在 Github 上开源。
项目链接:https://github.com/MoonshotAI/Kimi-Audio
新颖的架构设计
为实现 SOTA 级别的通用音频建模, Kimi-Audio 采用了集成式架构设计,包括三个核心组件 —— 音频分词器(Audio Tokenizer)、音频大模型(Audio LLM)、音频去分词器(Audio Detokenizer)。
这一架构使 Kimi-Audio 能够在单一模型框架下,流畅地处理从语音识别、理解到语音对话等多种音频语言任务。
Kimi-Audio 由三个主要组件组成:音频分词器(Audio Tokenizer)、音频大模型(Audio LLM)、音频去分词器(Audio Detokenizer)。
具体而言,音频分词器(Audio Tokenizer)负责将输入音频转化为通过矢量量化(vector quantization)得到的离散语义 token,帧率为 12.5Hz。同时,音频分词器还提取连续的声学向量,以增强感知能力。
这种结合方式使模型既具有语义上的压缩表示,又保留了丰富的声学细节,从而为多种音频任务提供了坚实的表示基础。
音频大模型(Audio LLM)是系统的核心,负责生成语义 token 以及文本 token,以提升生成能力。其架构基于共享 Transformer 层,能够处理多模态输入,并在后期分支为专门用于文本和音频生成的两个并行输出头。
音频去分词器(Audio Detokenizer)使用流匹配(flow matching)方法,将音频大模型预测出的离散语义 token 转化为连贯的音频波形,生成高质量、具有表现力的语音。
数据建构与训练方法
除了新颖的模型架构,构建 SOTA 模型的核心工作还包括数据建构和训练方法。
为实现 SOTA 级别的通用音频建模,Kimi-Audio 在预训练阶段使用了约 1300 万小时覆盖多语言、音乐、环境声等多种场景的音频数据,并搭建了一条自动处理 “流水线” 生成高质量长音频 - 文本对。
预训练后,模型进行了监督微调(SFT),数据涵盖音频理解、语音对话和音频转文本聊天三大类任务,进一步提升了指令跟随和音频生成能力。
Kimi-Audio 预训练数据处理流程的直观展示。简单来说,就是把原始音频一步步净化、切分、整理,变成干净、有结构、有标注的训练数据。
在训练方法上,为实现强大的音频理解与生成能力,同时保持模型的知识容量与智能水平,研发人员以预训练语言模型为初始化,设计了三个类别的预训练任务:
仅文本和仅音频预训练,用于分别学习两个模态的知识;音频到文本的映射,促进模态转换能力;音频文本交错训练,进一步弥合模态间的鸿沟。
在监督微调阶段,他们设计了一套训练配方,以提升训练效率与任务泛化能力。
考虑到下游任务的多样性,研究者没有设置特殊的任务切换操作,而是为每个任务使用自然语言作为指令;对于指令,他们构建了音频和文本版本(即音频由 Kimi-TTS 在零样本方式下基于文本生成),并在训练期间随机选择一种;为了增强遵循指令能力的鲁棒性,他们使用大语言模型为 ASR 任务构建了 200 条指令,为其他任务构建了 30 条指令,并为每个训练样本随机选择一条。他们构建了大约 30 万小时的数据用于监督式微调。
如表 1 和表 2 所示,他们基于全面的消融实验,在每个数据源上对 Kimi-Audio 进行了 2-4 个训练周期的微调,使用 AdamW 优化器,学习率从 1e⁻⁵ 到 1e⁻⁶ 进行余弦衰减,使用 10% 的 token 进行学习率预热。
此外,他们还分三个阶段训练音频解码器。首先,使用预训练数据中的大约 100 万小时的音频,对流匹配模型和声码器进行预训练,以学习具有多样化音色、语调和质量的音频。其次,采用分块微调策略,在相同的预训练数据上将动态块大小调整为 0.5 秒到 3 秒 。最后,在 Kimi-Audio 说话者提供的高质量单声道录音数据上进行微调。
评估结果
研究者基于评估工具包,详细评估了 Kimi-Audio 在一系列音频处理任务中的表现,包括自动语音识别(ASR)、音频理解、音频转文本聊天和语音对话。他们使用已建立的基准测试和内部测试集,将 Kimi-Audio 与其他音频基础模型(Qwen2-Audio 、Baichuan-Audio、Step-Audio、GLM4-Voice 和 Qwen2.5-Omini )进行了比较。
自动语音识别
研究者对 Kimi-Audio 的自动语音识别(ASR)能力进行了评估,涵盖了多种语言和声学条件的多样化数据集。如表 4 所示,Kimi-Audio 在这些数据集上持续展现出比以往模型更优越的性能。他们报告了这些数据集上的词错误率(WER),其中较低的值表示更好的性能。
值得注意的是,Kimi-Audio 在广泛使用的 LibriSpeech 基准测试中取得了最佳结果,在 test-clean 上达到了 1.28 的错误率,在 test-other 上达到了 2.42,显著超越了像 Qwen2-Audio-base 和 Qwen2.5-Omni 这样的模型。在普通话 ASR 基准测试中,Kimi-Audio 在 AISHELL-1(0.60)和 AISHELL-2 ios(2.56)上创下了最先进的结果。此外,它在具有挑战性的 WenetSpeech 数据集上表现出色,在 test-meeting 和 test-net 上均取得了最低的错误率。最后,研究者在内部的 Kimi-ASR 测试集上的评估确认了该模型的鲁棒性。这些结果表明,Kimi-Audio 在不同领域和语言中均具有强大的 ASR 能力。
音频理解
除了语音识别外,研究者还评估了 Kimi-Audio 理解包括音乐、声音事件和语音在内的各种音频信号的能力。表 5 总结了在各种音频理解基准测试上的性能,通常较高的分数表示更好的性能。
在 MMAU 基准测试中,Kimi-Audio 在声音类别(73.27)和语音类别(60.66)上展现出卓越的理解能力。同样,在 MELD 语音情感理解任务上,它也以 59.13 的得分超越了其他模型。Kimi-Audio 在涉及非语音声音分类(VocalSound 和 Nonspeech7k )以及声学场景分类(TUT2017 和 CochlScene)的任务中也处于领先地位。这些结果突显了 Kimi-Audio 在解读复杂声学信息方面的高级能力,超越了简单的语音识别范畴。
音频到文本聊天
研究者使用 OpenAudioBench 和 VoiceBench 基准测试 评估了 Kimi-Audio 基于音频输入进行文本对话的能力。这些基准测试评估了诸如指令遵循、问答和推理等各个方面。性能指标因基准测试而异,较高的分数表示更好的对话能力。结果如表 6 所示。
在 OpenAudioBench 上,Kimi-Audio 在多个子任务上实现了最先进的性能,包括 AlpacaEval、Llama Questions 和 TriviaQA,并在 Reasoning QA 和 Web Questions 上取得了极具竞争力的性能。VoiceBench 评估进一步证实了 Kimi-Audio 的优势。它在 AlpacaEval(4.46)、CommonEval(3.97)、SD-QA(63.12)、MMSU(62.17)、OpenBookQA(83.52)、Advbench(100.00)和 IFEval(61.10)上均持续超越所有对比模型。Kimi-Audio 在这些全面的基准测试中的整体表现证明了其在基于音频的对话和复杂推理任务中的卓越能力。
语音对话
最后,他们基于多维度的主观评估,评估了 Kimi-Audio 的端到端语音对话能力。如表 7 所示,Kimi-Audio 与 GPT-4o 和 GLM-4-Voice 等模型在人类评分(1-5 分量表,分数越高越好)的基础上进行了比较。
除去 GPT-4o,Kimi-Audio 在情感控制、同理心和速度控制方面均取得了最高分。尽管 GLM-4-Voice 在口音控制方面表现略佳,但 Kimi-Audio 的整体平均得分仍高达 3.90,超过了 Step-Audio-chat(3.33)、GPT-4o-mini(3.45)和 GLM-4-Voice(3.65),并与 GPT-4o(4.06)仅存在微小差距。总体而言,评估结果表明,Kimi-Audio 在生成富有表现力和可控性的语音方面表现出色。
#Diffusion Bridge Implicit Models
无需训练加速20倍,清华朱军组提出用于图像翻译的扩散桥模型推理算法DBIM
论文有两位共同一作。郑凯文为清华大学计算机系三年级博士生,何冠德为德州大学奥斯汀分校(UT Austin)一年级博士生。
扩散模型(Diffusion Models)近年来在生成任务上取得了突破性的进展,不仅在图像生成、视频合成、语音合成等领域都实现了卓越表现,推动了文本到图像、视频生成的技术革新。然而,标准扩散模型的设计通常只适用于从随机噪声生成数据的任务,对于图像翻译或图像修复这类明确给定输入和输出之间映射关系的任务并不适合。
为了解决这一问题,一种名为去噪扩散桥模型(Denoising Diffusion Bridge Models, DDBMs)的变种应运而生。DDBM 能够建模两个给定分布之间的桥接过程,从而很好地应用于图像翻译、图像修复等任务。然而,这类模型在数学形式上依赖复杂的常微分方程 / 随机微分方程,在生成高分辨率图像时通常需要数百步的迭代,计算效率低下,严重限制了其在实际中的广泛应用。
相比于标准扩散模型,扩散桥模型的推理过程额外涉及初始条件相关的线性组合和起始点的奇异性,无法直接应用标准扩散模型的推理算法。为此,清华大学朱军团队提出了一种名为扩散桥隐式模型(DBIM)的算法,无需额外训练即可显著加速扩散桥模型的推理。
- 论文标题:Diffusion Bridge Implicit Models
- 论文链接:https://arxiv.org/abs/2405.15885
- 代码仓库:https://github.com/thu-ml/DiffusionBridge
方法介绍
DBIM 的核心思想是对扩散桥模型进行推广,提出了一类非马尔科夫扩散桥(non-Markovian Diffusion Bridges)。这种新的桥接过程不仅与原来的 DDBM 拥有相同的边缘分布与训练目标,而且能够通过减少随机性,实现从随机到确定性的灵活可控的采样过程。
具体而言,DBIM 在模型推理过程中引入了一个方差控制参数 ρ,使得生成过程能够在随机采样与确定性采样之间自由切换。当完全采用确定性推理模式时,DBIM 能够直接以隐式的形式表示生成过程。这种思想是标准扩散模型的著名推理算法 DDIM 在扩散桥模型上的推广与拓展。
更进一步,DBIM 算法可以导出扩散桥的一种全新的常微分方程(ODE)表达形式,相较于 DDBM 论文中的常微分方程形式更加简洁有效。
在此基础上,作者首次提出了针对扩散桥模型的高阶数值求解方法,进一步提升了推理的精度与效率。
此外,为了避免确定性采样过程中出现的初始奇异性问题,作者提出了一种「启动噪声」(booting noise)机制,即仅在初始步骤中加入适当随机噪声,从而保证了模型的生成多样性,并同时保留了对数据的编码与语义插值能力。
实验结果
作者在经典的图像翻译和图像修复任务上进行了如下实验:
- 在 Edges→Handbags(64×64)和 DIODE-Outdoor(256×256)图像翻译任务中,DBIM 仅需 20 步推理即可达到甚至超越 DDBM 模型 118 步推理的生成质量。当推理步数增至 100 步时,DBIM 进一步提升生成质量,在更高分辨率任务上全面领先。
- 在更具挑战的 ImageNet 256×256 图像修复任务中,DBIM 仅需 20 步推理便显著超越了传统扩散桥模型 500 步推理的效果,实现了超过 25 倍的推理加速。在 100 步推理时,DBIM 进一步刷新了这一任务的 FID 记录。
通过参数 η 控制采样过程中的随机性大小,论文发现确定性采样模式在低步数时具备显著优势,而适当增加随机性能够在较高步数下进一步提升生成多样性与 FID 指标。这与标准扩散模型推理的性质相似。
此外,高阶采样器能够在不同采样步数下一致提升生成质量,增强图像细节。
论文所用训练、推理代码及模型文件均已开源。如果你对 DBIM 感兴趣,想要深入了解它的技术细节和实验结果,可访问论文原文和 GitHub 仓库。
#AI「MCP 万能工具箱」
纳米AI放大招!MCP万能工具箱,人人都能用上超级智能体
近些年,AI 领域的技术不断快速迭代,各种新名词层出不穷,MoE、强化学习、智能体、computer-use、A2A…… 对没有技术背景的普通用户来说,这些名词和技术概念无疑会带来巨大的认知成本,让他们望而却步,最终让自己与 AI 的交互之路止步于在聊天框中的简单回答。
MCP 自然也是这些技术概念之一。过去一年,AI 智能体快速迭代,MCP 协议已然成为支撑复杂任务自动化的关键底层能力。然而,眼下这场 MCP 革命,仍旧像是开发者们的专属游戏:协议文档晦涩、工具注册复杂、个性化配置门槛高…… 普通用户大多只能远观,难以真正「上手」。
而现在,情况正在发生变化。4 月 23 日,360 旗下的纳米 AI 宣布推出面向个人用户的「MCP 万能工具箱」。这款产品是针对无技术背景的普通用户打造的,让每个人都能以最低的学习成本掌握前沿的 AI 使用方式。
这款产品不仅全面支持 MCP 协议,还能基于多种大模型底座运行智能体任务,更具备自动调用外部工具、接入 AI 知识库、支持用户自定义任务流程等强大能力 —— 关键是,操作门槛显著降低,完全不需要代码基础,打开一个聊天框就能使用。
目前,超级智能体已开启公测。从模型到协议,再到工具生态和个性化任务编排,看起来纳米 AI 试图用一次产品级的革新,真正把 AI 智能体带入每个人的日常。
那么,纳米 AI 的「MCP 万能工具箱」究竟好不好用呢?为了得到这个问题的答案,已经获得内测资格的进行了一番测试。
亲测万能工具箱
MCP 竟然可以如此简单
使用纳米 AI「MCP 万能工具箱」的门槛非常低,用户只需要下载并安装纳米 AI 应用然后注册登录即可,无需其它任何额外的配置。
进入更新后的「智能体」页面,我们可以看到纳米 AI 对已有智能体进行了分类,包含深度研究、工作和效率、生活助手等多个大类,同时下面也提供了万能工具箱和案例广场入口。
进入万能工具箱,可以看到纳米 AI 目前已经配置了超 100 个 MCP Server(在本文写作期间这一数字从 120 上升到了 132),包括纳米 AI 自研的十几个 MCP 工具以及上百个第三方 MCP 工具,覆盖办公协作、学术、生活服务、搜索引擎、金融、媒体娱乐、数据抓取等多种场景,是国内最大的 MCP 生态。同时,纳米 AI 也支持用户配置自己的 MCP Server。在下文中,我们将使用「工具」一词替代「MCP Server」,至于原因,后文会详细解释。
首先,测试一个读者最喜闻乐见的应用:搜索并整理 arXiv 上近期与某研究主题相关的研究成果。
先搜索一下万能工具箱,发现纳米 AI 预设的工具中已有「arXiv 搜索」,那就无需我们自己配置了。回过头来,我们也能看到纳米 AI 中已有不少支持 arXiv 论文检索的智能体,我们就选择其中的「专业论文搜索」作为我们尝试的第一步。可以看到,该智能体配置了纳米 AI 超级搜索、arXiv 搜索、谷歌学术、学术搜索四个工具,非常符合我们的需求。编写提示词并执行:
检索近一个月 arXiv 上与强化学习相关的研究成果,并按照理论研究、技术改进、应用对它们进行分类,同时对其中的重要进展进行简单解读。
「专业论文搜索」的工作过程如下:
动图以 2 倍速播放
这个任务很简单,智能体仅调用了一次「arXiv 搜索」工具,也因此不到半分钟就完成了任务,分三个类别各自选择了两项代表性研究成果。
接下来试试骑行规划师智能体,使用命令:「重庆观音桥附近有什么好的骑行路线吗?」
可以看到,该智能体使用了三个工具:amapmcpserver-cloud 的 maps_weather(用于查询天气)和 maps_direction_bicycling(用于设定路线)以及 gen_html(用于生成网页),一共执行了 362 秒,最终得到了如上所示的动态网页。你也可以通过这个链接访问:https://dctqb4.n.cn/。是的,你可以将生成的网页公开分享出去!
接下来,再上难度。这一次我们的需求是「搜索网络,分析当前的女装流行趋势,出具一份女装流行元素分析报告」。这一次我们将直接使用纳米 AI 的「深度研究智能体」,该智能体可以根据用户的具体需求选择使用合适的工具,其中不仅包括 MCP Server,也包括使用内置的浏览器来完成各种 computer-use 任务。当然,也因此,深度研究智能体执行一个任务的时间往往会长得多,可达十几分钟。
在执行任务时,深度研究智能体会先根据任务需求规划所要执行的步骤,然后会按照规划的步骤逐步执行。
针对这个具体的任务,深度研究智能体生成的执行步骤如下图所示。
首先,它在多个网站上搜索了与当前女装流行趋势相关的内容,然后对搜索到的内容进行了分析,并对结果进行了可视化。最后,它给出了最终报告。
在这个过程中,它调用了三次位于本地的搜索工具 aiso_do_search、一次数据爬取工具 360_crawl、九次云代码沙盒工具 cloud-sandbox,一次总结工具 summary 以及一次网页生成工具 gen_html。
最终,我们得到了一份长达 30 页的深度报告,其中涵盖流行风格主题分析、流行色彩趋势、热门款式与元素分析、流行元素综合评价、面料与工艺趋势、搭配建议与应用六大板块,远超预期地完成了我们最初的一句话任务。
报告中截取的几页内容
以下视频展示了纳米 AI 深度研究智能体完成任务的全过程:
,时长05:35
以 4 倍速播放
不仅如此,纳米 AI 还生成了一个动态网页,可以更生动地展示所得到的分析结果:https://dscmxu.n.cn
另外,考虑到谷歌刚不久前发布了第一季度财报,我们也可以让纳米 AI 的「首席行业洞察官」智能体帮助我们解读一番。
其网页版结果请访问:https://wl9w9g.n.cn/ ,而工作全过程则可见以下视频:
,时长04:41
再试试用纳米 AI 来为最近大火的电视剧《蛮好的人生》编写一个适合发布在小红书上的影评,使用预置的小红书浏览机器人就能很好地完成任务。
慎看!内容会有剧透。
以下视频展示了纳米 AI 工作的全过程。
,时长05:52
可以看到,在这个过程中,纳米 AI 用到了两个与小红书有关的工具,包括用于在小红书上收集信息的 collect_relate_info_redbook 以及用于生成小红书内容的 red_book_generate;此外还用到了 browser_automation_task—— 该工具可以打开纳米 AI 应用中的内置浏览器来执行任务。使用合适的指令,你也能借助这个工具来一句话完成订火车票、发微博、记笔记等操作。
最后,在纳米 AI 上,用户也能非常方便地配置自己的 MCP。比如这里,我们仅通过几个参数设置就成功配置了一个用于查询和分析 Obsidian 笔记的工具。
然后,只需配置一个调用该工具的智能体,我们就能在纳米 AI 中智能化地检索和分析我们收藏的笔记了,以下视频展示了一个示例:
,时长00:58
以上案例只是纳米 AI 能力的冰山一角。借助 MCP 万能工具箱,用户能做到的事情还有很多,比如爬取和搜索信息、生成图像和视频内容、让 AI 整理你的 flomo 碎片笔记并将结果放入到 Notion 工作区、分析股票、寻找去葡萄牙旅行的最划算航班路线、指定旅行或健身计划、制作公司报表、管理云端存储库或本地文件…… 限制你的真就只有你的想象力!
将 MCP 隐于万能工具箱中
纳米 AI 是这样做的
MCP,全称 Model Context Protocol(模型上下文协议),是 Anthropic 最早于 2024 年 11 月发布的一个开放协议可以说是连接大模型与真实世界的重要「桥梁」—— 它让模型不仅能回答问题,更能像人一样调用工具、获取数据、执行任务。今年以来,随着越来越多的企业采用该协议,它已经成为 LLM 使用工具方面事实上的标准,推动了 AI 智能体发展潜力的进一步释放。
然而,对于大多数用户而言,MCP 协议的典型标签是「复杂」、「技术门槛高」与「开发者专属」。如何把这套原本属于专业工程师的能力,交到每一个普通人手中呢?
针对这一现实的难题,360 给出的答案是:不再教你理解 MCP,而是直接把它封装成一套「看得见、点得动、结果可预期」的万能工具箱。
一、从概念简化,到交互降维
纳米 AI 团队最先做的是概念的翻译:用户不需要理解什么是 MCP Server 或 API Key,他们只需要知道这是一项可以用的「工具」或「技能」—— 正是我们前文使用「工具」一词的原因。将原本晦涩的协议接口,包装成「搜索」、「写作」、「数据分析」等一目了然的工具标签,大大降低了用户认知门槛,让用户更直观地理解所谓 MCP Server 之于 AI 大模型的意义。而这正是纳米 AI 万能工具箱的设计哲学。这背后,是纳米 AI 对 MCP 协议的重新封装与界面层的工程重构。
用户在界面中看到的是简单的选择和拖拽,实际上,背后调度的是超过 100 个由纳米 AI 自研或优选集成的 MCP Server。这些工具覆盖了办公、学术、金融、搜索引擎、网页抓取、图像处理等场景,用户无需写一行代码,就能让大模型自动调用这些「外脑」,完成复杂任务链。
纳米 AI 甚至内置了 Firecrawl、Brava Search 和高德地图等多个 MCP 工具的 API Key
二、打通模型与工具之间的「最后一公里」
过去,即使大模型拥有强大的语言理解能力,却始终困于「工具调用」的孤岛效应。纳米 AI 的做法是将 MCP 协议作为中介语言,从根本上打通了「大模型 + 工具」的协作机制。
这不仅解决了调用的问题,还极大扩展了模型的实际能力边界。例如,用户只需告诉智能体「帮我生成一份英伟达股价分析报告」,智能体就能自动拆解任务步骤、调动搜索引擎、抓取页面内容、生成分析图表,并输出一份结构清晰的报告。期间可能调用了 5 到 7 个工具,但用户只看到一个结果页面。
这正是 MCP「工具组合」能力的体现:它允许智能体像人一样自主调度资源、规划流程,并在运行中进行试错反馈与自我优化,形成高度拟人的任务解决路径。
三、本地运行、安全可信:技术栈深度打磨
与很多「云端智能体」不同,纳米 AI 选择了一条更难但更具前景的路径:在本地部署 MCP 客户端,赋予用户更大控制权。
这带来了至少三个关键优势:
调用自由:本地智能体可以访问用户的文件系统、调用浏览器、调取数据库,实现真正的个性化任务处理。
跨越壁垒:针对 AI 的独特需求,360 为纳米 AI 打造了专用的 AI 浏览器,并针对中国主流平台进行了适配,其能够突破登录墙、人机验证、信息流干扰,自动完成登录、滑动验证等操作。
沙箱保障:基于 360 安全技术积累,纳米 AI 还将在未来引入本地运行时沙箱,其能够实时监测、预警并限制大模型可能误操作本地文件,保障数据安全。
这一整套体系,不只是让用户「能用」,而是「安全、高效、可扩展地用」。
四、面向海量用户:构建真正开放的 MCP 生态
纳米 AI 不仅封装了 MCP 工具,还率先打通了开放的技能生态。目前,这个月度访问量已经突破 4 亿的平台已上线超过 100 个高质量 MCP 工具,更多的第三方 MCP Server 正在进驻中。用户可以自由上传、复用、组合工具技能,打造属于自己的 AI 智能体。
对普通用户来说,这意味着不再是「用别人设定的 AI」,而是可以根据自己需求构建个性化的 AI 助手。论文分析、数据生成、趋势监测、网页搭建、股票预测…… 只要有需求,就有工具可以组合使用,就有任务可以自动执行。
而对于整个行业而言,这意味着智能体技术正在从「封闭系统」走向「生态网络」阶段,工具、模型、任务之间将不再孤立,而是以 MCP 为共通语言,联动出前所未有的智能协作格局。
技术壁垒已破
智能体向 C 端下沉
曾几何时,智能体的使用门槛还高高挂在开发者的门楣上。如今,随着纳米 AI 「MCP 万能工具箱」的推出,MCP 这一被誉为 AI 自动化基建的协议,首次以近乎「傻瓜式」的形态进入普通用户的视野。正如 360 集团董事长周鸿祎在发布之前的分享会上说的那样:「agent 里自动调用了什么 MCP Server,用户其实不需要知道。」凭借万能工具箱,纳米 AI 正在打破 MCP 的技术壁垒,让智能体进一步向 C 端下沉。
把 MCP 做成「工具箱」,说来轻巧,做来艰难。这不仅考验技术整合能力,也考验产品思维与用户理解的「共情力」。纳米 AI 正在做的,是将复杂封装于内核,将自由交给用户 —— 让每一个普通人都能像开发者那样拥有「调用 AI 世界」的权限。
这一过程并非简单的可视化界面搭建,而是一场深层次的 AI 应用范式变革:智能体不再只是能说会答的模型,而是拥有能力调度、工具调用、任务完成能力的真实合作者。
自此,MCP 已经真正开始走向 C 端用户,这或将是一个值得铭记的历史起点。
#美国政府「AI行动计划」万言书发布
OpenAI与Anthropic呼吁联手封锁中国AI
就在刚刚,美国政府曝光了各界对「AI行动计划」的全部政策建议。OpenAI措辞激烈地表示,DeepSeek让我们看到,必须马上锁死中国AI,必须限制高端GPU芯片和模型权重流向中国!Anthropic同样呼吁:必须立马补上H20这一关键漏洞,并且严控H100的门槛。
AI战打到现在,下一步怎么走?
4月25日,美国网络与信息技术研究与发展(NITRD)公开了美国各界就「AI行动计划」提交的全部书面意见。
网站链接:https://www.nitrd.gov/coordination-areas/ai/90-fr-9088-responses/
拜登的AI行政令,在现在这届政府是行不通了,现在,特朗普政府需要一个全新的AI行动计划,继续保持美国的AI领先地位。
本次收到的意见总数,达到了夸张的10068份!
这些建议来自美国的各行各业,上至美国学界、行业团体、私营部门组织、美国各州政府,下至热心市民。
在这一万多份意见中,共有292家公司发声
其中最亮的,莫过于OpenAI和Anthropic了。
这两家公司的措辞一致的强硬——必须对中国加强技术封锁!
具体来说,就是必须限制高端GPU芯片和模型权重流向中国,而且美国AI必须在和中国的竞争中取胜。
Meta则站在了这两家的对立面,一如既往地强调开源AI。因此,他们认为对开源模型进行出口管制是根本不可行的,这只会导致美国拱手让出主导权,让全球开发者转向中国的开源模型。
异曲同工的是,谷歌也同样批评了拜登政府的AI出口管制,建议特朗普政府在对待出口管制上,一定要精心设计,避免让美国公司处于劣势。
微软和亚马逊,则默契地选择不谈此类话题,只给出了一些一般性建议。
耐人寻味的是,英伟达、苹果、特拉斯三家巨头,并未提交任何意见,马斯克的xAI也保持了沉默。
有趣的是,很多美国的「热心市民」对于AI持有悲观的态度,他们的意见简单、直接。
相比之下,机构、巨头和学界的回复考究、详细,充分显示了他们的重视态度。
显然,在这场史无前例的AI革命中,每个人都无法置身事外。
AI巨头共同的声音:美国政府责任重大
总的来说,传统的科技巨头们在对待AI经济、出口管制以及AI监管等关键议题上有很多共性的意见,但也有各自的侧重,以及对AI竞争和安全治理的不同理解。
不过至少有一点是一致的。
他们一致认为AI至关重要,认为美国应该加大AI政务应用策略。
OpenAI:必须锁死中国AI,包括芯片和模型
OpenAI对于AI,尤其是中美AI的竞争,一直持有激进的态度。
在三月中旬的一份长达15页的上书中,OpenAI矛头直指DeepSeek。
OpenAI直接呼吁美国政府:立法禁止DeepSeek!同时还呼吁美国联邦政府给予AI公司豁免权,否则,中美之间的AI竞赛就已经结束了。
在这次的意见中,OpenAI认为AI行动计划的核心目标,就是维持美国在全球AI领域的领导地位,并利用AI促进经济繁荣和个人自由。
在文件一开头,OpenAI就提出了三个scaling原则。
1.AI模型的智能水平大致与训练和运行所使用资源的对数成正比。
OpenAI表示,自己已经展示了如何通过推理阶段的算力扩展智能。这些扩展规律在多个数量级上都非常精确,因此,智能水平线性增长带来的社会经济价值是超指数级的。
2.使用特定水平AI能力的成本大约每12个月下降10倍,且成本下降会促使使用量激增。
举例来说,从2023年初的GPT-4到2024年中的GPT-4o,单词生成的价格下降了大约150倍。因此,AI使用成本的下降速度比摩尔定律还要惊人。
3.改进AI模型所需的时间正在持续缩短。
过去,一台计算机在某个基准测试中击败人类平均需要20年;后来缩短到5年;现在只需1到2年,而且这种趋势短期内不会停止。
接下来,OpenAI的的尖锐措辞就直指DeepSeek。
它激烈陈词道:美国正与力图在2030年成为全球领导者的中国展开竞争。
这就是为什么DeepSeek最近发布的R1模型引发关注——并不是因为其性能(尽管R1的推理能力令人印象深刻,但与美国几款主流模型相比最多算持平),而是它反映了当前这场竞争的态势。
OpenAI表示,模型在关键基础设施或其他高风险场景中的使用,存在巨大的风险,因为它可能被强制要求操控模型,以制造危害。
它还无耻地写道:「这些模型在生成如身份欺诈、侵犯知识产权等非法或有害活动指南时也更加宽松,这反映出侵犯美国知识产权被视为优势而非缺陷的态度。」
OpenAI指出,相比于美国公司,中国AI公司有诸多优势。
比如国家可以迅速调动数据、能源、技术人才、芯片产业所需的巨额资金等种种资源。
能利用美国各州分别制定行业法规所带来的「监管套利」机会(这些政策会让美国AI企业面临严重的合规负担)。
还能利用版权保护的漏洞进行「版权套利」(这就让其他公司他们无需遵守欧美的知识产权规定,仍然可以获得相同的数据资源,让美国AI实验室在竞争中处于劣势)。
因此,OpenAI对政府有以下建议。
一套保障创新自由的监管策略
一套输出民主型AI的出口管制策略
一套促进学习自由的版权策略
一套抓住基础设施机遇推动增长的策略
一套雄心勃勃的政府AI应用策略
接下来,在「出口管制」这一部分,OpenAI继续建议,把全球分为三级。
一级包括美国的盟友,以及那些承诺遵循美国提出的AI原则、具有相对较低风险的国家和地区,即能保证美国AI基础设施(例如芯片)不会被转移到非一级国家和地区。
二级包括那些有过黑历史,未能防止受控芯片出口和其他美国开发的知识产权被转移到或被三级使用的国家和地区。
三级包括中国及其他受到美国武器禁运的国家和地区。这些应继续受到严格的AI系统出口管制,包括现有的对先进芯片的出口管制。
对于三级国家和地区,OpenAI呼吁严格禁止使用其生成的设备(如芯片)和侵犯用户隐私、产生安全风险的模型。
Anthropic:控制H20,严防走私!
Anthropic预计,在未来2-4年内,前沿AI模型将取得显著的能力进展,特别是在具有重大安全影响的领域,如生物武器和网络安全风险等。
Claude 3.7 Sonnet展示了在支持生物武器开发方面令人担忧的进展。
而Anthropic旗帜鲜明地表示,美国的国家安全已经到了很紧迫的程度!
在它看来,现在迫切需要保护关键技术基础设施和知识产权免受外国威胁,增强美国的安全。
而且美国政府应当进行投资,以培养一个强大的AI开发和部署生态系统,促进美国的繁荣。
Anthropic坚信,强大的AI系统会在2026底或2027年初出现,就如CEO Dario Amodei在他的《爱的机器》一文中讨论的一样。
而这个强大AI,应该被视为美国关键的国家资产。
接下来,Anthropic也提到了DeepSeek,它的原话如下。
强大AI评估能力的重要性,今年早些时候发布的DeepSeek-R1得到了突出展示。
它提到,R1能回答大多数生物武器化的问题,在它看来这十分危险。
因此,美国政府需要快速评估未来模型(无论是国外还是国内的)是否具备安全属性的能力。
同样,Anthropic强调,美国应该加强出口管制,扩大美国的领先优势。
1. 控制H20芯片
当前的出口管制不适用于H20,这是一款2024年推出的高内存芯片,计划向中国销售,可以用于训练和运行强大的模型。虽然这些芯片在初期训练中不如H100,但同样优秀。因此特朗普政府需要关闭这一漏洞。
2. 签署政府对政府协议,防止芯片违规流通
作为托管美国公司超过50,000颗芯片数据中心的前提条件,美国应要求高风险的国家和地区遵守政府对政府协议,该协议要求:(1)它们的出口控制系统与美国保持一致;(2)采取措施防止芯片流通到中国;(3)停止本国公司与中国合作。
3. 仔细审查并提高对二级国家和地区的门槛
目前,扩散规则允许来自二级国家和地区的先进芯片订单(少于1,700颗H100,约4000万美元的订单)无需审核即可进行。这些订单不计入规则的上限,无论购买方是谁。
Anthropic表示,这些门槛存在走私风险,因此建议政府考虑减少二级国家和地区无需审核即可购买的H100数量。
4. 增加对工业安全局(BIS)出口执法的资金支持
Meta:保护美国开源AI!
Meta强调了开放源代码AI的重要性:开放源代码AI是美国保持技术优势、促进创新和经济发展的关键。
它举例说,DeepSeek的发布就说明,即使实施闭源政策,也无法阻止技术向中国的扩散。
Meta表示,为了跟在中国的竞争中取胜,美国必须通过开源AI,促进和鼓励美国开源AI的出口。「开源模型对于美国在与中国的人工智能竞争中取胜至关重要,并确保美国在人工智能领域的主导地位。」
在它看来,如果对开源模型进行出口管制,就会使美国彻底退出这场竞争,这就会让中国公司有机会制定全球的AI标准,在全球技术生态系统中植入他们的价值观。
Meta强调,美国的全球竞争优势,就是去中心化和开放的创新。通过出口管制关闭模型,阻止中国获得美国模型,将是无效的,只会削弱美国的利益。
它举例说,DeepSeek的发布就说明,即使实施闭源政策,也无法阻止技术向中国的扩散。
Meta提出了三大核心建议,以确保美国在AI领域的持续领导地位:
1. 保护并推广美国开放源代码AI
促进开放源代码AI的出口,避免对开放模型实施出口管制。政府优先采用开放源代码AI,提升政府效率、降低成本,并增强国家安全。
2. 减少创新障碍,保持全球技术领导地位
简化数据中心的能源和建设审批流程,推动先进核能技术发展,避免各州AI法规的碎片化,防止对创新造成阻碍。
加快宽带和海底光缆部署,优化联邦土地上的光纤网络审批流程。
3. 在国际上捍卫美国技术利益
保护美国企业免受欧盟等地区的高额罚款和歧视性监管。
应对欧盟AI法案的负面影响:避免欧盟的过度监管损害美国企业的竞争力。防止外国政府通过反垄断审查限制美国科技公司的创新和并购活动。
比起上面几方亮点满满的发言,接下来两大巨头的建言,相对而言就比较官方了。
谷歌:加强AI投资和国际合作
谷歌建议,政府要关注三个关键领域:AI投资、政务AI、国际合作。
1. 加大对AI的投资
政府与产业界协同合作;实施平衡的出口管制政策,兼顾国家安全和企业利益;持续资助基础AI研发;制定有利创新的全国级政策框架。
2. 加速并现代化政务AI应用
政府应完善公共采购规则,促进云解决方案间的互操作性和数据便携性,简化采购流程,推动数字化转型。
制定统一的数据标准和API,建立敏捷的授权流程。
同时,加强与私营部门合作,保障关键基础设施和网络安全,采用多云多模型方法用于国家安全。
3. 在国际上推动有利于创新的AI发展路径
建议美国政府推动市场导向、被广泛采用的前沿AI模型技术标准与安全协议;制定量身定制的协议和标准,识别并应对前沿AI系统可能带来的国家安全风险; 抵制限制性的外国AI政策壁垒。
与OpenAI类似,谷歌也主张放宽对AI训练限制,要求「合理使用」知识版权。谷歌希望确立其与竞争对手使用公开可用数据(包括受版权保护的数据)进行训练的权利。
据报道,谷歌已使用公开的版权数据训练了多个模型,被指控谷歌在进行训练前未通知版权方并支付报酬。
美国法院尚未裁定「合理使用」原则是否有效地保护AI开发者免受知识产权诉讼。
微软:成为政府值得信赖的合作伙伴
微软表示愿意成为政府值得信赖的合作伙伴,提出以下三个建议:
1. 加速美国AI发展
2. 保护公众、加强国家安全
3. 投资科学研究与建立基于科学的AI标准
微软认为要想在全球范围内持续保持美国在AI领域的创新与领导地位,就必须实现政府与私营部门的深度协同,共同挖掘和发挥美国在本土的全部潜力。
此外,还要依托AI技术栈各个层面的企业之间的持续合作,这些企业从芯片设计商,到超大规模云服务提供商,再到AI模型开发者,构成了完整的AI生态体系。
此外,政府与企业都需要能够获取行业领先与开源模型的渠道,以在性能、安全和成本之间取得最佳平衡。
而且,美国还应该投资科学研究与AI标准体系建设。
特朗普:AI行动计划
早在2025年1月23日,美国就公布了新任总统Trump签字的美国总统行政命令(行政命令 14179),旨在消除美国在AI领域领导地位的障碍。
文末是特朗普的签名
根据这项行政命令,科技政策办公室(OSTP)通过网络和信息技术研发(NITRD)国家协调办公室(NCO)和国家科学基金会,于2025年2月6日发布了一份关于制定AI行动计划的信息请求(RFI,Request for Information)。
这次征求意见的截止日期为3月15日。
通过这份RFI,OSTP和NITRD NCO向公众征求了意见,包括学术界、行业团体、私营部门组织、州、地方和部落政府以及任何其他感兴趣的相关方。
这「万份建言」中,个人意见达到了9313份,可见民众对于这份重磅政策文件的高度期待。
当然,最能影响最终方案制定还要属那几家重量级的企业。
特朗普的「灵魂三问」
现任OSTP主任是Michael Kratsios。
去年12月22日,特朗普提名技术专家Michael Kratsios担任OSTP主任和总统科技助理。
在3月26号的一封白宫公开信中,特朗普对Michael Kratsios发出了灵魂三问。
第一:美国如何确保自己在关键和新兴技术领域(如AI、量子信息科学和核技术)继续保持无可匹敌的世界领导地位,并保持对潜在对手的技术优势?
第二:如何振兴美国的科学和技术事业——追求真理,减少行政负担,赋能研究人员实现突破性的发现?
第三:如何确保科学进步和技术创新推动经济增长,并改善所有美国人的生活?
在这10068份对于AI的意见中,就藏着这三个问题的答案。
参考资料:
https://www.nitrd.gov/coordination-areas/ai/90-fr-9088-responses/
#Satori
AR智能革命!Satori系统读懂人类意图,科幻电影场景成现实
团队由 IEEE 会士,纽约大学教授 Claudio Silva 和纽约大学研究助理教授钱靖共同指导。 论文由Chenyi Li和Guande Wu共同第一作者。
在无数科幻电影中,增强现实(AR)通过在人们的眼前叠加动画、文字、图形等可视化信息,让人获得适时的、超越自身感知能力的信息。无论是手术医生带着 AR 眼镜进行操作,还是智能工厂流水线前的例行检查、或是面对书本时 AR 快速查找翻阅的超能力,是这一切只为一个最终目的——通过适时的信息辅助我们。
直到今日,大部分 AR 辅助依然停留在需要人工远程接入辅助的层面,与我们期待的智能的、理解性的、可拓展的 AR 辅助相差甚远。这也导致 AR 在重要产业和生活应用中的普及受到限制。如何能让 AR 在生活中真正做到理解用户、理解环境、并适时的辅助依然面临巨大挑战。
Satori 系统自动识别用户称重 11 g 咖啡的展示
这一切随着 Satori 系统的诞生即将成为过去。来自纽约大学数据与可视化实验室(NYU VIDA)联合 Adobe 的研究人员融合多模态大语言模型(MLLM)与认知理论 BDI(Belief-desire-intention theory)让 AI 首次真正意义的去理解使用者的行为、目标以及环境状态,最终达到根据不同场景自动适配指示内容,指示步骤,与判断辅助时机。让 AR 辅助接入智慧核心,向泛化应用、智能交互迈进了里程碑的一步。
- 论文标题:Satori: Towards Proactive AR Assistant with Belief-Desire-Intention User Modeling
- 论文链接:https://arxiv.org/abs/2410.16668v2
- Github:https://github.com/VIDA-NYU/satori-assistance
Satori 创新介绍
创新点一:结合 BDI 模型让 AI 理解用户行为和场景关系
通过 AR 眼镜让 AI 拥有跟用户共同视角的「具身感知」,成功的让 AI 通过认知模型 BDI 理解用户的动作行为及其短期目的。BDI 把人的行为分解成对周围世界的理解(Belief),对总体目标的判断(Desire),和为达目标进行的动作行为(Intention)三个部分。
本质上,BDI 强调人是主动性体(agentive being),做出的行为是基于对环境的理解和内部目标的组合,因此我们使用 AI 以多模态数据的模拟人接受信息和应对目标的方式,适合短期以行为目标为主的的 AR 辅助。
这使得 AR 眼镜可以通过 AI 加持实时判断用户行为背后的目的,不再是单纯的对于行为本身的判断。
创新点二:大语言模型结构认知
Satori 系统以模块化组织 MLLM,将图像识别、语义理解、用户交互历史上下文解耦处理,并统一纳入 BDI 认知架构中。通过将视觉感知模块(如 OWL-ViT 与 DETR)与语言推理模块(MLLM)分层协作,系统能够从用户的行为动态构建 Belief 状态、识别任务目标,推理出即时意图。
该模块化结构不仅增强了推理透明度与可解释性,还显著提升了系统的泛化性与跨任务适配能力,展示了多模态大模型在具身智能中的结构认知潜力。
自动生成带有动作和箭头方向的指示图片
创新点三:AI 自动生成多模态指示
在辅助过程中,AI 生成了适时的、应景的、易理解的图片以及文字。在图像层面,Satori 使用 DALLE-3 与场景感知(Belief)模块自动生成与当前任务阶段精准匹配的视觉提示(如剪刀与花的动作关系,与花瓶的空间位置关系),给用户直接的视觉指引、减少语义误解。
这项技术同时也用在了文字生成中,在基础文本上追加对场景物体,用户交互关系的描述(如「把花插入花瓶」变为「把花插入蓝色花瓶」)。此创新让 AI 更具备操作引导的即时性与可视化表达能力,大幅提升了 AR 辅助的清晰度与实用性。
创新点四:双系统动作完成检测方法减少用户等待时间,增加提示准确率
AR 辅助中一大挑战在于任务的复杂度影响了 AI 判断成功率和速度。步骤越复杂、动作越多,AI 一次性判断的噪音和不确定性越大。因此,Satori 团队创新地将每个步骤分成多个更明确,易判断的小目标(checkpoints),来完成对总体步骤的确认。例如:「剪花」任务中的「剪掉枯叶」步骤,会有「拿剪刀」,「对准枯叶」,和「完成剪切」三个小目标,系统判断这些是否完成后便可触发下一提示。
Satori 使用双系统理论(Dual Process Theory)将 AI 的反馈分为「快速反应+理性结构」。动作识别由一个轻量 LLM 完成快速行为完成判断,以高容量 LLM 补充结构性语义分析,通过交互设计机制将二者节奏对齐,确保系统既具响应性,又具智能表达力。
团队所提出的模块化多模态推理框架,不仅在技术层面上展示出对 AR 交互场景的高度适配性,更为未来跨平台、多领域的智能辅助系统奠定了方法论基础。系统核心可灵活部署于 HoloLens、Vision Pro、或者轻量级智能眼镜如 Rokid、INMO、雷鸟、和 Nreal 等不同硬件平台。
在 AI 与大语言模型快速发展的今天,无疑是 AR 技术迈向实用性的一次新的机遇。无论你是 AI、AR 的爱好者,或者是在学界,工业界的专业人士,都欢迎关注 AR 辅助这个正在觉醒的未来。
#大规模语言模型:从理论到实践(第2版)
《大规模语言模型:从理论到实践(第2版)》是一本理论与实践并重的专业技术书,更是AI时代不可或缺的知识工具书。任何人都能在本书中找到属于自己的成长路径。
在人工智能浪潮席卷全球的今天,大语言模型正以前所未有的速度推动着科技进步和产业变革。从 ChatGPT 到各类行业应用,LLM 不仅重塑了人机交互的方式,更成为推动学术研究与产业创新的关键技术。
面对这一飞速演进的技术体系,如何系统理解其理论基础、掌握核心算法与工程实践,已成为每一位 AI 从业者、研究者、高校学子的必修课。
2023 年 9 月,复旦大学张奇、桂韬、郑锐、黄萱菁研究团队面向全球学术界与产业界正式发布了《大规模语言模型:从理论到实践》。短短两年,大语言模型在理论研究、预训练方法、后训练技术及解释性等方面取得了重要进展。业界对大语言模型的研究更加深入,逐渐揭示出许多与传统深度学习和自然语言处理范式不同的特点。例如,大语言模型仅需 60 条数据就能学习并展现出强大的问题回答能力,显示了其惊人的泛化性。然而,本书作者们也发现大语言模型存在一定的脆弱性。例如,在一个拥有 130 亿个参数的模型中,仅修改一个特定参数,就可能导致模型完全丧失生成有意义信息的能力。
这些发现促使本书的作者「复旦大学 NLP 团队」张奇、桂韬、郑锐、黄萱菁几位老师对本书第 1 版进行大幅修订升级(增加内容超过 40%),系统整合 AI 领域最新研究成果与技术进展,为广大读者带来更前沿、更实用的知识体系与工程实践指导。无论你是渴望深入理解 LLM 原理的学者,还是希望将 AI 能力融入产品的工程师,亦或是对人工智能充满兴趣的学习者,这本书都将为你提供系统、权威且极具实操价值的知识指引。
第二版核心升级
聚焦前沿技术
深度剖析 MoE(混合专家模型)、强化学习、多模态、智能体、RAG(检索增强生成)、效率优化等技术趋势,紧跟 AI 最新发展。
重构知识体系
覆盖预训练、微调、强化学习、应用开发、效率优化等全流程,体系更加完善,逻辑更清晰。
提升实践价值
新增逾 40% 的前沿研究成果与技术案例,增设工程实践指南与评估体系模块,助力理论落地。
扩展章节内容
新增多模态大语言模型、智能体、RAG、大模型效率优化等实用章节,并对指令微调和强化学习部分进行了大幅修改。
本书架构
围绕 LLM 理论基础、预训练、指令理解、大模型增强、大模型应用五大部分展开。
第 1 部分介绍大语言模型的基础理论:包括语言模型的定义、Transformer 结构、大语言模型框架、混合专家模型等内容,并以 LLaMA 使用的模型结构为例介绍代码实例。
第 2 部分介绍大语言模型的预训练,包括大语言模型预训练数据和分布式训练。该部分介绍了预训练需要使用的数据分布和数据预处理方法。除此之外,还介绍模型分布式训练中需要掌握的数据并行、流水线并行、张量并行及 ZeRO 系列优化方法。并以 DeepSpeed 为例介绍如何进行大语言模型预训练。
第 3 部分介绍大语言模型如何理解并服从人类指令,包括指令微调和强化学习。重点介绍模型微调技术、指令微调数据的构造策略,以及高效微调方法,如 LoRA、Delta Tuning 等方法。强化学习章节重点讲解其基础理论、策略梯度方法(REINFORCE 算法、广义优势估计、PPO 算法、PLOO 算法、GRPO 算法),推理模型的强化学习(以 DeepSeek-R1 和 Kimi k1.5 为例),RLHF 等,并结合实际案例,以 DeepSpeed-Chat 和 verl 框架为例,详细说明如何训练类 ChatGPT 系统。
第 4 部分围绕提升大语言模型的能力展开详细探讨,内容涵盖多模态大语言模型、大模型智能体和检索增强生成。多模态大语言模型章节重点介绍其基础理论、架构设计与训练策略,并探讨其在实际场景中的应用实践。智能体章节聚焦其发展历程与大语言模型智能体的架构设计,深入分析智能体的实现原理,并以 LangChain 和 Coze 为例详细阐述具体实践。RAG 章节介绍其核心思想与实现方式,涵盖检索增强框架的设计、检索模块与生成模块的协作机制,以及其在具体任务场景中的应用方法与实践。
第 5 部分围绕如何应用大语言模型展开讨论,内容涵盖大语言模型效率优化、大语言模型评估,以及大语言模型典型应用的开发与部署。效率优化章节重点介绍模型压缩与优化、训练效率优化和推理效率优化等提升模型效率的关键技术。大语言模型评估章节探讨其基本概念和难点,阐述评估体系的构建、评估方法的设计及实际评估的实施。大语言模型应用章节介绍典型的大语言模型应用场景,详细介绍其开发流程、开发工具及本地部署的实践方法。
新增章节亮点
- 多模态大语言模型:介绍典型架构及其与 LLM 的融合方法、多模态训练策略。
- 大模型智能体:剖析涵盖感知、规划、记忆机制及工具调用能力的核心架构,训练与实践方法。
- 检索增强生成(RAG):解析系统设计模式、训练优化策略、评估体系全流程。
- 大模型效率优化:围绕模型压缩、低精度训练、高效推理框架(如 vLLM)等全链路技术实践展开。
- 大语言模型基础:新增混合专家模型(MoE)相关内容。
- 强化学习:新增对「The Bitter Lesson」的理解、长思维链、推理模型的强化学习等内容。
作者团队简介
本书作者团队由来自复旦大学的张奇、桂韬、郑锐、黄萱菁等多位人工智能领域的优秀学者组成。团队长期专注于自然语言处理、大规模预训练模型、智能体、多模态学习等前沿方向,具备丰富的理论研究与工程实践经验。
张奇,复旦大学计算机科学技术学院教授、博士生导师。兼任上海市智能信息处理重点实验室副主任,中国中文信息学会理事、CCF 大模型论坛常务委员,CIPS 信息检索专委会常务委员、CIPS 大模型专委会委员。近年来在国际重要学术期刊和会议上发表论文 200 余篇。获得 WSDM 2014 最佳论文提名奖、COLING 2018 领域主席推荐奖、NLPCC 2019 杰出论文奖、COLING 2022 杰出论文奖。
桂韬,复旦大学副研究员。研究领域为预训练模型、类人对齐和智能体交互。在国际重要学术期刊和会议上发表论文 50 余篇,主持国家自然科学基金计算机学会和人工智能学会的多个人才项目。获得钱伟长中文信息处理科学技术一等奖、NeurIPS 2023 大模型对齐 Track 最佳论文奖,入选第七届「中国科协青年人才托举工程」、上海市启明星计划。
郑锐,博士毕业于复旦大学计算机科学技术学院,师从张奇教授。曾任字节跳动豆包大模型团队算法工程师,现就职于某前沿科技公司,研究方向为大模型对齐、复杂推理能力提升。获得 NeurIPS Workshop on Instruction Following 2024 最佳论文奖。在 ICLR、ICML、NeurIPS、ACL 等国际会议上发表多篇论文。
黄萱菁,复旦大学特聘教授、博士生导师。主要从事人工智能、自然语言处理和大语言模型研究。兼任中国计算机学会理事、自然语言处理专委会主任、中国中文信息学会理事、计算语言学学会亚太分会主席。在国际重要学术期刊和会议上发表论文 200 余篇,获优秀论文奖 8 项。获得钱伟长中文信息处理科学技术一等奖、上海市育才奖,以及人工智能全球女性学者、福布斯中国科技女性等多项荣誉。
专家点评
自《大规模语言模型:从理论到实践》首版问世以来,便受到了学术界与产业界的广泛关注。此次全新升级的第二版,内容更加丰富、体系更加完善,得到了多位人工智能领域权威专家的高度认可(按姓氏拼音排序):
「随着 ChatGPT 的问世,大语言模型展现出巨大潜力,对人工智能发展产生了深远影响。面对这一迅速发展的技术,如何快速理解其理论并参与实践是我们必须要面对的挑战。本书在第 1 版的基础上增加了多模态、智能体、RAG 等章节,并对指令微调和强化学习部分进行了大幅修改,旨在帮助读者深入理解大语言模型的原理,提供实操指导,值得阅读。」
——柴洪峰 中国工程院院士
「本书深入解析了大语言模型的基本原理,分析了当前几种有代表性的大语言模型的学理特点,分享了作者在这一领域的实践经验。本书的出版恰逢其时,是学术界和产业界不可多得的读物,将助力读者进一步探索和应用大语言模型。」
——蒋昌俊 中国工程院院士
「本书全面解析了大语言模型的发展历程、理论基础与实践方法,对大语言模型预训练、指令微调、强化学习、多模态、智能体、RAG 等前沿领域的研究进展有较好的覆盖。此外,本书深入探讨了大语言模型的实际应用场景与评价方法,为研究者提供了系统的理论指导与实践经验。相信本书对从事相关研究的学者和大语言模型开发者具有重要的参考价值。」
——周伯文 上海人工智能实验室主任、首席科学家、清华大学惠妍讲席教授
《大规模语言模型:从理论到实践(第 2 版)》的出版上市,希望可以让读者快速掌握大语言模型的研究与应用,更好地应对相关技术挑战,为推动这一领域的进步贡献力量。
#除了Ilya、Karpathy,离职OpenAI的大牛们,竟然创立了这么多公司
聚是一团火,散是满天星。
硅谷新势力已经崛起,这些创业者来自 OpenAI。
作为 ChatGPT 的缔造者,OpenAI 堪称当今人工智能领域最耀眼的明星。这家公司正以惊人的速度飙升至 3000 亿美元估值的同时,也催生了一批离职创业的成员。
OpenAI 的光环效应如此强大,以至于 Ilya Sutskever 的 AI 初创公司 Safe Superintelligence (SSI) 和 Mira Murati 的 Thinking Machines Lab 等企业尚未推出产品就获得数十亿美元融资。
这个新兴生态圈还包括诸多明星项目,以下是离职 OpenAI 的研究者打造的最受瞩目企业盘点。
Dario Amodei, Daniela Amodei, John Schulman — Anthropic
Dario Amodei 和 Daniela Amodei 兄妹二人于 2021 年离开 OpenAI,联合其他 OpenAI 高管共同创立了 Anthropic,专注于开发安全、可解释、对齐人类价值观的 AI 系统。
随后,OpenAI 联合创始人 John Schulman 于 2024 年加入 Anthropic,承诺要打造 AGI,但他仅在 Anthropic 工作了大约不到 5 个月,于 2025 年 2 月初正式离职。
Anthropic 开发了名为 Claude 的一系列大语言模型,与 OpenAI 的 ChatGPT 竞争。Claude 以其安全性和对话能力著称,设计上更注重避免有害内容和偏见, Claude 3.7 是现在最先进的大模型之一。
据《The Information》报道,从收入规模来看(2024 年 OpenAI 收入为 37 亿美元,Anthropic 为 10 亿美元),OpenAI 的体量仍是 Anthropic 的数倍。但 Anthropic 增长迅速,现已成为 OpenAI 最主要的竞争对手,并在 2025 年 3 月达到 615 亿美元的估值。
Pieter Abbeel, Peter Chen, Rocky Duan — Covariant
Covariant 创始队伍 (从左至右):Peter Chen(CEO),Pieter Abbeel(总裁兼首席科学家),Rocky Duan(CTO),Tianhao Zhang(研究科学家)
Pieter Abbeel 是强化学习大牛、UC 伯克利教授,Peter Chen 和 Rocky Duan 是其博士生。三人曾在 2016 至 2017 年间在 OpenAI 担任研究科学家,随后创办了 Covarian(公司另一创始人 Tianhao Zhang 也是其博士生),一家专注于为机器人构建基础 AI 模型(foundation AI models for robots)的公司。
Covariant 的技术依赖于机器人与现实世界的交互产生的体验和反馈,其 A1 系统 (CovariantBrain) 的特点之一是将大量真实机器人任务数据融入训练环节。团队为此开发了一种新型的人工智能架构,这种架构不受简单化假设的限制,能够内化与各种物品的无限组合中相互作用的经验。
Covariant 在 2024 年 3 月发布的机器人基础模型 RFM-1 是当时世界上首个基于真实任务数据训练的机器人大模型,也是最接近于解决真实世界任务的机器人大模型。
Covariant 获得了包括谷歌 Jeff Dean、斯坦福李飞飞、深度学习三巨头之一的 Hinton、LeCun,以及比尔・盖茨等顶级科学家和企业家的投资支持
2024 年,亚马逊聘用了 Covariant 的三位创始人及约四分之一团队成员,此次「准收购」被一些人视为大科技公司在规避反垄断审查背景下的战略动作。
Ilya Sutskever — Safe Superintelligence
OpenAI 联合创始人兼首席科学家 Ilya Sutskever 于 2024 年 5 月离开 OpenAI,据称他曾参与一场试图罢免 CEO Sam Altman 的未遂行动。不久之后,他创立了 Safe Superintelligence,简称 SSI,并表示其目标只有一个,产品也只有一个:打造「安全的超级智能(Superintelligence)」。
目前关于该初创公司的具体动向信息非常少:既没有推出产品,也尚无收入。但投资者的兴趣依然炽热,其已成功融资 20 亿美元,最新估值在本月 reportedly 上升到了 320 亿美元。
Andrej Karpathy — Eureka Labs
计算机视觉专家 Andrej Karpathy 是 OpenAI 的早期成员和研究科学家,2017 年离开后加入特斯拉(Tesla),领导其自动驾驶(Autopilot)项目。他于 2022 年 7 月离开特斯拉,之后短暂回归 OpenAI(2023-2024 年)。2024 年 7 月创办了自己的教育科技初创公司 Eureka Labs,该公司致力于构建 AI 辅助教学助手。
Andrej Karpathy 长期致力于人工智能普及和教育。他在斯坦福大学开设的 CS231n 课程、YouTube 上的 AI 教程以及「Zero-to-Hero AI」系列广受欢迎。Karpathy 认为,当前全球优质教育资源稀缺,而生成式 AI 的进步为「人人都能获得高质量个性化辅导」带来了可能。
Eureka Labs 的首个产品是 LLM101n—— 一门本科级别的课程,旨在指导学生训练自己的 AI 模型。课程材料将在线开放,并计划组织线上和线下学习小组,实现「教师 + AI 助教」的共生教育模式。
Mira Murati — Thinking Machines Lab
Thinking Machines Lab 的 CEO 为 OpenAI 前 CTO Mira Murati,她曾在 OpenAI 领导过研究、产品与安全方面的工作。去年 9 月,Murati 离开了 OpenAI。
在 OpenAI 工作期间,Mira 在 ChatGPT、DALL-E、Codex 等的开发中发挥了重要作用。除此以外, GPT-4o 以及 OpenAI o1,都是在 Mira 的领导下完成的。
Thinking Machines Lab 于 2025 年 2 月正式成立,旨在打造更可定制、更强大的人工智能。
这家位于旧金山的人工智能初创公司目前没有产品或收入,但拥有众多前 OpenAI 顶尖研究人员。
图源:https://thinkingmachines.ai/
在这份创始团队名单中,有很多行业大佬。比如 John Schulman 担任首席科学家,他是深度强化学习的一位先驱研究者,创造了著名的 PPO 算法。同时也是 OpenAI 的创始人之一,曾共同领导过 ChatGPT 和 OpenAI 后训练团队。
又比如 Barret Zoph 担任 CTO,也曾是 OpenAI 的一位技术主管,领导过 OpenAI 的后训练团队,涉及的研究方向包括对齐、工具使用、评估、ChatGPT、搜索、多模态等等。
据报道,该公司正在筹集 20 亿美元的种子轮融资,估值至少达到 100 亿美元。
Aravind Srinivas — Perplexity
Aravind Srinivas 曾在 OpenAI 工作一年,担任研究科学家,直至 2022 年离开,之后共同创办了 AI 搜索引擎 Perplexity。
Perplexity 利用大型语言模型(如 GPT-4、Claude、Llama 等)结合实时网络检索,能够理解用户的自然语言查询,自动从互联网和多种数据源中收集、分析并生成简洁准确的答案,同时在回答中附带信息来源链接,提升答案的可信度和透明度。
Perplexity 还提供「焦点」功能,用户可以限定搜索范围,例如只搜索 Reddit、YouTube 或学术论文等特定领域,以获得更精准的结果。
Perplexity 吸引了杰夫・贝索斯及英伟达等一系列高知名度的投资者。尽管 Perplexity 也因涉嫌不道德的数据抓取行为引发争议,但目前这家总部位于旧金山的公司正在以约 180 亿美元估值筹集约 10 亿美元融资(截至 2025 年 3 月)。
Kyle Kosic — xAI
Kyle Kosic 于 2023 年离开 OpenAI,成为创业公司 xAI 的联合创始人及基础设施负责人。xAI 是埃隆・马斯克(Elon Musk)创办的 AI 公司,旗下拥有对标聊天机器人的产品 Grok。然而到了 2024 年,Kyle Kosic 又回到了 OpenAI。
Grok 的最新版本为 2025 年 2 月发布的 Grok 3,被马斯克称为「地球上最聪明的人工智能」。Grok 3 由 xAI 自建的超级计算机「Colossus」支持,使用了约 20 万个 NVIDIA GPU 进行训练,累计训练时长高达 2 亿 GPU 小时,是目前规模最大、计算能力最强的 AI 训练之一。
xAI 收购了已更名为 X 的前推特公司(Twitter),合并实体的估值达到 1130 亿美元。全股票的交易模式引发了一些质疑,但若看好马斯克帝国的前景,则被视为一笔不错的交易。
Emmett Shear — Stem AI
Emmett Shear 是 Twitch 前 CEO,亦曾在 2023 年 11 月(在 Sam Altman 重返公司之前)短暂担任 OpenAI 临时 CEO(仅数日)。
根据 TechCrunch 2024 年的报道,Shear 正在运营自己的隐匿型初创公司 Stem AI。虽然目前关于该公司的业务和融资详情不多,但已获得 Andreessen Horowitz 的投资。
Jeff Arnold — Pilot
Jeff Arnold 曾于 2016 年在 OpenAI 任职五个月,担任运营主管,之后于 2017 年共同创办了会计初创公司 Pilot。
Pilot 专注为高速成长的科技初创公司和中小企业提供专业的财务服务,主要包括记账(bookkeeping)、税务(tax)和首席财务官(CFO)服务。
Pilot 在 2021 年完成了一轮 1 亿美元的 C 轮融资,估值达到 12 亿美元,投资方包括杰夫・贝索斯。Arnold 在 2024 年离开 Pilot,创立了自己的风险投资基金。
David Luan — Adept AI Labs
David Luan 曾担任 OpenAI 的工程副总裁(VP of Engineering),于 2020 年离职,随后经历了在谷歌的短暂工作后,于 2021 年共同创办了 Adept AI Labs,一家开发面向办公人员的 AI 工具的初创公司。
Adept 的旗舰产品是 AI 助手 ACT-1。它通过自然语言理解用户需求,能够自动在浏览器、招聘软件、表格等多种应用中执行操作,比如自动整理数据、填写表单、导入信息等,极大提升了工作效率。ACT-1 以「覆盖窗口」的方式工作,直接在现有软件之上操作,无需用户切换应用。
Adept 在 2023 年完成了 3.5 亿美元融资,估值超过 10 亿美元。但 Luan 于 2024 年 6 月离开,加入亚马逊,领导其新的 AI 智能体实验室(AI agents lab),此前亚马逊已聘请了 Adept 的创始团队。
Tim Shi — Cresta
Tim Shi 是 OpenAI 的早期成员之一,据其 LinkedIn 资料,他于 2017 年在 OpenAI 工作一年,专注于安全的 AGI 建设。
此后,他创办了 Cresta,这是一家专注于 AI 客服中心(AI contact center)解决方案的公司。Cresta 是全球最早将生成式 AI 大模型(如 GPT)大规模应用于企业生产环境的公司之一,2019 年便已在财富 500 强客户中部署相关系统。
据了解,Cresta 已从红杉资本(Sequoia Capital)、Andreessen Horowitz 等顶级风投机构累计融资超过 2.7 亿美元。
Tim Shi 本科毕业于清华大学姚班(以第一名成绩),后在斯坦福大学攻读人工智能方向博士,专注于自然语言处理和强化学习。也曾在 DJI 和 Dropbox 等公司从事深度学习与机器学习相关工作。
Maddie Hall — Living Carbon
Maddie Hall 曾在 OpenAI 从事「special projects」,但于 2019 年离职,并联合创立了 Living Carbon。
Living Carbon 是一家总部位于旧金山的初创公司,旨在研发能够吸收更多空气中碳元素的植物( engineered plants),以应对气候变化。
据一份新闻稿称,Living Carbon 在 2023 年完成了 2100 万美元的 A 轮融资,使其迄今为止的总融资额达到 3600 万美元。
Shariq Hashme — Prosper Robotics
根据 Shariq Hashme 个人资料显示,他于 2017 年在 OpenAI 工作了 9 个月,期间开发了一款可以玩热门电子游戏 Dota 的机器人。离职后,Hashme 加入初创公司 Scale AI 。
之后,Hashme 于 2021 年与他人共同创立了 Prosper Robotics 公司,总部位于伦敦。
该初创公司正在研发一款家居机器人管家,它可以做早餐、打扫办公室、整理床铺等等。目前,他们已经推出了首款机器人产品 Alfie。
Jonas Schneider — Daedalus
Jonas Schneider 在 OpenAI 工作期间,创立并领导了 OpenAI 机器人软件工程团队,该团队致力于通过学习与物理世界交互的「软件 + 机器学习 + 硬件」系统推进机器学习和人工智能研究。该团队训练了一只类似人类的机械手来解开魔方,并以前所未有的灵巧度操控其他物体。
Schneider 于 2019 年离职,之后成为 Daedalus 联合创始人。
Daedalus 公司主要研究最先进的精密零部件,致力于为机械、航空航天、半导体、能源等领域的公司生产零部件。
去年在 Khosla Ventures 等公司的投资下,该公司完成了 2100 万美元的 A 轮融资。
Margaret Jennings — Kindo
Margaret Jennings 曾于 2022 年和 2023 年在 OpenAI 工作,在此期间担任 OpenAI 应用 AI 部门负责人,之后离开并成为 Kindo AI 的联合创始人。
Kindo AI 成立的初衷是让企业能够安全地采用和管理人工智能技术,包括生成式人工智能。
该公司于 2023 年 9 月完成了由 Riot Ventures 领投的 700 万美元种子轮融资。目前,该公司已筹集超过 2700 万美元的资金。
另据 LinkedIn 个人资料显示,Margaret Jennings 于 2024 年离开了 Kindo AI,前往法国 AI 初创公司 Mistral 担任产品和研究主管。
参考链接:https://techcrunch.com/2025/04/26/the-openai-mafia-15-of-the-most-notable-startups-founded-by-alumni/
#Efficient Pretraining Length Scaling
字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题
最近,DeepSeek-R1 和 OpenAI o1/03 等推理大模型在后训练阶段探索了长度扩展(length scaling),通过强化学习(比如 PPO、GPRO)训练模型生成很长的推理链(CoT),并在奥数等高难度推理任务上取得了显著的效果提升。
受此启发,研究人员开始探索预训练阶段的长度扩展,已有方法包括在序列中插入文本、插入潜在向量(如 Coconut)、复用中间层隐藏状态(如 CoTFormer)以及将中间隐藏状态映射为概念(如 COCOMix)。不过,这些方法普遍存在问题,比如需要更大的 KV 缓存导致推理慢 / 占内存多。
本文中,来自 ByteDance Seed 团队的研究者提出了更简单的方法:直接重复输入 tokens(1/2/3/4 次),不做中间层处理。他们观察到了训练损失和模型性能随重复倍数扩展的趋势,如下图 1a 和 1b 所示。但是,直接重复 tokens 也带来了新问题,包括 KV 缓存规模线性增加,内存压力大;预填充时间超线性增加;解码延迟变长。这些都是实现预训练长度扩展需要重点解决的挑战。
- 论文标题:Efficient Pretraining Length Scaling
- arXiv 地址:https://arxiv.org/pdf/2504.14992
研究者提出了一种推理友好的新颖长度扩展方法,核心是 PHD-Transformer(Parallel Hidden Decoding Transformer),它保持了与原始 transformer 相同的 KV 缓存大小,同时实现有效的长度扩展。PHD-Transformer 通过创新的 KV 缓存管理策略实现了这些能力。
具体来讲,研究者将第一个 token 表示原始 token,将重复的 token 表示为解码 token。同时仅保留从原始 token 生成的 KV 缓存来用于长距离依赖建模,并在隐藏解码 token 用于下一个 token 预测之后丢弃它们的 KV 缓存。因此,PHD-Transformer 提供了与原始 transformer 相同的 KV 缓存,同时相较于简单的 token 重复实现了显著的推理加速(如图 1d 所示)。
另外,为了更好地保留隐藏解码 token 的 KV 缓存的性能优势,研究者引入了一种滑动窗口注意力 ——PHD-SWA,保持了这些 token 的局部滑动窗口缓存,在实现显著性能提升的同时,仅需要
的额外 KV 缓存内存。
研究者还注意到,在 PHD-SWA 中,隐藏解码 token 的 KV 缓存表现出了顺序依赖关系,这导致预填充时间呈线性增长。为了解决这个问题,研究者提出了逐块滑动窗口注意力 —— PHD-CSWA,从而限制了每个块内的顺序依赖关系。
因此,得益于只有最后一个块的预填充时间呈线性增长,PHD-CSWA 显著缩短了预填充时间(如图 1c 所示)。
方法概览
PHD 的架构下图 2 所示,与原始 Transformer 相比,PHD 保留了相同的模型架构,仅在输入序列和注意力矩阵的设计上有所不同。具体而言,他们仅允许原始 token
生成 KV 缓存,并且可以被所有 token 全局关注;同时隐藏状态的 KV 缓存在并行隐藏解码后会被立即丢弃。注意力矩阵的策略具体如下:
研究者在推理过程中实现了与原始 Transformer 相同的 KV 缓存大小和内存访问模式。虽然需要 K 次 FLOP,但这些计算可以并行处理,从而在内存受限的推理场景中最大限度地降低延迟开销。该架构的核心优势在于原始 token 和隐藏解码 token 之间的解耦。在预填充期间,只有原始 token 需要计算。
这种设计确保预填充时间与原始 Transformer 相同,并且无论扩展因子 K 如何变化,预填充时间都保持不变。而对于损失计算,研究者仅使用 token 的最终副本进行下一个 token 的预测。总之,使用 token 的第一个副本进行 KV 缓存生成,使用 token 的最后一个副本进行下一个 token 的预测。
内核设计
M^ij_mn 的简单实现会导致注意力层计算量增加 K^2 倍,FFN 层计算量也增加 K 倍。然而,由于注意力是稀疏计算的,
的注意力可以大幅降低。因此,研究者将原始 token 和隐藏解码 token 分成两组,并将它们连接在一起。
下图 3 展示了 K = 3 的示例,可以得到一个包含 t 个原始 token 的序列和一个包含 2t 个隐藏解码序列的序列。通过重新排列 token 的位置,研究者将掩码注意力的位置保留在一个连续块中,从而优化了注意力计算,将注意力计算复杂度降低到
。
PHD-SWA 和 PHD-CSWA
与简单的 token 重复相比,PHD-Transformer 在保持原始 KV 缓存大小的同时实现了长度扩展。然而通过经验观察到,为隐藏解码 token 保留一些 KV 缓存可以带来显著的性能提升。因此,为了在保持效率的同时获得这些优势,研究者引入了 PHD-SWA,将滑动窗口注意力限制在 W 个先前的隐藏解码 token 上。
如下图 4 所示,PHD-SWA 的注意力模式将对原始 token 的全局访问与对 W 个最近隐藏解码 token 的局部访问相结合。这种改进的注意力机制实现了显著的性能提升,同时仅需要
的额外 KV 缓存内存。
虽然 PHD-SWA 滑动窗口方法提升了模型性能,但由于隐藏解码 token 的 KV 缓存中存在顺序依赖关系,它会产生 K 倍的预填充开销。为了解决这个问题,研究者引入了 PHD-CSWA,它可以在独立的块内处理注意力。
如下图 4 所示,PHD-CSWA 将滑动窗口注意力限制在单个块内运行。这种架构创新将额外的预填充开销减少到最终块内的 K 次重复,而不是整个序列重复,这使得额外的计算成本几乎可以忽略不计,同时保留了局部注意力模式的优势。
实验结果
在实验中,研究者使用 OLMo2 作为代码库,并在 ARC、HellaSwag、PIQA、Winogrande、MMLU 和 CommonsenseQA 等公开基准测试集上进行了评估。
训练细节:研究者使用 1.2B 参数规模的模型,它是一个 16 层的密集模型。每个 token 的隐藏层维数设置为 2048,FFN 层的隐藏层大小设置为 16384。同时使用组查询注意力 (Group-Query Attention,GQA),它包含 32 个查询头和 8 个键 / 值头,每个头的隐藏层维数设置为 64。研究者使用 500B 个 token 训练该模型。
对于本文提出的 PHD 系列设置,研究者预训练了以下两种 PHD-CSWA 变体:
- PHD-CSWA-2-16-32,其中训练 token 重复两次。保留一个包含 16 个 token 的局部窗口,并将块大小设置为 32 个 token。
- PHD-CSWA-3-16-32,其中训练 token 重复三次。局部窗口大小和块大小与 PHD-CSWA-2-16-32 的设置相同。
PHD-CSWA 在各个基准测试中均实现了持续的性能提升。下图 5 中展示了训练曲线,下表 1 中展示了主要结果。本文提出的 PHD-CSWA-2-16-32 在这些基准测试中平均实现了 1.5% 的准确率提升,训练损失降低了 0.025;而 PHD-CSWA-3-16-32 在这些基准测试中平均实现了 2.0% 的准确率提升,训练损失降低了 0.034。
研究者还分析了 PHD 和 PHD-SWA 的扩展性能,以分析扩展解码计算的性能。 训练细节:使用相同的 550M 模型配置,将窗口大小 W 设置为 16,并在 {2, 3, 5} 范围内改变扩展因子 K。对于局部窗口大小,研究者在所有实验中都将窗口大小设置为 16。
PHD-SWA 的性能在增加扩展因子时有效扩展。如下图 8 所示,使用固定窗口大小时,损失曲线和下游性能会随着 token 重复次数而有效扩展。通过将扩展因子设置为 5,可以实现接近 0.06 的损失降低,同时显著提升下游性能。
下表 2 中的定量结果表明,当扩展至 K = 5 时,所有基准测试的平均准确率提高了 1.8%,这证实了本文的方法在更激进的扩展方面仍然有效。
#DFloat11
70% Size, 100% Accuracy,模型压缩到70%,还能保持100%准确率,无损压缩框架DFloat11来了
大型语言模型(LLMs)在广泛的自然语言处理(NLP)任务中展现出了卓越的能力。然而,它们迅速增长的规模给高效部署和推理带来了巨大障碍,特别是在计算或内存资源有限的环境中。
例如,Llama-3.1-405B 在 BFloat16(16-bit Brain Float)格式下拥有 4050 亿个参数,需要大约 810GB 的内存进行完整推理,超过了典型高端 GPU 服务器(例如,DGX A100/H100,配备 8 个 80GB GPU)的能力。因此,部署该模型需要多个节点,这使得它昂贵且难以获取。
本文,来自莱斯大学等机构的研究者提出了一种解决方案,可以将任何 BFloat16 模型压缩到原始大小的 70%,同时还能在任务上保持 100% 的准确性。
- 论文标题: 70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float
- 论文地址:https://arxiv.org/pdf/2504.11651
- 项目地址:https://github.com/LeanModels/DFloat11
为了应对 LLM 不断增长的模型尺寸,通常会采用量化技术,将高精度权重转换为低位表示。这显著减少了内存占用和计算需求,有助于在资源受限的环境中实现更快的推理和部署。然而,量化本质上是一种有损压缩技术,引入了一个基本缺点:它不可避免地改变了 LLMs 的输出分布,从而影响模型的准确性和可靠性。
相比之下,无损压缩技术在有效减少 LLM 规模的同时,保留了精确的原始权重,确保模型的输出分布与未压缩表示(例如 BFloat16)完全相同。然而,现有的无损方法主要集中在提高 LLMs 的存储效率上,例如缩小模型检查点或优化针对专用硬件如 FPGA 的性能上。
本文提出了 DFloat11(Dynamic-Length Float),这是一种无损压缩框架,可以在保持与原始模型完全相同的输出的情况下,将 LLM 的规模减少 30%。
DFloat11 的提出源于当前 LLM 模型中 BFloat16 权重表示的低熵问题,这暴露出现有存储格式存在显著的低效性。通过应用熵编码技术,DFloat11 根据权重出现频率为其分配动态长度编码,在不损失任何精度的情况下实现了接近信息理论极限的压缩效果。
为了支持动态长度编码的高效推理,该研究还开发了定制化的 GPU 内核来实现快速在线解压缩。其设计包含以下内容:
- 将内存密集型查找表(LUT)分解为适应 GPU SRAM 的紧凑型查找表;
- 采用双阶段内核设计,通过轻量级辅助变量协调线程读写位置;
- 实现 Transformer 块级解压缩以最小化延迟。
该研究在 Llama-3.1、Qwen-2.5 和 Gemma-3 等最新模型上进行了实验:DFloat11 能在保持比特级(bit-for-bit)精确输出的同时,将模型体积缩减约 30%。与将未压缩模型部分卸载到 CPU 以应对内存限制的潜在方案相比,DFloat11 在 token 生成吞吐量上实现了 1.9–38.8 倍的提升。在固定 GPU 内存预算下,DFloat11 支持的上下文长度是未压缩模型的 5.3–13.17 倍。
值得一提的是,基于该方法 Llama-3.1-405B(810GB)在配备 8×80GB GPU 的单节点上实现了无损推理。
方法介绍
LLM 的权重通常使用浮点数表示,包括 BFloat16 或 BF16,其在数值精度和内存效率之间取得了平衡。然而,BFloat16 表示信息并不高效。
针对 BFloat16 表示法中存在的信息效率低下问题,本文提出了一种无损压缩框架,通过熵编码技术对浮点参数进行压缩。
具体实现包括:基于语言模型线性投影矩阵中所有 BFloat16 权重的指数分布构建霍夫曼树,对指数部分采用霍夫曼编码压缩,同时保留原始符号位和尾数位。压缩后的指数经过紧密比特打包存入字节数组 EncodedExponent,而未压缩的符号位和尾数则存储在独立字节数组 PackedSignMantissa 中。图 2 展示了 DFloat11(Dynamic-Length Float)或 DF11,该格式可实现模型参数的高效紧凑表示。
虽然动态长度浮点数能有效实现 LLM 的无损压缩,但关键挑战依然存在:如何利用这些压缩权重进行高效的 GPU 推理。接下来,文章详细介绍了解决方案,其中包括三个关键组成部分:
- 将一个庞大的无前缀查找表(LUT)分解为多个适合 GPU SRAM 的紧凑 LUTs;
- 引入一个两阶段的内核设计,利用轻量级辅助变量来高效协调线程的读写操作;
- 在 transformer 块级别执行解压缩,以提高吞吐量并最小化延迟。
算法 1 是将 DFloat11 解压缩为 BFloat16 的 GPU 内核过程。
实验
研究人员评估了 DF11 压缩方法在 GPU 上的有效性及推理效率,将多个主流大语言模型(包括 LLaMA、Qwen、Gemma 等)从 BFloat16 压缩为 DF11 格式,并报告其压缩比和性能表现。
在软硬件环境方面,研究人员使用 CUDA 和 C++ 实现了 DF11 解压缩内核,并集成至 Transformers 推理框架。实验基于 HuggingFace Accelerate 框架评估未压缩模型在 CPU 分流(CPU offloading)和多 GPU 场景下的性能。
为全面分析 DF11 内核在不同硬件配置下的表现,团队在多种 GPU 和 CPU 组合的机器上进行实验。
实验结果
DF11 压缩比:DF11 将大语言模型压缩至原始大小的约 70%(等效位宽为 11 位)。
表 2 展示了 DF11 在 LLaMA、Qwen、Gemma 等模型上的压缩效果。所有模型的线性投影层参数均被压缩为 DF11 格式,压缩比稳定在 70%。
无损特性验证:为验证 DF11 的无损特性,研究人员使用 lm-evaluation-harness 工具在 MMLU、TruthfulQA、WikiText 和 C4 数据集上评估模型性能。
结果表明,压缩后的模型在准确率和困惑度(Perplexity)上与原始 BFloat16 模型一致(见表 3)。此外,研究人员逐位对比 DF11 解压后的权重矩阵与原始矩阵,确认其完全相同。
推理性能:研究人员在多个硬件平台上比较了 DF11 与 BFloat16 模型的推理效率。对于 BFloat16 模型,当模型超出单 GPU 显存时,需将部分计算分流至 CPU,而 DF11 模型可完全加载至单 GPU。
评估指标包括延迟(Latency)和吞吐量(Throughput),结果显示 DF11 模型的性能显著优于 BFloat16 模型,延迟减少 1.85 至 38.83 倍(见图 3)。
节省的显存可支持更长生成序列:DF11 的显存节省使模型能够支持更长的生成序列。如图 4 所示,在 batch size 为 1 时,DF11 模型的显存消耗显著降低,相比 BFloat16 模型最多可生成 5.33 至 13.17 倍的 tokens。
消融研究
延迟分析:研究团队以 Llama-3.1-8B-Instruct 为例,对比了其在 BFloat16 与 DF11 格式下不同 batch 大小时的延迟组成,结果如图 5 所示。
相比原始模型,DF11 压缩模型因解压 Transformer 模块与语言建模头引入了额外延迟但该开销与 batch size 无关,因此通过提升 batch size 可有效摊销解压延迟,使总推理时间之间的差距显著缩小。
解压性能对比:研究人员将 DF11 解压内核的延迟与吞吐表现分别与两种基线方案进行对比:
- 将模型权重存储于 CPU 内存并在需要时传输到 GPU;
- 使用 NVIDIA 的 nvCOMP 库中的 ANS(不对称数值系统,Asymmetric Numeral System)解压方法。
实验以 Llama-3.1-8B-Instruct 语言建模头权重矩阵为例,结果如图 6 所示,DF11 的解压吞吐量最高分别为 CPU-GPU 传输和 ANS 解码的 24.87 倍和 15.12 倍。此外,DF11 的压缩比为 70%,优于 nvCOMP 的 78%。值得注意的是,随着权重矩阵规模的增大,DF11 的解压吞吐呈上升趋势,原因是更好的 GPU 线程利用率。
#ToolRL
首个系统性工具使用奖励范式,ToolRL刷新大模型训练思路
钱成目前是伊利诺伊大学香槟分校 (UIUC) 一年级博士生,导师为季姮教授。本科就读于清华大学,导师为刘知远教授。其工作集中在大语言模型工具使用与推理以及人工智能体方向。曾在 ACL,EMNLP,COLM,COLING,ICLR 等多个学术会议发表论文十余篇,一作及共一论文十余篇,谷歌学术引用超 500,现担任 ACL Area Chair,以及 AAAI,EMNLP,COLM 等多个会议 Reviewer。
「工欲善其事,必先利其器。」 如今,人工智能正以前所未有的速度革新人类认知的边界,而工具的高效应用已成为衡量人工智能真正智慧的关键标准。大语言模型凭借卓越的推理与规划能力,正在快速融入人类生产与生活,但传统的监督训练方法在面对复杂或全新的工具场景时,却常常显得捉襟见肘。如何帮助人工智能突破这一瓶颈,拥有真正自如运用工具的能力?ToolRL 的出现为我们带来了答案。
伊利诺伊大学香槟分校的研究团队率先提出了一项开创性的研究 ——ToolRL。不同于传统的监督式微调,ToolRL 首次系统性地探讨了强化学习范式下的工具使用训练方法,通过精细化的奖励设计,有效解决了工具推理中的泛化难题。
- 标题:ToolRL: Reward is All Tool Learning Needs
- 论文链接:https://arxiv.org/pdf/2504.13958
- 代码仓库:https://github.com/qiancheng0/ToolRL
图 1: 主要 Benchmark 任务上不同训练策略效果对比。精细化奖励设计 ToolRL + GRPO 冷启动能够在不同模型上表现出最佳效果。观察右侧训练曲线,随着训练数据增加,奖励也呈现迅速攀升。
Tool-Integrated Reasoning:LLM 的 「工具链式思维」
在 ToolRL 中,研究者将工具调用问题建模为 Tool-Integrated Reasoning (TIR) 的任务范式。这种任务不仅仅要求模型 「用」 工具,更要求它以合理顺序和逻辑调用多个工具,并基于中间结果灵活调整接下来的思维路径。
TIR 任务的关键特征包括:
- 多步交互:一个任务通常需要多次调用工具,每步都有中间观察结果(如 API 反馈)。
- 组合调用:每一步可调用一个或多个工具,模型需生成参数化调用。
- 推理驱动:模型必须在自然语言 「思考」 后决定调用哪些工具、输入什么参数。
图 2: SFT 在工具推理上难以泛化,可能造成过度推理等问题,而基于 RL 的方法具有更好的泛化能力。
设计的关键 —— 不是 「对」 就够了
ToolRL 首次系统性地分析了工具使用任务中的奖励设计维度,包括:
- 尺度:不同奖励信号之间如何平衡?
- 粒度:如何拆解奖励信号粒度而非仅是二值选择?
- 动态性:训练过程中,奖励信号应否随时间变化?
研究表明,粗粒度、静态、或者仅以最终答案匹配为目标的奖励往往无法最有效地指导模型学习工具推理能力。为此,ToolRL 引入了一种结构化奖励设计,结合 「格式规范」 与 「调用正确性」,确保模型不仅生成合理的工具链式思维,更能准确理解工具含义与调用语义,激发更好更精准的模型工具推理能力。
图 3: 工具推理中的 Rollout 示意图,以及精细化奖励设计示例。除了正确性外,奖励信号额外涉及 「工具名称」,「参数名称」 以及 「参数内容」 进行精细化匹配,以取得更好的工具推理奖励效果。
实验:从模仿到泛化,ToolRL 如何激发工具智能?
为了验证 ToolRL 在多工具推理任务中的有效性,研究团队在多个基准上进行了系统实验,涵盖从工具调用(Berkeley Function Calling Leaderboard)、API 交互(API-Bank)到问答任务(Bamboogle)的真实应用场景。
实验设置
- 模型:使用 Qwen2.5 和 LLaMA3 系列作为基础模型;
- 训练方式:对比原始模型、监督微调(SFT)、近端策略优化(PPO)以及 ToolRL 提出的 GRPO + 奖励设计策略;
- 评估维度:准确率、对新任务 / 工具的泛化能力等。
核心结果
- 显著性能提升:在多个下游任务中,ToolRL 训练的模型准确率相比 SFT 平均提升超过 15%,比原模型基线表现超过 17%;
- 更强的泛化能力:在未见过的工具、语言或任务目标中,ToolRL 模型依然保持领先表现,展现出主动性和抗干扰能力;
- 调用更合理:在问答类任务中,ToolRL 模型能灵活控制调用次数,避免无意义操作,效率更高,推理更稳健。
实验结果表明,ToolRL 不仅提升了语言模型的工具使用能力,更重要的是,它促使模型学会 「何时该调用工具、如何调用工具」—— 这正是智能体走向自主智能的关键一步。
表 1-3: 在三个 Benchmark 上的测试结果,文章发现 GRPO 冷启动的方法往往能取得最好的效果
结语:ToolRL 不仅是一个方法,更是一套通用的奖励范式
结论:ToolRL 不仅是一种方法,更开创了基于工具调用的强化学习奖励新范式。通过大规模实验与深入对比分析,文章验证了三个核心发现:
- 简洁胜于冗长 —— 过度展开的推理路径在工具使用上并不能带来更高的性能,反而可能引入噪声导致过度推理;
- 动态奖励助力平滑过渡 —— 基于训练步数实时调整的奖励机制,能够使模型能从简单目标泛化至复杂目标,逐步积累工具推理能力;
- 细粒度反馈是关键 —— 针对每一次工具调用的精细化奖惩,极大提升了模型执行多步操作并正确利用外部工具的能力。
表 4-5: TooRL 训练出的模型在不相关工具检测(BFCL 子任务)中表现出更好的泛化性与合理平衡工具调用以及自我知识的主动性。
相比于传统强化学习研究往往单纯以「结果正确性」为唯一优化目标,ToolRL 在奖励信号设计上引入了更丰富的维度,不仅量化了 「是否正确」,还反映了 「工具名称」、「参数规范」 等多方面指标,弥补了现有方法对复杂工具链学习的欠缺。展望未来,ToolRL 所提出的奖励扩展框架不仅能适配更多样的任务类别,也为 LLM 与外部工具协同带来了更灵活、更可控的训练思路。我们期待基于这一范式的后续研究,进一步深化多模态工具交互、知识检索与规划生成等领域的智能化水平。