51c大模型~合集18

whaosoft-143

已于 2025-03-06 09:43:53 修改

阅读量1.2k

点赞数 21

分类专栏：人工智能文章标签：人工智能

于 2024-11-08 13:41:49 首次发布

本文链接：https://blog.csdn.net/weixin_49587977/article/details/143624489

版权

人工智能专栏收录该内容

324 篇文章

订阅专栏

我自己的原文哦~ https://blog.51cto.com/whaosoft/11621494

#SpatialBot

空间大模型：上交、斯坦福、智源、北大、牛津、东大联合推出！

大模型走向空间智能、具身智能之路！

智源，斯坦福，北大，牛津，东大联合推出SpatialBot , 通过理解和使用深度图来理解空间。

论文标题: SpatialBot: Precise Depth Understanding with Vision Language Models

论文链接: https://arxiv.org/abs/2406.13642

项目主页: https://github.com/BAAI-DCAI/SpatialBot

RGB+Depth可以作为多模态大模型(MLLM/VLM)理解空间的途径，但是:

现有模型无法直接理解深度图输入。比如CLIP在训练时，没有见过深度图。
现有大模型数据集，大多仅用RGB就可以分析、回答。模型不会主动到深度图中索引知识。

因此，作者提出：

三个层次的 SpatialQA 数据集。在low level引导模型理解深度图，在middle level让模型将depth与RGB对齐，在high level设计多个深度相关任务，标注了50k的数据，让模型在理解深度图的基础上，使用深度信息完成任务。
SpatialBench 榜单。精心设计和标注的QA，测试模型深度理解能力。
SpatialBot 模型。模型在需要时，可以通过API获取准确的深度信息。SpatialBot基于3B到8B的多个base LLM，在SpatialBench、常用MLLM数据集(MME, MMBench等)和具身数据上取得显著提升。

技术细节

作者将深度图转化为3通道的伪RGB图，在兼顾室内高精度、室外大范围场景的需求下，尽可能保留所有深度信息供模型索引。以毫米为单位，囊括1mm到131m。
SpatialQA是RGBD的MLLM数据集，作者公布了详细的如何将现有CV任务的RGB或RGBD数据集，MLLM训练集，转化为SpatiaQA的pipeline，以及其中的数据标注细节。
最近大火的Cambrain-1 (LeCun Yann, Saining Xie)提出MLLM四大问题，其中之一是物体远近关系判断(proximity)。其实，在此之前，在SpatialBot提出的DepthAPI, 就以99+%的准确率解决了深度信息和远近关系的问题。

实验效果和DepthAPI

#利用文本、音视频等多模态数据来进行 AI 情感识别

别只盯着ChatGPT版「Her」，在多模态AI拟人互动上，国内玩家也支棱起来了

如今的 AI 在识别人类情感方面发展到什么程度了？本月初，一场向更具情感 AI 发起挑战的高规格赛事落下了帷幕！

这就是第二届多模态情感识别挑战赛（MER24），它由清华大学陶建华教授、中国科学院自动化研究所连政、帝国理工学院 Björn W.Schuller、奥卢大学赵国英以及南洋理工大学 Erik Cambra 联合在 AI 顶会 IJCAI2024 上发起举办，探讨如何利用文本、音视频等多模态数据来进行 AI 情感识别，并推动相关技术在真实人机交互场景中的落地应用。

大赛官网：https://zeroqiaoba.github.io/MER2024-website/#organization

本届挑战赛共设置了三个赛道，分别为 Semi（半监督学习赛道）、Noise（噪声鲁棒性赛道）和 Ov（开放式词汇情感识别赛道），其中 Semi 赛道参赛队伍最多且难度最高、竞争最激烈。

以 Semi 赛道为例，参赛队伍需要利用少量有标签和大量无标签数据视频数据来训练自己的模型，并对模型在无标签数据集上的表现和泛化能力进行评估。该赛道获胜的关键在于通过改进半监督学习技术来提高模型情感识别性能，比如预测情绪类别的准确率。

自 5 月大赛启动起，两个月时间，来自全球近百支参赛队伍展开了角逐，既不乏知名高校也有创企新势力。其中 Semi 赛道第一名由社交平台 Soul App 摘得，其语音技术团队凭借可行性创新技术方案拔得头筹。

不过，在揭秘 Soul 团队技术方案之前，我们有必要先来了解 AI 在多种模态中的情感识别能力。

人机交互下一步

要让 AI 懂情感

如今的 AI 看起来已经无所不能，对话交流、生成图片或视频、解数学题等，能够胜任感知、学习、推理、决策等不同层面的任务。得益于大模型的加持，AI 可以称得上足够聪明，但在感同身受等情感层面却有所欠缺。

在人机交互中，用户有时不单单需要 AI 遵循指令完成任务，还要它们提供足够的情绪价值，满足情感需求。从功能「基操」到情感「进阶」，AI 要掌握的技能就要升级了。

因此，多模态情感识别成为 AI 领域的活跃研究课题。能读懂情绪并传达情感的 AI 成为业界追逐的新热点，也被认为是 AI 领域下一个重大突破。近半年来，一些 AI 创业公司和行业巨头为我们揭开了人机沉浸式交互的新形态。

四月初，国外一家创业公司 Hume AI 发布了一款语音对话机器人 Empathetic Voice Interface（EVI），它通过语音交流分析和识别对话者的语气和情绪，可以检测到多达 53 种情绪。此外它还能模拟不同的情绪状态，在互动中更接近真人。在 AI 情感层面的突破也让这家初创公司快速拿到了 5000 万美元 B 轮融资。

接下来是 OpenAI 放了大招，旗舰模型 GPT-4o 展现了实时音视频通话功能，对用户情感和语气做出即时响应，被称为 ChatGPT 版「Her」，而这个语音功能在近期正式对用户开放。自此，AI 拥有了强大的能言善辩、感知情绪能力，让人直呼科幻时代的到来。

国内如微软小冰、聆心智能等也致力于打造有情感的 AI 产品。我们从中可以看到一种趋势：情感识别能力在文本、音视频等多模态 AI 应用中的参与度越来越高。不过要想在拟人化情感识别领域更进一步，仍需解决有标签数据稀缺、主观情绪识别不稳定和不准确等问题。

因此，推动学界、业界更加关注多模态情感识别领域，并加速相关技术的创新和进步，变得尤为必要。当前，ACM MM、AAAI 等 AI 学术顶会都将情感计算作为一个重要的研究主题，CVPR、ACL 等顶会也曾举办过情感计算相关挑战赛。特别是在面对大数据和大模型时代的来临，如何在多模态情感识别中利用大量无标签数据和有效处理、融合不同模态信息是目前行业面临的重大挑战，此次 MER24 挑战赛举办的原因和意义也在于此。

而 Soul 团队在 Semi 赛道获得第一名，背后是其在多模态数据理解、情感识别算法、模型优化平台工具、内部工作流建设等方面的能力积累与创新，以及技术团队的高效协作。

夺得最难赛道头名

Soul 团队都做了什么？

既然提到 Semi 赛道难度最高，难在哪些方面？Soul 团队又如何获得第一名？我们接着往下看。

数据是 AI 三大要素之一，没有充足特别是高质量的数据训练，模型就无法保证很好的性能效果。面对数据稀缺带来的种种挑战，业界既要扩增包括 AI 生成数据在内的所有类型数据，也注重提升数据稀疏场景的模型泛化能力。多模态情感识别任务也是如此，它的核心在于海量标签数据的支撑，对文本、音视频等不同类型的内容打上喜怒哀乐悲等情感标签。现实却是，互联网上带情感标签的数据非常稀缺。

此次大赛的 Semi 赛道仅提供了 5030 条有标签数据，其余 115595 条均为无标签数据。因此，有标签数据稀少成为包括 Soul 团队在内所有参赛队伍遇到的首个难题。

图源：MER24 基线论文：https://arxiv.org/pdf/2404.17113

另一方面，相较于 Noise、Ov 赛道，Semi 赛道侧重于考验核心主干技术，即更多地关注模型架构的选择以及特征提取泛化能力，对多模态大模型技术技术积累以及创新性要求比较高。

针对赛道少标签数据、高技术要求的特征，Soul 团队基于此前积累的自研大模型部分模块做好了充足的赛前准备，并确定了一套可行性创新技术方案。在整体思路上采取「先主干后微调」的策略，首先集中精力提高每一个核心特征提取模型的泛化性，然后再融合在一起；在具体实现过程中又做了以下几个方面工作。这些构成了他们的核心优势。

首先前期关注多模态特征提取。在端到端模型架构中，利用预训练模型提取文本、语音和视觉不同模态的情感表征，关注情感中的共性和差异性，从而来提升情感识别效果。后期根据多种模态的各模态特征提出有效的融合方法，将这些模块融合形成模型架构。为了提高预训练模型的泛化性能，Soul 团队专门针对视频模态在情感识别领域首次提出了 EmoVCLIP，EmoVCLIP 是一个基于大模型 CLIP 结合 prompt learning 技术在视频情感识别领域更具泛化性能的模型。

另外，为了提高文本模态情感识别能力，Soul 团队针对文本模态使用 GPT-4 来打情感伪标签，充分利用 GPT-4 的情感关注能力，提高文本模态在情感识别的准确率，为后面进一步模态融合打下了更好的基础。

其次，在多模态特征融合上，Soul 团队首次在多模态情感识别方向使用了 Modality Dropout 策略并研究了不同 dropout rate 的性能影响，为了缓解模态之间的竞争问题，在模型训练过程中随机抑制某个的模态（文本、语音或视频模态）以实现更好的鲁棒性，提升模型在提供的有标签数据之外未见过数据上的泛化能力。

最后，半监督学习技术开始发挥作用，其基本思路是使用有标签数据训练出一个模型，然后对无标签数据进行预测，根据预测结果为无标签数据生成伪标签。这些伪标签又用来训练模型，持续提升模型效果。Soul 团队利用半监督学习中这种自训练（Self-training）的策略，循环地为 Semi 赛道超 11 万条无标签数据打伪标签并加入训练集，进行模型迭代更新，得到最终的模型。

Soul 团队参赛技术方案图。

从整体思路到多模态特征融合、对比学习、无标签数据自训练，Soul 团队的技术方案为他们带来了好结果。最终在语音、视觉和文本多模态情感识别准确率上，Soul 团队提出的系统比基线系统提升了 3.7％，达到了 90％以上。同时，对于情感识别领域方向上存在易混淆边界的情感（比如忧虑和担心）识别，Soul 团队也能区分得更好。

图源：MER24 基线论文：https://arxiv.org/pdf/2404.17113

从更深层次看，此次 Soul 团队在 MER24 挑战赛的脱颖而出，是其一直以来在社交领域深耕 AI 大模型技术尤其是多模态情感化交互能力的集中体现。

创新多模态拟人互动

社交型 AI 已是 Next Level

社交领域天然需要有情感的 AI。一种主流观点认为，社交的本质是情绪价值的互换，而情绪又多种多样。这意味着，如果 AI 想要无缝融入社交场景并高效发挥作用，势必要像真人一样提供丰富的情感反馈和体验。

而实现共情 AI 的基础在于让其拥有强大的多模态情感识别能力，在功能上从单纯的「任务执行者」进化到「满足人类情感需求的陪伴者」。但 AI 做到有效地理解情绪依然非常困难，它在理解语境、感知用户情绪、给出情感反馈、进行思考等方面与人类存在本质的区别，因此相关技术与算法的持续创新很重要。

对扎根社交领域的 Soul 来说，着力构建具备情感化能力的 AI 已成为需要思考的重要命题。2016 年上线之初，Soul 首先思考如何运用创新技术和产品来更好地满足用户需求，其中引入 AI 来解决人与人连接需，成为其站稳社交领域并发展壮大的关键。较早推出的「灵犀引擎」利用智能推荐算法，挖掘分析用户兴趣图谱和站内全场景特征，让他们更容易找到聊得来的人和更需要的内容，形成高粘性用户和内容生态。至今，这种更「聪明」的算法应用的匹配场景，也是 Soul 上用户非常活跃的功能之一。

有了早期 AI 辅助社交的成功经验，在这波大模型快速发展的技术浪潮中，Soul 进一步在 AI 介入社交、辅助关系网络的基础上，探索人机互动的新可能。

自 2020 年启动 AIGC 相关算法研发工作开始，Soul 便以多模态为方向，在智能对话、图像生成、语音和音乐生成等多方面拥有了前沿能力积累。相比纯技术向的 AI 创业新势力，Soul 的一大特点在于采用了「模应一体」策略，在 C 端同步推进大模型与 AIGC 应用的过程中注重打造具备情感识别能力的 AI，在丰富拟人化交互场景中真正实现有温度的反馈。

从 Soul 近两年的动作可以看出，其加快了 AIGC 赋能社交场景的步伐。2023 年推出自研语言大模型 Soul X，成为 AIGC + 社交布局的重要基建。在该模型的 Prompt 驱动、条件可控生成、上下文理解、多模态理解等能力加持下，站内对话不仅实现了流畅自然，更具备了情感温度。

文本成为 Soul 情感识别能力落地的牛刀初试，并逐渐从单一模态延伸到了更多模态。今年，Soul 上线语音生成大模型，并正式升级自研语音大模型，覆盖了语音生成、语音识别、语音对话、音乐生成等细分领域，在支持真实音色生成、语音 DIY 等功能的同时具备了多情感拟真人实时对话能力。

当然，Soul 在模型层面持续发力更具情感 AI 之外，也已经在其平台多元化的社交场景中让它们发挥用武之地，进一步丰富和提升用户的 AI 互动体验。

以 Soul 拟人型对话机器人「AI 苟蛋」为例，它依托 Soul 自研语言大模型 Soul X，实现了拟人化交互，不仅可以精准理解用户输入的文本、图片等多模态内容，还能在多轮沟通中根据对话场景为他们主动送去关怀，仿佛对话那头真人一般。同时用户也可以定制专属苟蛋，体验独一无二的虚拟人交互。

AI 苟蛋还展现出了在拟人化、知识、多模态、时间感知等多方面的融合能力，令 Soul 站内很多用户都对它强大的拟人交互能力感叹，这也是为什么 Soul 平台有不少用户会主动发帖吐槽「苟蛋怕不是个真人吧」。

此外，Soul 同样依托 Soul X 在游戏场景「狼人魅影」中引入 AI NPC，借助先进的强化学习技术，在游戏各个阶段具备了伪装、信任、领导与对抗等拟人决策能力，可以直接与用户玩起狼人杀，发言毫无违和感。

再比如 Soul 推出了主站外首个独立新应用「异世界回响」。作为一个 AI 社交平台，用户可与其上多场景、多风格的虚拟人角色展开沉浸式即时交流，这些角色均具备了形象、声音、人设对话能力。当然，用户可以定制虚拟角色，并根据喜好自定义人设（如背景经历、性格等），可玩性很高。

同样地，自研语音大模型也在 AI 苟蛋、狼人魅影以及异世界回响等场景中发挥作用。比如在异世界回响中支持了语音通话功能，拥有类真人音色的虚拟角色与用户自然、实时地对话交流，丰富了互动体验。

“异世界回响” 实时语音通话功能。

在持续深化智能对话、游戏和语音等社交场景的 AI 拟人化互动之外，Soul 还在视觉生成领域构建符合自身审美的多样画风生成能力，打造 AI 数字分身，进一步迈向多维度的综合互动体验。

可以看到，Soul 在 AI 情感识别领域的布局已经覆盖了语言、语音和视觉多模态，在与社交紧密关联的文字、图片、音频和视频场景齐发力，让用户在立体、多感官的人机互动中体验有温度的 AI。

结语

2024 年被很多圈内人士称为 AIGC 应用元年，大家关注的焦点不再只是拼参数和基础能力了。在由模型层向应用层转移的趋势下，率先在垂类领域和场景落地 AI 才能赢得更多用户和市场。尤其是面向 C 端赛道的人机交互，更天然地需要围绕用户需求做文章。这一点在社交领域有着很好的体现。

此前 AlienChat 等多款恋爱 App 停服，「第一批和 AI 恋爱的年轻人失恋」讨论话题上了热搜。在这背后，功能同质化是一部分原因，还在于体验上没有从助手 / NPC 角色转变为真正提供情绪支持的陪伴者。这就要求在社交领域通过丰富人机互动方式和场景，让 AI 全面参与到各个社交环节，与用户深层次情感交流，为他们提供情绪价值。

这或许也将是 AI 社交方向接下来的核心竞争点之一。而这也不难理解，为什么作为应用层的 Soul 会如此看重自研技术能力积累。在过去一段时间，其一方面致力于打造个性化、拟人化、多样化的 AI 能力；另一方面，从多个维度加速 AI Native 应用落地，包括社交体验提升、AI 社交、AI 游戏等，形成完备的 AI 产品链，在多样社交场景中为用户提供 AI 互动的乐趣。

可以说，Soul 近年来基于自研语言和语音大模型孵化出了一系列产品成果，并在提升 AI 与用户情感化互动体验的过程中积累了丰富创新技术和实践经验，这些都为其在 MER24 挑战赛中夺得第一名做足了铺垫，也是其能与来自国际的高质量参赛队伍切磋交流的基础。

近年来，这类挑战赛越来越多，比如 CVPR 2024 Workshop 上的 NTIRE 2024 AIGC 质量评价挑战赛、2023 和 2024 连续两届 MER 挑战赛，国内企业凭借实践中积累的技术屡屡能取得佳绩。比如去年取得 MER23 第一的商汤和今年第一的 Soul，这些企业对 AIGC 技术和应用的重视和投入收到了显著成效。

可以预见，未来像 Soul 这样坚持技术和产品创新的平台会在释放 AI 能力的过程中持续为用户创造价值，这样一来在形成繁荣内容和社区生态的基础上才可能实现自身更持久、更多样化的商业价值。

#档拆解苹果智能，从架构、数据到训练和优化

在 2024 年全球开发者大会上，苹果重磅推出了 Apple Intelligence，这是一个全新的个性化智能系统，可以提供实用的智能服务，覆盖 iPhone、iPad 和 Mac，并深度集成在 iOS 18、iPadOS 18 和 macOS Sequoia 中。

库克曾经表示，Apple Intelligence 是苹果创新的新篇章，将改变用户使用产品的方式。他强调，苹果独特的方法结合了生成式人工智能和用户的个人信息，能提供真正有用的智能服务。此外，Apple Intelligence 能够以完全私密和安全的方式访问信息，帮助用户完成对他们最重要的事情。这是苹果独有的 AI 体验。

如今，距离 Apple Intelligence 官宣一个多月过去了，这项技术终于落地智能设备，相关技术文档也终于放出。

在刚刚过去的一天，拥有 iPhone 15 Pro 或 iPhone 15 Pro Max 的用户可以下载 iOS 18.1 开发测试版，并可以体验 Apple Intelligence 的功能了。

随着这篇长达 47 页技术报告的出炉，我们可以更加深入的了解 Apple Intelligence 背后的秘密武器。

报告地址：https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf

报告详细介绍了其中两款模型 ——AFM-on-device，AFM 代表 Apple Foundation Model，是一个约 30 亿参数的语言模型，以及一个更大的基于服务器的语言模型 AFM-server，可以高效、准确和负责地执行专门的任务（图 1）。

这两个基础模型作为苹果更大的生成模型系列的一部分存在。

架构及训练

AFM 基础模型是基于 Transformer 架构构建的密集解码器模型，采用如下设计：

共享输入 / 输出嵌入矩阵，以减少用于参数的内存使用。
使用 RMSNorm 进行预归一化以提高训练稳定性。
查询 / 键归一化以提高训练稳定性。
具有 8 个键值头的分组查询注意力（GQA），以减少 KV 缓存内存占用。
SwiGLU 激活，以提高效率。
RoPE 位置嵌入，基频（base frequency）设置为 500k，以支持长上下文。

AFM 预训练过程在开发高性能语言模型，以支持一系列 Apple Intelligence 功能方面发挥着关键作用。研究团队注重效率和数据质量，以获得高质量的端到端用户体验。

在后训练方面，研究团队发现改进通用后训练可以提升 Apple Intelligence 所有功能的性能，因为模型在遵循指令、推理和写作方面会具有更强的能力。

为了确保这些模型功能符合苹果对保护用户隐私的承诺，以及苹果的 Responsible AI 原则，后训练工作包括一系列数据收集和生成、指令调整和对齐创新。后训练过程包含两个阶段：监督微调（SFT）和来自人类反馈的强化学习（RLHF）。研究团队提出了两种新的后训练算法：（1）带有 teacher committee（iTeC）的拒绝采样微调算法，以及（2）一种用于强化学习迭代的 RLHF 算法，带有镜像下降策略优化（mirror descent policy optimization）和留一法优势估计器（leave-one-out advantage estimator）（MDLOO），使得模型质量显著提高。

Apple Intelligence特性

基础模型是为 Apple Intelligence 专门设计的，这是一个支持 iPhone、iPad 和 Mac 的个人智能系统。

苹果发现，针对特定任务的微调，他们可以将小模型的性能提升到一流水平，除此以外，他们还开发了一种基于运行时可交换适配器（runtime-swappable adapters）的架构，使单一基础模型能够专门用于数十个此类任务。图 2 显示了高级概述。

适配器架构

苹果使用 LoRA 适配器来针对特定任务进行模型微调。对于每项任务，研究者会调整 AFM 自注意力层中的所有线性投影矩阵以及逐点前馈网络中的全连接层。仅通过微调适配器，基础预训练模型的原始参数保持不变，可以保留模型的一般知识，同时定制适配器以支持特定任务。

量化

为了将 AFM 纳入内存预算有限的边缘设备并降低推理成本，需要考虑量化技术。先前的研究发现，与原始的 32/16 位浮点相比，经过 4 位量化的模型损失会很小。

为了在模型容量和推理性能之间实现最佳平衡，苹果开发了最先进的量化方法和利用准确率 - 恢复适配器（accuracy-recovery adapters）的框架。使得模型在每个权重平均小于 4 位的情况下，还能实现近乎无损的量化，并提供灵活的量化方案选择。

方法

经过后训练，模型被压缩和量化，得到平均低于 4 位的权重。量化模型通常表现出中等程度的质量损失。因此，苹果不会将量化后的模型直接用于功能开发，而是附加一组参数高效的 LoRA 适配器以进行质量恢复。

值得注意的是，训练准确率 - 恢复适配器具有样本效率，可以看作是训练基础模型的迷你版本。在适配器的预训练阶段，只需要大约 100 亿个 token（约占基础模型训练的 0.15%）即可完全恢复量化模型的能力。

由于应用程序适配器将从这些准确率 - 恢复适配器微调而来，因此它们不会产生任何额外的内存使用或推理成本。关于适配器大小，苹果发现适配器秩为 16 时提供了模型容量和推理性能之间的最佳权衡。

但是，为了灵活性，苹果提供了一套具有不同秩 {8、16、32} 的准确率 - 恢复适配器供应用程序团队选择。

混合精度量化

AFM 中的每个 transformer 块和每个层都存在残差连接。因此，所有层都具有同等重要性的可能性不大。根据这一直觉，苹果通过推动某些层使用 2 位量化（默认为 4 位）来进一步减少内存使用量。平均而言，AFM-on-device 可以压缩到每个权重仅约 3.5 位 (bpw)，而不会造成显著的质量损失。

评估

研究团队使用常见的开源评估工具和基准来评估 AFM 预训练模型。表 2 展示了在 HELM MMLU v1.5.0 上 AFM-on-device 和 AFM-server 的结果。

这些基准测试表明，AFM 预训练模型具有强大的语言和推理能力，为后训练和特征微调提供了坚实的基础。

AFM 与开源模型（Phi-3、Gemma-1.1、Llama-3、Mistral、DBRX-Instruct）和商业模型（GPT3.5 和 GPT-4）的比较结果如下图3所示。与其他模型相比，AFM 模型更受人类评估人员的青睐。特别是，AFM-on-device 与 Phi-3-mini 相比，尽管模型规模小了 25%，但仍获得了 47.7% 的胜率，甚至优于开源强基线 Gemma-7B 和 Mistral-7B。

为了衡量模型生成响应遵循提示中指令的能力，研究团队在 IFEval 基准上评估了 AFM-on-device 和 AFM-server，结果如下图 4 所示：

如图 5 所示，AFM-server 实现了最佳的整体准确率，优于 Gemini-1.5-Pro-Preview-0514 和 GPT-4。

苹果将 AFM 与一些最出色的模型以及规模较小的开源模型进行了比较。如图 6 所示，与 Gemma-7B 和 Mistral-7B 相比，AFM-on-device 可以实现相当或更好的性能。AFM-server 的性能明显优于 DBRX-Instruct 和 GPT3.5，并且与 GPT4 相当。

图 7 比较了经过后训练的 AFM 在数学基准上的表现。结果发现，AFM-on-device 的性能明显优于 Mistral-7B 和 Gemma-7B，即使规模不到它们的一半。

下图为人类评分员评估 AFM-on-device 适配器、Phi-3-mini、Llama-3-8B 和 Gemma-7B 在摘要任务上的质量。图 8 显示 AFM-on-device-adapter 总体上优于其他模型。

负责任的AI

Apple Intelligence 的开发和设计都注重保护用户隐私。

图 9 总结了人类评分员在不同模型上给出的违规率，越低越好。AFM-on-device 和 AFM-server 都对对抗性提示具有鲁棒性，其违规率明显低于开源和商业模型。

图 10 表明，与其他模型相比，AFM 模型更受人类评分员的青睐。

#「光合」作用算力质变

「光合作用」破局中国算力，加速「智变」，AI乘风走深向实

毋庸置疑，人工智能就是当下「最靓的仔」。

GPT-4o Mini 刚免费上线，Llama 3.1 接踵而至，表现超越 GPT 4o。Sora 、可灵、即梦，你方唱罢我登场。在刚结束的世界人工智能大会上，国内首款全尺寸通用人形机器人开源公版机发布。

经过多年的数据、算法和算力积累，「智变」时刻已经到来——未来，千行万业都将会因为 AI 得以重塑，无论是大模型还是小模型。今年全国两会上，「人工智能+」也被首次写入政府工作报告，并列为 2024 年十大工作任务的首位。

要用人工智能技术赋能千行百业，发展新质生产力，算力是关键，也是衡量一个地区或国家 AI 竞争实力的关键指标。作为国家先进计算产业创新中心的重要组成部分，光合组织正在发挥其独特的「光合作用」，破局中国算力，加速「智变」，赋能 AI 走深向实。

一、AI 狂飙，产业「智变」倒计时

中国工程院院士郑纬民在 2024 光合组织领导人大会上表示：「当前激烈的产业竞争，让 AI 升级面临严峻考验，同时也带来了难得的机遇。我们要保持乐观态度，提升硬件性能，同时努力完善高水平的产业协作。」

在中国，「百模大战」一路狂奔，AI 正以前所未有的速度向各行各业渗透。

在大模型的辅助下，创作效率正大幅提高。以视频创作为例，传统的分工明晰、周期冗长的制作流程，如今可以在 AI 支持的一站式平台上完成。同样，在编程领域，AI 助手能在几秒内生成上百行代码，开发效率大幅提升。

但聊天、创意和写作不是大模型的全部，在金融、生物医药、工业制造、政务、科学研究等领域，AI 正为产业刚需带来实实在在的价值。

气象大模型通过 AI 推理的方式解决气象的预测难题，现在，使用一张卡就可以预测出来7天的天气，以往可能需要上千台服务器耗费数小时。

在智慧工厂，平均每一秒就可以下线一台 PC 整机；在汽车总装车间，53 秒下线一台车；工业的时序数据基础模型正在实现趋势预测和异常检测等多种应用。

能源领域也不例外。世界最大的清洁能源走廊——长江干流上的六座梯级水电站，正不断与科技创新碰撞出新的火花。

「 AI for Science 是中国科技创新历史上最好的机会，它的空间非常大，将全方位改变科学研究到产业落地的过程。」中国科学院院士、北京大学国际机器学习研究中心主任鄂维南曾公开表示。

中国信息通信研究院的一组数据进一步印证了「智变」已经进入倒计时：2023 年，我国人工智能核心产业规模达 5787 亿元，相关企业数量 4482 家，产业链覆盖芯片、算法、数据、平台、应用等上下游关键环节，细分领域不断突破。经过多年培育，行业已经经历了信息化、网络化和平台化阶段，正进入数据驱动的智能化新阶段。

二、穿针引线，共谱「光合」协奏曲

现在，只需轻点鼠标，在人工智能遥感系统这位「手相师傅」帮助下，自然资源的「掌纹」细节，都能被一一识别、解读：

起伏的山峦和绵延的森林、广袤的田野耕地、蓝色的海岸生命线、交错纵横的街道和建筑；

……

这只是许多 AI 企业依托光合组织「效应」，实现新质生产力的一个缩影。

算力，已成为数字经济发展和人工智能进步的关键资源。近几年，人工智能技术加速融入更多行业和场景，算力需求呈现爆发式增长。

100P 只能算「起步价」，人工智能企业业务对算力的需求都很大，每小半年，需求都会翻倍， AIGC 可能引发新一轮智算需求。

所以，哪怕是一家「算力巨无霸」企业，也无以支撑如此庞大的需求。

再从我国算力供给侧来看，中国的算力总规模居世界第二，但数据中心建设缺口依然很大，特别是对智算中心的需求和建设更为迫切。同时，已有的部分算力未能得到有效利用。大量场景没有用人工智能，不是因为用不到，也不是因为不需要，而是因为企业自建算力设施成本很高，普惠算力又缺乏。

如何实现算力的「普惠」，让算力成为 AI 发展的基础资源？光合组织应运而生，集全产业链共谱「光合」协奏曲！

光合组织是海光产业生态合作组织的简称，承载着建立和完善国产计算技术供应链和产业链重要使命，正通过其独特的「光合效应」，赋能「算力网」重要节点。就像一部协奏曲的谱曲者，它把国内计算产业上下游企业、高校、科研院所等各路高手召集到一块，穿针引线，专攻算力和人工智能技术攻关与应用合作。

在刚结束的 2024 光合组织领导人大会上，光合组织「再下一城」：举办多个揭牌及签约仪式，推动郑州建设「算力之城」。

7月23日上午，2024光合组织领导人大会在河南省郑州国际会展中心开幕。

作为东西部的连接纽带，早在 2020 年 11 月，河南就开始布局算力建设，为郑州在「东数西算」工程中奠定基础，其智能算力不仅位居全国前列，还坐拥郑州人工智能计算中心和 360 智算中心等基础设施。近期，中原算力谷在中原科技城科技转化片区揭牌，这个投资超百亿元、算力超万 P 的项目，无疑将成为中部地区算力产业高地的重要支撑。为实现高效「互联」、「互通」，郑州正全力打造「算力之城」，布局中部地区首张城市算力网。

大会上，河南省委书记楼阳生亲自为郑州先进计算研究所和海光生态适配中心郑州基地揭牌。这两家机构的落地将为郑州提供先进的计算能力和技术支持，成为打造「算力之城」的重要基石。

通过光合组织的牵线搭桥，郑州市人工智能创新中心、郑州市人工智能创新发展联盟、中原科技城人工智能产业园也在当天揭牌，规划了从研发创新、生态构建到落地空间和服务的完整闭环。

植物的光合作用需要阳光、水分和二氧化碳的共同参与，郑州算力生态的「光合效应」也需要产学研的通力合作。大会上，国家先进计算产业创新中心还与郑州大学、河南大学就产学研合作及人才培养基地签约，郑州市人民政府与深信服、思必驰、青云科技、捷通华声等 10 家智算领域企业签约，加快郑州从「算力城」迈向「智能城」的脚步。

三、全链协作，富能国产算力

除了如何更好满足算力需求、降低算力使用成本和使用门槛，在目前阶段，根技术上的自立自强也是刚性发展需求。

人工智能是新质生产力的重要引擎，算力又是算法模型的基础，建设自有智算基础来支撑行业未来发展，显得尤为必要。而光合组织，作为由海光信息技术股份有限公司发起的产业生态联盟，正以其强大的向心力和引领作用，成为解决国产化挑战的核心力量。

经过四年多的发展，光合组织已经建立了一个庞大的生态系统，包含 4000 余家成员单位，覆盖了从芯片设计到应用服务的全产业链。

在芯片领域，光合组织与国产芯片厂商密切合作，推动 CPU 和 GPU 的研发和应用。在存储方面，促进了国产固态硬盘和大容量存储系统的发展。对于服务器和网络设备，光合组织正推动国产品牌如同方、联想开天等的创新，以满足大规模计算和海量数据传输的需求，并获得金融、能源、电信等关键行业和领域认可。

中间层软件，如操作系统方面，光合组织积极推广统信、麒麟等国产操作系统，并促进其与底层硬件的深度适配。对于数据库，它支持达梦等国产数据库的发展和应用，推动这些产品在各行业的落地。同时，光合组织还在推动中间件、虚拟化平台等关键基础软件的国产化进程。

在应用软件层面，光合组织不仅推动了 ERP、CRM 等企业级软件的国产化，还在人工智能、大数据分析等前沿领域促进了国产解决方案的发展，构建高水平商业体系。

例如，通过与行业伙伴（如百度、思必驰等）合作，支持百度飞桨等国产 AI 框架与底层硬件的深度融合，推动 AI 模型在国产算力底座上的部署和优化。在 AIGC 持续快速发展背景下，积极适配文心一言等大多数国内外主流大模型，实现了 LLaMa、GPT、Bloom、ChatGLM、悟道、紫东太初等为代表的大模型的全面应用。

作为这一生态合作的最新成果，在 2024 光合组织领导人大会上，首款国产 AI PC ——联想开天 M90h G1t AI PC 元启版在海光信息和联想开天的共同努力下，正式发布。

在许多成员看来，光合组织为 AI 产业的生态对接提供了一个很好的平台。用户需要的是完整的解决方案，而单一厂商很难提供从底层架构到前端应用的一整套产品，在此背景下，生态力量的整合非常关键。

冲量在线「 AI 安全开放平台」的诞生契机，正是光合组织解决方案大赛。在将基于深度学习框架的 AI 模型适配海光芯片过程中，他们向海光提出了大量优化和适配需求，都得到了快速响应。这一方案最终在某银行 AI SaaS 服务的安全能力技术提升的项目招标中中标。

用友公司在迁移废钢智能判定模型过程中，几乎无障碍地跑通了算法，也得益社区详细的产品文档，在适配和使用过程中遇到问题都能得到及时响应。

随着人工智能技术的不断突破，算力需求呈现爆发式增长，而算力「卡脖子」成为各大厂商竞逐AI最为头疼的难题。

光合组织汇聚4000 多家成员单位的合力，助力构建从芯片设计到应用服务的全产业链生态系统，不仅为更多企业提供了强大的算力基础，更推动了算力的普惠化。

在这个AI时代，算力犹如阳光之于植物的光合作用，是推动整个产业生长的关键能量。光合组织正以其「光合作用」，通过推动算力革命，加速 AI 产业「走深向实」。

#人机共生的时代已来

中国断臂女子，拿到了这场「赛博奥运会』的冠军

用最酷的设备，做最日常的事儿

家人们，先和小鹿看下几个视频！

可以看到，图片上的运动员在用机械手臂拧灯泡、穿衣服，是不是看着像残奥会！

Nonono，这是瑞士的Cybathlon——一场专为半机械人设计的仿生奥运会。

「Cybathlon」由「赛博」和「竞赛」组合而成。

“Cyber-” 来自希腊语 “κυβερνητικός” (kybernētikos)，表示"赛博"。
“-athlon” 来自希腊语 “ἆθλον” (athlon)，意为"竞赛、比赛"。

“Cybathlon” 是"赛博竞技"或"机械电子辅助设备竞赛"，是一个专门面向使用机械电子辅助设备的残障人士的竞技比赛。

相较于残奥会比拼的是运动员的体力和运动能力，这个“特殊的奥运会”不在于比拼运动员的体能，而是在展示和比拼这些“赛博格”（Cyborg）在解决日常生活中的小事上的技术水平。

「赛博格」是什么？

它代表那些通过机械或电子装置强化了的生物体，比如装了义肢的人就可以被称为赛博格。比如，《星际迷航》中的 Borg（博格人），一个由机械改造的类人生物组成的种族；《终结者》里的T-800机器人，都叫作赛博格。

属于赛博格的奥运会

那这个Cybathlon是什么来头呢？

它是由瑞士苏黎世联邦理工学院发起的非营利性项目，自2016年起，每四年举办一次。今年办的是第三届的Cybathlon，来自24个国家的67支队伍参与了竞技。

每个参赛队伍由残障人士和技术专家组成，技术专家负责研发辅助设备，如假肢、外骨骼、机器人等，而残障人士则负责在比赛中使用这些设备。

今年的Cybathlon共设有8个竞赛项目，有上肢义肢、下肢义肢、外骨骼、脑机接口、轮椅辅助、视觉辅助、机器人辅助以及功能性电刺激等领域。

每个项目都设定了对参赛者和设备的严格条件，防止有些人作弊。

例如，在脑机接口项目中，参赛者需要通过意念控制游戏，严禁使用语音命令或身体动作。

用最酷的设备，做最日常的事儿

本次代表中国出征的团队HANDSON拿到了上肢组的冠军！冠军驾驶员是徐敏，其技术团队来自东南大学和中国科学院苏州医工所。

徐敏完成了赛程设置的十个环节，最难的盲盒取物也顺利完成了，只在叠杯子环节上有一点失误，最终得分90分。

盲盒取物，需要义肢穿过遮挡视线的毛刷，抓取硬度不同的圆柱体，徐敏是唯一一个拿下这关的选手。

叠杯子，这件很简单的日常小事，在上肢有缺陷的人手中都变得如此不易。

脑际接口选手

脑机接口今年进展颇多，而且今年主办方首次允许使用植入式电极的团队参与竞争，是我最期待的比赛了。

今年是传统头戴式脑电图设备与新兴植入式脑机接口技术的较量～

在脑机接口的在对决中，美国匹兹堡大学的PittCrew团队脱颖而出，荣获冠军。

PittCrew团队的驾驶员Phillip在大脑中植入了四个精密的电极。在整个比赛过程中，他只需躺着，就能通过脑机接口控制计算机。计算机能够记录并解读这些电极捕捉到的电信号，从而识别出驾驶员的意图。

Phillip，全程保持躺姿，却能在游戏中完成一系列复杂的操作：用钥匙开门、操纵光标点击正确的图标、甚至将杯子放置在制冰机下收集掉落的冰块。

脑机接口赛道还有传统的头戴式的团队参赛，通过电极接触头皮，电线连接电脑，记录大脑表面的电活动。虽然更加安全方便，不用植入，但是确实更容易被其他神经元干扰。要是找，脑机接口控制最难的就是控制非相关的“杂信号”不干扰。而比赛的结果也验证了，植入式取得了碾压的胜利～

视觉辅助与机器人辅助

视觉辅助与机器人辅助是今年新加的两个项目！

机器人辅助项目的驾驶员需时日常依赖轮椅且上肢也受损的残障人士，辅助设备机器人的话没有限定可以是各种各样的可以通过触控板、手控摇杆甚至舌控驱动。

来自德国的 Mattias Atzenhofer摘下了这一项目的冠军，他通过用平板、手柄控制机器人，完成了刷牙、捡水瓶、抓盘子、喂苹果、扭动门把手等动作。

视觉辅助项目的限制条件是视力严重受损或完全丧失，辅助设备的限制是不限于手机、白手杖、AR等，信号可以用 GPS、超声波、声音、振动、电刺激等信号给驾驶员传递。

但是视觉组整体看下来表现相较于其他组有点normal，虽然冠军团队来自匈牙利主要借助盲杖和一款手机 app，完成了躲避障碍物、走规定路线、在架子上找到对应的物品、捡起东西放到盘子里.但是总分在所有赛道中最低～

功能电刺激

这个项目看起来是带劲！

功能电刺激是使用电刺激让瘫痪的肌肉重新活动，帮助人类完成运动。请看下图：

是不是想象不到参赛选手是下半身完全瘫痪的状态，然后在单车骑行（比赛场景为虚拟现实）中一骑绝尘！

结语

这些参见Cybathlon的残障人士不是传统意义上的运动员，更准确地被称为操纵辅助设备的“驾驶员”。

Cybathlon的核心意义与残奥会的竞技目标有所不同，它更注重展示哪些技术能够更有效地弥补残障人士的生理缺陷，帮助他们克服身体限制，实现自我超越。

苏黎世联邦理工学院教授Robert Riener表示：

“Cybathlon令人印象深刻地展示了让人们处于技术开发中心的重要性。当我们从一开始就将用户需求纳入辅助技术开发时，我们创造了最佳的技术解决方案。”

小鹿认为这样的比赛才是真正展示了AI如何改变我们的生活～

不应该体现在让运动员跑得更快、跳得更远，更重要的是探索AI如何帮助残疾人更好地应对日常生活中的挑战，实现他们之前无法完成的任务，更好的做好每一件日常生活的小事。通过技术创新带给他们无障碍的世界～

#类Sora模型能否理解物理规律？

字节豆包大模型团队系统性研究揭秘

视频生成模型虽然可以生成一些看似符合常识的视频，但被证实目前还无法理解物理规律！

自从 Sora 横空出世，业界便掀起了一场「视频生成模型到底懂不懂物理规律」的争论。图灵奖得主 Yann LeCun 明确表示，基于文本提示生成的逼真视频并不代表模型真正理解了物理世界。之后更是直言，像 Sora 这样通过生成像素来建模世界的方式注定要失败。

Keras 之父 François Chollet 则认为，Sora 这样的视频生成模型确实嵌入了「物理模型」，但问题是：这个物理模型是否准确？它能否泛化到新的情况，即那些不仅仅是训练数据插值的情形？这些问题至关重要，决定了生成图像的应用范围 —— 是仅限于媒体生产，还是可以用作现实世界的可靠模拟。最后他指出，不能简单地通过拟合大量数据来期望得到一个能够泛化到现实世界所有可能情况的模型。

此后，关于视频生成模型到底有没有在学习、理解物理规律，业界始终没有一个定论。直到近日，字节豆包大模型团队公布的一项系统性研究，为两者之间的关系「划上了不等号」。

该团队通过大规模实验发现 —— 即便依照 Scaling Law 扩大模型参数与训练数据量，模型依然无法抽象出一般物理规则，甚至连牛顿第一定律、抛物线运动都无法领会。

「视频生成模型目前就像一个只会『抄作业』的学生，可以记忆案例，但还无法真正理解物理规律，做到『举一反三』。因此，模型遇到未学习过的场景就会『犯迷糊』，生成结果与物理规则不符。」研究作者表示。

相关推文在 X 发布后，获得 Yann LeCun 点赞转发，还评价道 —— 结果虽不意外，但有人尝试研究确实是一件好事。

此外，CV 大牛谢赛宁和常年活跃的 Gary Marcus 等人也纷纷跟进关注。

论文标题：How Far is Video Generation from World Model: A Physical Law Perspective
论文链接：https://arxiv.org/abs/2411.02385
展示页面：https://phyworld.github.io

，时长03:10

Sora 的世界里，物理学存在么？

此前 Sora 发布时，OpenAI 就在其宣传页面写道：我们的成果揭示了 —— 提升视频生成模型参数与数据量，为构建物理世界通用模拟器，提供了一条可行之路。

给人希望的同时，业内质疑声纷至沓来，很多人并不认为基于 DiT 架构的视频生成模型能够真正理解物理规律。其中尤以 LeCun 为代表，一直以来，这位人工智能巨头一直坚称，基于概率的大语言模型无法理解常识，其中包括现实物理规律。

尽管大家众说纷纭，但市面上，系统性针对该问题的研究一直寥寥。出于对这一课题的好奇，字节豆包大模型相关团队于 2024 年初启动了这一研究立项，并历经 8 个月终于完成系统性实验。

原理与实验设计

在本次工作中，如何定量分析视频生成模型对于物理规律的理解，是一大挑战。

豆包大模型团队通过专门开发的物理引擎合成了匀速直接运动、小球碰撞、抛物线运动等经典物理场景的运动视频，用于训练基于主流 DiT 架构的视频生成模型。然后，通过检验模型后续生成的视频在运动和碰撞方面是否符合力学定律，判断模型是否真正理解了物理规律，并具有「世界模型」的潜力。

针对视频生成模型在学习物理定律时的泛化能力，团队探讨了下面三种场景的表现：

分布内泛化 (In-Distribution, ID)：指训练数据和测试数据来自同一分布。
分布外泛化 (Out-of-Distribution, OOD) ：分布外泛化指的是模型在面对从未见过的新场景时，是否能够将已学过的物理定律应用到未知的情境。
组合泛化 (Combinatorial Generalization)：组合泛化介于 ID 和 OOD 之间，此种情况下，训练数据已包含了所有「概念」或物体，但这些概念、物体并未以所有可能的组合或更复杂的形式出现。

在基于视频的观察中，每一帧代表一个时间点，物理定律的预测则对应于根据过去和现在的帧生成未来的帧。因此，团队在每个实验中都训练一个基于帧条件的视频生成模型，来模拟和预测物理现象的演变。

通过测量生成视频每个帧（时间点）中物体位置变化，可判断其运动状态，进而与真实模拟的视频数据比对，判断生成内容是否符合经典物理学的方程表达。

实验设计方面，团队聚焦于由基本运动学方程支配的确定性任务。这些任务能清晰定义分布内 (ID) 和分布外 (OOD) 泛化，并且能够进行直观的误差量化评估。

团队选择了以下三种物理场景进行评估，每种运动由其初始帧决定：

匀速直线运动：一个球水平移动，速度保持恒定，用于说明惯性定律。
完美弹性碰撞：两个具有不同大小和速度的球水平相向运动并发生碰撞，体现了能量与动量守恒定律。
抛物线运动：一个带有初始水平速度的球因重力作用下落，符合牛顿第二定律。

，时长00:06

针对组合泛化场景，团队使用 PHYRE 模拟器评估模型的组合泛化能力。PHYRE 是一个二维模拟环境，其中包括球、罐子、杆子和墙壁等多个对象，它们可以是固定或动态的，且能进行碰撞、抛物线轨迹、旋转等复杂物理交互，但环境中的底层物理规律是确定性的。

视频数据构造方面，每一个视频考虑了八种物体，包括两个动态灰色球、一组固定的黑色球、一个固定的黑色条形、一个动态条形、一组动态立式条形、一个动态罐子和一个动态立式棍子。

每个任务包含一个红色球和从这八种类型中随机选择的四个物体，总共形成

种独特的模板。数据示例如下：

，时长00:05

对于每个训练模板，团队保留了一小部分视频用于创建模板内测试集（in-template evaluation set），再保留 10 个未使用的模板，用于模板外测试集（out-of-template evaluation set），以评估模型对训练时未见过的新组合的泛化能力。

实验结果与分析

豆包大模型团队的实验发现，即使遵循「Scaling Law」增大模型参数规模和数据量，模型依然无法抽象出一般物理规则，做到真正「理解」。

以最简单的匀速直线运动为例，当模型学习了不同速度下小球保持匀速直线运动的训练数据后，给定初始几帧，要求模型生成小球在训练集速度区间内匀速直线运动的视频，随着模型参数和训练数据量的增加，生成的视频逐渐更符合物理规律。

然而，当要求模型生成未曾见过的速度区间（即超出训练数据范围）的运动视频时，模型突然不再遵循物理规律，并且无论如何增加模型参数或训练数据，生成的结果都没有显著改进。这表明，视频生成模型无法真正理解物理规律，也无法将这些规律泛化应用到全新的场景中。

不过，研究中也有一个好消息：如果训练视频中所有概念和物体都是模型已熟悉的，此时加大训练视频的复杂度，比如组合增加物体间的物理交互，通过加大训练数据，模型对物理规律的遵循将越来越好。这一结果可为视频生成模型继续提升表现提供启发。

具体而言，在分布内泛化（ID）的测试中，团队观察到，随着模型规模增大（从 DiT-S 到 DiT-L）或训练数据量的增加（从 30K 到 3M），模型在所有三种物理任务中的速度误差都降低。这表明，模型规模和数据量的增加对分布内泛化至关重要。

然而，分布外泛化（OOD）与分布内泛化（ID）结果形成鲜明对比：

更高的误差：在所有设置中，OOD 速度误差比 ID 高出一个数量级（~0.02 v.s. ~0.3）。
扩展数据和模型规模的影响有限：与分布内泛化不同，扩展训练数据和模型规模对降低 OOD 误差几乎没有影响。这表明，简单的数据量和模型规模的增加无法有效提升模型在 OOD 场景中的推理能力。

至于组合泛化场景，从下表可看到，当模板数量从 6 个增加到 60 个时，所有度量指标（FVD、SSIM、PSNR、LPIPS）在模版外测试集上均显著的提升。尤其是异常率（生成视频违背物理定律的比例），从 67% 大幅下降至 10%。这表明，当训练集覆盖了更多组合场景时，模型能够在未见过的组合中展现出更强的泛化能力。

然而，对于模板内测试集，模型在 6 个模板的训练集上的 SSIM、PSNR 和 LPIPS 等指标上表现最佳，因为每个训练示例被反复展示。

这些结果表明，模型容量和组合空间的覆盖范围对组合泛化至关重要。这意味着，视频生成的 Scaling Law 应当侧重于增加组合多样性，而不仅仅是扩大数据量。

，时长00:05

图注：在模版外测试集上生成的样本视频。第一行：真实视频。第二行：使用 60 个模板训练的模型生成的视频。第三行：使用 30 个模板训练的模型生成的视频。第四行：使用 6 个模板训练的模型生成的视频。

机理探究：模型如何依赖记忆和案例模仿

前文提及，视频生成模型对于分布外泛化表现不佳，但在组合场景下，数据和模型 Scaling 可带来一定提升，这究竟来自于案例学习，还是对底层规律的抽象理解？团队着手进行了相关实验。

模型似乎更多依赖记忆和案例模仿

使用匀速运动视频进行训练，速度范围为 v∈[2.5, 4.0]，并使用前 3 帧作为输入条件。我们使用两个数据集训练，再对照结果，Set-1 只包含从左到右移动的球，而 Set-2 则包含从左到右移动的球和从右到左移动的球。

如下图所示，给定进行低速正向（从左到右）运动的帧条件，Set-1 模型生成视频只有正速度，且偏向高速范围。相比之下，Set-2 模型偶尔会生成负速度的视频，正如图中绿色圆圈所示。

面对两者之间的区别，团队猜测，这可能是由于模型认为，与低速度球更接近的是训练数据中反方向运动的小球，导致模型受到训练数据中「误导性」示例影响。换而言之，模型似乎更多依赖于记忆和案例模仿，而非抽象出普遍的物理规则，实现分布外泛化（OOD）。

模型更多靠颜色寻找模仿对象

在前文，我们已探索获知 —— 模型更多依赖记忆和相似案例进行模仿并生成视频，更进一步，则须分析哪些属性对其模仿影响较大。

在比对颜色、形状、大小和速度四个属性后，团队发现，基于扩散技术的的视频生成模型天生更偏向其他属性而非形状，这也可能解释了为什么当前的开放集视频生成模型通常在形状保持上存在困难。

如下图，第一行是真实视频，第二行是视频模型生成的内容，颜色很好的保持了一致，但其形状难以保持。

，时长00:06

两两对比后，团队发现视频生成模型更习惯于通过「颜色」寻找相似参考生成物体运动状态，其次是大小，再次是速度，最后才是形状。颜色 / 大小 / 速度对形状的影响情况如下图：

复杂组合泛化情况

最后，对于复杂的组合泛化为何能够发生，团队提出视频模型具有三种基本的组合模式，分别为：属性组合、空间组合（多个物体不同运动状态）、时间组合（不同的时间点多个物体的不同状态）。

实验结果发现，对于速度与大小或颜色与大小等属性对，模型展现出一定程度的组合泛化能力。同时，如下图所示，模型能够通过对训练数据的局部片段进行时间 / 空间维度的再组合。

然而值得注意的是，并不是所有的情况下都能通过组合泛化生成遵循物理规律的视频。模型对案例匹配的依赖限制了其效果。在不了解底层规则的情况下，模型检索并组合片段，可能会生成不符合现实的结果。

视频表征的局限性

最后，团队探索了在视频表征空间进行生成是否足以作为世界模型，结果发现，视觉模糊性会导致在细粒度物理建模方面出现显著的误差。

例如下图，当物体尺寸差异仅在像素级别时，单纯通过视觉判断一个球是否能通过间隙变得十分困难，这可能导致看似合理但实际上错误的结果。

，时长00:05图注：第一行是真实视频，第二行为模型生成的视频。

这些发现表明，单纯依赖视频表示不足以进行精确的物理建模。

团队介绍

该论文核心作者有两位，其中之一为豆包大模型团队 95 后研究员 Bingyi Kang，此前他负责的研究项目 Depth Anything 同样取得了业界的广泛关注，并被收入苹果 CoreML 库中。

据 Bingyi 分享，世界模型概念早已被提出，自 AlphaGo 诞生时，「世界模型」一词已在业内传开，Sora 爆火后，他决定先从视频生成模型能否真正理解物理规律入手，一步步揭开世界模型机理。

这当中有三四周时间，项目毫无进展，直到一次实验，大家注意到一个很隐蔽的反常规现象，借此设计对比试验后，他们确认了「模型其实不是在总结规律，而是在匹配跟他最接近的样本」。

「做 research 往往不是说，你突然有个很好的 idea，然后你一试它就 work 了，很多时候你都是在排错。但经过一段时间的试错，你很可能突然发现某一个方向有解了。」Bingyi 表示。

尽管研究耗时 8 个月，每天对着视频中的虚拟小球做定量实验，但大家更多感受到的不是枯燥，而是「好玩」和「烧脑」，回忆这段，他感慨：「团队对基础研究给了充分的探索空间。」

另一位 00 后同学也是核心参与者之一，据他分享，本次研究是他经历过的最具挑战性、最耗时的项目，涉及对物理引擎、评测系统、实验方法的构建，非常繁琐，当中还有好几次项目「卡顿」住。不过，团队负责人和 Mentor 都给予了耐心和鼓励，「没人催赶紧把项目做完」。

#FreeVS

来自中科院自动化所的团队提出 FreeVS，一个全生成式的新视角合成方法。相较于仅能在记录的车辆行驶原轨迹上渲染高质量相机视角的基于场景重建的方法，FreeVS 能够作为生成引擎渲染真实场景中任意车辆行驶轨迹下的视频。FreeVS 可被直接部署于任何测试场景，而无需负担通常耗时 2-3 小时的场景重建过程。

真实视频

新轨迹下相机视频

论文链接：https://arxiv.org/abs/2410.18079
项目主页：https://freevs24.github.io/

以生成模型合成真实场景中的相机成像

现有驾驶场景中的新视角合成方法多遵循「场景重建 - 新视角渲染」的管线，依靠重建得到的 NeRF 或 3D-GS 等场景表示来渲染新视角下的成像。

然而基于重建的方法具有两大瓶颈，1）无法合理渲染缺少对应观测的新视角上的图像，2）场景重建耗时长；这使得重建方法无法高效高质地在实际数据采集轨迹之外渲染大量新相机视图。

如简单的视角左右平移即会引起前有方法图像渲染质量的严重下降：

与前有重建方法在原训练视角、训练视角右一米、训练视角上一米的视角合成效果对比。

对此，作者提出一种新颖的完全基于生成模型的新视角合成方法 FreeVS。作者采用一简洁有效的生成管线，可严格基于已观测到的三维场景生成任意视角的相机观测，且无需进行场景重建。

FreeVS 方法管线。生成模型基于染色点云投影恢复相机成像。

作者采用从稀疏点云投影中恢复相机成像的生成管线，这使得生成模型的行为类似于 Inpainting 模型，基于稀疏但可靠的点云投影点补全目标图像。

在训练过程中，生成模型学习基于给定帧的三维先验生成邻近帧的相机成像。尽管训练数据中驾驶车辆在绝大多情况下走直线前行，但生成模型可沿车辆轨迹在侧向相机视角学习相机视角的横向移动。

在测试阶段，以图像信息染色的场景三维点云被投影至任意所需视角，以控制图像生成结果。

FreeVS 方法训练数据与推理效果示例。即使训练数据中无车辆横向移动到逆行车道的例子，生成模型仍然可依靠侧向相机的训练对（（c）->（a））学习相机的侧向移动，从而生成合理的高质量成像 (f)。

车辆行驶模拟与场景编辑

以 Waymo 数据集中的真实场景为例，FreeVS 能够在驾驶车辆原本并未移动的场景模拟车辆移动：

真实视频

新轨迹下相机视频

能模拟车辆变线行驶，甚至能秒变 GTA，使车辆撞向行人：

真实视频

新轨迹下相机视频

能在原本直行的场景令车辆走大 Z 型前进：

真实视频

新轨迹下相机视频

也能对场景内容进行编辑。任意替换场景车辆，或定制车辆运动。

真实视频

场景编辑后相机视频

真实视频

场景编辑后相机视频

与前有基于重建的方法比较，FreeVS 在新车辆运动轨迹下几乎不受图像模糊、伪影等现象困扰。

，时长00:23

FreeVS 与前有方法在新轨迹模拟的表现对比。

新相机模拟

除新行驶轨迹下视角合成，FreeVS 还能合成虚拟相机位置上的成像。而前有基于重建的方法难以应对虚拟相机位置上全部观测的缺失。

新相机模拟示意图

FreeVS 与前有方法在新相机模拟的表现对比。

#无问芯穹提出混合稀疏注意力方案MoA

加速长文本生成，实现最高8倍吞吐率提升

随着大语言模型在长文本场景下的需求不断涌现，其核心的注意力机制（Attention Mechanism）也获得了非常多的关注。

注意力机制会计算一定跨度内输入文本（令牌，Token）之间的交互，从而实现对上下文的理解。随着应用的发展，高效处理更长输入的需求也随之增长 [1][2]，这带来了计算代价的挑战：注意力高昂的计算成本和不断增长的键值缓存（KV-Cache）代价。稀疏注意力机制可以有效缓解内存和吞吐量的挑战。

然而，现有稀疏注意力通常采用统一的稀疏注意力模式，即对不同的注意力头和输入长度应用相同的稀疏模式。这种统一的方法难以捕捉到大语言模型中多样的注意力模式，导致不同注意力头的不同的精度 - 代价权衡被忽略。

最近，来自清华大学、无问芯穹和上海交通大学的研究团队发表了《MoA: Mixture of Sparse Attention for Automatic Large Language Model Compression》，提出通过混合不同稀疏度的注意力头，使用 25% 的注意力稠密度，就可以记忆几乎 100% 的上下文。

本工作现已开源，欢迎交流讨论。

代码：https://github.com/thu-nics/MoA
主页：https://nics-effalg.com/MoA
arXiv：https://arxiv.org/abs/2406.14909

总览

在大语言模型中，不同的注意力头表现出各异的注意力模式和扩展规则：有的关注全局信息，有的则聚焦局部；有的注意力范围随输入长度增加而扩展，有的则保持不变。然而，现有的统一稀疏注意力机制破坏了这些固有的特性。

为应对这一挑战，研究团队提出了混合稀疏注意力（Mixture of Sparse Attention, MoA）方法，它能够为不同的头和层定制独特的稀疏注意力配置。MoA 构建了一个包含多种注意力模式及其扩展规则的搜索空间。通过分析模型，评估潜在配置，MoA 可以为每个注意力头找到最优的稀疏注意力模式和扩展规则。

实验结果显示，无需任何训练，MoA 就可以在保持平均注意力跨度不变的情况下，将有效上下文长度提升约 3.9 倍。模型效果上，在 Vicuna-7B、Vicuna-13B 和 Llama3-8B 模型上，MoA 将长文本信息检索准确率提高了 1.5-7.1 倍，优于统一注意力基线方法 StreamingLLM。

此外，MoA 缩小了稀疏与稠密模型之间的能力差距，在 50% 平均注意力跨度下，长上下文理解基准测试集的最大相对性能下降从基线方法的 9%-36% 降低至 5% 以内。

在运行效率上，MoA 的稀疏注意力使得生成过程中 KV-Cache 长度不扩大便于内存管理，减少了注意力计算量，降低了存储量从而可增大批大小。结合 CUDA GPU 算子优化，MoA 相比于 FlashAttention2 和 vLLM 将 7B 和 13B 稠密模型的生成吞吐量分别可提升 6.6-8.2 以及 1.7-1.9 倍。方法在 12K 以内的输入长度上搜索压缩方案，压缩后模型可以在长达 256K 的输入长度上高效且精准地检索信息。

背景介绍

多头自注意力（MHA）机制是大型语言模型的核心功能之一 [3]。该机制从输入序列出发，通过线性变换将其转换成查询（Q）、键（K）和值（V）三个矩阵。这些矩阵与之前序列的键值缓存（KV-Cache）相结合，共同计算出注意力矩阵（A）。为了保持自回归特性，这一计算过程会通过因果掩膜（M）进行调整，最终得到输出（O）。具体公式如下：

在大语言模型的自回归推理过程中，分为两个阶段：预填充和解码。在预填充阶段，模型会处理整个输入序列，以生成初始的响应令牌。随后进入解码阶段，模型利用新产生的令牌以及之前缓存的 K 和 V 矩阵，逐步生成后续令牌，直至完成整个序列的生成。虽然这种迭代方法效果显著，但随着 KV-Cache 的不断扩展，它也带来了内存和计算资源的需求增加。

现有方法

之前的研究通过引入稀疏注意力方法来应对大型语言模型处理长上下文时的效率挑战。对于生成式的大型语言模型，主流的稀疏模式是采用统一跨度滑窗：即不论注意力头还是输入长度如何，都使用固定、均匀跨度的滑动窗口掩膜，这样每个文本仅关注其邻近的上下文区域。

此外，还会对最初的几个文本施加全局注意力，以便它们能够关注到所有其他文本。这种局部注意模式通过丢弃当前注意跨度之外的 KV-Cache，显著降低了长序列场景下的内存需求 [4][5]。原则上，尽管单个模型层的注意力是局部的，但通过多层模型的逐步传递，每个词最终都能获取全局信息，从而在理论上可以实现比平均注意力跨度更长的有效上下文长度 [6]。

然而，这种统一跨度的滑动窗口方法并未考虑到模型本身的特性，导致大型模型在处理长文本时的有效上下文长度受到限制，进而影响了其在长文本场景下的表现。

根据之前的研究定义，本工作将有效上下文长度定义为在内容检索任务上能够达到 90% 以上精度的最大输入长度 [1][2]。研究表明，像 StreamingLLM [4] 这样的统一跨度滑窗方法，其有效上下文长度往往难以超出平均注意力跨度。如下图所示，当使用输入长度 50% 的跨度进行稀疏注意力时，统一跨度滑窗无法有效地从窗口外的内容中检索信息，而且这一问题随着输入长度的增加而愈发严重。

在LongEval数据集上[7]，使用不同注意力方法的Vicuna-7B模型在不同输入长度和检索位置的检索精度。大海捞针实验[8]将大量的键值对作为输入，并在不同位置测试给键检索值时的精度。(a) 原始稠密注意力模型；(b)统一跨度滑窗StreamingLLM，注意力跨度减半，超出跨度时检索效果降低；(c) MoA，平均注意力跨度减半，超出跨度时检索效果依然优秀。

下图揭示了这个现象的一个可能解释：虽然部分注意力头专注于局部上下文，但另一些注意力头则关注了整个输入序列。因此，采用统一跨度的方法限制了那些关注全局上下文的头的注意力跨度，并且给关注局部上下文的头分配了过多的计算和内存资源。

此外，随着输入长度的增加，某些注意力头需要比其他头更快地扩展其注意力跨度，以防止性能显著下降。遗憾的是，统一跨度的方法没有考虑到这种异质性，未能针对不同注意力头的需求分别调整其注意力范围。另外，现有的模型压缩技术在制定压缩策略时通常基于通用语料库和人工撰写的输出结果，这并不能精确地反映稀疏化对处理长上下文任务的具体影响。

来自Vicuna-7B模型不同注意力头的注意力矩阵示例。每个注意力矩阵是从LongEval数据集的256个输入上取平均得到的。

本文方法

本文提出了一种名为混合注意力（MoA）的方法，它是一种无需训练或微调的异质稀疏注意力机制。如下图所示，MoA 建立了一套异质弹性规则，作为注意力跨度的搜索空间。对于每个注意力头，MoA 将自动分析不同注意力跨度的效果，并最优化不同注意力头的跨度。同时，MoA 精心设计了校准数据集，以确保它能精确地反映出稀疏注意力对处理长上下文任务的具体影响。

MoA的概览：(a) 稀疏注意力的搜索空间涵盖了滑窗跨度的异构弹性规则；(b) 自动压缩过程始于精心设计的校准数据集。MoA通过分析这个数据集中每个注意力值对模型预测的影响，揭示了不同候选弹性规则在不同输入长度下的准确性损失。在优化阶段，MoA为每个注意力头挑选出最合适的弹性规则，使得其在满足平均跨度约束的同时，尽可能减少模型的性能损失。

异质弹性规则的搜索空间

在构建 MoA 稀疏注意力模式的搜索空间时，本工作充分考虑了大语言模型注意力模式的天然异质性和弹性特点。正如图 (a) 展示的那样，本工作选用了对硬件友好的异质跨度滑窗作为本工作稀疏注意力的掩膜。同之前研究 [4][5] 类似，本工作对最初的几个文本施加了全局注意力。

为了捕捉注意力跨度随输入长度变化的不同表现，本工作将注意力头 h 的注意力跨度 S 定义为输入长度 N 的函数，即

。其中，

和

是控制基本跨度和其随输入长度变化的扩展比例的超参数。每个注意力头的

和

都可以从一系列离散选项中挑选

自动注意力跨度规则搜索

对于有很多层的大语言模型，异质弹性规则的搜索空间可能会变得非常大。因此，本工作设计了自动注意力跨度规则搜索方法，来对大语言模型的每一个注意力头确定最优的

和

。这包括分析和优化两步。

分析

给定大语言模型，MoA 首先会在校准数据集的一系列文本上进行分析，以评估移除每个注意力值对模型最终预测结果的具体影响。具体而言，本工作采用了一阶泰勒展开的方法进行影响评估：

通过分析每个注意力值对预测结果的贡献，我们可以计算出在当前输入下，不同跨度滑窗对最终预测结果的影响，也就是该窗口所移除的所有注意力值影响的总和。

在实际操作中，本工作推导了注意力影响的形式化表达，并利用深度学习框架的反向传播机制高效地计算所需的偏导数值。在校准数据集的不同输入长度上，MoA 对滑动窗口的影响分别取平均值，以体现同一种异质弹性规则在不同长度输入下的影响。

在分析阶段完成后，MoA 能够明确每种异质弹性规则在精度和效率之间的平衡。基于此，MoA 可以将较长的注意力跨度分配给那些对压缩更为敏感的注意力头，而将较短的注意力跨度分配给那些对此不太敏感的注意力头。

优化

根据分析结果，MoA 会为每个注意力头挑选出最佳弹性规则。在优化过程中，用户可以设定不同输入长度下的注意力密度（即平均注意力跨度与输入长度的比值）作为限制条件，而 MoA 则会在满足这一条件的同时，力求最小化各长度下的预测误差。

具体而言，MoA 构建了一个多目标优化问题：最小化不同输入长度下的预测损失，同时确保平均注意力密度不超过用户设定的限制。MoA 采用混合整数优化方法求解这一多目标优化问题。求解得到的所有压缩方案均达到了帕累托最优，意味着在没有增加其他长度预测损失的前提下，无法进一步降低任何特定长度的预测损失。

为了确保模型能够有效泛化至未曾见过的输入长度，MoA 会从所有帕累托最优压缩方案中，选择在未见过的验证长度上损失最小的方案作为最终采用的压缩策略。

通过自动注意力跨度规则搜索，MoA 在遵守用户定义的密度约束的同时，找到合适的异质弹性规则来最小化由注意力稀疏化引起的准确性损失。

校准数据集的设计与选择

同时，MoA 也强调了数据工程在大语言模型压缩中的重要性。本工作发现，使用具有长距离依赖性的数据集并参考原始大语言模型的响应对于准确分析压缩的影响至关重要。

本工作指出了常用的通用语言建模数据集的主要问题。这类数据集，例如人类编写的文本语料库，通过在整个语料库上进行下一个词预测作为监督信号。但是这主要捕获的是临近上下文之间的注意力模式，而忽略了长期上下文依赖性，无法解决像长距离检索这样的全局注意力任务。

同时，模型响应和人类编写的监督之间存在显著的不对齐。例如，对于同一个问题，人类可能会回答 'Blue'，而模型可能会回答 'The blue color'。使用人类的答案进行监督，注意力影响是基于预测 'Blue' 的概率转移量化的，这与最终目标背道而驰，即难以保持原始模型预测 'The' 的关键注意力。

因此，本工作构建长距离依赖并通过与原始模型对齐来增强校准数据集。通过下表可以发现，这种数据集构建方式可以准确反映注意力影响，显著提高压缩后的模型的性能。

实验结果

精度

MoA 实验在多种模型（Vicuna-{7B, 13B) 和 Llama-3-{8B, 70B}）和多种基准测试（长上下文检索，长上下文理解）上和之前的静态和动态稀疏注意力方法（StreamingLLM [4],H2O [9] 和 InfLLM [12]）进行了比较。

MoA 超越基线稀疏注意力方法，并在 50% 的平均注意力密度下达到了与原始稠密模型相当的性能。我们计算了稀疏模型相对于原始模型的性能下降。

对于长上下文检索检索任务，MoA 最大相对准确性下降为 8%，远小于 StreamingLLM、InfLLM 和 H2O 的 87%、58% 和 44%。平均来说，MoA 的相对准确性下降在 1% 以下，而 StreamingLLM、InfLLM 和 H2O 的 51%、41% 和 20%。

如下图 (a) 所示，MoA 将其有效上下文长度扩展到注意力跨度的大约 3.9 倍。图 (b) 显示，在固定的 8k 输入长度下，MoA 只需要 25% 注意力就可以达到 90% 以上的检索准确性。图 (c) 显示 MoA 在 12k 长度内压缩后，可以保持和原稠密模型一致的有效上下文长度。

在LongEval上进行上下文检索准确性测试。使用Vicuna-7B模型：(a)改变注意力跨度，比较有效上下文长度，(b)将输入长度设定为8k，比较不同注意力密度下的检索准确性。使用Llama3-8B模型：(c)将密度设定为50%，比较输入长度增加时的检索准确性。

对于长上下文理解任务，在使用 LV-Eval 和 LongBench 的基准测试中，MoA 只显示了最大 5% 和 3% 的相对分数下降，而 StreamingLLM 则分别最大下降了 36% 和 27%；InfLLM 最大下降了 17% 和 5%；H2O 最大下降了 9% 和 4%

不同注意力方法在 50% 密度下进行 (a) LV-Eval和(b) LongBench 长上下文理解基准测试。测试使用 Vicuna-7B和13B模型，以及 Llama3-70B 模型。分数相对于原始稠密模型进行归一化。

长上下文泛化。通过在 12k 长度内进行压缩，MoA 能够有效泛化到 32k-256k 的长度。如下表所示，在范化的长度上，MoA 的检索精度比 InfLLM 和 StreamingLLM 高 1.9-3.3 倍，LV-Eval 评分高 1.2-1.4 倍，展现出与原始稠密模型相当的性能。如下表所示，

消融实验进一步评估了不同程度的稀疏注意力混合对于最终性能的影响。从基本的统一跨度滑窗开始，通过依次引入不同程度的异质性（层间，注意力头间，输入长度间），最终模型性能在不断提升。

在 25% 注意力密度下对搜索空间进行消融实验。

效率

我们使用 Huggingface 框架支持的 FlashAttention [10] 和 vLLM 框架作为基线，对比 MoA 的效率。

下表比较了 MoA 相对于各种注意力机制和 LLM 框架的运行效率，并对 MoA 的每个设计带来的效率提升进行了消融分析。在 50% 注意力密度下，MoA 相比 FlashAttention2 将解码吞吐量提升了 6.6-8.2 倍。相比 H2O 和 InfLLM，解码吞吐量提升了 1.2-4.0 倍。与包含高度系统级优化的 vLLM 框架 [11] 相比，MoA 仍实现了 1.7-1.9 倍的吞吐量提升。MoA 还将 GPU 总内存减少 1.2 到 1.4 倍。

这些吞吐量的提升来源于四个主要因素：生成过程中的静态 KV-Cache（约 3.0 倍）；由于稀疏性减少了注意力计算（约 1.5 倍）；较小的 KV-Cache 内存支持了更大的批大小（约 1.4 倍）；以及我们针对 MoA 异构注意力所实现的 CUDA GPU 算子优化（约 1.2 倍）。

不同框架在7B和13B模型上的效率分析。MoA 每个设计带来的效率提升通过消融分析分为四个部分。所有稀疏注意力方法都使用50%的注意力密度。解码吞吐量在A100-80GB GPU 显存能容纳的最大批大小下进行评估。

作者介绍

本论文的共同一作是清华大学电子工程系 NICS-EFC 实验室的傅天予、黄浩峰和宁雪妃，他们来自 NICS-EFC 实验室的 EffAlg 团队和无问芯穹（Infinigence AI）。NICS-EFC 实验室由汪玉教授带领，实验室的高效算法团队（Efficient Algorithm Team，EffAlg）由宁雪妃助理研究员带领。EffAlg 团队的主要研究方向为高效深度学习技术，团队网站为 https://nics-effalg.com/

#华为用结构化推理补齐思维链短板

智能体首次达到Kaggle Grandmaster水平

前些时日，AI 大模型开始掌握操作计算机的能力，但整体而言，它们与物理世界互动的能力仍处于早期阶段。

为了提高 LLM 在复杂的现实世界中的表现，研究者们提出了各种提示策略来提升大模型的推理和规划能力，比如思维链、思维树和思维图谱。这些进步与工具集成一起，推动着通用 AI 智能体的发展，让它们现在已经能够用 LLM 输出的决策策略来解决序列决策问题（不过依然还相对简单）。

在现实世界中，一个难题的解决方案往往都不是孤立存在的，而需要系统性的方法。这就促使人们开始研究如何让 LLM 通过顺序或并行模块处理智能体任务，从而动态地、分步骤地解决问题。

近日，华为诺亚方舟实验室、伦敦大学学院（UCL）和达姆施塔特工业大学的一个研究团队在这个研究方向上做出了自己的贡献。他们采用第一性原理方法，将数据的分析、处理和预测（即数据科学）作为 LLM 与现实世界环境和外部系统交互的核心和可迁移技能，得到了一种利用 LLM 解决系统数据科学任务复杂性的新方法。然后他们基于此开发了智能体 Agent K v1.0，并让其参加了多模态 Kaggle 竞赛。最终 Agent K v1.0 获得了相当于 6 金 3 银 7 铜的成绩，成为首个达到 Kaggle Grandmaster level 1 的 AI 智能体。

论文标题：Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level

论文地址：https://arxiv.org/pdf/2411.03562

研究动机

这项研究有三个研究动机。

第一，数据科学的目的是从结构化和非结构化数据中提取见解和知识，从而解决各种复杂问题。这需要系统级的方法，需要自动化和优化来适应具体的任务目标。

举个例子，在 Kaggle 数据科学竞赛中（如图 1 所示），数据科学家需要遵循一个结构化的工作流程：收集、清理、预处理和标准化数据，创建数据加载器以实现高效管理，生成关键评估指标，以及开发自定义模型。然后，这些见解和预测可以为决策和优化提供信息。因此，为了解决这些工作流程，需要数据科学智能体将任务分解为子问题并与各种子系统交互以实现指定目标。

第二，数据能让 LLM 感知和理解外部环境（物理和虚拟皆可）。LLM 智能体可通过收集、清理和分析这些数据来获得有意义的见解并做出明智的决策。数据和动作之间的这种基本联系可将计算推理与有形的现实世界后果联系起来。

第三，数据科学对企业而言至关重要。数据科学可将原始数据转换成可行动的见解，并由此提升效率和竞争力，进而推动创新。因此，据 Grand View Research 预计，到 2031 年，全球对数据科学的投资将达到约 7400 亿美元。数据科学智能体可通过生成代码来自动执行数据清理、建模和预测等任务，从而扩大这种影响，使组织能够扩展其数据驱动的决策，以最大化回报和利润。

结构化推理造就强大数据科学智能体

华为诺亚方舟实验室首先确定了 LLM 智能体面临的两大难题，即自动化和优化。这些难题源自数据科学工作流程的复杂性和多面性。

为此，该团队提出了一种利用 LLM 解决系统数据科学任务复杂性的新方法。

具体来说，他们提出了一种灵活的「学习到推理」范式，从而无需反向传播和微调就能实现学习和适应。

该团队假设 LLM 具有固有的基于案例的推理能力，这让它们可使用过去的正例或负例经验，并将其泛化到新任务。通过优化这些经验，学习和适应可以自然地发生。

为了将这一观察利用起来，该团队提出了结构化推理（structured reasoning），其中集成了一个记忆模块，从而可以动态地利用过去的成功和失败经验来实现更据适应性的学习。这能克服思维链等方法的局限性。如图 2 所示。

左侧是基本思维链推理，其按顺序生成中间步骤，其中每个步骤都是下一步骤的直接条件，直到得到最终答案。

右侧是新提出的结构化推理方法，它引入了一个记忆模块（作为 RAG 或长上下文的一种形式），可以根据外部奖励和反馈进行优化。该模块可根据环境反馈动态地修改存储的内容，让智能体可在不改变底层 LLM 参数的情况下学习和适应，进而根据具体目标最大限度地提高性能（有效性和自动化）。

有了结构化推理之后，LLM 智能体可在内部重构自身，通过灵活和内在的（智能体内部的）自我反思功能实现主动推理，并在采取外部行动之前主动适应。

他们将这个智能体称为 Agent K v1.0，这是他们的结构化推理框架 Pangu-Agent 的一个扩展，但它也是专门为应对数据科学挑战设计的。

该团队为 Agent K v1.0 引入了新的内部函数类别，以便在自动解决数据科学任务之前自动设置它们。他们还引入了另一组可与外部工具（如超参数优化算法、集成方法、计算机视觉和自然语言处理库）协作的内部函数，从而可以最佳方式构建解答。

下图展示了 Agent K v1.0 实现自动设计、编程和执行所需的整体数据科学工作流程：首先从一个 Kaggle URL 开始，再生成执行代码清理、特征工程、模型创建和优化训练的复杂代码，之后再自动生成一个提交文件，并将其提交给 Kaggle 以获得分数。

第一阶段（自动化）：设置数据科学任务

由于数据科学任务的数据类型和格式繁多，因此设置阶段并不轻松。图 4 展示了这个自动设置阶段的主要步骤。

在抓取到任务后，该策略又分为两个阶段：

首先，编写一系列有效代码，以自动设置每个模态的训练和测试数据加载器。每个阶段步骤都由单元测试引导，LLM 可以使用这些单元测试来反思和生成更好的代码。之后，引入了一组联合单元测试，让智能体执行跨步骤反思以进行 credit 分配。
完成这些后，Agent K v1.0 执行格式化数据生成的第二阶段，其中会生成提交格式和度量函数代码。到这个阶段结束时，任务 t 已被设置好，可以解决了 —— 这里还会用一个最终单元测试来检查。

第二阶段（优化）：解决数据科学任务

数据科学工作流程的这一部分通常涉及许多步骤，包括生成脚本以预处理输入、创建各种模型或优化超参数。

由于可以进行多次尝试，并且每个解决方案都是复合工作流程的结果，因此要实现非常有竞争力的性能，需要能够推断每个解决方案组件的优势和劣势，并决定修改哪个部分或下一步尝试什么。

在这里，该通过智能体的外部动作将这些决定留给了智能体，并使用针对数据驱动的预测设计量身定制的几种工具为其提供支持。

第三阶段（泛化）：多任务和主动任务选择

有效的智能体应该有能力解决不同领域的多种任务。该团队还为 Agent K v1.0 配备了跨领域的任务求解能力，其做法是将之前的设置泛化到多任务设置。并且，他们注意到了多任务解决方案的不可行性，于是还提出了一种在线持续学习扩展。

下图展示了 Agent K v1.0 智能体的总体设计。

按照 Kaggle 的设置，Agent K v1.0 只需要自然语言描述和非标准化原始数据即可成功完成任务。在每一轮 j 中，它会根据之前尝试过的任务的历史记录主动选择要解决的数据科学任务，并将其填充到随时间变化的向量数据库 RAG_j 中。这种选择是策略 π_1 (・) 基于 RAG_j 和一个剩余任务池执行的。

选择了任务之后，Agent K v1.0 会使用 π_setup (・) 自动执行标准化、清理任务数据、准备训练和测试指标等操作。这个过程同样基于 RAG_j。

设置完成后，Agent K v1.0 就会尝试解决任务，这个过程会访问工具并根据分数反馈进行改进。这些 Python 日志会对 RAG_j 进行更新，并重复此过程。

竞争性数据科学基准

当前的数据科学智能体缺乏竞争性基准测试，这限制了它们在专业领域的表现。为此，该团队也做出了自己的贡献：基于 Kaggle 竞赛构建了一个多样化且竞争性的数据科学基准，而 Kaggle 提供了 27K 个多样化数据集、110 万个笔记本、超过 7.7K 个预训练机器学习模型和大约 27K 场比赛。

该基准支持在一个透明的排行榜上与人类参与者进行直接比较并涵盖计算机视觉、自然语言处理、时间序列和表格数据等多种任务，支持多种模态。

下图展示了该基准中 Kaggle 任务的分布情况。目前，其中 55% 是表格任务，包括数值、类别、字符串和布尔值表。另外计算机视觉站 24%，自然语言处理占 10%、多模态任务占 11%。

下表则是基于 Kaggle 的指南和风格构建的 Kaggle 进展系统。⋆ (Top 10 + 0.2 %) 是指竞赛每增加 500 个参赛队伍，就会额外给出一枚金牌。举个例子，如果一个竞赛有 500 个参赛队伍，则会给 11 团队授予金牌。而如果竞赛队伍有 5000 个，则金牌数会达到 20。

实验和结果

Agent K 表现如何？终究还需看实验结果。该团队严格测试了 Agent K v1.0（基础模型使用了 Qwen-2.5 72B）实现完全自动化的能力以及性能。

在自动化方面，他们评估了新系统能否有效地直接根据 Kaggle URL 设置任务。结果，在跨多个领域自动执行任务方面，该系统实现了 92.5% 的准确度，展示了其完全自动化地实现复杂设置的能力。

在性能方面，在多模态挑战赛中，该团队的方法实现了相当于 6 金 3 银 7 铜的成绩（共 65 场竞赛），成为了首个达到 Kaggle Grandmaster level 1 水平的方法。下图展示了 Agent K v1.0 在各个任务上的性能表现。

此外，他们还测量了 Agent K v1.0 与人类参与者的 Elo-MMR 评分。结果表明，在由 5856 名参赛者组成的竞赛池中，Agent K v1.0 排名前 38%。

实验详情和更多实验结果以及相关讨论请访问原论文。

#MS-Bot

聚焦「视听触感官」协同配合的具身精细操纵，人大胡迪团队领衔探索机器人模态时变性挑战

本文作者来自于中国人民大学，深圳朝闻道科技有限公司以及中国电信人工智能研究院。其中第一作者冯若轩为中国人民大学二年级硕士生，主要研究方向为多模态具身智能，师从胡迪教授。

引言：在机器人操纵物体的过程中，不同传感器数据携带的噪声会对预测控制造成怎样的影响？中国人民大学高瓴人工智能学院 GeWu 实验室、朝闻道机器人和 TeleAI 最近的合作研究揭示并指出了 “模态时变性”（Modality Temporality）现象，通过捕捉并刻画各个模态质量随物体操纵过程的变化，提升不同信息在具身多模态交互的感知质量，可显著改善精细物体操纵的表现。论文已被 CoRL2024 接收并选为 Oral Presentation。

，时长01:44

人类在与环境互动时展现出了令人惊叹的感官协调能力。以一位厨师为例，他不仅能够凭借直觉掌握食材添加的最佳时机，还能通过观察食物的颜色变化、倾听烹饪过程中的声音以及嗅闻食物的香气来精准调控火候，从而无缝地完成烹饪过程中的每一个复杂阶段。这种能力，即在执行复杂且长时间的操作任务时，灵活运用不同的感官，是建立在对任务各个阶段全面而深刻理解的基础之上的。

然而，对于机器人而言，如何协调这些感官模态以更高效地完成指定的操作任务，以及如何充分利用多模态感知能力来实现可泛化的任务执行，仍是当前尚未解决的问题。我们不仅需要使模型理解任务阶段本身，还需要从任务阶段的新角度重新审视多传感器融合。在一个复杂的操纵任务中完成将任务划分为不同阶段的一系列子目标的过程中，各个模态的数据质量很可能随任务阶段而不断变化。因此，阶段转换很可能导致模态重要性的变化。除此之外，每个阶段内部也可能存在相对较小的模态质量变化。我们将这种现象总结为多传感器模仿学习的一大挑战：模态时变性（Modality Temporality）。然而，过去的方法很少关注这一点，忽视了阶段理解在多传感器融合中的重要性。

本文借鉴人类的基于阶段理解的多感官感知过程，提出了一个由阶段引导的动态多传感器融合框架 MS-Bot，旨在基于由粗到细粒度的任务阶段理解动态地关注具有更高质量的模态数据，从而更好地应对模态时变性的挑战，完成需要多种传感器的精细操纵任务。

论文链接：https://arxiv.org/abs/2408.01366v2
项目主页：https://gewu-lab.github.io/MS-Bot/

模态时变性

在复杂的操作任务中，各传感器数据的质量可能会随着阶段的变化而变化。在不同的任务阶段中，一个特定模态的数据可能对动作的预测具有重大贡献，也可能作为主要模态的补充，甚至可能几乎不提供任何有用的信息。

图 1 倾倒任务的模态时变性

以上图中的倾倒任务为例，在初始的对齐阶段中，视觉模态对动作的预测起决定性作用。进入开始倾倒阶段后，模型需要开始利用音频和触觉的反馈来确定合适的倾倒角度（倒出速度）。在保持静止阶段，模型主要依赖音频和触觉信息来判断已经倒出的小钢珠质量是否已经接近目标值，而视觉几乎不提供有用的信息。最后，在结束倾倒阶段，模型需要利用触觉模态的信息判断倾倒任务是否已经完成，与开始倾倒阶段进行区分。除阶段间的模态质量变化，各个阶段内部也可能存在较小的质量变化，例如音频模态在开始倾倒和结束倾倒的前期和后期具有不同的重要性。我们将这两种变化区分为粗粒度和细粒度的模态质量变化，并将这种现象总结为多传感器模仿学习中的一个重要挑战：模态时变性。

方法：阶段引导的动态多传感器融合

为了应对模态时变性的挑战，我们认为在机器人操纵任务中，多传感器数据的融合应该建立在充分的任务阶段理解之上。因此，我们提出了 MS-Bot 框架，这是一个由阶段引导的动态多传感器融合方法，旨在基于显式的由粗到细的任务阶段理解动态地关注具有更高质量的模态数据。为了将显式的阶段理解整合到模仿学习过程中，我们首先为每个数据集中的样本添加了一个阶段标签，并将动作标签和阶段标签共同作为监督信号训练包含四个模块的 MS-Bot 框架（如图 2 所示）：

特征提取模块：该模块包含一系列单模态编码器，每个编码器都接受一段简短的单模态观测历史作为输入，并将它们编码为特征。
状态编码器：该模块旨在将各模态特征和动作历史序列编码为表示当前任务状态的 token。动作历史与人类记忆相似，可以帮助指示当前所处的任务状态。我们将动作历史输入到一个 LSTM 中，并通过一个 MLP 将它们与模态特征编码为状态 token。
阶段理解模块：该模块旨在通过将阶段信息注入状态 token 中，从而实现显式的由粗到细粒度的任务阶段理解。我们用一组可学习的阶段 token 来表示每个任务阶段，并通过一个门控网络（MLP）来预测当前所处的阶段，利用 Softmax 归一化后的阶段预测分数对阶段 token 进行加权融合，得到当前阶段 token。门控网络的训练以阶段标签作为监督信号，对非当前阶段的预测分数进行惩罚。我们还放松了对阶段边界附近的样本上的相邻阶段分数惩罚，从而实现软约束效果，得到更平滑的阶段预测。新的注入阶段信息后的状态 token 由原状态 token 和阶段 token 加权融合得到，可以表示任务阶段内的细粒度状态，从而对多传感器动态融合进行引导。
动态融合模块：该模块根据当前任务阶段的细粒度状态动态地选择关注的模态特征。我们以注入了阶段信息的状态 token 作为 Query，将模态特征作为 Key 和 Value 进行交叉注意力（Cross Attention）。该方法根据当前任务阶段的需求，将各模态的特征动态地整合到一个融合 token 中。最后，该融合 token 输入到策略网络（MLP）中预测下一个动作。我们还引入了随机注意力模糊机制，以一定概率将各单模态特征 token 上的注意力分数替换为相同的平均值，防止模型简单地记忆与注意力分数模式对应的动作。

图 2 由阶段引导的动态多传感器融合框架 MS-Bot

实验结果

为了验证基于由粗到细的任务阶段理解的 MS-Bot 的优越性，我们在两个十分有挑战性的精细机器人操纵任务：倾倒和带有键槽的桩插入中进行了详细的对比。

图 3 倾倒与带有键槽的桩插入任务设置

如表 1 所示，MS-Bot 在两个任务的所有设置上均优于所有基线方法。MS-Bot 在两个任务中的性能超过了使用自注意力（Self Attention）进行动态融合的 MULSA 基线，这表明 MS-Bot 通过在融合过程中基于对当前阶段的细粒度状态的理解更好地分配模态权重，而没有显示阶段理解的 MULSA 基线无法充分利用动态融合的优势。

表 1 倾倒和带有键槽的桩插入任务上的性能比较

我们还对任务完成中各个模态的注意力分数和各阶段的预测分数进行了可视化。在每个时间步，我们分别对每种模态的所有特征 token 的注意力分数进行平均，而阶段预测分数是 Softmax 归一化后的门控网络输出。如图 4 所示，MS-Bot 准确地预测了任务阶段的变化，并且得益于模型中由粗到细粒度的任务阶段理解，三个模态的注意力分数保持相对稳定，表现出明显的阶段间变化和较小的阶段内调整。

图 4 各模态注意力分数和阶段预测分数可视化

为了验证 MS-Bot 对干扰物的泛化能力，我们在两个任务中都加入了视觉干扰物。在倾倒任务中，我们将量筒的颜色从白色更改为红色。对于桩插入任务，我们将底座颜色从黑色更改为绿色（“Color”），并在底座周围放置杂物（“Mess”）。如表 2 所示，MS-Bot 在各种有干扰物的场景中始终保持性能优势，这是因为 MS-Bot 根据对当前任务阶段的理解动态地分配模态权重，从而减少视觉噪声对融合特征的影响，而基线方法缺乏理解任务阶段并动态调整模态权重的能力。

表 2 含视觉干扰物场景中的性能比较

总述

本文从任务阶段的视角重新审视了机器人操纵任务中的多传感器融合，引入模态时变性的挑战，并将由子目标划分的任务阶段融入到模仿学习过程中。该研究提出了 MS-Bot，一种由阶段引导的多传感器融合方法，基于由粗到细粒度的阶段理解动态地关注质量更高的模态。我们相信由显式阶段理解引导的多传感器融合会成为一种有效的多传感器机器人感知范式，并借此希望能够激励更多的多传感器机器人操纵的相关研究。

#CodePlan

大模型推理新范式！清华&蚂蚁：用编程思维来思考，用自然语言来表达

该论文的第一作者是清华大学计算机系研究生温佳鑫，蚂蚁技术研究院副研究员关健为共同第一作者。

大模型应该以什么形式进行推理？自然语言是表示推理路径的最佳方案吗？

2024 年 9 月，OpenAI 携 o1 模型吹响推理革命的号角，以惊人的思维链长度刷新认知边界。在这场技术革命中，中国力量迅速崛起：DeepSeek R1 以极低的训练成本成功复现 o1 性能，引发全球热议。然而，在振奋的结果背后，上述「灵魂拷问」似乎并没有得到解答。

事实上，在这场推理大潮来临之前，本文研究团队就一直在围绕这些问题进行思考和探讨。自然语言形式的推理范式虽然从思维链开始就主导了推理模型的构建，其本身却存在着不可忽视的缺陷：推理过程中常见逻辑断裂、焦点漂移、冗余重复等系统性问题。这就像一名博学却缺乏系统训练的学生，知识有余而逻辑不足。

研究团队认为这些问题源自自然语言的双面性：表达自由灵活，却难以传递严谨的结构化思维。更本质的挑战在于：文本中蕴含的推理结构往往被埋藏在自然语言冗余的表达形式之下。这些隐含的逻辑模式难以被模型有效捕捉和复用。对于参数量较小的模型而言，这一困境更为严峻。

为应对这一困境，研究团队在 ICLR 2025 上提出了 CodePlan 方法。这一创新框架将「代码形式的规划」（Code-Form Planning）引入推理过程，让大模型先用「编程思维」来思考，再用自然语言来表达。

得益于编程语言的严谨特性，代码规划能够精确构建包含条件分支、循环迭代、函数调用等结构的推理蓝图，就像为大模型装上了一个逻辑严密的「操作系统」。更有趣的是，由于编程语言存在海量的数据，这种方法无需繁重的人工标注，能够自动从已有数据中提取隐含的规划信号；并且由于已有代码覆盖了各个领域的问题，CodePlan 除了解决复杂推理问题外，还可以很好地泛化到其它任务上。

在 13 个具有挑战性的基准测试中，CodePlan 实现了平均 25.1% 的相对性能提升。目前，研究团队已开源了 200 万条包含代码形式规划的推理数据，以期推动这一方向的研究。

论文标题：CodePlan: Unlocking Reasoning Potential in Large Language Models by Scaling Code-form Planning
论文地址：https://arxiv.org/pdf/2409.12452
Github: https://github.com/thu-coai/CodePlan
Dataset: https://huggingface.co/datasets/jiaxin-wen/CodePlan

一. 推理能力的阿喀琉斯之踵

在大模型推理能力突飞猛进的表象之下，隐藏着一个被忽视的现象：随着研究者不断追逐更大的参数规模、更庞大的数据量，模型的「思维熵增」现象反而愈发严重。这种反常现象主要表现在两个方面：一是推理过度膨胀，即便是回答「2+3=?」这样的简单问题，o1 模型也会生成长达 200 多个 token 的冗长思维链；二是推理不够专注，在解决复杂问题时频繁跳跃于不同思路之间，却始终无法深入任何一个方向得出正确答案。

这一现象暴露出当前技术路线中一个根本性矛盾：自然语言固有的非结构化特性，与系统化推理所需的严谨规划框架之间存在着难以调和的冲突。

深入分析这一现象，研究团队发现现有的推理模型主要依赖两个步骤：首先通过自然语言形式随机探索生成海量的推理路径，然后借助强化学习算法从中筛选优质轨迹。这种方法虽然拓宽了推理的探索空间，却像在茫茫沙漠中漫无目的地搜寻绿洲，缺乏有效的导航机制必然导致效率低下。更为致命的是，这种基于自然语言的自由推理方式难以沉淀出可复用的结构化知识，导致模型每次面对新问题时都需要从零开始探索。

因此，现有方法虽然培养了模型强大的直觉能力，却忽视了人类思维最本质的特征 —— 通过高层规划将零散知识系统化的能力。

CodePlan 在 5 类核心推理任务上取得显著提升。Vaniila: 不使用规划的基线方法；Natural Language Plan：基于自然语言的规划方法。

二. CodePlan：为大模型装载结构化思维引擎

面对大模型推理能力的瓶颈，研究团队提出了 CodePlan 框架，其核心创新在于引入「代码形式规划」（Code-Form Planning）作为思维的中间表征。

这一创新建立在对推理结构的精确表达之上。通过将编程语言的严谨结构引入推理过程，CodePlan 为大模型构建了一个可靠的「思维操作系统」。这个系统通过两个层次来实现思维的结构化：先用 Python 风格的伪代码勾勒出高层次的推理框架；再基于这个框架，系统性地展开具体推理步骤。

如下图所示，这种基于代码的表达方式具有四大核心优势：

条件分支能力：通过 if 语句动态调整推理路径，实现灵活的上下文适应；
循环迭代结构：利用 for 循环高效处理序列数据和重复操作；
模块化工具：通过函数定义和调用，增强模型对工具的创建和使用能力；
层次化架构：通过变量定义、子任务分解和严谨的逻辑编排，支持复杂推理任务的模块化分解。

相比传统的自然语言规划，CodePlan 的优势突出。Python 代码不仅能够以更简洁的方式传递规划信息，而且这种表达方式在预训练语料中分布更广，使模型在训练阶段就已经建立起对代码结构的深层理解。

这种与生俱来的「代码素养」让模型能够更自然地生成和理解规划信息，大大降低了学习成本。更重要的是，这种规划方式展现出惊人的通用性——从数学推理到指令理解，从符号运算到开放式问题，都能构建出清晰的代码形式规划表示。

三. 广泛提升模型推理能力

为验证 CodePlan 的效果，研究团队构建了一套高效的规划信息自动挖掘方法。如下图所示，该方法包含两个关键创新：首先通过代码预训练模型精准解析文本中潜藏的推理结构，将其转化为显式的伪代码表示；其次设计了基于启发式评分的动态过滤机制，确保所提取规划的质量。

基于这一方法，团队成功构建了一个包含 200 万个「< 用户提示，代码规划，回复 >」三元组的大规模数据集。

训练数据构建流程。

实验结果令人振奋。研究团队以 Mistral 和 Llama 为基座模型，在跨越数学推理、符号运算、指令理解、多跳问答和决策等五大领域的 13 个具有挑战性的基准测试中进行了系统评估。

结果显示，相比于直接从用户指令生成推理步骤的基线方法（Vanilla）和使用自然语言形式规划的传统方法（PS Prompting），CodePlan 在所有任务上都实现了显著提升。特别是在复杂度较高的任务上，性能提升更为明显。例如，在 Last Letter 任务上，Mistral-7B 的准确率提升了超过 20 个百分点，展示出 CodePlan 在处理高难度推理问题时的独特优势。

1. 任务越复杂，提升越显著

深入分析实验结果揭示了 CodePlan 一个令人瞩目的特性：随着任务复杂度的提升，其性能优势愈发显著。研究团队以多跳问答任务为例进行了精细化分析，通过将数据集按推理步数（2 跳、3 跳、4 跳）划分，清晰地展示了这一规律。

多跳问答任务的性能对比。

如上图所示，在相对简单的 2 跳问题上，CodePlan 相比基线模型已有稳定提升；而在需要三次以上推理跳转的复杂问题中，性能差距急剧扩大。特别是在最具挑战性的 4 跳问题上，CodePlan 的优势达到最大，这充分说明其在处理深层次推理时的卓越能力。

这种「难者愈强」的特性，正是源于 CodePlan 的结构化推理框架。通过将复杂推理过程分解为清晰的代码步骤，模型能够更好地把控长程依赖关系，避免了传统方法在多步推理中常见的逻辑断裂和注意力发散问题。

2. 更高效、更稳定的后训练

研究团队在探索 CodePlan 的训练特性时，发现了另一个重要优势：它为大模型的后训练提供了一条更高效、更可靠的路径。

CodePlan 的训练曲线。

如上图所示，在 GSM8K 数学推理和 MuSiQue 多跳问答这两个具有代表性的任务上，CodePlan 展现出显著的训练优势。传统的后训练方法（蓝线）在训练过程中表现出明显的性能波动。相比之下，CodePlan（橙线）不仅实现了更快的性能提升，更重要的是保持了稳定的上升趋势。

这一现象揭示了 CodePlan 的核心优势：通过引入结构化的代码规划作为中间表示，它成功建立了一个更加普适的学习框架。这个框架能够有效降低不同任务之间的表达差异，使得模型可以更专注于学习本质的推理模式，从而实现知识的高效迁移和稳定积累。这不仅提高了训练效率，更为大模型能力的持续进化提供了可靠保障。

3. 案例分析：化繁为简的结构化思维

让我们来看看「数值比较」（9.8 和 9.11 谁更大）和「字母计数」（统计 strawberry 中字母 r 的出现次数）这两个看似简单，却常常难倒模型的问题。

如上表所示，CodePlan 通过引入代码形式的规划，优雅地解决了这些问题。与之形成鲜明对比的是，没有规划辅助的模型往往给出模糊或错误的答案。它们要么直接下结论，要么陷入冗长却不准确的解释中，反映出缺乏系统化思维方法的局限。

这个对比表明：CodePlan 不是简单地告诉模型「该做什么」，而是教会模型「如何思考」。通过将复杂任务分解为清晰的代码步骤，CodePlan 为模型提供了一个可靠的问题解决范式。

结语：开辟大模型结构化思维新思路

CodePlan 的提出为大模型推理能力发展提供了一个新思路。这项创新通过将代码形式规划引入推理过程，成功解决了自然语言表达中的结构化缺陷；更重要的是，它开创了一种全新的方法论，为大模型注入了系统化的问题解决能力。通过开源 200 万条规划数据，研究团队为整个社区贡献了资源。在此基础上，期待在金融、医疗等高要求场景中有更多激动人心的应用突破。

#2024图灵奖颁给了强化学习之父Richard Sutton与导师Andrew Barto

强化学习先驱 Andrew Barto 与 Richard Sutton 获得今年的 ACM 图灵奖。

人工智能学者，再次收获图灵奖！

刚刚，计算机学会（ACM）宣布了 2024 年的 ACM A.M. Turing Award（图灵奖）获得者：Andrew Barto 和 Richard Sutton。

他们都是对强化学习做出奠基性贡献的著名研究者，Richard Sutton 更是有「强化学习之父」的美誉。Andrew Barto 则是 Sutton 的博士导师。自 1980 年代起，两位学者在一系列论文中提出了强化学习的主要思想，还构建了强化学习的数学基础，并开发了强化学习的重要算法。两人合著的《Reinforcement Learning: An Introduction》一直是强化学习领域最经典的教材之一。

Andrew Barto 是马萨诸塞大学阿默斯特分校信息与计算机科学荣休教授。Richard Sutton 是阿尔伯塔大学计算机科学教授，同时也是 Keen Technologies 的研究科学家。

ACM 图灵奖常被称为「计算机领域的诺贝尔奖」，奖金为 100 万美元，由谷歌公司提供资金支持。该奖项以提出计算数学基础的英国数学家艾伦・图灵命名。

强化学习，当今 AI 突破的原点

说起强化学习，我们可以想起最近引爆全球 AI 技术爆发的 DeepSeek R1，其中的强化学习算法 GRPO 赋予了大模型极强的推理能力，且不需要大量监督微调，是 AI 性能突破的核心。

再往前看，在围棋上超越人类的 AlphaGo 也是利用强化学习自我博弈训练出的策略。可以说最近的几次 AI 突破，背后总有强化学习的身影。

人工智能领域通常会比较关注智能体的构建 —— 即可以感知和行动的实体。更智能的智能体能够选择更好的行动方案。因此，想出比其他方案更好行动方案概念，对 AI 非常关键。借用自心理学和神经科学的「奖励」— 词，表示向智能体提供的与其行为质量相关的信号。强化学习（RL）是在这种信号下学习更成功行为的过程。

通过奖励学习的理念对动物训练师来说已有数千年历史。后来，艾伦・图灵 1950 年的论文《计算机械与智能》提出了「机器能思考吗？」的问题，并提出了基于奖励和惩罚的机器学习方法。

图灵报告说他进行了一些初步实验，Arthur Samuel 也在 1950 年代后期开发了一个能通过自我对弈学习的跳棋程序。但在接下来的几十年里，AI 的这一方向进展甚微。

直至 1980 年代初，受心理学观察的启发，Andrew Barto 和他的博士生 Richard Sutton 开始将强化学习作为一个通用问题框架进行构建。

他们借鉴了马尔可夫决策过程（MDP）提供的数学基础，在这个框架中，智能体在随机环境中做出决策，每次转换后收到奖励信号，并最大化其长期累积奖励。

与标准 MDP 理论假设智能体知道一切不同，RL 框架允许环境和奖励是未知的。RL 的最小信息需求，结合 MDP 框架的通用性，使 RL 算法可以应用于广泛的问题。

Andrew Barto 和 Richard Sutton 联手或者协同他人，都开发了许多 RL 基本算法。其中包括他们最重要的贡献 —— 时间差分学习（该算法为解决奖励预测问题取得了重要进展），以及策略梯度方法和使用神经网络作为表示学习函数的工具。他们还提出了结合学习和规划的智能体设计，展示了获取环境知识作为规划基础的价值。

同样有影响力的是他们的教科书《Reinforcement Learning: An Introduction》(1998)，它仍然是该领域的标准参考，被引用超过 79,000 次。这本书让数千名研究人员理解并为这一新兴领域做出贡献，至今仍激发着计算机科学领域的许多重要研究活动。

尽管 Barto 和 Sutton 的算法是数十年前开发的，但通过将强化学习与深度学习（由 2018 年图灵奖获得者 Bengio、Hinton、LeCun 开创）相结合，强化学习的实际应用已在过去十五年中取得重大进展。于是，深度强化学习技术应运而生。

强化学习最著名的例子是 AlphaGo 计算机程序在 2016 年和 2017 年战胜了顶级人类围棋选手。另一个近期重大成就是聊天机器人 ChatGPT。

ChatGPT 是一个经过两阶段训练得到的大型语言模型（LLM），其中第二阶段采用了一种名为「基于人类反馈的强化学习（RLHF）」的技术，其作用是可以让模型输出符合人类期望。

强化学习在许多其他领域也取得了成功，其中之一是机器人运动技能学习。通过强化学习，机器手可以学会操作物体和解决物理问题；并且这种学习过程可在模拟中完成，然后再迁移到现实世界。

强化学习适用的领域还包括网络拥堵控制、芯片设计、互联网广告、优化、全球供应链优化、改进聊天机器人的行为和推理能力，甚至改进矩阵乘法算法 —— 这是计算机科学中最古老的问题之一。

最后，强化学习还反过来助力了神经科学的发展 —— 强化学习正是受到了该学科的启发。最近的研究，包括 Barto 的研究成果，已经表明 AI 领域开发的某些强化学习算法可为涉及人类大脑中多巴胺系统的广泛发现提供最佳解释。

「Barto 和 Sutton 的工作展示了将多学科方法应用于我们领域长期挑战的巨大潜力，」ACM 主席 Yannis Ioannidis 解释道。「从认知科学和心理学到神经科学的研究领域启发了强化学习的发展，这为 AI 领域的一些最重要进展奠定了基础，并让我们更深入地了解大脑如何工作。Barto 和 Sutton 的工作不是我们已经超越的垫脚石。强化学习继续发展，并为计算和许多其他学科的进一步发展提供了巨大潜力。用我们领域最负盛名的奖项表彰他们是非常恰当的。」

「在 1947 年的一次演讲中，艾伦・图灵表示『我们想要的是一台能从经验中学习的机器』」，谷歌高级副总裁 Jeff Dean 指出。「Barto 和 Sutton 开创的强化学习直接回应了图灵的挑战。他们的工作是过去几十年 AI 进步的关键。他们开发的工具仍然是 AI 繁荣的中心支柱，带来了重大进步，吸引了大量年轻研究人员，并推动了数十亿美元的投资。RL 的影响将持续到未来。谷歌很荣幸赞助 ACM 图灵奖并表彰那些塑造了改善我们生活的技术的个人。」

个人背景

Andrew G. Barto

Andrew Barto 是马萨诸塞大学阿默斯特分校信息与计算机科学系荣誉退休教授。他于 1977 年作为博士后研究助理在马萨诸塞大学阿默斯特分校开始职业生涯，此后担任过多个职位，包括副教授、教授和系主任。Barto 在密歇根大学获得数学学士学位（优等），并在那里获得了计算机与通信科学的硕士和博士学位。

Barto 的荣誉包括马萨诸塞大学神经科学终身成就奖、IJCAI 研究卓越奖（Research Excellence Award）和 IEEE 神经网络学会先驱奖。他是电气和电子工程师协会（IEEE）会士和美国科学促进会（AAAS）会士。

Richard S. Sutton

Richard S. Sutton 是阿尔伯塔大学计算机科学教授、Keen Technologies（一家总部位于德克萨斯州达拉斯的通用人工智能公司）的研究科学家，以及阿尔伯塔机器智能研究所（Amii）的首席科学顾问。Sutton 从 2017 年到 2023 年是 DeepMind 的杰出研究科学家。在加入阿尔伯塔大学之前，他曾于 1998 年至 2002 年在新泽西州 Florham Park 的 AT&T 香农实验室人工智能部门担任首席技术人员。

Sutton 与 Andrew Barto 的合作始于 1978 年，当时在马萨诸塞大学阿默斯特分校，Barto 是 Sutton 的博士和博士后导师。Sutton 在斯坦福大学获得心理学学士学位，在马萨诸塞大学阿默斯特分校获得计算机与信息科学的硕士和博士学位。

Sutton 的荣誉包括获得 IJCAI 研究卓越奖、加拿大人工智能协会终身成就奖和马萨诸塞大学阿默斯特分校的杰出研究成就奖。Sutton 是伦敦皇家学会会士、人工智能促进协会会士和加拿大皇家学会会士。

参考链接

https://x.com/TheOfficialACM/status/1897225672935735579

https://amturing.acm.org/

#AI编程神器Cursor，保姆级教程

本文详细介绍了AI编程工具Cursor的功能和使用方法，包括其下载安装、界面布局、基础操作以及在文献阅读、写作辅助、数据分析、网页开发等多场景中的应用

一、下载与安装（很丝滑~）

Cursor 是什么？

想象一下，你有一个能把你的创意变成现实的造梦 AI 助手。不管你是想利用 AI 提高办公效率、开启科研提效模式，还是做一个小游戏、开发一个网站，甚至自己尝试做一个手机App，即使你不懂编程，Cursor 都能帮你实现。它接入了很多大模型，包括 DeepSeek，GPT，Claude 等等，只为满足不同的使用场景！（亲测好用！！小白友好！！）

为什么选择 Cursor？

😊 对新手小白（真的是纯小白！）友好，不懂代码也能应用、提效
💡 直接用自然语言（中文）描述你的想法，AI 帮你实现
🎯 实时提示和纠错，就像有位老师在旁边指导
同款工具还有 windsurf（和 Cursor 大差不差，可以交替用），不过本节讲 Cursor 工具（用的顺手）

去哪里下载？

Cursor 的官方网站：https://cursor.sh
点击“download”即可丝滑安装！

点击登录并初始化设置

二、基础操作介绍1. 界面布局介绍

如果你使用过 VScode 编程，那么你应该很熟悉这个界面，因为它就是 VScode 界面；

但如果你和我一样是小白，只为提高工作效率，那么接下来的比喻可能辅助你理解：想象一下你正在一个设备齐全的厨房做菜。Cursor 的界面布局也是这样科学合理：

Image

2. 基础设置2.1 中文模式设置

作为小白使用者，看到一堆英文确实有点懵（什么乱七八糟的 hhh）。别担心！那我们先把界面改成中文:

1. 下载中文包

2. 按下 Ctrl + Shift + P (Mac 是Command + Shift + P)

3. 输入 "language"→ 选择 "Configure Display Language"→ 选择 "中文(简体)"

4. 重启 Cursor，界面就变成中文啦！（怒赞！）

2.2 开启 YOLO 模式

YOLO 模式是 Cursor 的一个特色功能，它能让 AI 更大胆地帮你写代码。开启后:

AI 会更主动地提供完整的代码建议；
生成的代码更符合实际应用场景；
特别适合初学者快速上手和学习（我一般是开启的，因为俺是小白~）

建议新手都开启这个模式，让 AI 成为你更得力的助手！开启方法很简单:

1. 点击右上角的设置图标
2. 找到"实验性功能（Features）"
3. 打开"YOLO 模式"开关即可

2.3 功能窗口区别

Cursor 提供了多种与 AI 交互的方式,让我们来了解一下它们的区别:　Chat窗口 vs Composer窗口

Normal模式 vs Agent模式

我常常使用@功能就是把一堆看不懂的文献、或者看不懂的代码文件，都存放到一个文件夹下，然后@codebase，这个工具就会自动的识别该文件夹目录下的所有文件了，不用我一个一个导入让AI“看”了，而是相当于一键指定了它需要看的内容！

2.4 选择 AI 大模型

由于 Cursor 工具嵌入了很多模型，包括 deepseek、gpt、claude、gemini 等等，选择自己喜欢的模型就行。（一般来说，claude 在写代码方面要优一些，然后 deepseek 会在讨论方面会更好一点）

而软件也在更新，有时候会接入一些新的模型，比如近期接入了“deepseek r1”，就可以把它勾选上，这样新的模型就可以为我们服务啦！！

3. 基本操作入门

创建新项目：点击左上角的"文件" → "新建文件"
基本代码编辑：像写文字一样直接输入
AI 代码补全：输入时会自动弹出建议
实时错误提示：有错误会自动标红提醒
……（You can do what you want）

3.1 代码补全尝试

3.2 文章生成尝试（类似 ChatGPT）

3.3 一句话生成网页

小贴士：不要被这些功能吓到！就像学做菜一样，从最简单的开始，慢慢就会熟练起来啦！

3.4 快捷键

提示：可以点击左上角"文件" → "首选项" → "键盘快捷方式"来查看完整的快捷键列表

三、AI提效应用场景1. 文献阅读

PDF文档导入功能
智能文本解析
关键信息提取

我想写一个文献阅读梳理，请帮我阅读这篇文献，然后告诉我主要讲了什么

2. 视频选题推荐

基于兴趣的主题推荐
热点话题分析
研究方向建议

我是一个AI视频博主，想做一期文生视频和图生视频的选题，请帮我想5个方向。

3. 生成大纲

智能大纲生成
结构优化建议
逻辑关系分析

我想让小学生也能快速制作海报（文生图）的一些工具和方法，请帮我生成大纲

4. 写作相关4.1 辅助写作（带有 AI 功能的 word 文档）

4.2 续写和扩写内容

请帮我写一篇《生活中的小确幸》文章，包含亲情、友情、爱情的小事情，800字。

4.3 改写语言风格（文言文）

帮我改写成文言文的风格

4.4 翻译

对比其他的翻译工具，可实现逐句翻译对照（这一点很爽！！！逐句对照！写论文友好！）。

帮我翻译成英文

5. 储存文档历史

版本控制
修改记录
协作管理

点击“时间线”，会查看到历史修改的记录，可帮助我们更好的优化内容！

6. 数据分析与可视化6.1 提数据分析需求

我现在有关于银行客户的数据样例，主要想做“银行信用：对银行客户的评分判别”分析，请帮我生成python代码并且分析

6.2 AI编写代码与运行

6.3 结果分析与可视化

7. Deepseek + Cursor 科研神器

分享一个用 Cursor 使用 Deepseek 的科研小技巧，可能不需要在多个 AI 平台来回切换了，直接在这个平台就可以进行。我平常会使用 chat 功能（deepseek r1 模型）来讨论，讨论需求、讨论选题、头脑风暴... 然后使用 composer 模式让它基于讨论的内容去生成、执行、写 python 代码、写 md 文档，科研 yyds！解放生产力！

还记得我们最开始怎么做科研的吗？（在没有 AI 之前）

可能是需要人工看大量的文献，来总结时间线、归纳文献综述、总结 research gap 等等；还需要从 GitHub、csdn 等等平台参考代码、反复调试、然后报错、然后不气馁、然后跑通（开心）。现在有了 AI 工具善用它，确实可以提高我们的效率，然后更专注于“创造性”层面的事情！

8. 个人网站快速开发8.1 明确的需求

把我们的需求复制给 Cursor，它就能自动帮我们生成完整的网页代码（包含 HTML/CSS/JS 文件）

8.2 个性化调整

9. 其他提效场景（多多探索 and 尝试）

撰写 PRD（产品需求文档），理清楚思路
绘画 PRD 示意图、动态效果直接展示给后端开发者，减少沟通成本
开发浏览器插件，可以自己 diy 一些小东西（比如视频字幕提取、视频总结等插件）
Web 网页应用（可以与商家合作）
......

💡 小贴士：遇到困难时不要灰心，学会善用AI助手，AI工具真的很高效！！作为小白，也可以多用用不同的工具，看看哪个适合自己，自己会在哪些场景下使用，来回切换几个不同的工具，每个工具可能也有侧重点，用它！

#2B复现DeepSeek-R1

全球首次！「啊哈时刻」，UCLA等用纯RL实现多模态推理

由UCLA等机构共同组建的研究团队，全球首次在20亿参数非SFT模型上，成功实现了多模态推理的DeepSeek-R1「啊哈时刻」！

就在刚刚，我们在未经监督微调的2B模型上，见证了基于DeepSeek-R1-Zero方法的视觉推理「啊哈时刻」！

这一成就，再次让AI社区轰动。

博客地址：https://turningpointai.notion.site/the-multimodal-aha-moment-on-2b-model

开源项目：https://github.com/turningpoint-ai/VisualThinker-R1-Zero

DeepSeek-R1的独特推理能力，能成功扩展到多模态推理领域吗？

UCLA等机构的研究者发现，虽然目前已经涌现出许多试图复现DeepSeek-R1的研究，然而这些研究大多遭遇了这个难点：很难复现出R1所表现出的回答长度增加和思考模式。

幸运的是，他们成功了！如同DeepSeek-R1论文所描述的那样，多模态的「啊哈时刻」出现了——模型回答中涌现出了自我反思能力。

他们不仅成为全球首个成功在多模态推理中产生了「啊哈时刻」涌现现象和回答长度增加的团队，而且仅仅使用了一个未经监督微调的2B模型。

此外他们还发现：更长的推理过程可以让以视觉为中心的任务极大受益。

图1：VisualThinker-R1-Zero在Qwen2-VL基础模型上的训练动态变化

最初，研究者观察到了回答长度下降，因为基础模型倾向于生成HTML代码。通过强化学习，这种行为很快被抑制，随后回答长度开始规律地增加。之后，多模态的「啊哈时刻」出现了。随后，回答长度和基准准确率之间展现出一致的正相关关系。

具体来说，研究者从从Qwen2-VL-2B基础模型开始，直接在SAT数据集上进行强化学习。

没有任何SFT的情况下，模型就在CVBench上达到了59.47%的准确率，比基础模型高出约30%，比经过SFT的模型高出约2%。甚至，这个模型大幅超越了指令微调模型，而后者的训练数据明显更多。

现在，研究者已经在GitHub上开源了训练代码和关于回答长度的发研究发现，希望能加速AI社区未来对多模态推理的研究。

DeepSeek-R1的关键特征

DeepSeek-R1已经证明，强化学习可以在没有任何监督推理数据的情况下增强模型的推理能力。

这种成功背后，究竟包含着哪些关键特征？

研究者认真总结了这些特征，与自己的模型和其他多模态复现模型进行了比较。

在此过程中，他们格外强调两种显著的现象：「啊哈时刻」和响应长度的持续增长。

前者指的是模型在训练过程中，开始自主开发高级问题解决策略；后者则表明，模型在训练过程中自然学会了利用更长的思考时间来解决推理任务。

总之，如果复现模型并未展现出DeepSeek-R1的这些关键特征，那是否成功复现，就值得存疑。

DeepSeek-R1与多模态复现模型的比较

多模态的「啊哈时刻」

在DeepSeek-R1-Zero训练过程中，观察到的一个特别引人入胜的现象，就是「啊哈时刻」的出现：

. . .等等，等等。等一下。我在这里发现了一个啊哈时刻。让我们重新一步步评估，以确定正确的计算结果是否可以 · · ·. . .

这个「啊哈时刻」表明，DeepSeek-R1-Zero能够自发构建推理策略，重新审视自己的初始方法，来提升自己的推理能力。

如下图所示，研究者在对以视觉为中心的推理任务进行强化学习训练期间，也观察到了类似行为——

模型展现出一种涌现能力，能够「重新审视」图像并纠正自身错误。

. . .因此，带有白色毯子的深棕色木床不在门口上方。让我们重新一步步评估，但等等！我想到了其他可能。也许它只是高于门口，但又略低于门框顶部。. . .

这种多模态「啊哈时刻」，加上响应长度的持续增长，证明了一个令人兴奋的事实：在视觉任务中，RL具有解锁全新层次智能的巨大潜力！

多模态大语言模型上的R1-Zero训练方法

所以，VisualThinker-R1-Zero究竟是怎样通过直接对未经SFT的基础模型应用RL训练，从而实现「啊哈时刻」的涌现的？

现有的将RL应用于微调视觉模型的项目，都未能复制DeepSeek-R1的关键特征。

而这项工作的研究者却独辟蹊径，发现了一种被忽视的方法——直接对未经监督微调的模型应用强化学习。

这种训练设置，就成了在多模态推理中实现真正「啊哈时刻」的关键！

遵循DeepSeek-R1的做法，研究者们采取了一种简洁优雅的RL方法，避免使用奖励模型或类似于蒙特卡洛树搜索（MCTS）的技术。

具体来说，他们采用GRPO算法，并使用基于规则的奖励函数，根据响应的格式和正确性来评估：

如果响应提供最终答案且正确，模型获得+1的准确性奖励。
如果响应将思考过程封装在<think></think>标签内，将最终答案封装在<answer></answer>标签内，模型获得+1的格式奖励。

团队的实现是基于DeepSeek-R1的报告，而初步实验表明，这种奖励函数有助于策略模型快速收敛，生成符合期望格式的响应。

实验

在实验中，研究团队微调了Qwen2-VL-2B基础模型，并在CV-Bench（一个以视觉为中心的基准测试套件）上评估其性能。

训练过程使用了来自SAT训练数据集的约12,000个查询，该数据集专注于空间推理问题。

与DeepSeek-R1-Zero类似，他们直接在基础模型上应用强化学习，而不进行任何监督微调。

这种方法比Qwen2-VL-2B（基础模型）提升了约30%的性能，比Qwen2-VL-2B-Instruct（指令微调模型）提升了约5%，比Qwen2-VL-2B SFT（基础+监督微调版）提升了约2%的基准性能。

这表明：视觉推理同样能从R1-Zero训练中获益。强化学习对多样化推理的探索，展现出了更具可扩展性的训练方法。

如下图2显示主要结果：R1方法相比基础模型和指令微调模型均取得了显著性能提升。

图2. 主要结果：该方法在基础模型和指令微调模型上取得了显著的改进

指令模型的早期实验与发现

很多研究者往往会倾向于直接对视觉指令模型应用强化学习，从而提升模型性能。

然而，研究团队在早期实验中却发现，尽管对指令模型应用GRPO确实提高了性能，但这种方法并未复现DeepSeek-R1报告中的观察结果和发现。

在此，他们也分享出了自己的失败案例。

不过，这也并不意味着这些方法就无法构建有效的视觉推理模型。

无实质内容的推理路径

与先前研究类似，他们最初对指令微调模型应用RL的尝试虽然提高了性能，但同时导致模型响应降级为无实质内容的表面推理与最终答案：

问题：哪个物体距离拍摄这张照片的相机更近，盒子（红框标注）还是桌子（蓝框标注）？模型：<think>为了确定哪个物体距离相机更近，我将测量从相机到每个物体的距离。</think><answer>盒子</answer>

这就表明：模型可以通过GRPO提高性能，而不必真正发展出推理能力。

由此，就自然而然产生了这样一个问题：针对视觉中心任务的强化学习，是否主要改善了模型的视觉处理能力？

为了探究这一点，研究者们在RL过程中固定视觉编码器（不更新其参数）以评估其影响。（注意：以下结果不能直接与他们的主要结果进行比较，因为指令模型已经在数量明显更多的数据上进行了微调）：

不同微调设置下模型在RL训练期间在CV-Bench上的准确率

下图3所示为强化学习训练过程中不同微调设置下响应长度的变化。横轴代表训练步骤，纵轴表示响应长度。图中比较了三种不同微调配置的模型：冻结大语言模型（绿色）、冻结视觉编码器（蓝色）和全参数微调（红色）。

可以看到，响应长度在训练初期显著下降，之后逐渐趋于稳定。

然而，尽管这三种基于RL的指令模型微调方法都提高了准确率，但却并未真正增强模型的推理能力，因为模型响应仍然很简单，且缺乏实质内容。

图3. 强化学习过程中不同微调设置下的回复长度随训练步骤变化的对比

有趣的是，在冻结视觉编码器的条件下，训练多模态大语言模型反而提高了性能，这一结果与研究者最初的假设相反。

然而，模型的响应依然简短且缺乏意义：

冻结大语言模型的强化学习实验

问题：请估计图像中物体之间的实际距离。哪个物体与交通锥筒（红框标注）的距离更近，是摩托车（蓝框标注）还是公交车（绿框标注）？模型：<think>为了确定哪个物体与交通锥筒距离更近，让我们分析图像中物体之间的距离。</think><answer>摩托车</answer>

冻结视觉编码器的强化学习实验

问题：请估计图像中物体之间的实际距离。哪个物体与交通锥筒（红框标注）的距离更近，是摩托车（蓝框标注）还是公交车（绿框标注）？模型：<think>为了确定哪个物体与交通锥筒（红框标注）距离更近，我们需要分析图像中物体之间的距离。</think><answer>摩托车</answer>

这一现象表明，还需要进行更深入的研究，来理解这种性能改进的原因。

单纯奖励更长回答，能否提高模型性能？

研究团队还探究了另一个问题：回答长度本身，是否是提升推理能力的关键因素？

为此，他们设计了一项实验，评估简单激励模型生成更长回答是否能提升其推理能力。为此，他们对模型生成的每个额外token给予+0.001的奖励。

然而，实验结果表明，单纯奖励回答长度并不能提高模型性能：

下图4显示了在指令微调模型上应用长度奖励的强化学习训练过程中的模型性能变化。

可以看到，虽然平均回答长度（红线）显著增长，但基准测试准确率（绿线）保持相对稳定，这表明更长的回答并不必然带来更强的推理能力。

图4. 在经指令微调的模型上应用基于长度奖励的强化学习训练过程中的性能表现

很快，模型就学会了钻长度奖励的空子，生成极长但毫无意义的错误回答：

问题：考虑图像中长颈鹿（红框标注）和人物的相对位置，长颈鹿相对于人物处于什么位置？模型：<think>- 长颈鹿（红框标注）位于图像前景。- 人物在背景中，站在长颈鹿后方。- 长颈鹿比人物更靠近观察者。- 人物不在长颈鹿正上方。- 人物不在长颈鹿正下方。- 长颈鹿不在人物上方。- 长颈鹿不在人物下方。- 人物不在长颈鹿前面。- 人物不在长颈鹿后面。- 人物不在长颈鹿左侧。- 人物不在长颈鹿右侧。- [重复内容直到达到最大token数限制]

这一结果表明，简单基于长度的奖励机制并不能有效提高模型性能。

研究者建议，未来的研究可以探索设计更优的长度奖励机制，以鼓励模型生成有意义的推理步骤。

在后续研究中，他们将探索响应长度与多模态推理之间的关系，泛化能力与记忆能力的对比，以及R1方法何时有效及其工作原理。

未来计划

进一步分析多模态推理中响应长度的作用
利用经人工筛选的R1-Zero推理路径进行监督微调来复现R1方法

作者介绍

Hengguang Zhou

Hengguang Zhou是加州大学洛杉矶分校（UCLA）一年级的研究生，同时也是TurningPoint AI项目的负责人，该项目由Ruochen Wang和Cho-Jui Hsieh教授指导。

他的研究主要聚焦于多模态大型语言模型的安全性。在LLM时代之前，有从事3D计算机视觉、人机交互（HCI）和视觉丰富的文档理解方面工作的经验。

他在多伦多大学计算机科学获得学士学位。

Xirui Li

Xirui Li是加州大学洛杉矶分校（UCLA）的博士研究生。研究重点是可信AI，特别是基础模型（LLMs/VLMs）的可控性和解释性。

在大语言模型兴起之前，他的研究方向是目标检测和视觉解释技术。除学术研究外，也对创业机会有浓厚兴趣。

目前，他是TurningPoint AI的成员，这是一个由多个实验室联合组建的AIGC研究合作组织，专注于多模态AI智能体的研究，由Dr. Ruochen Wang和Cho-Jui Hsieh教授指导。

他在慕尼黑工业大学获得电气与计算机工程学士学位。期间，在Hao Shen和Tianming Qiu博士的指导下完成了关于Transformer目标检测可解释性的论文。

Ruochen Wang

Ruochen Wang在OpenAI从事多模态研究工作。目前对风险投资和创业有浓厚的兴趣。

他在密歇根大学获得计算机科学和统计学学士学位，并以最高荣誉毕业。在加州大学洛杉矶分校获得计算机科学硕士学位。在加州大学洛杉矶分校获得计算机科学博士学位，期间创立并领导了TurningPoint AI研究团队。

此外，他还与谷歌研究/DeepMind有合作关系。并以第一作者身份，获得了ICLR优秀论文奖。

Minhao Cheng

Minhao Cheng是宾夕法尼亚州立大学信息科学与技术学院助理教授。目前研究兴趣主要在机器学习领域，重点关注可信机器学习和AutoML。

此前，他曾在香港科技大学担任计算机科学与工程助理教授。

他在电子科技大学获得计算机科学与技术学士学位，在加州大学洛杉矶分校计算机科学系获得博士学位，导师是Cho-Jui Hsieh教授。

Tianyi Zhou

Tianyi Zhou是马里兰大学帕克分校计算机科学、UMIACS和AIM的终身制助理教授。目前研究兴趣在机器学习、优化和自然语言处理。

2021-2022年间，他在担任谷歌的访问研究科学家，由Boqing Gong和Ming-Hsuan Yang教授指导。

他在华盛顿大学获得计算机科学博士学位，是Jeff A. Bilmes教授领导的MELODI实验室成员。并曾在悉尼科技大学（UTS）和南洋理工大学担任研究助理，与Dacheng Tao（陶大程）教授合作。

此外，他还曾在雅虎实验室担任研究实习生，由Hua Ouyang博士（苹果）和Yi Chang教授（吉林大学）指导，并曾在微软研究院实习，由Lin Xiao博士（Meta AI）指导。

Cho-Jui Hsieh

Cho-Jui Hsieh是加州大学洛杉矶分校（UCLA）计算机科学系副教授。

他的研究兴趣是开发用于大规模机器学习问题的新算法和优化技术。目前，正在致力于开发新的机器学习模型，以及改进（深度学习）模型的大小、训练速度、预测速度和鲁棒性。

此前，他曾在加州大学戴维斯分校（UC Davis）计算机科学和统计学系担任助理教授三年，并自2018年夏起在谷歌公司担任访问学者。

他在德克萨斯大学奥斯汀分校获得博士学位，导师是Inderjit Dhillon教授。在台湾大学获得硕士学位，导师是Chih-Jen Lin教授。

参考资料：

https://turningpointai.notion.site/the-multimodal-aha-moment-on-2b-model

https://github.com/turningpoint-ai/VisualThinker-R1-Zero

#Light-R1

360智脑开源！1000美元数学上首次从零超越DeepSeek-R1-Distill

2025 年 3 月 4 日，360 智脑开源了 Light-R1-32B 模型，以及全部训练数据、代码。仅需 12 台 H800 上 6 小时即可训练完成，从没有长思维链的 Qwen2.5-32B-Instruct 出发，仅使用 7 万条数学数据训练，得到 Light-R1-32B，在 AIME24 测试基准中取得 76.6 分、AIME25 取得 64.6 分，在数学评测上开源首次实现从零大幅超越 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分和 54.9 分。

一周前，360 智脑联合北大开源了 TinyR1-32B-Preview，从 DeepSeek-R1-Distill-Qwen-32B 训练，在数学、科学和代码上取得了接近 DeepSeek-R1 满血版的优异效果。Light-R1-32B 则不依赖 DeepSeek-R1-Distill，从没有长思维链的模型出发，在数学上从零复现并超越了 DeepSeek-R1-Distill-Qwen-32B。360 智脑希望这些工作助力开源社区发展。

注：表中为 64 次采样均分，较 16 次平均更稳定；其他开源模型截取开源汇报的结果，若没有则测试 64 次取均分。

模型仓库：https://huggingface.co/qihoo360/Light-R1-32B
项目地址：https://github.com/Qihoo360/Light-R1

低成本从零超越，领域专精

DeepSeek-R1 模型发布以来，尽管许多开源工作试图在 72B 或更小的模型上复现长思维链的 DeepSeek-R1 的性能，但至今还没有在 AIME24 等高难度数学竞赛中达到接近 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分的成绩。

360 智脑开源的 Light-R1-32B 实现了突破，从没有长思维链的 Qwen2.5-32B-Instruct 开始训练，它在 AIME24 上取得了 76.6 的高分、在 AIME25 上 64.6 分，均显著超越 DeepSeek-R1-Distill-Qwen-32B。

Light-R1-32B 的这套从零训练的方案，按 H800 租用价格估算，训练成本仅需 1000 美元左右。仅使用了 7 万条数学数据，通过两阶段的课程学习 SFT 接着 DPO，即可超过 DeepSeek-R1-Distill-Qwen-32B，12 台 H800 机器的训练时长仅需 6 小时以内（约 4+0.5+0.5 小时）。

虽然仅使用数学数据训练了模型的长思维链能力，但在 GPQA Diamond 任务上的优秀结果，让我们相信 Light-R1 的训练方案的泛化性及有效性。相比于内部目前正在研发的强化学习路线，Light-R1 的课程学习 SFT+DPO 对整个训练流程更轻便，成本也更友好。随着训练和推理技术的不断发展，未来长思维链模型将更加普及，Light-R1 正为低成本快速训练一个领域专精推理模型提供了重要参考。

全量开源，简单易用

Light-R1 开源首日即开源全量训练和评测资产：

Light-R1-32B 模型：沿用 Qwen2.5-32B Apache 2.0 License；
课程学习 SFT+DPO 数据集：两阶段课程学习 SFT 和 DPO 的全部数据；
360-LLaMA-Factory 训练框架：在长思维链数据 Post-Training（尤其是 DPO）上解锁序列并行；
完整评测代码和结果：基于 DeepScaleR 的评测工具，Light-R1-32B 的原始采样结果也在 Huggingface 模型目录下。

Fully open at Day 1，确保可信度和可复现性。360 智脑也正在探索强化学习续训，未来性能有望进一步提升。

Light-R1-32B 基于 Qwen tokenizer 增加了个别特殊 token。使用 Light-R1-32B 模型时，因其长思维链能力目前仅通过数学数据训练，故并不会对所有用户输入输出长思维链。参照 DeepSeek 的推理建议，我们在聊天模板中硬编码了 < think> token 强制其思考。建议使用较新版本的 vLLM 或 SGLang 进行推理。

课程 SFT+DPO，稳步提升

数据准备

训练用的数学题来自 OpenR1-Math-220k、OpenThoughts-114k、Omni-MATH、AIME（截至 2023 年）等多个开源的数学数据集，并对 AIME、MATH、GPQA 等基准测试的数据泄露去除了污染的题目。

数学题的答案抓取了 DeepSeek-R1 的结果并经过验证过滤。同时使用 DeepScaleR-1.5B-Preview 进行采样根据回答正确率估算题目的难度分级。

课程学习 SFT+DPO

基于 Qwen2.5-32B-Instruct，依次进行 Post-Training：

SFT 阶段 1：根据验证结果和难度分级初筛，得到 7 万条数据进行 SFT；
SFT 阶段 2：在 SFT 阶段 1 之后，筛选出难度最大的 3 千条数据，进行 SFT；
DPO 阶段：在 SFT 阶段 2 之后，在 3 千条数据上多次采样 Light-R1-SFT 阶段 2 的回答，根据验证结果和 DeepSeek-R1 的回答构建 DPO pair 对，进行 DPO，使用 DPO 原始 loss 或 NCA loss。

模型融合

最终，智脑团队将 SFT 阶段 2、DPO 和另一个 DPO 版本的模型（AIME24 74.7 分）融合，使用 Arcee 团队的 mergekit 工具，得到 Light-R1-32B。这两个 DPO 版本在训练数据和超参上略有不同。

整个训练流程中，每一步的提升都在前文的表格中体现。在完全没训练的科学类题目评测 GPQA 上，数学专项训练导致了部分遗忘，但 Light-R1-32B 也体现了较强的泛化性。

数据去重，助力开源生态

基准测试分数既有其重要性，也有局限性。虽然预训练阶段的个别基准测试污染难以完全避免，但在后训练阶段，应当严格杜绝数据污染，在训练集中对测试数据严格去重。360 智脑在研发过程中发现，虽然开源数据集对 AIME 都没有污染，但是在 MATH-500 和 GPQA 上都存在一定污染，通过 N-gram 或纯字母匹配检测，可以发现原题或仅更改数字的计算题。针对这种情况，Light-R1-32B 在训练过程中做了严格去重。

在开源社区中，Light-R1-32B 是首个从零训练超越 DeepSeek-R1-Distill-Qwen-32B 的模型。Light-R1-32B 基于开源模型 Qwen2.5-32B-Instruct 和 DeepSeek-R1 和多个开源数据，使用开源框架 360-LLaMA-Factory 训练，使用开源项目 DeepScaleR 和 verl 评测。360 希望通过 Light-R1-32B 和上周开源的 TinyR1 等工作助力开源生态发展，加速中国 AI。

注：本文 “从零” 表示从没有长思维链的模型开始训练

团队成员：Liang Wen, Fenrui Xiao, Xin He, Yunke Cai, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang

参考资料：

https://github.com/Qihoo360/Light-R1

https://huggingface.co/qihoo360/Light-R1-32B

https://huggingface.co/collections/qihoo360/light-r1-67c675125e2443d7d5ed133d