51c大模型~合集111_fireredasr-aed-l-CSDN博客

本文链接：https://blog.csdn.net/weixin_49587977/article/details/145490405

我自己的原文哦~ https://blog.51cto.com/whaosoft/13258818

#ChatGPT开始公开o3思维链

感谢DeepSeek，ChatGPT开始公开o3思维链，但不完整

奥特曼兑现了承诺。

DeepSeek 带来的压力已经传递给了每一个科技公司。最近一段时间，很多生成式 AI 产品正在加速更新技术。

今天凌晨，OpenAI 为 ChatGPT 上线了多项更新，其中之一是让用户可以更详细地查看 o3-mini、o3-mini-high 的思维链内容。

但遗憾的是，ChatGPT 向用户展示的并非完整的思维链，而是经过总结的版本（而且这个总结版有时候还是错误的）。

虽然这对 ChatGPT 用户来说肯定是好事，但评论区的用户却在感谢 DeepSeek。原因自不必多说。

相较之下，今年 1 月份推出的 DeepSeek R1 可以展示其完整的思维过程。在 AI 社区的很多人看来，展示完整的思维链不仅有助于科学研究，而且在很多时候也能为用户创造更好的使用体验，帮助用户引导模型的思考过程，从而得到满意的结果。

科技媒体 TechCrunch 从 OpenAI 获悉，为 o3-mini 更新思维链的目的是「让人们更容易理解模型的思维方式。通过此更新，你将能够跟踪模型的推理，从而更清晰、更有信心地理解其响应。」

而 OpenAI 之所以选择展示总结版本，而不是完整的思维链，部分原因是竞争。该公司表示其找到了一个平衡：o3-mini 可以「自由思考」，然后将其「思维」组织成某个总结版本。

OpenAI 的某发言人表示：「为了提高清晰度和安全性，我们增加了一个额外的后处理步骤，其中模型会审查原始的思维链，删除任何不安全的内容，然后简化某些复杂的思维。此外，这一后处理步骤可使非英语用户能够以他们的母语接收思维链，从而创造更易于访问和友好的体验。」

这次更新已经上线几个小时了，已经有不少用户在网上分享（吐嘈）了 ChatGPT 的表现。

有用户发现 ChatGPT 总结版思维链看起来非常「专业」，不像 DeepSeek 那样显得比较自然。

也有用户表示 ChatGPT 并不总是会总结自己的思维过程，有时候完全不会给出任何信息。

也做了简单的尝试，让 ChatGPT 尝试用四个字写一首藏头诗。可以看到，虽然 ChatGPT 确实完成了任务并展示了总结版的思维链，但似乎并未如 OpenAI 发言人说的那样给出与提示词语言同样语言的总结版。

在机器学习社区里，似乎也有人找到了目前 ChatGPT 使用的思维链（CoT）总结器的完整 Prompt，看起来有好几页，详情可访问：https://chatgpt.com/canvas/shared/67a53fc77e908191a022ec6593b399b5

这样的提示词一共有八页。

如果这个总结器 prompt 是真的，那么可以看到 OpenAI 确实为其设置了很多限制和约束，比如「如果该部分提到与访问被屏蔽的网站有关的内容，请输出单词 None」。也无怪有用户得到了如下的总结结果了。

OpenAI 今天的另两项更新

除了展示更详细的思维链内容，OpenAI 今天还做了另外两项更新。

一是将 ChatGPT Plus、Pro、Team 的记忆限制提升了 25%。OpenAI 表示还会很快提升企业版和教育版用户的记忆限制。这样一来，ChatGPT 便可以记忆更多与用户的对话内容。

二是开放了 canvas 共享功能：只需一个链接，就可以将你的 canvas 共享出去，其它用户还可以将其变成自己的 canvas 以便进一步编辑。上述分享总结器 Prompt 的链接便是一个共享的 canvas。

参考链接：

https://x.com/op7418/status/1887659279722893643

https://techcrunch.com/2025/02/06/openai-now-reveals-more-of-its-o3-mini-models-thought-process/

https://x.com/testingcatalog/status/1887639833486762239

#多模态版DeepSeek-R1

北大开源：评测表现超GPT-4o！

如果把DeepSeek-R1震撼硅谷的深度推理表现，运用到多模态场景，那会怎样？

此前DeepSeek自家的Janus-Pro-7B没有结合推理能力，但现在，国内有研究团队先做到了——

基于自研全模态框架Align-Anything，北大联合港科大团队推出多模态版DeepSeek-R1：

Align-DS-V，它在部分视觉理解表现评测集上超越GPT-4o。

当图文结合地询问它减肥时更适合喝哪一款饮品时，Align-DS-V精确地指出图中饮品的款数、饮品名称，以及减脂时最适合饮用的是“低糖原味豆奶”。

不仅如此，它还额外指出，图中的原味豆奶同样适合减脂期饮用。

更重要的是，在让DeepSeek-R1“长眼睛”的过程中，研究人员还发现了模态穿透对于模型文本模态推理能力的提升效果。

具体来说，团队在DeepSeek-R1的全模态化尝试中发现，多模态训练之后，模型不仅在文本模态任务上的表现有所提升，在科学任务、复杂推理、数学代码等方面的表现亦均有提升。

尤为显著的是，在ARC-Challenge（5-shot）上，成绩从单模态的21.4提升到了多模态的40.5。

基于此，团队认为当下多模态大模型已具备强大的跨模态穿透与融合的感知能力，能够通过结合世界知识与上下文学习能力，实现多种模态（如图像、文本、音频、视频等）的高效推理与协同输出。

通过深度融合世界知识，模型在文本模态下的推理边界得以拓展。

全模态对齐Align-Anything，涌现模态穿透能力

人类在日常生活中接收到的信息往往是全模态的，如何将“强推理慢思考”从单文本模态进一步推广到更多模态甚至是全模态场景，不可否认是大势所趋。

在此基础上，如何将全模态大模型与人类的意图相对齐，也是一个极具前瞻性且至关重要的挑战。

在单一文本模态场景下，许多复杂推理任务可以通过基于规则的奖励提供监督信号，作为人类意图和偏好的载体。

而当从文本模态扩展到多模态甚至全模态场景下时，许多问题会随之浮现：

随着模态数量增加，传统二元偏好或规则奖励是否能够捕捉人类意图的多元偏好或层次化偏好？
当多模态扩展到全模态空间，模态交互更加复杂，RL方法需要做哪些改进？
不同模态下，模态特有与模态共有的信息如何统一在奖励信号建模中？
……

输入输出空间的分布更加广泛，幻觉现象加剧，这都使得全模态对齐变得更加复杂。

为进一步促进多模态对齐研究，研究团队提出了Align-Anything框架，致力于使全模态大模型与人类意图和价值观对齐。

这里的全模态包括文生文、文生图、文图生文、文生视频等任意到任意的输入与输出模态。

总体而言，框架设计了具备高度的模块化、扩展性以及易用性的对齐训练框架，支持由文本、图片、视频、音频四大基本模态衍生出的任意模态模型对齐微调，并验证了框架对齐算法的实现正确性。

该框架具有以下特点：

高度模块化：对不同算法类型的抽象化和精心设计的API，用户能够为不同的任务修改和定制代码，以及定制化模型与数据集注册等高级扩展用法；
支持跨任意模态模型的微调：包含对如LLaMA3.2、LLaVA、Chameleon、Qwen2-VL、Qwen2-Audio、Diffusion等跨越多种模态生成与理解的大模型的微调能力；
支持不同的对齐方法：支持任意模态上的多种对齐算法，既包括SFT、DPO、PPO等经典算法，也包括ORPO, SimPO和KTO等新算法；
支持多种开、闭源对齐评估：支持了30多个多模态评测基准，包括如MMBench、VideoMME等多模态理解评测，以及如FID、HPSv2等多模态生成评测。

也就是说，Align-Anything团队从数据集、算法、评估以及代码库四个维度贡献了开源力量：

数据：200k包含人类语言反馈和二元偏好的数据集，包含图、文、视频、语音全模态。
算法：从语言反馈中学习的合成数据范式，大幅提升RLHF后训练方法的表现。
评估：面向全模态模型的模态联动与模态选择评估。
代码库：支持图、文、视频、语音全模态训练与评估的代码框架。

同时，为了促进对全模态对齐模型的进一步开发，研究团队发布首个全模态人类偏好数据集Align-Anything。

与专注于单个模态且质量参差不齐的现有偏好数据集不同，Align-Anything提供了高质量的数据，包括了输入和输出中的任何模态。

这旨在提供详细的人类偏好注释以及用于批评和改进的精细语言反馈，从而实现跨模态的全面评估和改进。

多模态场景加持的Deepseek-R1：Align-DS-V

接下来，团队开始攻坚多模态场景加持下的Deepseek-R1会有怎样的表现。

借鉴LLaVA的训练思路，通过训练投影层（Projector），Align-Anything团队将视觉编码器（Vision Encoder）输出映射到语言表征空间，从而扩展了DeepSeek-R1的视觉模态。

在Align-Anything库中，团队开源了训练的全部流程。

首先，基于Deepseek-R1系列模型，构建“文本 + 图片-> 文本”架构。例如以下脚本：

在新的多模态模型中，输入图像Xv经过视觉编码器提取特征，生成中间表示Zv，然后通过投影层进行映射，得到视觉表征Hv。

与此同时，语言指令Xq经过处理，生成语言表征Hq。

这些视觉和语言特征共同输入到语言模型，语言模型将两种信息结合进行推理，最终生成文本回复。

在构建好模态扩展的DeepSeek-R1架构后，具体的训练分成两个步骤：

第一步，冻结除投影层Projector外所有模型参数，对投影层Projector进行预训练，使得投影层Projector能够将经过视觉编码器的视觉表征映射到语言表征空间。

第二步，同时微调投影层Projector和大语言模型，激发语言模型多模态推理能力。

训练成功后，研究人员将多模态版本的DeepSeek-R1系列模型命名为Align-DS-V。

以下是Align-DS-V在不同视觉理解表现评测集上的表现（对比GPT-4o）。

可以看到，Align-DS-V在部分评测集（如llava-bench-coco）上的表现超过了GPT-4o。

除此之外，更重要的是团队还发现了模态穿透对于模型文本模态推理能力的提升效果。

具体来说，团队在DeepSeek-R1的全模态化尝试中发现，经过多模态训练之后，模型在文本模态任务上的表现有所提升，在科学任务、复杂推理、数学代码等方面的表现均有提升。

尤为显著的是，在ARC-Challenge（5-shot）上，成绩从单模态的21.4提升到了多模态的40.5。

由此团队认为，基于“慢思考强推能力”的持续自我进化，模型能力已经突破了单一模态的局限性，跨模态穿透深度显著提升。

通过深度融合世界知识，模型在文本模态下的推理边界得以拓展。

为验证全模态推理大模型在垂域应用的能力，研发团队对Align-DS-V面向进行香港地区价值观的本地化对齐，令Align-DS-V适应粤语/英语/普通话混合语言输入。

这一过程深度整合港铁动态、台风预警及八达通缴费等香港本土生活场景。

在面对包含繁体字的图文数学问题时，Align-DS-V能够准确联动图文模态信息。

如图所示，它逐步使用严密的数学推导展示求解过程，展示了被应用于教育等行业的可信前景。

北大&港科大联合开发、开源、维护

Align-Anything和Align-DS-V由北京大学联合香港科技大学开发。

目前，Align-Anything框架，以及DeepSeek-R1的多模态版本Align-DS-V，均已开源，团队将携手对其进行长期维护（文末附地址直通车）。

联合研究团队中的北京大学对齐团队，专注于人工智能系统的安全交互与价值对齐。

团队指导老师为北京大学人工智能研究院助理教授杨耀东。

联合研究团队中的香港生成式人工智能研发中心（HK Generative AI R&D Center，HKGAI）成立于2023年10月，致力于推动香港人工智能生态系统的发展。

由香港科技大学首席副校长，郭毅可院士领衔担任中心主任。

量子位了解到，在Align-DS-V的基础上，北大-灵初联合实验室已经着手在VLA（Vision Language Action Model，视觉语言动作模型）领域方面做更深度的探索。

灵初正在研发的VLA模型，在大脑端利用多模态大模型进行对齐和微调，并向小脑端的控制器输出action token；而后，小脑端的控制器再根据输入的token和其他模态的信息，输出具体的机器人控制指令。

这两个过程都需要运用针对多模态大模型的后训练（post-training）和微调（fine-tuning）技术。

北大-灵初联合实验室表示，Align-DS-V的多模态强推理能力是VLA模型大脑端的核心，接下来的研究训练计划，是利用多模态推理模型的跨模态穿透能力，实现action穿透，最终实现真正高效的VLA模型。

同样的后训练技术也可以应用于小脑端控制器的微调，实现更高的成功率、泛化性和鲁棒性。

Align-Anything框架开源地址：https://github.com/PKU-Alignment/align-anythingAlign-DS-V开源地址：https://huggingface.co/PKU-Alignment/Align-DS-V

#DeepSeek-R1-Zero或许并不存在

华人研究团队揭秘：「顿悟时刻」

自我反思（尤其是肤浅的）有时对模型性能的助益不大。

在过去这半个月里，关于 DeepSeek 的一切都会迅速成为焦点。

一项非常鼓舞人心的发现是：DeepSeek-R1-Zero 通过纯强化学习（RL）实现了「顿悟」。在那个瞬间，模型学会了自我反思等涌现技能，帮助它进行上下文搜索，从而解决复杂的推理问题。

在 R1-Zero 发布后的短短几天内，连续几个项目都在较小规模（如 1B 到 7B）上独立「复制」了类似 R1-Zero 的训练，并且都观察到了「顿悟时刻」，这种时刻通常伴随着响应长度的增加。

原文链接：https://oatllm.notion.site/oat-zero

最近，来自新加坡 Sea AI Lab 等机构的研究者再次梳理了类 R1-Zero 的训练过程，并在一篇博客中分享了三项重要发现：

1. 在类似 R1-Zero 的训练中，可能并不存在「顿悟时刻」。相反，我们发现「顿悟时刻」（如自我反思模式）出现在 epoch 0，即基础模型中。

2. 他们从基础模型的响应中发现了肤浅的自我反思（SSR），在这种情况下，自我反思并不一定会导致正确的最终答案。

3. 仔细研究通过 RL 进行的类 R1-Zero 的训练，发现响应长度增加的现象并不是因为出现了自我反思，而是 RL 优化设计良好的基于规则的奖励函数的结果。

以下是博客的内容：

Epoch 0 的顿悟时刻

实验设置如下：

基础模型。我们研究了由不同组织开发的各种基础模型系列，包括 Qwen-2.5、Qwen-2.5-Math、DeepSeek-Math、Rho-Math 和 Llama-3.x。

提示模板。我们使用 R1-Zero 和 SimpleRL-Zero 中使用的模板直接提示基础模型：

模板 1（与 R1-Zero 相同）

模板 2（与 SimpleRL-Zero 相同）

数据。我们从 MATH 训练数据集中收集了 500 道题，这些题统一涵盖了五个难度级别和所有科目，用于填充上述模板中的 {Question}。

生成参数。我们在 0.1 至 1.0 之间对探索参数（温度）进行网格搜索，以便对选定的问题进行模型推理。在所有实验中，Top P 设置为 0.9。我们为每个问题生成 8 个回答。

经验结果

我们首先尝试了所有模型和提示模板（模板 1 或模板 2）的组合，然后根据每个模型的指令遵循能力为其选择了最佳模板，并将其固定用于所有实验。得出以下结论：

发现：「顿悟时刻」出现在 Epoch 0。我们观察到，所有模型（除了 Llama-3.x 系列）在没有任何后期训练的情况下就已经表现出了自我反思模式。

我们在下表中列出了所有观察到的表明自我反思模式的关键词。请注意，该列表可能并不详尽。这些关键词都是经过人工验证的，「等待」等词被过滤掉了，因为它们的出现并不一定意味着自我反思，而可能是幻觉的结果。我们注意到，不同的模型会显示与自我反思相关的不同关键词，我们假设这是受其预训练数据的影响。

图 1a 展示了在不同基础模型中引发自我反思行为的问题数量。结果表明，在不同的温度下都能观察到自我反思行为，其中一个趋势是，温度越高，在 epoch 0 出现「顿悟时刻」的频率越高。

图 1b 展示了不同自我反思关键词的出现次数。我们可以观察到，Qwen2.5 系列的基础模型在产生自我反思行为方面最为活跃，这也部分解释了为什么大多数开源的 R1-Zero 复现都是基于 Qwen2.5 模型。

图 1a. 在不同基础模型中，500 道数学问题中引发自我反思行为的问题数量。图 1b. 40,000 个回答中出现的关键词数量（500 个问题 × 每个问题 8 个回答 × 10 个温度）。

在确认「顿悟时刻」确实是在没有任何训练的情况下出现在 epoch 0 后，我们想知道它是否如我们所期望的那样 —— 通过自我反思来纠正错误推理。因此，我们直接在 Qwen2.5-Math-7B 基础模型上测试了 SimpleRL-Zero 博客中使用的例题。令人惊讶的是，我们发现基础模型已经表现出了合理的自我纠正行为，如图 2 所示。

图 2. 我们直接在 Qwen2.5-Math-7B 基本模型上测试了 SimpleRL-Zero 博客中报告的同一问题，发现「顿悟时刻」已经出现。

肤浅的自我反思

尽管图 2 中的示例显示了基础模型通过自我修正 CoT 直接解决复杂推理问题的巨大潜力，但我们发现并非所有来自基础模型的自我反思都有效，也并不总能带来更好的解决方案。为了便于讨论，我们将它们称为肤浅的自我反思（Superficial Self-Reflection，SSR）。

就其定义而言，肤浅的自我反思（SSR）是指模型响应中缺乏建设性修改或改进的重评估模式。与没有自我反思的响应相比，SSR 不一定会带来更好的答案。

案例研究

为了进一步了解 SSR，我们进行了案例研究，并观察到 Qwen-2.5-Math-7B 基础模型响应中的四种自我反思模式：

行为 1：自我反思，反复检查以确认正确答案（图 3a）；
行为 2：自我反思，纠正最初错误的想法（图 3b 和图 2）；
行为 3：自我反思，在原本正确的答案中引入错误（图 3c）；
行为 4：反复自我反思，但未能得出有效答案（图 3d）。

其中，行为 3 和行为 4 是肤浅的自我反思，导致最终答案不正确。

图 3a：自我反思再三检查答案，确保正确性。

图 3b：自我反思纠正最初错误的答案。

图 3c：自我反思在原本正确的答案（x=12）中引入错误（x=4）。

图 3d：反复自我反思却无法提供有效的答案（无论正确或不正确）。

基础模型容易出现 SSR

接下来，我们分析了 Qwen2.5-Math-1.5B 正确和错误答案中自我反思关键词的出现情况。正如图 4 所示，在不同的采样温度下，大多数自我反思（以频率衡量）都没有得到正确答案。这表明基础模型容易产生肤浅的自我反思。

图 4：正确和错误答案中的自我反思次数。蓝色条表示正确答案中自我反思关键词的总出现次数，而红色条表示错误答案中自我反思关键词的总出现次数。

深入探讨类 R1-Zero 训练

虽然模型响应长度的突然增加通常被视为类 R1-Zero 训练中的顿悟时刻，但正如博客 Section 1 中的研究结果表明：即使没有 RL 训练，这种顿悟时刻也可能发生。因此，这自然引出了一个问题：为什么模型响应长度遵循一种独特的模式，即在训练初期减少，然后在某个点激增？

为了研究这一点，我们通过以下两种方法来研究类 R1-Zero 训练：

在倒计时（Countdown）任务上复制 R1-Zero 以分析输出长度动态；
在数学问题上复制 R1-Zero 以研究输出长度与自我反思之间的关系。

长度变化是 RL 动态的一部分

我们使用了支持类 R1-Zero 训练的 oat（一个研究友好的 LLM 在线对齐框架），以使用 GRPO 算法在倒计时任务（TinyZero 所用）上对 Qwen-2.5-3B 基础模型进行 RL 调整。

在该任务中，模型被赋予三到四个数字，并被要求使用算法运算（+、-、x、÷）来生成目标等式。这样不可避免地需要模型重试不同的方案，因此需要自我反思行为。

图 5 右显示了整个 RL 训练过程中奖励和响应长度的动态。与 TinyZero 和 SimpleRL-Zero 类似，我们观察到奖励持续增加，而长度先减少然后激增，现有工作将此归因于顿悟时刻。然而，我们观察到重试模式已经存在于基础模型的响应中（Section 1），但其中许多都是肤浅的（Section 2 ），因此奖励很低。

图 5（左）为不同响应组的分布和平均长度的详细分析；（右）为测试奖励和模型响应长度的 RL 曲线。

在初始学习阶段，我们分析了基于规则的奖励塑造对 RL 动态和响应长度变化的影响。图 5（左）根据奖励将模型响应分为了三个不同的组：

这种简单的分解揭示了一些关于 RL 动态的见解：

在 88 步之前的训练以塑造奖励 (r=0.1) 为主，通过调整模型使其在生成 token 预算内停止并在 <answer> </answer > 块内格式化答案，从而可以更轻松地进行优化。在此期间，冗长的错误响应受到抑制，平均响应长度急剧下降。
在第 88 步，模型开始通过输出更多重试（retries）来「爬上奖励山」，朝着更高的奖励（r=1 表示正确性）攀登。因此，我们观察到正确响应的长度增加。伴随而来的副作用是，模型输出更多冗长的肤浅自我反思，导致平均响应长度激增。
整个 RL 过程是将原本肤浅的自我反思转变为有效的自我反思，以最大化预期奖励，从而提高推理能力。

输出长度和自我反思可能并不相关

按照 SimpleRL-Zero 的设置，我们使用 8K MATH 提示训练 Qwen2.5-Math-1.5B。在训练开始时，我们观察到输出长度减少，直到大约 1700 个梯度步，长度才开始增加（图 6）。然而，自我反思关键词的总数并没有表现出图 7 所示的与输出长度的单调关系。这表明单凭输出长度可能不是模型自我反思能力的可靠指标。

图 6：使用 8K MATH 提示的 Qwen2.5-Math-1.5B 训练动态。我们报告了 MATH500 上的测试准确率和平均响应长度。

图 7：训练期间自我反思关键词的总数。

在我们使用的单节点服务器上，完整训练过程大约需要 14 天，目前仍在进行中（进度相当于 SimpleRL-Zero 中的 48 个训练步）。我们将在完成后提供更详细的分析。

#DeepSeek用的GRPO占用大量内存？

有人给出了些破解方法

RTX 3080 移动版能训练哪种大模型？本文为那些 GPU 资源有限时使用 GRPO 训练的开发者提供了宝贵的指导。

自 DeepSeek-R1 发布以来，群组相对策略优化（GRPO）因其有效性和易于训练而成为大型语言模型强化学习的热门话题。R1 论文展示了如何使用 GRPO 从遵循 LLM（DeepSeek-v3）的基本指令转变为推理模型（DeepSeek-R1）。

GRPO 是一种在线学习算法（online learning algorithm），它通过使用训练过程中由训练模型自身生成的数据来进行迭代改进。GRPO 的目标是最大化生成补全（completions）的优势函数（advantage），同时确保模型保持在参考策略（reference policy）附近。

本文的目的是帮你节省一些时间，让你根据硬件预算选择合适的模型大小。在开始微调时，你必须做出的重要决定是选择模型大小，以及你是执行完全微调还是参数高效微调（PEFT）。

文章作者来自 AI 公司 Oxen.ai 的 CEO Greg Schoeninger。

原文链接：https://www.oxen.ai/blog/grpo-vram-requirements-for-the-gpu-poor

作者表示，他发现 trl 库中已经有一个易于使用的 GRPO 实现，便立刻开始了训练，使用的硬件是配备了 16GB 显存的 Nvidia GeForce RTX 3080 的小型笔记本电脑。正如大家可能遇到的问题，作者发现示例代码中的参数设置导致了一个巨大的显存不足（OOM，out of memory ）错误。

torch.OutOfMemoryError: CUDA out of memory.
Tried to allocate 1.90 GiB. GPU 0 has a total capacity of 15.73 GiB of which 1.28 GiB is free. 
Including non-PyTorch memory, this process has 14.43 GiB memory in use. Of the allocated memory 11.82 GiB is allocated by PyTorch, and 2.41 GiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation.  See documentation for Memory Management  (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)

实际使用情况

作者表示，他们进行了一系列实验，以确定训练各种大小的模型所需的显存（VRAM）要求。参数数量从 5 亿到 140 亿不等，他们比较了权重的完全微调与参数高效微调（使用 LoRA），所有训练运行都在英伟达 H100 上完成，因此这里的 OOM 意味着 >80GB 的 VRAM。

在表格中，你可以找到 GSM8K 数据集上训练的前 100 步中的峰值内存使用情况。用于实验的模型是：

所有实验均使用 Shadeform 的 GPU 市场完成，因此每次实验只需要花费几美元 H100。

实验结果表明，内存需求随着模型大小和训练方式的不同而显著变化。例如，全参数微调比 PEFT 需要更多的内存。

为什么 GRPO 对内存需求较高

这要从 GRPO 的原理说起，这是它的流程图。

GRPO 对内存需求较高的原因在于，其内部涉及多个模型，并且在训练数据中每个查询会产生多个输出。上图中的策略模型、参考模型和奖励模型各自都是一个需要进行推理的 LLM。（尽管从技术上讲，奖励模型可能不需要参数化，可以只是一个 Python 函数或正则表达式，但不影响 GRPO 对内存的高需求。）

为什么 8-Bit 优化和梯度检查点有助于减少内存占用？

通常来讲，训练一个大型语言模型需要在内存中存储三种主要类型的信息：模型参数、模型学习所需的梯度、优化器的跟踪数据。

对上述内容我们可以这样理解：如果模型的参数占用了 X 的空间，那么梯度也会占用大约相同的空间。然后，像 AdamW 这样的优化器需要更多的空间，因为它们就像一个记录员，跟踪最近的更新历史，以便更好地决定未来的优化。

为了减轻这种内存负担，通常采用两种技术：

首先，可以使用像 AdamW 这样的 8-bit 优化器版本，它们能更高效地存储跟踪数据，同时仍保持良好的性能 —— 类似于压缩照片可以节省空间，同时保留大部分图像质量；
其次，使用梯度检查点技术，这就像在训练过程中拍摄快照，而不是记录所有内容。虽然这会使训练速度减慢约 20-30%，但它显著减少了内存使用。

结合这些技术，即使对 GPU 资源有限的人来说，也能够训练更大的模型。

代码示例

像 trl 这样的库已经开始支持 GRPO，使得微调由 transformers 构成的 LLM 变得非常简单。代码也非常简洁，只需将训练器替换为 GRPOTrainer 并定义一些奖励即可。GRPO 的最小代码量大约只有 99 行，如果你使用的是像 meta-llama/Llama-3.2-1B-Instruct 这样的小型模型和像 openai/GSM8K 这样的数据集，可以非常快速地启动。

trl 项目地址：https://github.com/huggingface/trl?ref=ghost.oxen.ai

import torch
from datasets import load_dataset, Dataset
from transformers import AutoTokenizer, AutoModelForCausalLM
from trl import GRPOConfig, GRPOTrainer
import re

SYSTEM_PROMPT = """
Respond in the following format:
<reasoning>
...
</reasoning>
<answer>
...
</answer>
"""

def extract_hash_answer(text: str) -> str | None:
    if "####" not in text:
        return None
    return text.split("####")[1].strip()

def get_gsm8k_questions(split = "train") -> Dataset:
    data = load_dataset('openai/gsm8k', 'main')[split]
    data = data.map(lambda x: {
        'prompt': [
            {'role': 'system', 'content': SYSTEM_PROMPT},
            {'role': 'user', 'content': x['question']}
        ],
        'answer': extract_hash_answer(x['answer'])
    })
    return data

def extract_xml_answer(text: str) -> str:
    answer = text.split("<answer>")[-1]
    answer = answer.split("</answer>")[0]
    return answer.strip()

def format_reward_func(completions, **kwargs) -> list[float]:
    """Reward function that checks if the completion has a specific format."""
    pattern = r"^<reasoning>\n.*?\n</reasoning>\n<answer>\n.*?\n</answer>\n$"
    responses = [completion[0]["content"] for completion in completions]
    matches = [re.match(pattern, r) for r in responses]
    return [0.5 if match else 0.0 for match in matches]

def accuracy_reward_func(prompts, completions, answer, **kwargs) -> list[float]:
    """Reward function that extracts the answer from the xml tags and compares it to the correct answer."""
    responses = [completion[0]['content'] for completion in completions]
    extracted_responses = [extract_xml_answer(r) for r in responses]
    return [2.0 if r == a else 0.0 for r, a in zip(extracted_responses, answer)]

def main():
    dataset = get_gsm8k_questions()

    model_name = "meta-llama/Llama-3.2-1B-Instruct"
    model = AutoModelForCausalLM.from_pretrained(
        model_name,
        torch_dtype=torch.bfloat16,
        attn_implementation="flash_attention_2",
        device_map=None
    ).to("cuda")
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    tokenizer.pad_token = tokenizer.eos_token

    training_args = GRPOConfig(
        output_dir="output",
        learning_rate=5e-6,
        adam_beta1=0.9,
        adam_beta2=0.99,
        weight_decay=0.1,
        warmup_ratio=0.1,
        lr_scheduler_type='cosine',
        logging_steps=1,
        bf16=True,
        per_device_train_batch_size=1,
        gradient_accumulation_steps=4,
        num_generations=4,
        max_prompt_length=256,
        max_completion_length=786,
        num_train_epochs=1,
        save_steps=100,
        save_total_limit=1,
        max_grad_norm=0.1,
        log_on_each_node=False,
    )

    trainer = GRPOTrainer(
        model=model,
        processing_class=tokenizer,
        reward_funcs=[
            format_reward_func,
            accuracy_reward_func
        ],
        args=training_args,
        train_dataset=dataset,
    )
    trainer.train()

if __name__ == "__main__":
    main()

Num Generations 有什么用

Num Generations 是一个超参数，它决定了我们将在训练数据中对每个查询采样多少个补全。然而，这会显著增加 VRAM 的消耗。

目前有一个开放的 GitHub 问题，可能会帮助解决内存瓶颈问题，可以参考如下链接

地址：https://github.com/huggingface/trl/issues/2709?ref=ghost.oxen.ai

对于 num_completinotallow=8,16,64 (DeepSeekMath 论文使用的 64)，作者表示，不用再次计算上述所有值，而是使用了 1B 参数模型进行了测试，以显示内存增长。不过，作者还是建议大家在内存瓶颈得到修复之前使用 num_generatinotallow=4，也能获得不错的性能。

影响 VRAM 的一些因素

要对所有影响显存（VRAM）使用的因素进行全面的超参数验证，需要进行大量的实验。简单起见，这里只指出了需要注意的设置，以及实验中使用的具体数值。

batch_size=1，由于 GRPO 为每个查询生成多个响应，batch size 会迅速失控。
gradient_accumulation_steps=4，优化器是另一个占用大量 VRAM 的地方。此参数决定了我们将存储的梯度以帮助优化器进行其「爬山」过程。
num_completinotallow=4，DeepSeekMath 论文中使用了 64。这完全超出了有些人的计算预算。
max_prompt_length=256，如果你想训练模型拥有更大上下文的推理能力，将不得不增加 VRAM。GSM8K 的提示相对较小，适合此测试。
max_completion_length=786，同样，由于计算注意力的内存有限，推理链在这里受到限制。上下文或生成的 token 越多，需要的内存就越大。
LoRA target_modules=["q_proj", "k_proj", "o_proj", "up_proj", "down_proj"] 在这方面可以尝试几种不同的迭代。target_modules="all-linear" 是一种流行的方式，可以从你的 LoRA 中挤出最多的性能（就准确性而言）。

对 VRAM 使用的粗略估算

如果你正在使用 FP16 精度进行训练，以下是一些简单的估算方法，可以帮助你了解内存主要用在了哪些地方：

模型参数：每个参数占用 2 字节。
参考模型参数：每个参数占用 2 字节。
梯度：每个参数占用 2 字节。
优化器状态：每个参数占用 8 字节。
8 位优化器：每个参数占用 4 字节。
PEFT：有助于减少梯度的显存占用。

最后是关于准确率的。作者完成了一个 10 亿参数的 Llama 3.2 模型的完整训练。在应用 GRPO 之前，该模型在保留测试集上达到了约 19% 的准确率，而在经过一个训练周期后，模型的准确率飙升至约 40.5%。虽然这离 SOTA 水平还差得很远，但这展示了 GRPO 的强大潜力。

#DeepSeek GitHub星数超越OpenAI

历史时刻：仅用时两个月

开源 AI 世界的里程碑事件！

我们正在见证历史：DeepSeek 项目在全球最大代码托管平台 GitHub 上的 Star 量超过了 OpenAI。

截至本周五下午两点，DeepSeek 旗下热度最高的项目 DeepSeek-V3 大模型 Star 量已达 7.77 万，超越了同平台中 OpenAI 最热门项目。

DeepSeek 项目的星数还在以肉眼可见的速度增长。

去年 12 月 26 日，DeepSeek AI 开源了其最新混合专家（MoE）大语言模型 DeepSeek-V3，它立即成为通用语言模型的性能标杆，受到了全球 AI 社区热议。

DeepSeek-V3 模型引入了动态注意力机制（Dynamic Attention Mechanism），通过实时调整注意力权重优化文本生成质量。其 MoE 架构共包含 6710 亿参数，但每 Token 仅激活 370 亿参数，大幅降低了计算成本，训练成本仅为同类闭源模型的 1/20。

据技术报告介绍，DeepSeek-V3 的预训练过程只花费 266.4 万 H800 GPU Hours，再加上上下文扩展与后训练的训练共为 278.8 H800 GPU Hours（训练成本 557.6 万美元）。相较之下，Llama 3 的训练预算约为 3930 万 H100 GPU Hours。

图源：https://arxiv.org/pdf/2412.19437

随后在 1 月 23 日，DeepSeek 以 V3 为基础使用强化学习（Reinforcement Learning）驱动重构训练范式，提出了 DeepSeek-R1，彻底改变了开源 AI 世界。

DeepSeek R1 性能完全对标 OpenAI o1，与 DeepSeek V3 相比性能有大幅提升，其论文指出纯强化学习可以赋予 LLM 强推理能力，而无需大量监督微调，震动了 AI 业界。

从技术角度来看，DeepSeek 展示了国内科研团队的创新能力，并在 Scaling Laws 之后揭开了大模型发展的新范式，大幅降低了 AI 对算力的依赖，并用自我进化的方式平衡了数据优势。

R1 还支持将推理能力迁移至更小模型，为边缘计算和即时应用开辟了大量的可能性。

由于 OpenAI 自 GPT-3 起并未开源其基础 AI 大模型，目前 OpenAI 的热门开源项目包括 openai-cookbook，即使用 OpenAI API 完成常见任务的示例代码和指南；以及 Whisper，这是一个 2022 年 9 月开源的通用语音识别模型。

除此之外，同属开源大模型的 Llama 系列最高星数达到了 5.75 万，阿里云的 Qwen2.5 有 1.49 万 Star，零一万物的 Yi 有 7800 Star。

DeepSeek V3 和 R1 的推出仿佛为全球大模型社区打了一针强心剂，在 AI 研究领域，围绕 R1 核心强化学习方法 GRPO 的进一步研究已经出现。

DeepSeek 开源的策略也为应用创造了大量机会。目前虽然 DeepSeek App 官方报告正在受到高频次网络攻击，但仅在国内就有阿里云、华为云、腾讯云、百度智能云、360 数字安全、云轴科技等多个平台宣布上线了 DeepSeek 大模型，方便各路开发者调用。

在海外，英伟达、亚马逊和微软云服务也宣布接入了 DeepSeek R1。

DeepSeek 系列模型被公认为是目前最先进的大语言模型之一，随着技术开源的推动，我们或许将见证生成式 AI 更快的发展。

#DeepSeek-R1、o1都低于10%

人类给AI的「最后考试」来了，贡献者名单长达两页

随着 AI 大模型在一个又一个的任务上达到乃至超越人类水平，人类文明似乎已经进入了与 AI 共生的时代。

为了跟踪 AI 的发展进度，适当的基准必不可少。但现在，由于 AI 发展的速度实在太快，已有的基准已经开始不够用了。比如在常用的基准 MMLU 上，当今前沿的 LLM 已经能达到超过 90% 的准确度了！这就限制了对前沿 LLM 能力的精确度量能力。

基于此现状，Center for AI Safety（AI 安全中心）与 Scale AI 联合打造一个名字相当吸引眼球的新基准：Humanity's Last Exam，即「人类的最后考试」，简称 HLE。

论文标题：Humanity’s Last Exam
论文地址：https://arxiv.org/pdf/2501.14249
项目地址：https://lastexam.ai

从名字也能看出来，其背后必然有一个雄心勃勃的团队。据介绍，HLE 是一个「位于人类知识前沿的多模态基准」，其设计目标是成为「同类中具有广泛学科覆盖范围的终极封闭式学术基准。」

现目前，HLE 已包含 3000 个问题，涉及上百门学科，包括数学、人文科学和自然科学。其中的问题主要由适合自动评估的多项选择题和简单问答题构成；每个问题都有一个已知的解，该解非常明确且易于验证，但无法通过互联网检索快速回答。

为了构建 HLE 基准，Center for AI Safety 与 Scale AI 向全球不同学科的专家寻求了帮助，最终让该论文有了一份长达两页、近千人的数据集贡献者名单：

该团队也使用该基准测试了一些 SOTA 模型，结果如下。很显然，HLE 相当难。

数据集

HLE 包含 3000 多个高难度问题，涉及一百多个科目，概况见下图 3 。

下面展示了一些问题示例：

虽然这些问题已公开发布，但该团队也表示还维护着一个私有的测试集，其中包含一些用来评估模型过拟合现象的问题。

收集数据集

该团队在技术报告中分享了 HLE 基准数据集的收集过程：「HLE 是一项全球合作的成果，其中的问题来自 50 个国家 / 地区的 500 多个机构的近 1000 名学科专家贡献者 —— 主要由教授、研究人员和研究生学位持有者组成。」

问题风格：HLE 包含两种问题格式：精确匹配问题（模型提供确切的字符串作为输出）和多项选择题（模型从五个或更多答案选项中选择一个）。HLE 是一个多模态基准，其中 10% 的问题需要同时理解文本和图像。80% 的问题是精确匹配型问题，其余的是多项选择题。

提交格式：为确保问题的质量和完整性，该团队设定了严格的提交标准。

问题应该准确、明确、可解且不可搜索，确保模型不能依赖记忆或简单的检索方法。
所有提交内容必须是原创的，或者是基于已发表信息的非平凡合成版本，但也会接受未发表的研究。
问题通常需要研究生水平的专业知识或高度特定主题的测试知识（例如，精确的历史细节、琐事、当地习俗），并且有领域专家接受的具体、明确的答案。
当 LLM 能提供正确答案但推理有误时，希望作者能修改问题参数，例如答案选项的数量，以阻止假正例。
要求明晰的英语和精确的技术术语，并在必要时支持 LATEX 标注。
答案要简短，并且对于精确匹配的问题，答案要容易验证，以支持自动评分。
禁止开放式问题、主观解释题和与大规模杀伤性武器有关的内容。
每个问题都应附有详细的解答以验证准确性。

奖金池：为了吸引高质量的投稿，该团队还设立了一个奖金池，其中包含 50 万美元。对于前 50 个问题，每个奖金 5000 美元，接下来的 500 个问题每个奖金 500 美元，具体由组织者决定。正是由于这种这种激励结构，加上任何被 HLE 接收的问题的作者都有机会成为论文合著者，吸引了有资历专家的参与，尤其是那些在其领域内拥有高级学位或丰富技术经验的专家。

收集完成后，该团队还组织人手对收集到的问题进行了审核，下图展示了其审核流程：

当前 SOTA 模型在该基准上表现如何？

有了基准，自然得对当前的模型进行一番评估。该团队评估了 SOTA 模型在 HLE 上的性能表现，并分析了它们在不同问题类型和领域上的能力。

这些模型表现如何呢？如下表所示，整体表现可以总结为一个字：差。

从 GPT-4o 到 DeepSeek-R1，当前最佳的模型的准确度表现都没能超过 10%。目前官网也已经更新了 o3-mini 的成绩，其中 high 版本能达到 13%：

OpenAI CEO Sam Altman 还表示 o3-mini-high 如果使用 Deep Research，则其在 HLE 上的准确度更能倍增至 26.6%。

该团队表示：「如此低分的部分原因是设计使然 —— 数据集收集过程试图过滤掉现有模型可以正确回答的问题。然而，我们在评估时注意到，这些模型的准确度也都不是零。这是由于模型推理中固有的噪声 —— 模型可能会不一致地猜对正确答案，或者猜中多项选择题答案的概率低于随机。」因此，这些模型在该数据集上的真正能力底线仍然是未知的，接近零准确度的微小变化并不能有力地表明进展。

鉴于这些模型在 HLE 上表现不佳，该团队表示应该在考虑到不确定性的前提下校准模型，而不是自信地提供错误答案，毕竟模型存在虚构/幻觉现象。为了测量校准误差（Calibration Error），该团队让模型提供答案的同时还提供置信度（范围是 0% 到 100%）。经过良好校准的模型声明的置信度应该与其实际准确度相匹配 —— 例如，在声称置信度为 50% 的问题上实现 50% 的准确度。

而表 1 的结果表明所有模型的校准都很差。在 HLE 上，模型经常以高置信度提供错误答案，这表明这些模型无法分辨这些问题何时超出其能力范围。

token 数量：具有推理能力的模型需要更多的推理时间计算。为了在评估中阐明这一点，该团队分析了各个模型使用的完成 token 的数量。如图 5 所示，所有推理模型都需要生成比非推理模型多得多的 token 才能提高性能。该团队指出：「未来的模型不仅应该提升准确度，还应该努力实现计算优化。」

讨论

该团队表示，虽然目前的 LLM 在 HLE 上的准确度非常低，但最近的历史表明，这个基准很快就会饱和 —— 前沿模型的性能可在短时间内从接近零到接近完美。

他们预计，到 2025 年底，模型在 HLE 上的准确度就可能超过 50%。

如果模型能在 HLE 上取得高准确度表现，则说明其在封闭式、可验证的问题和前沿的科学知识上具备了专家级的表现，但仅靠这个基准，并不能表明模型已经具备自主研究能力或者已经是所谓的「通用人工智能」。HLE 测试的是结构化的学术问题，而不是开放式研究或创造性解决问题的能力，因此这是一个重点关注技术知识和推理的测量指标。

该团队写到：「HLE 可能是我们需要对模型进行的最后的学术考试，但它远非 AI 的最后一个基准。」

#新方法CoMCTS实现o1-like的推理与反思

将集体学习引入树搜索

“What I cannot create, I do not understand.”---Richard Feynman

尽管多模态大语言模型（MLLM）在简单任务上最近取得了显著进展，但在复杂推理任务中表现仍然不佳。费曼的格言可能是这种现象的完美隐喻：只有掌握推理过程的每一步，才能真正解决问题。然而，当前的 MLLM 更擅长直接生成简短的最终答案，缺乏中间推理能力。本篇文章旨在开发一种通过学习创造推理过程中每个中间步骤直至最终答案的 MLLM，以实现问题的深入理解与解决。

最近，NLP 领域的突破，如 OpenAI o1，展示了 LLM 的推理能力并应对复杂语言任务的巨大潜力。这些进展的核心设计灵感源于类似 AlphaGo 的 “树搜索” 方法：通过使用 MCTS 等树搜索方法，自引导地构建中间思维树，探索有效的推理路径，并利用这些路径对模型进行训练，从而实现逐步推理能力的提升。

图 1. （a）CoMCTS 搜索有效性和效率比较。（b）基于 CoMCTS 数据训练的 Mulberry 模型展现了卓越的推理性能。

一个直观的想法是直接将树搜索方法应用于 MLLM 的有效推理路径搜索，但这种方法效果并不好，如图 1 所示。主要原因在于：

（1）搜索有效性：传统的 MCTS 方法依赖自我引导，而当前的 MLLMs 训练时没有明确且定义良好的中间推理步骤，导致搜索陷入单一 MLLM 推理空间的低质量同质节点，降低搜索成功率。

（2）搜索效率：传统 MCTS 方法每次搜索迭代通常仅扩展和探索一个后续推理节点，每次前进一步，需要大量迭代，使用 MLLM 进行推理进一步增加了计算复杂度。

为解决上述挑战，本文提出了集体蒙特卡罗树搜索（Collective Monte Carlo Tree Search, CoMCTS），这是一种新的学习推理方法，通过将集体学习引入 “树搜索”，实现有效且高效的推理路径搜索与学习。

论文：《Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search》
论文链接：https://arxiv.org/abs/2412.18319
代码链接：https://github.com/HJYao00/Mulberry

CoMCTS 搜索的优势在于：

（1）联合扩展多个 MLLM 的推理路径，支持跨模型协同推理，避免单一模型陷入同质化低质量节点。

（2）联合模拟与错误定位机制跳过反复中间步骤生成、集体知识帮助更准确地识别错误，提升搜索效率与效果。

此外，CoMCTS 也通过结合正负推理节点构建反思推理数据，使得 MLLM 可在长链路推理中进行逐步反思。最终，通过 CoMCTS，本文构建了通过逐步推理数据集 Mulberry-260K，训练了一系列 Mulberry 模型，在 8 个 benchmark 上取得了明显的提升。

研究方法

图 2. CoMCTS 总览图

CoMCTS 的推理路径搜索

CoMCTSw 将集体学习的概念引入到树搜索中，核心思想是通过多个模型的集体知识协作搜索有效的推理节点，并通过多次迭代最终找到正确的推理路径。

定义：将一个策略 MLLM 模型定义为 π，CoMCTS 利用一组多模态大语言模型

共同搜索并学习有效的推理路径。对于输入 Q = {文本，图像}，每次迭代中，每个模型 π 生成一系列中间推理状态

，直到最终答案。第 m 步的中间推理状态定义为

，模型

在第 m 步生成状态为

，每步由一个或多个句子组成。

CoMCTS 算法从根节点开始，通过一定次数的迭代进行推理路径搜索，每次迭代包括四个关键操作：（a）扩展 Expansion，（b）模拟与错误定位 Simulation and Error Position，（c）反向传播 Backpropagation，以及（d）选择 Selection，具体说明如下：

（a）扩展。扩展当前叶子推理节点，整合新的候选推理节点。给定当前叶子节点

（由操作（d）选择或根节点），CoMCTS 利用一组 MLLM 的集体知识，协同扩展一组多样且互补的候选推理路径

，直到终止节点：

其中

的当前推理路径。

表示由模型

从

开始生成的候选推理路径。

（b）模拟与错误定位。CoMCTS 利用多个模型的集体知识，共同模拟候选子节点

（在操作（a）中添加的节点）的候选值，将低分节点视为错误推理节点，过滤掉第一个小于阈值 t 的节点及其之后的所有节点：

（c）反向传播。CoMCTS 从叶子节点向根节点进行自底向上的更新。推理树中新扩展路径上的每个节点 s 都会更新其统计信息，包括访问次数 N 和节点值 V：

其中，Child (s) 表示节点 s 的所有子节点，CountChild 表示用于计算节点 s 在候选集中的子节点数量的计数函数。

（d）选择节点。CoMCTS 根据上置信界限（UCB）值遍历更新后的推理树，选择 UCB 值最高的候选节点

作为下一个搜索迭代的起始节点。

针对每个问题，重复迭代上述四个操作，直至达到预定次数或找到正确的推理路径。CoMCTS 为每个问题构建明确的集体推理树，帮助 MLLM 学习逐步推理能力。

CoMCTS 中的反思学习

CoMCTS 构建的推理树包含了正向和负向的推理节点，通过将负向的兄弟节点整合进有效的推理路径中，以构建包含从负向推理节点过度的反思性推理路径。具体来说，通过识别 UCB 差值最大的兄弟节点来构建反思路径，如图 2 和图 3 所示。

图 3. CoMCTS 搜索推理树示例。

使用集体蒙特卡罗树搜索进行训练

通过 CoMCTS 构建有效推理和反思性推理数据集，并使用集体 SFT 对模型进行训练，使模型具备逐步推理与反思能力。

实验数据

推理数据组成：为了构建一个通用的推理数据集，本文从多个领域搜集了原始多模态输入问题。将这些原始数据用 CoMCTS 方法搜索推理和反思路径，最终得到 Mulberry-260K SFT 数据集。

推理数据分布：CoMCTS 生成的推理步骤大多集中在 6 到 8 步之间，简单任务在 6 到 7 步，复杂任务在 7 到 10 步。结果表明，CoMCTS 能生成灵活的推理路径，帮助 MLLM 根据任务复杂性调整推理深度。

图 4. 推理数据的步骤长度分布

实验结果

性能比较

（1）与基准模型比较。实验表明，Mulberry-260K 训练的 Mulberry-7B 和 Mulberry-11B 相比 Qwen2-VL-7B 和 LLaMA-3.2-11B-Vision-Instruct 分别提高了 + 4.2% 和 + 7.5%，验证了 CoMCTS 的有效性。此外，Mulberry-260K 训练的模型也使 Qwen2-VL-2B 和 LLaVA-NeXT-8B 分别提升了 + 5.4% 和 + 11.0%，证明了其泛化能力。

（2）与推理模型比较。使用 LLaVA-NeXT-8B 基准模型时，Mulberry 在 MathVista 上分别比 LLaVA-Reasoner 和 Insight-V 提高了 + 5.7% 和 + 6.5%，在 MMMU 上提高了 + 3.0% 和 + 1.0%。在相同基准 LLaMA-3.2-11B-Vision-Instruct 下，Mulberry 在 MathVista 上比 LLaVA-COT 提高了 + 6.3%。其优势来自 CoMCTS 的树搜索和灵活的推理步骤设计。

（3）与 SOTA 模型比较。Mulberry 在基准测试中优于大多数开源 MLLM，并在与闭源模型的比较中展现出竞争力，得益于 CoMCTS 搜索数据的训练。

表 1. 主要实验结果比较

消融实验

（1）CoMCTS 的消融研究。表 2 为使用 GPT-4o 作为基线进行的关于 CoMCTS 消融实验。仅使用 GPT-4o 的 CoMCTS 将成功率提升至 63.8%，验证了 CoMCTS 设计的有效性。逐步引入更多模型进一步提升成功率，即使较小的 Qwen2-VL-7B 也提高了性能（+2.4%），展现了 CoMCTS 在集体知识上的优势。使用四个模型时，搜索成功率达到了 80.2%。

表 2. CoMCTS 的消融实验

（2）有效和反思推理的消融实验。表 3 显示，加入反思性数据后，MathVista 上的性能提高了 0.8%，验证了 CoMCTS 搜索的推理数据与反思性数据的互补性。

表 3. CoMCTS 推理数据和反思数据的消融实验

讨论

（1）与其它树搜索方法的比较。将 CoMCTS 与其他树搜索方法比较，表 4 显示，现有方法对搜索性能提升有限，主要因传统 MCTS 易陷入单一 MLLM 的低质量节点。CoMCTS 在搜索效果和效率上具有显著优势，得益于集体扩展机制，使推理路径搜索不仅限于单一 MLLM 推理空间，还能跨多个 MLLM 推理空间，避免了陷入单一推理空间的困境。

表 4. CoMCTS 其它树搜索方法的比较。

（2）定型分析。下图定性分析比较显示，LLaVA-NeXT-8B 和 Qwen2-VL-7B 生成的预测相对较短，缺乏深入的思考，导致错误的答案。相反，Mulberry，生成了丰富、明确且结构良好的推理步骤，最终得出了正确的答案。

图 5. 可视化

#CR-CTC

小米新一代Kaldi语音识别算法CR-CTC，纯CTC性能实现SOTA

新一代 Kaldi 团队是由 Kaldi 之父、IEEE fellow、小米集团首席语音科学家 Daniel Povey 领衔的团队，专注于开源语音基础引擎研发，从神经网络声学编码器、损失函数、优化器和解码器等各方面重构语音技术链路，旨在提高智能语音任务的准确率和效率。

目前，新一代 Kaldi 项目（https://github.com/k2-fsa）主要由四个子项目构成：核心算法库 k2、通用语音数据处理工具包 Lhotse、解决方案集合 Icefall 以及服务端引擎 Sherpa，方便开发者轻松训练、部署自己的智能语音模型。

近日，小米集团新一代 Kaldi 团队关于语音识别算法的论文《CR-CTC: Consistency regularization on CTC for improved speech recognition》被 ICLR 2025 接收。

论文链接：https://arxiv.org/pdf/2410.05101
论文代码：https://github.com/k2-fsa/icefall/pull/1766（已 merge 进 icefall 框架）

摘要

主流的自动语音识别（ASR）模型包括 CTC [1]、transducer [2] 和混合系统 CTC/AED [3]。CTC 是其中最简单、最便于部署的方法，但由于它的性能通常明显落后于 Transducer 和 CTC/AED，这限制了它的实际应用。

为此，新一代 Kaldi 团队提出了 Consistency-Regularized CTC (CR-CTC)，可以让纯 CTC 模型的识别性能比肩 Transducer 和 CTC/AED。CR-CTC 在多个主流的 ASR 数据集，包括 LibriSpeech、Aishell-1、GigaSpeech 等数据集上，取得新的 SOTA 结果（不依赖外部训练数据和外部语言模型）。

例如，在 LibriSpeech 数据集上训练 Zipformer-L，标准 CTC 的 WER 为 2.5/5.72，CTC/AED 的 WER 为 2.09/4.59, Pruned Transducer 的 WER 为 2.00/4.38；CR-CTC 的 WER 为 2.02/4.35；CTC/AED 和 Pruned Transducer 挂上 CR-CTC 联合训练后，WER 可分别进一步降低到 1.96/4.08 和 1.88/3.95。

方法实现

如 Figure 1 所示，CR-CTC 方法非常简单，先从同一个输入 Mel-spectrogram x 得到两个不同的 augmented views

和

，分别输入参数共享的 encoder 模型 f，得到对应的两个 CTC 概率分布

和

，除了计算两个 CTC loss

和

，还引入 consistency regularization loss 来约束两个分布的一致性：

。系统总体 loss 为：

其中 α 为控制正则的超参数，默认设置为 0.2。

Different augmented views

我们对同一个输入 x 的两个 copy 独立地使用 SpecAugment [4] 来获得不同的 augmented views

和

。SpecAugment 包含 time warping、frequency masking 和 time masking。由于 time warping 会显著改变输出的时间戳，因此我们在创建 copy 前先应用 time warping，防止两个分支的输出分布在时间戳上严重不匹配。接着，分别对两个 copy 独立应用 frequency masking 和 time masking，得到了

和

。相较于普通的 ASR 系统，我们特意使用了更大程度的 time masking。

Consistency regularization loss

我们在CTC 分布的每一帧上应用 consistency regularization，通过最小化每一对分布

和

之间的双向 KL 散度：

。此处，sg 表示 stop-gradient，防止这一项的梯度影响目标分布。Consistency regularization loss 公式为：

方法解释

论文从三个不同的角度来解释 CR-CTC 的本质行为：1）self-distillation；2）masked prediction；3）peak suppression。

Self-distillation

当我们在训练中使用 dropout [5] 和 stochastic depth [6] 等模型正则技术，可以看作我们正在隐式地训练随机采样的不同 sub-model，这些 sub-model 最终被集成为一个 ensemble 用于推理。与 R-Drop [7] 和 cosub [8] 类似，CR-CTC 在进行对不同 sub-model 之间的 self-distillation，监督信号为对方提供的帧级别的 token 分布。另外，CR-CTC 使用了不同的 augmented views（以及更大程度的 time-masking），让这些 sub-model 接触输入数据的不同角度的信息，加强他们预测的多样性，这样有利于更丰富、更完备的知识蒸馏。

Masked prediction

在 CR-CTC 中，那些覆盖在 time masking 区域的帧，被要求着基于其他没有被 masked 的区域，去预测对方提供的 token 分布。这个过程类似于 masked-based 自监督模型 [9,10,11]，鼓励模型去学习非 mask 部分的上下文表征信息，并发掘模型隐式的语言建模能力。我们在 CR-CTC 中使用不同的 augmented views，减少两边同时被覆盖在 time masking 区域的帧的出现，提高这些被 masked 位置所接收的 token 分布的质量。另外，使用更大程度的 time masking 可以加强 masked prediction 行为，进而增强模型对上下文表征信息的学习。

Peak suppression

众所周知，CTC 通常会学习到非常尖的概率分布。如 Figure 2 (left) 所示，non-blank token 只占 1 帧，其他的都是 blank，它们的概率都非常高。这种现象表明模型有可能已经过拟合了，泛化能力不强。CR-CTC 的 consistency regularization 引导着模型学习两边分布的平均，这使得模型学习到的 CTC 分布会更加平滑。这个 peak suppression 行为减少了在训练数据上的过度置信，从而增强模型的泛化能力。如 Figure 2 (right) 所示，CR-CTC 学习到的分布更加平滑，概率更低，伴随着更多 non-blank 的 repeat 出现。

实验结果

论文主要使用 Zipformer [12] 作为 speech encoder 进行实验验证。由于 CR-CTC 训练时需要进行两次 forward，我们对 CR-CTC 模型的 batch size 和 epoch 数都设置为标准 CTC 模型的一半，来确保两者训练代价可比较。具体使用的 GPU 数量和 epoch 数在论文附录中。

与 SOTA 模型相比较

Table 1、2、3 分别展示了不同模型在 LibriSpeech、Aishell-1、GigaSpeech 三个数据集上的表现（不依赖外部训练数据和外部语言模型）。总的来说，CR-CTC 的性能显著超越标准 CTC，和 CTC/AED 与 Transducer 模型效果相当。另外，挂上 CR-CTC 联合训练，可以进一步提升 CTC/AED 和 Transducer 的性能。在这三个数据集上，我们取得了新的 SOTA 结果。

消融实验

Table 4、5、6 分别展示了 CR-CTC 关于不同解释角度 self-distillation、masked prediction、peak suppression 的消融实验结果，具体说明可参考论文。

与挂一个 auxiliary head 联合训练相比较

想要提升 CTC 系统的性能，一个最直接的方法便是挂一个 AED head 或者一个 Transducer head 联合训练。如 Table 7 所示，CR-CTC 的性能明显超过这两个方法，参数还更少。

在 Conformer 模型上验证

如 Table 17 所示，使用 Conformer [13] 作为 speech encoder 时，CR-CTC 同样可以显著提升 CTC 的性能，并且略微超过 CTC/AED 和 Transducer。

#Ilya的神秘公司SSI估值将达200亿美元

5个月翻四倍，却没有任何产品

神秘的 Ilya又杀回来了！

沉寂已久的 Ilya Sutskever 和他的创业公司 SSI 终于有新消息了。

是的，那个男人 Sutskever 又回来了！

据路透社报道，Safe Superintelligenc Inc. 正以 200 亿美元估值洽谈融资。

去年 9 月，该公司曾以 50 亿美元估值完成了上一轮融资，从 Andreessen Horowitz、Sequoia Capital、DST Global、SV Angel 以及 NFDG 这五家投资公司获得了 10 亿美元资金。

路透社认为：「上个月，中国创业公司 DeepSeek 发布了低成本的 AI，引发整个行业的重新评估，SSI 的融资将考验知名 AI 企业是否能够继续获得高估值。」

考虑到 SSI 至今还没有产生任何收入，也没有发布任何产品，只有一个公开的愿景说要开发与人类利益对齐的并且超过人类的「安全人工智能」，因此 200 亿美元的估值证明了这位前 OpenAI 联合创始人兼首席科学家依然具备强大的资本号召力。

路透社称，该公司与现有和新投资者的谈判仍处于早期阶段，条款仍有可能发生变化。并且目前尚不清楚 SSI 希望筹集多少资金。

整体来说，除了 200 亿美元的估值外，我们还没能看到任何其它具体的信息。

SSI：神秘的创业公司

SSI 成立于去年 6 月，另外两位联合创始人分别为前苹果 AI 高管、Y-Combinator 的合伙人 Daniel Gross 和前 OpenAI 技术团队成员 Daniel Levy，参阅报道《突发！Ilya Sutskever 成立新公司 SSI，安全超级智能是唯一目标与产品》。

除了该公司在安全 AI 方面的目标简要说明外，我们目前对这家神秘创业公司及其工作的了解并不多。吸引投资者兴趣的，是 Sutskever 的声望以及他所提到的团队正在进行的创新方法。

在 AI 圈子里，Sutskever 因其在生成式 AI 的突破性进展中作出的卓越贡献，而被视为传奇人物。这些突破为蜂拥而来的投资狂潮提供了支撑。他是早期「Scaling」理念的倡导者之一，即通过投入大量计算能力和数据来优化 AI 模型。

这一概念为生成式 AI 的进展奠定了基础，比如 OpenAI 的 ChatGPT，推动了数百亿美元的投资狂潮，并且涵盖了芯片、数据中心和能源等领域。

Sutskever 早期便意识到这种训练方法可能面临的瓶颈，尤其是在可用数据池逐渐减少的情况下。他意识到了在推理阶段投入资源的重要性 —— 即 AI 模型训练完成后进行推理和得出结论的阶段。

正是基于这一洞察，他创建了一个团队，致力于开发后来成为 OpenAI 最新的一系列推理模型的技术，开启了一个被广泛跟随的研究新方向。

为了让投资者明白不要期待短期内的暴利，SSI 表示其计划「平稳扩展」，通过将其进展与短期商业压力隔离开来，从而避免短期目标的干扰。

这一做法使得 SSI 与其他 AI 实验室有所不同，尤其是 OpenAI。OpenAI 最初是一个非盈利组织，但在 2022 年 ChatGPT 走红后，迅速转向商业化产品。去年，OpenAI 的收入接近 40 亿美元，并预测今年的收入将达到 116 亿美元。

关于 SSI 的具体做法的公开资料不多。去年在接受路透社采访时，38 岁的 Sutskever 表示，SSI 正在追寻一种新的研究方向，称之为「新的山峰要攀登」，但他并未透露其他更多细节。

为所谓的「基础模型」公司筹集资金的热潮，似乎没有放缓的迹象。OpenAI 正在讨论将其估值提高到 3000 亿美元，而竞争对手 Anthropic 则在完成一轮新融资，预计其估值将达到 600 亿美元。

然而，在 DeepSeek 的低成本冲击下，投资者们对于这些大额投资却产生了新疑问。DeepSeek 开发的开源模型在成本仅为美国顶级 AI 模型一小部分的情况下，就能与这些前沿 AI 模型竞争。

DeepSeek 的流行在 1 月底使得英伟达的市值缩水了近 6000 亿美元。但根据最近的财报，巨头们并没有因此而放慢对 AI 基础设施的投资，反而仍在不断加大投入。

网友看到不世出的 SSI 又出现新消息，也是纷纷置评。

有人好奇神秘的 Ilya Sutskever 究竟在秘密捣鼓些什么。

有人则质疑 Ilya 及其新公司，没有产品，没有收入，凭什么能拿到这么高的估值，并且认为过度关注安全似乎也不是一个明智的选择。

更有人对 Ilya Sutskever 表示了极大的信任，称他是在超级智能方面唯一值得信任的人。

当然，对他推崇备至的网友还有很多。

不知道今年 SSI 能否拿出一些实际的研究成果或产品，真是让人期待呢。对此，你有什么看法？

参考链接

https://www.reuters.com/technology/openai-co-founder-sutskevers-ssi-talks-be-valued-20-bln-sources-say-2025-02-07/

https://techcrunch.com/2025/02/07/report-ilya-sutskevers-startup-in-talks-to-fundraise-at-roughly-20b-valuation/

#HugWBC让人形机器人运动天赋觉醒了

从扭秧歌到单脚跳

本项目由上海交通大学APEX实验室具身智能组和上海人工智能实验室具身智能中心共同完成。上海交通大学的张伟楠教授主要研究强化学习、智能体技术和具身智能。庞江淼博士主要研究机器人学习，多模态学习，具身智能，负责上海人工智能实验室具身智能中心；刘明桓博士毕业于上海交通大学，目前在字节跳动机器人研究团队担任研究科学家，研究机器人的虚拟现实迁移；薛宇斐和董文韬是上海交通大学博士生，同时是上海人工智能实验室的见习研究员。

在春晚上扭秧歌的机器人，现在也能跑跳自如了？

，时长00:10

还能在室内室外打一套拳击，看这两步跳的，害怕吗？

，时长00:14

它还能弯腰搬箱子：

，时长00:38

来自上海交通大学和上海AI Lab的研究团队提出了一套通用的人形机器人控制器 HugWBC，让人形机器人可以同时掌握多达四种步态，以及可以自主组合、用于精细化调整机器人行为的 8 种命令！

项目主页：https://hugwbc.github.io
论文地址：https://arxiv.org/abs/2502.03206

尽管此前的人形机器人在运动上取得了很多令人惊叹的结果，但离人类还差的多！人类在运动中具有令人惊叹的细粒度调整能力！比如，人类可以轻易实现多种步态，例如跑步、双脚跳跃、甚至单脚跳跃。此外，人类还能调整步伐的大小、频率、身体的姿态，同时也能保证上身各种动作的稳定。因此，研究者提出思考，这种通用的控制能力，是否应该被机器人的底层控制模块所掌握？

和此前控制器只跟踪速度指令、或是关键点不同，HugWBC 的研究团队提出了一套扩展的指令空间，包含任务指令（即速度跟踪）和行为指令，后者包括姿态、脚步和步态，以提供细粒度的运动控制，从而极大发挥人形机器人的硬件潜能。在默认情况下，HugWBC 是一套全身控制器，同时控制上肢和下肢用于高动态运动；与此同时，HugWBC 也提供了上肢的外部控制器介入，用于支持进一步的遥操和精细控制，和实现后续的移动操作类任务。为了达到这一目标，研究者们结合了控制理论和强化学习，进行了扎实的方案设计。

扩展的指令空间和步态奖励

HugWBC 框架

HugWBC 引入的扩展指令空间包括 1）任务指令，在本工作中主要是移动的速度指令；2）行为指令，包括脚步、姿态和步态指令。此外，控制器策略还接收机器人本体感知观测和上肢介入信号，如无上肢介入，则控制器默认控制全部关节，实现自然的摆动。

具体来说，脚步指令包括步频和最大摆动高度；姿态指令包括机器人高度、前倾角和腰部转动角；步态指令则是产生不同类型步态的关键，主要由双脚的相位变量（即双脚在步态周期内的进度）、相位差（即双脚在步态周期内的进度差）和占空比（即足部腾空时间占步态周期的比例）。通过组合这些指令即可以产生丰富多样、且细粒度的步态。

为了引导机器人能根据指令学习到细粒度的步态，研究者在跟踪奖励的基础之上，提出了两种额外的步态奖励：

即接触 - 摆动奖励和足端摆动奖励，用于引导机器人产生对应的步态周期和足端轨迹。

对称奖励

自然对称的运动行为可以最小化能量消耗的效率，并通过后天学习逐渐被人类掌握。具有高度仿生机制的人形机器人也具有对称的结构特征。然而，如果没有先验知识，对称形态信息很难被策略探索，尤其是对于产生多样化行为的策略。这使得最初的探索变得更加困难，使得策略很容易陷入局部最优，导致不自然的运动。为了利用这种形态对称的优势，研究者为人形机器人提出了镜像函数 F (・) 和对应的损失函数，以鼓励策略产生对称和自然的运动。

上身介入的鲁棒性课程训练

HugWBC 将自己定位为基础人形控制器，因此需要支持上半身的外部控制介入，可用于遥操等数据采集。研究者们通过设计上肢的噪声课程来促使机器人学习到这一点。

最后，整套训练框架使用非对称的强化学习算法在模拟环境里训练，实现真实场景的部署。

评估：指令跟踪误差和鲁棒性测试

在跟踪性误差实验分析中，研究人员首先分析了在四种步态下单个指令的跟踪误差，如表 3 所示，其中行走（Walking）和站立（Standing）步态的跟踪误差明显小于双脚跳跃（Jumping）和单脚跳跃（Hopping），每种步态的跟踪精度与该步态在仿真中的训练难度一致。例如，行走和站立的模式可以在训练中先学习，而跳跃和跳跃的步态出现较晚，需要较长的训练时间才能熟练掌握。且低速下的运动技能更容易掌握，高速下机器人的动态稳定性下降，会导致跟踪精度的下降。

此后，研究人员评估了不同介入训练方法对于策略在上肢介入情况下的有效性，如表 4 所示，HugWBC 在三类测试中均取得了最好的跟踪表现，表明 HugWBC 的噪声课程干预策略使控制策略能够处理大范围的手臂运动，使其可以有效的支持复杂的移动操作任务。而仅学习 AMASS 数据或无介入训练的策略则在训练分布外的测试中出现了跟踪精度的灾难性下降。

为了进一步说明 HugWBC 对于操作任务的支持，研究人员评估了站立状态下指令跟踪的平均足端移动距离，如表 5 所示，HugWBC 足端移动距离最小，在站立状态下调整姿势引入了对稳定性的额外要求，因为机器人通过踱步来保持平衡可能会增加完成需要站立不动的操作，实验结果表明 HugWBC 在站立的各种姿态下可以支持精细的操作任务任务的难度。

随后，研究人员分析了介入训练对策略鲁棒性的提升。如图 2 所示，HugWBC 在两项干扰测试中的表现明显优于未经过介入训练的基线方法。其原因在于，干预使机器人能够有效应对来自上身的各种扰动，在训练过程中几乎涵盖了所有极端情况，从而显著提高了策略的鲁棒性。

指令的组合分析

研究者分还分析了组合指令对控制器表现的影响，使用热力图矩阵来高效地可视化了不同指令在对应范围内的跟踪精度。以步行状态为例，

可以看到，在较小的速度范围内，前向线速度、角速度、身体高度、转腰角度都不会明显的相互干扰，一旦速度超过 1.5m/s，控制器会牺牲跟踪精度来保持动态的平衡与稳定。横向速度、抬脚高度与身体俯仰角则常受到明显的干扰。频率则是需要在合适区间内才能使表现更好。抬脚高度与频率、身体俯仰角与身体高度这两组指令则有明显的关联性。

，时长02:39

#Image-Generation-CoT

图像生成迎来CoT时刻！港中文首次提出文生图的o1推理和Inference Scaling新范式！

第一作者，郭子瑜，是香港中文大学 MiuLar Lab 的博士生，本科毕业于北京大学，曾在 Amazon、Roblox、上海人工智能实验室、腾讯等机构实习，研究多模态大模型和 3D 视觉，一作代表作有 Point-LLM、PointCLIP、SAM2Point 等。

随着 OpenAI o1 向社区展示了思维链 Chain-of-Thought（CoT）对于大模型推理能力的强大提升，各种基于强化学习 RL 和提升 test-time 推理成本的方案已经在大模型理解领域取得了很大的进展。然而，在图像生成（Image Generation）领域，例如文生图（Text-to-Image）与文生视频（Text-to-Video），我们是否也可以借鉴 CoT 相关的策略，来提升图片或视频的质量和文本一致性呢？

来自香港中文大学、北京大学、和上海 AI Lab 的研究者们通过 Verify 和 Reinforce 的方案，系统地探索了「CoT 推理 + 文生图」的结合与潜力。研究结果表明，这些方法能够有效提升自回归（Autoregressive）图像生成的质量，作者也提出了两种专门针对该任务的新型奖励模型 —— 潜力评估奖励模型（Potential Assessment Reward Model, PARM）及其增强版本 PARM++，后者引入了反思机制（Reflection Mechanism），进一步优化了图像生成质量。

论文标题：Can We Generate Images with CoT? Let’s Verify and Reinforce Image Generation Step by Step
论文地址：https://arxiv.org/pdf/2501.13926
项目地址：https://github.com/ZiyuGuo99/Image-Generation-CoT

研究背景与挑战

目前，CoT 推理已广泛应用于大语言模型（LLM）和多模态大模型（LMM），尤其在数学推理、科学计算等任务上展现出卓越的能力。然而，在自回归图像生成任务中，如何有效地验证（Verify）和强化（Reinforce）图像生成过程，仍是一个尚未解决的问题。

下图左边部分是目前领域使用「CoT 推理 + 解数学题」的方案概述，而右边部分则是本文对于「CoT 推理 + 文生图」的全面探索。研究团队观察到，自回归图像生成与 LLM/LMM 具有类似的推理架构，即：

离散化 Token 表示：无论是语言还是图像数据，自回归模型都将其量化为离散 Token，并通过逐步预测的方式进行生成。
逐步解码（Step-by-Step Decoding）：类似于 CoT 在数学问题上的逐步推理，自回归图像生成也可以逐步生成中间图像，并在生成过程中进行验证与优化。

CoT 如何应用于图像生成？

考虑到 Autoregressive 图像生成和 LLM 在数据表征和推理架构的相似性，论文调研了包括使用 ORM 和 PRM 的 Test-time Verification、构造 Preference Ranking Data、和通过 DPO 进行偏好对齐等方案，首次证明了「CoT + 文生图」的可行性！本文也提出了两种新型的 reward model，PARM 和 PARM++，来优化图像生成质量。如下图所示，通过本文探索的推理策略，大幅度提升了 Autoregressive Image Generation 的效果。

具体方案

本文的探索以「文生图」为任务场景，并使用了 Show-o 来作为 baseline 模型，主要分为 3 个部分：

1、测试时验证（Test-time Verification）

首先，论文探索如何使用奖励模型（Reward Model, RM）来进行 Test-time Verification，实现了 Outcome Reward Model（ORM，下图左边部分）和 Process Reward Model（PRM，下图中间部分）方案，并在两者的基础上提出了一种全新的针对于图像生成任务的 Potential Assessment Reward Model（PARM，下图右边部分）。

1.1. 结果奖励模型（Outcome Reward Model, ORM）

论文提出了 2 种方案，均使用 Best-of-N 的方式进行验证，即进行多次完整路径的生成，并从中选择出质量最高的最终图片。

Zero-shot ORM：基于 LLaVA-OneVision 强大的图像理解能力，作者使用了其 7B 模型，直接作为 zero-shot ORM 使用，并通过下面的 prompt 来激发其作为文生图质量评估的能力：

Fine-tuned ORM：为了进一步增强 ORM 的专业性能，作者也构建了大规模的图文 reward data 来得到 fine-tuned ORM，数据形式如下图所示：

1.2. 过程奖励模型（Process Reward Model, PRM）：

作者使用了类似 ORM 的方案，同样尝试了 Zero-shot 和 Fine-tuned 两种方案，并对每个 step 进行 Best-of-N 的方案，即逐步选择出质量最高的中间阶段的生成图片。然而，作者发现这种 naive 的 PRM 无法对图像生成有显著的提升。通过可视化，作者发现：PRM 在早期生成阶段由于图像模糊而难以评估，而在后期生成阶段不同路径的图片趋于相似，导致辨别能力受限，如下图所示。

1.3. 潜力评估奖励模型（Potential Assessment Reward Model, PARM）：

为了同时结合 ORM 的简洁和有效性，以及 PRM 细粒度逐个 step 验证的思想，作者提出了一个专门针对 Autoregressive 图像生成任务的 reward model：Potential Assessment Reward Model（PARM）。PARM 通过以下三步提升图像生成质量：

清晰度判断（Clarity Judgment）：识别哪些中间步骤的图像已经足够清晰，可用于后续评估。
潜力性评估（Potential Assessment）：分析当前步骤是否有潜力生成高质量的最终图像。
最佳选择（Best-of-N' Selection）：在高潜力路径中选择最佳的最终图像。

1.4. 潜力评估奖励模型 ++（Potential Assessment Reward Model++，PARM++）

如下图所示，在 PARM 的基础上，作者提出了 PARM++，使模型能够在生成错误时进行自我修正。具体来说，基于 PARM 选出的最终图片，作者首先使用 PARM++ 评估生成图片是否符合文本描述；若图片不符合要求，会要求 RM 提供详细的错误描述，并根据该描述，要求生成模型进行自我修正（Self-correction），即模型接收反馈，并参考错误信息重新生成结果。结果表明，PARM++ 进一步提升 GenEval +10%。如下图右边所示，生成结果在物体数量、颜色、空间关系等方面更加准确。

2、直接偏好优化（Direct Preference Optimization, DPO）Alignment：

作者进一步引入 DPO 偏好对齐，即使用大规模排名数据训练模型，使其生成结果更符合人类偏好。研究团队构建了 288K 条图文排名数据（Text-to-Image Ranking Data）用于训练。具体来说，训练过程是采用最大似然优化，调整模型输出，使其更偏向人类偏好。同时，论文也进一步使用迭代 DPO（Iterative DPO），在模型优化后重新生成新数据进行再次训练。结果表明，初次 DPO 训练使模型在 GenEval 性能提升 +9%，而迭代 DPO 进一步提高至 +12%，超越 Fine-tuned ORM。

3、Test-time Verification + DPO Alignment：

在前述两种方法的基础上，作者探索了将 Test-time Verification 与 DPO 对齐相结合的策略，以实现端到端的优化。在 DPO 训练的模型基础上，进一步应用 Test-time Verification 进行筛选，使生成图像质量更高，文本一致性更强。实验结果表明，结合 DPO 和 Test-time Verification 后，模型在 GenEval 指标上的整体提升达 +27%，超越单独使用 DPO 或 Test-time Verification 的方案。

总体效果对比

下表展示了模型在 GenEval 基准上的总体性能比较，相比于现有的扩散模型和自回归模型，结果证明了在文本生成图像任务中使用 CoT 推理策略的潜力。

结论

本研究首次系统性探索了 CoT 推理策略在自回归图像生成中的适应性及潜力。通过全面的实验分析证明了不同的推理策略（如测试时验证、偏好对齐及其结合）能够有效提升图像生成质量。基于这些观察，本文进一步提出了两种专门针对自回归图像生成的奖励模型 —— 潜在评估奖励模型（PARM）和 PARM++，前者能够对逐步生成过程进行自适应奖励评分，后者则结合了反思机制（Self-reflection），实现自我修正的图像生成。实验结果表明，CoT 推理在自回归图像生成任务中展现出了巨大的潜力，为该领域的发展开辟了新的方向，也为大模型推理能力的进一步提升奠定了基础！

#Qwen2.5 与 DeepSeek 和 ChatGPT 对比

什么是 Qwen 2.5？

Qwen 2.5 是阿里巴巴集团开发的 Qwen 系列大型语言模型 (LLM) 的最新版本。Qwen（也称为统一千文模型）建立在强大的 Transformer 架构基础上，旨在提供卓越的语言理解、推理和多模态能力。

此版本增强了Qwen 2的功能，引入了可在保持效率的同时提高多项任务性能的优化。

Qwen 的主要特点：

多语言支持：Qwen 支持 20 多种语言，包括英语、中文、法语、西班牙语、葡萄牙语、俄语、阿拉伯语、日语、韩语、越南语、泰语、印尼语等。这使其成为适合不同语言背景用户的全球性工具。
先进的自然语言处理 (NLP)：凭借最先进的 NLP 功能，Qwen 能够理解上下文、语气和意图，确保其响应准确且相关且引人入胜。根据内部基准，Qwen 在理解复杂查询方面的准确率达到 95%。
用途广泛：从撰写博客和文章到编码协助、客户支持，甚至创意故事讲述，Qwen 在各种应用中都表现出色。自推出以来，Qwen 已生成了超过 1000 万条内容。
定制选项：用户可以对 Qwen 进行微调，以适应特定行业或任务，使其适应细分需求。超过 500 家企业已经根据其独特的业务需求定制了 Qwen。
易于集成：Qwen 可与其他工具和平台无缝集成，使企业能够不间断地增强其工作流程。它目前为全球 10,000 多个应用程序提供支持。
道德和负责任的 AI：阿里云优先考虑道德的 AI 实践，确保 Qwen 遵守促进公平、透明和安全的准则。Qwen 经过严格测试，确保符合全球 AI 道德标准。

Qwen 2.5 中的关键增强功能

1. 更强的推理和理解能力

Qwen 2.5 中最显著的改进之一是更好的推理能力。该模型现在可以在以下任务中提供更准确、更具有情境感知能力的响应：

数学推理
逻辑推理
解决复杂问题

这些改进使 Qwen 2.5 与专有模型相当或领先，使其成为 AI 驱动应用程序的有竞争力的选择。

2. 多模式增强

Qwen 2.5 扩展了其多模式功能，允许模型根据文本和图像输入处理和生成内容。这使其对于以下应用非常有价值：

视觉语言建模
人工智能生成的创意内容
来自视觉源的实时数据解释

3. 更高效、更具成本效益

与前几代相比，Qwen 2.5 进行了模型优化，增强了：

计算效率（更低的延迟和更快的推理）
减少内存占用，使部署更加容易
可扩展性，能够与各种AI框架更顺畅地集成

4. 更好的代码理解和生成

开发人员和研究人员将受益于 Qwen 2.5 增强的代码生成功能，这使它能够：

更有效地编写和调试代码
更好地理解编程逻辑
协助自动化软件开发

这些升级使其成为人工智能辅助软件工程和研究的绝佳选择。

性能基准

Qwen 2.5 已经针对各种标准 AI 基准进行了测试，与开源和一些专有 LLM 相比，性能有显著提升。

基准比较：

数学推理：显著提高解决复杂数学问题的准确性。
语言理解：更好地处理细微差别和背景丰富的对话。
多模式人工智能：卓越的文本到图像和图像到文本的解释。
代码生成：在生成功能性和结构化代码片段方面优于以前的模型。

这些基准测试证实，Qwen 2.5 是当今最强大的开源 AI 模型之一。

Qwen 2.5 与 DeepSeek 与 ChatGPT：竞争分析

人工智能领域的竞争日益激烈，有几种模型在推理、多模式能力和效率方面争夺主导地位。以下是Qwen 2.5与DeepSeek 和 ChatGPT 的比较结果：

关键要点：

Qwen 2.5：最适合开源灵活性、强推理和多模式 AI 能力。
DeepSeek：一种很有前途的开源替代方案，但在推理和多模式人工智能方面略显落后。
ChatGPT（GPT-4）：最先进的专有模型，但缺乏开源可访问性。

Qwen 2.5为需要 AI 应用程序透明度、定制化和效率的开发人员提供了 ChatGPT 的强大替代方案。

Qwen 2.5 如何影响 AI 生态系统

1. 加强开源人工智能

Qwen 2.5 的开源特性使开发人员、研究人员和企业能够：

基于最先进的 AI 技术进行构建，无需依赖专有模型。
改进教育、医疗保健和商业分析领域的人工智能应用。
通过为进一步发展提供强大的基础模型来促进人工智能创新。

2. 比专有法学硕士更具竞争优势

Qwen 2.5 的发布通过以下方式挑战了科技巨头的闭源 AI 模型：

具有相当或更好的推理和理解能力。
无需许可费用的多模式 AI 功能。
更强的企业AI解决方案适应性。

Qwen 2.5 标志着开源 AI 的重大突破，为专有模型提供了强大、高效且可扩展的替代方案。凭借其在推理、多模式功能和性能效率方面的进步，Qwen 2.5 有望成为下一代 AI 应用的基石。它的开源性质使其成为任何希望创新并完全控制其 AI 工具和流程的人的理想选择。

#推理和RL加速GPT-5.5到来？

奥特曼公开GPT-4.5已就绪，年底发布全自主智能体

DeepSeek 以低成本模型搅动全球 AI 格局之际，OpenAI CEO Sam Altman 正在进行他的东京之旅。

与软银创始人孙正义敲定 5000 亿美元的巨额投资之前，Sam Altman 和 OpenAI CPO Kevin Weil 到访了东京大学，在师生问答环节中透露了更劲爆的消息：

「在 OpenAI 内部，我们已经达到了 GPT-4.5，而达到 GPT-5.5 并不需要 100 倍以上的计算能力。」

「推理模型和强化学习技术的进步极大地提高了计算效率 —— 它允许较小的模型实现 GPT-6 级别的性能，而不需要 100 倍以上的计算能力。」

「我们会把所有模态整合在一起，你可以在画布上看到，它一边和你语音，一边为你编写和编译代码。它将能够浏览互联网。」

「o 模型将能支持视觉识别功能，比如某个硬件需要检修，拍一张照片，o 系列模型将能提供技术支持。」

「o3-mini 预示了未来六到十二个月的研究方向...... 我希望到今年年底，我们能开发出一个除了科学发现，其他高难度任务都被它能解决的智能体模型，它可能需要几个小时来思考，甚至可能需要调用一堆工具，但它最终能够为你完成任务。」

虽然这两位 OpenAI 的高管说着自己是来听 bug 和功能需求反馈的，但 Sam Altman 还是在不经意间就透露了 GPT 系列的产品规划以及 DeepSeek 会让 OpenAI 重新考虑是否开源的回应。尤其值得注意的是，OpenAI 接下来的重点将是高能力的推理模型、多模态以及智能体。

，时长42:15

视频链接：https://www.youtube.com/watch?v=8LmfkUb2uIY

机器之心在不改变对谈原意的基础上划好了这场访谈的重点：

GPT 系列模型未来的发布计划

Q：如果 ChatGPT 获得了 100 倍的算力，它会出现什么新的涌现特性？会出现什么质的飞跃吗？

奥特曼：我们正在寻找这个问题的确切答案，「星际之门」项目正在推进，它拥有我们当前的计算集群大约 100 倍的计算能力。

我们过去的范式是只做预训练，每一代 GPT，第 1、2、3、4 代，每一代的算力都是之前的大约 100 倍，虽然不是精确的 100 倍，但非常接近。每一次迭代，模型都会出现重要的新涌现特性。

我们已经发展到大约 4.5 代。所以如果想达到 5.5 代，还需要再增加 100 倍。然而，去年出现了一件最重要的事，那就是能够进行推理的新模型。它们在计算效率上有了惊人的提升。通过强化学习，模型可以在很多基准测试上表现出色。这些成果在以前的思路中要扩张到 GPT-6 才能实现，而现在用更小的模型就能做到。

所以，我们现在有了一些新的认识。关键在于，新方法并不是在所有方面都比旧方法更好，只是在某些特定方面有所提升。不过，我们现在可以更清楚地知道，如果我们用这个新方法去训练一个更大的模型，大概会达到什么样的效果。

基于这种跳跃式进展，我所期待的是 AI 自主发现科学知识，特别是新的物理学或新的生物学知识的能力。

近期推理模型的发展确实令人惊叹。我们的第一个推理模型的水平仅相当于世界排名百万开外的竞赛程序员，但随后我们开发的模型已经能够跻身世界排名前一万名。到了 12 月公开发布的 o3 模型，它已经达到了世界第 175 名竞赛程序员的水平。

目前，我们内部的基准测试显示，模型水平大约在世界前 50 名左右，我相信到今年年底，我们有望冲击世界第一的宝座。

新的技术范式展现了惊人的提升速度，并且目前还没有任何放缓的迹象。

Q：能否分享一下你们未来的各个研究领域的研究计划，以及你们目前认为什么是可实现的，什么是特别具有挑战性的？

奥特曼：我们上周五发布了 o3-mini，我认为这预示了未来六到十二个月的研究方向。

我们会尽可能推进小型的、令人难以置信的高能力、超快速的推理模型。现在这些模型主要擅长 STEM 领域，但它们最终会在所有方面都变得出色。

我们会把所有模态整合在一起。所以在同一个模型中，你可以在画布上看到，它一边和你语音，一边为你编写和编译代码。它将能够浏览互联网，然后我们会继续扩大模型规模。所以，你知道，希望能达到 GPT-5、6，或者更多。

今天，我们推出了一个叫做 Deep Research 的新功能。这个功能在专业版计划中。它有限地进入 Plus 版本，但目前在专业版计划中。这是我们推出的第二个智能体产品。它真的很棒，我认为这是我们推出过的最好的产品之一。

你可以给它一个任务，这个任务原本需要你花费很多小时或几天在互联网上研究、思考寻找资料，它会给你返回一份报告。它的研究报告确实做得非常好。

比如我很喜欢 90 年代的日本国产车。这个周末我想找一辆特定的车，我找得很困难，于是我想那不如试试用 deep research 来找吧。开始我觉得它不可能找到，结果它找到了整个日本仅有的 3 辆在售车辆，还附带了现成的联系信息。这是一次令人惊叹的体验！

所以 OpenAI 会开发更多这样的智能体，会继续推进能够自主完成有用工作的智能体。我们讨论过如何实现编程智能体的梦想，要达到这个目标还需要大量研究，但我认为 Deep Research 将是一个真正重要的里程碑。

总的来说，我希望到今年年底，我们能开发出一个你可以使用的模型。如果你使用的是专业版，你可以将计算能力调到最大，然后向它提出一个非常难的问题 —— 虽然不是那种需要发现新科学的问题，但除此之外的大多数复杂问题都可以。它会开始工作，可能需要几个小时来思考，甚至可能需要调用一堆工具，但它最终能够为你完成任务。

不过，要实现这个目标，我们还有很长的路要走。这需要巨大的计算规模，也需要更多的算法进步。但我相信，这是可以实现的。

ChatGPT 对高等教育的影响

Q：生成式 AI 在未来 10 年、30 年、100 年将如何改变教育？

奥特曼：我认为世界上的每个学生、每个人都能获得比当下最顶尖的教育还要优质的教育。有些初创的教育公司正在基于 OpenAI 的技术，为每个人提供量身定制的学习方案，针对他们的薄弱点助力他们终身学习。

我认为这大有前景。学生是 ChatGPT 最大的用户群之一，它天然适合教育，我鼓励大家都去开发这类教学应用。

谈到 100 年后，那将会非常精彩。我还想象不到 100 年后 AI 的能力会如何。先看 10 年后，我认为 AI 仍将极大地改变世。科学进步和科学发现的速度可能比现在快 10 倍，也许是 100 倍。

这将极大地提高生活质量，比如太空探测器将超越太阳系，但与此同时，人们仍会过着一如既往的生活，仍然会有很强的动力去和朋友聚会、建立家庭、发展兴趣爱好。但从另一种意义上说，人之为人的本质不会改变。我一点也不担心人类会失业，只是环境会改变，工作会不同，但人类社会的运作方式还将如常。

Q：全世界如何公平地获取这些 AI 工具？

奥特曼：我们在办公室经常说「智能变得如此便宜，以至于不值得去计较成本了」。我们的目标是努力把智能的成本降到尽可能接近零，让全世界的人都能免费使用。

为了证明我们是认真的，现在的模型比两年前推出的 GPT-3 智能得多，而价格只有 GPT-3 最初的 1%。所以成本已大幅下降，我们想要继续保持这个趋势。

Q：你认为在 AI 时代，亚洲会更看重什么样的人才和技能？给学生们一些建议，你认为什么样的才能和技能最宝贵、最重要？

奥特曼：我们是否会比 AI 更擅长数学，或者比 AI 更会编程？答案是否定的。你不会在这些方面比 AI 更好。

就像当刚计算器发明时，有人会觉得无论计算器有多厉害，自己还是会在算数方面强过计算器，但我们现在已经知道了，没有人能在算数的方面比过计算器。

所以在 AI 时代所需的具体技能方面，你要能借助 AI 做一些以前没人能做到的事情。以经营一家公司的方法来用 AI，你提出想法，让 AI 执行，再进行协调。

在这个世界里你需要的技能是：找到人们的需求、具有创造性的愿景、快速适应能力、在一切都在变化时保持韧性，以及学会如何使用这些工具去提效，而不是试图做到「我要算得比计算器还快」。

Kevin Weil：对我来说，其中的教训和现在要记住的是：开始使用 AI 工具，开始将它们融入你的工作方式，融入你的学习方式。当你在做事时，先问问自己：「AI 是否能帮我更快完成？这件事一定要我自己来做吗？还是可以把它外包给 AI？

奥特曼：有一种错误的观点是，AI 会在所有方面打败人类，人类社会将被 AI 结束，其实不然，作为人类，我们也在适应新技术。这是一种共同进化，我们将在 AI 的助力下获得无法想象的能量，应该这么想。

Kevin Weil：顺便说一下，有一本沃顿商学院教授 Ethan Malik 写的书叫《Co Intelligence》。这本书很短，大约 100 页，但它包含了很多关于他如何用 AI 教学以及学生如何思考与 AI 合作的深刻见解。我认为很值得一读。

「DeepSeek 开源影响你们了吗？」

Q：早些时候，你提到要让智能对每个人都可获取。随着中国 DeepSeek AI 的最近发布以及公开权重和架构，OpenAI 远离开源的有效性受到了质疑。你们是否有计划重新考虑这个立场？理由是什么？

奥特曼：是的，我们会这样做。我不知道具体要开源什么或者具体什么时候，但对我们来说，发展方向似乎是朝着更多开放模型的方向发展，而社会愿意接受随之而来的权衡，至少目前是这样。我认为我们在让这些模型在开源使用中普遍安全和稳健方面取得了良好进展。它们不会都被这样使用，但大多数时候还会是这样的。

Q：1）过去两年我一直在使用 OpenAI 作为我的个人助理，非常有帮助。我想知道随着脑机接口的发展，你认为它将如何影响人们的意识在未来的存在方式？2）我正在学习小型卫星工程，我在制造用于太空的小型卫星。我有一个关于卫星和 AI 的问题，因为通常来说，将 AI 用于新技术比如卫星、太空这样的领域是非常困难的。所以你对 AI 和空间工程的发展前景有什么看法？3）你能分享一下关于 10 年后 AI 会是什么样子的想法吗？

奥特曼：让我们快速回答这些问题。关于脑机接口，现在是追求这个的绝佳时机。显然，我们会找到一些解决方案，获得某种直接访问的方式。这可能需要一段时间，但正如你所想的，AI 将会非常惊人。我对许多具有破坏性的方法持怀疑态度，但我认为有一些较轻量级的方法，你可以学习如何使用接口，而且可以逐渐输入到你的大脑中，对吧，我们会找到解决方案的。我认为在过去六个月里，很多有趣的新公司都在朝这个方向发展。Kevin 你要回答太空那个问题吗？

Kevin Weil：好的。在我来 OpenAI 之前，我在一家叫做 Planet 的公司工作，该公司制造卫星并每天对整个世界进行成像。我们最近发射的卫星装有 GPU，目的是在太空中运行 AI 模型，为了更快地传送结果等。我同意你的看法，这很有挑战性。我们现在每三个月发布一个新模型，而太空项目时间线要长得多。

但随着模型发展，我的意思是，我们在向太空输送更多能量方面做得越来越好。火箭变得更大，所以你可以发射更大的卫星，更大的太阳能电池板，而模型变得更小，你可以更高效地运行它们。

我的答案是，一切都在朝着太空中有更多 AI 的方向发展，这是一个相当酷的结果。

奥特曼：第三个问题是要做一个具体的预测。如果我们谈论 2025 年地球上的总智能，所有人、协作、AI，就是地球上的总智力容量。我认为到 2035 年，如果进步的趋势继续下去，那么一个单独的数据中心就会比地球当前的总智力容量更强大。

Q：我们知道训练 AI 模型需要大规模数据集，但是对于当时非常稀缺的数据集，OpenAI 推荐什么样的策略来训练这样的模型？

Kevin Weil：我们看到的一个有趣的现象是，随着模型变得更智能，你需要更少的样本来微调它们、让它们学习新东西。这个趋势正朝着正确的方向发展，非常智能的模型能够通过更少的数据点来学习新领域。

创业、机器人和技术追赶

Q：我想创业。最重要的事情是什么？

奥特曼：在开始创业之前，我曾经运营一个叫做 Y Combinator 的项目来帮助人们创业。我认为早期团队成员最重要的是那些充满能量、非常坚定的人。有一句 Paul Graham 的话叫做「be relentlessly resourceful」，这就是你需要寻找的特质。初始团队成员比任何具体专业知识都重要。新业务的早期阶段非常困难，所以你需要有这种能量的人。

Kevin Weil：我同意这个观点。我认为你会遇到各种各样的事情，你需要那些灵活的人、那些不会放弃的人、很好的学习者，因为你会遇到你从未预料到的事情。所以你需要那些会说「哦，我能搞定这个，让我去试试」的人。

Q：我们如何能建立一组机器人，让它们开发自己的语言来相互交流并培养属于自己的文化？

奥特曼：我认为关键因素之一可能是将眼睛和耳朵整合到抽象思维框架中。现在第一批智能体开始上线，你开始看到人们在构建一些东西，有些人称之为群体，有些人称之为团队、智能体文明等。我预计它们会发展出新的交流和共享信息的方式。

它可能不会像科幻电影让我们相信的那样戏剧性和令人兴奋，但它会发生，而且会起作用。我认为你不需要物理的眼睛和耳朵，但你确实需要良好的输入输出。我认为我们开始看到这一点了。这些多智能体的事情非常令人兴奋。

Q：我主修电气和电子工程，我正在准备与出版商合作开发 AI 驱动的图书搜索引擎。考虑到技术进步如此之快，感觉像 AI 或 LLM 这样，我如何建立和保持竞争优势？

奥特曼：正常的商业规则仍然适用，你仍然需要找到能建立一些具有持久价值、粘性和差异化的东西。有很多创业公司说，好吧，我在使用 AI，所以这些规则不适用。但它总是适用的。否则，你将无法建立差异化。我认为关于创业最好的书仍然是 Peter Thiel 写的《从 0 到 1》，现在可能已经有 10 年了，但它在书中详细讨论了什么是长期竞争优势。

Kevin Weil：我引用 Sam 之前说过的话，就是当你谈论如何针对越来越好的 AI 进行构建时。你要建立的东西应该处于前沿，真正推动模型能力的边界。

如果你在建造某个东西，而你对我们的下一个模型发布感到紧张，因为它可能能够做你正在做的事情，那说明不是一个好的位置。但如果你正在构建某个东西，而你迫不及待地等待我们的下一个模型发布，因为你正处于能力的边缘，我们下一个更智能的模型发布会让你的产品变得更棒，那就是一个好位置。

#understanding-reasoning-llms

Sebastian Raschka：关于DeepSeek R1和推理模型，我有几点看法

著名 AI 研究者和博主 Sebastian Raschka 又更新博客了。这一次，他将立足于 DeepSeek 技术报告，介绍用于构建推理模型的四种主要方法，也就是如何通过推理能力来增强 LLM。Sebastian Raschka 表示：「我希望这能提供有价值的见解，并帮助你了解围绕这一主题的快速演变的文献和话题炒作。」

原文地址：https://sebastianraschka.com/blog/2025/understanding-reasoning-llms.html

2024 年，LLM 领域的专业化程度不断提高。除了预训练和微调之外，我们还见证了从 RAG 到代码助手等专业应用的兴起。我预计这一趋势将在 2025 年加速，也就是更加重视特定于具体领域和应用的优化（即专业化 /specialization）。

第 1-3 阶段是开发 LLM 的常见步骤。第 4 阶段是针对具体用例对 LLM 进行专门化。

开发推理模型就是一种专业化。这能让 LLM 更擅长处理复杂任务 —— 解决这些任务时最好使用中间步骤，例子包括解答谜题、高级数学和编程难题。但是，这种专业化并不能取代其他 LLM 应用。因为将 LLM 转换为推理模型也会带来某些缺点，我将在后面讨论。

以下是本文的简要纲目：

如何定义「推理模型」？
应该何时使用推理模型？
简要了解 DeepSeek 训练流程
构建和改进推理模型的 4 种主要方法

1) 推理时间扩展

2) 纯强化学习 (RL)

3) 监督微调加强化学习 (SFT + RL)

4) 纯监督微调 (SFT) 和蒸馏

结论

对 DeepSeek R1 的一些思考
在有限的预算下开发推理模型

如何定义「推理模型」？

如果你在 AI（或广义上的机器学习）领域内工作，你可能已经很了解相关定义的模糊性了。「推理模型（reasoning model）」这个术语也不例外。最终，有人会在一篇论文中正式定义它，但却又会在下一篇论文中重新定义它，如此连绵不断。

本文将「推理」定义为回答需要复杂、多步骤生成和中间步骤的问题的过程。例如，像「法国首都是哪里？」这样的事实性问答不需要推理。相比之下，像「如果一列火车以 60 英里 / 小时的速度行驶 3 小时，它会行驶多远？」这样的问题需要一些简单的推理 —— 它需要识别距离、速度和时间之间的关系，方能得出答案。

常规的 LLM 可能只提供简短的答案（如左图所示），而推理模型通常包括揭示部分思维过程的中间步骤。（请注意，许多没有专门为推理任务开发的 LLM 也能在其答案中提供中间推理步骤。）

大多数现代 LLM 都具有基本的推理能力，可以回答诸如「如果一列火车以 60 英里 / 小时的速度行驶 3 小时，它会行驶多远？」这样的问题。因此，今天当我们提到推理模型时，我们通常指的是擅长更复杂推理任务的 LLM，例如解决谜题、谜语和数学证明。

此外，如今大多数被称为推理模型的 LLM 都将「思维」或「思考」过程作为其响应的一部分。LLM 是否以及如何真正「思考」则是另一个话题了。

推理模型中的中间步骤可以两种方式出现。第一种，中间步骤可能显式地出现在响应中，如上图所示。第二种，一些推理 LLM（例如 OpenAI o1）则会运行多个迭代，中间步骤对用户来说是不可见的。

使用「推理」的两个不同层级：1）通过多个中间步骤处理输入和生成结果，2）将某种形式的推理放在响应中提供给用户。

什么时候应该使用推理模型？

现在我们已经定义了推理模型，接下来讨论更有趣的部分：如何构建和改进用于推理任务的 LLM。然而，在深入研究技术细节之前，重要的是思考何时才真正需要推理模型。

我们什么时候需要推理模型？推理模型擅长解决复杂任务，例如解决难题、高级数学问题和高难度编程任务。但是，对于总结、翻译或基于知识的问答等简单任务，它们并不是必需的。事实上，如果你将推理模型用于所有事情，则可能遭遇低效率和高成本问题。例如，推理模型通常使用起来更昂贵、更冗长，有时由于「过度思考」而更容易出错。很容易理解：为了完成任务，需要使用正确的工具（或 LLM 类型）。

下图总结了推理模型的主要优势和局限性。

推理模型的主要优势和劣势。

推理模式的优势：

演绎或归纳推理（例如解密、数学证明）
思维链推理（分解成多步骤问题）
复杂的决策任务
能更好地泛化到新问题

推理模式的劣势：

快速且低成本的响应（更多推理时间）
基于知识的任务（幻觉）
简单任务（过度思考）

简要了解 DeepSeek 训练流程

在下一节讨论构建和改进推理模型的四种主要方法之前，这里简要概述一下 DeepSeek R1 的工作流程 —— 信息来源是 DeepSeek R1 技术报告。该报告既是一个有趣的案例研究，也可作为一份开发推理 LLM 的蓝图。

请注意，DeepSeek 并没有发布单一的 R1 推理模型，而是发布了三个不同的变体：DeepSeek-R1-Zero、DeepSeek-R1 和 DeepSeek-R1-Distill。

根据其技术报告中的描述，我在下图中总结了这些模型的开发过程。

DeepSeek R1 技术报告中讨论的三种不同推理模型的开发过程。

接下来，我们简单过一遍上图所示的流程。下一节将介绍更多细节 —— 将讨论构建和改进推理模型的四种主要方法。

(1) DeepSeek-R1-Zero：该模型基于 2024 年 12 月发布的 671B 预训练版 DeepSeek-V3 基础模型。该研究团队使用强化学习（RL）对其进行了训练，并提供了两种类型的奖励。这种方法被称为「冷启动（cold start）」训练，因为它不包括监督微调（SFT）步骤，而这通常是基于人类反馈的强化学习（RLHF）的一部分。

(2) DeepSeek-R1：这是 DeepSeek 的旗舰推理模型，基于 DeepSeek-R1-Zero 而构建。该团队使用了额外的 SFT 阶段和进一步的 RL 训练对其进行了进一步微调，从而在「冷启动」的 R1-Zero 模型基础上实现了提升。

(3) DeepSeek-R1-Distill：DeepSeek 团队利用前面步骤生成的 SFT 数据对 Qwen 和 Llama 模型进行了微调，以增强其推理能力。虽然这不是传统意义上的蒸馏，但这个过程也确实是在较大的 DeepSeek-R1 671B 模型的输出上训练较小的模型（Llama 8B 和 70B，以及 Qwen 1.5B-30B）。

构建和改进推理模型的 4 种主要方法

下面将概述当前用于增强 LLM 推理能力和构建专门的推理模型（如 DeepSeek-R1、OpenAI 的 o1 和 o3 等）的关键技术。

注意：OpenAI 并未详细说明 o1 和 o3 的具体工作原理。然而，据传它们组合式地利用了推理和训练技术。

1. 推理时间扩展

提高 LLM 推理能力（或任何能力）的一种方法是推理时间扩展（inference-time scaling）。这个术语可以有多种含义，但在这里，它指的是在推理过程中增加计算资源以提高输出质量。

做个粗略的类比：人类在解决复杂问题时，如果给他更多时间，得到的答案往往会更好。类似地，我们可以应用一些技术来鼓励 LLM 在生成答案时更多地「思考」。（不过 LLM 究竟是否真的会「思考」还有待讨论。）

推理时间扩展的一种直接简单的方法是巧妙的提示词工程。一个典型的例子是思维链（CoT）提示方法，即在输入的提示词中包含「think step by step」等短语。这能鼓励模型生成中间推理步骤，而不是直接跳到最终答案，这通常（但并不一定）可以在更复杂的问题上得到更准确的结果。（请注意，对于更简单的基于知识的问题，例如「法国的首都是什么」，采用这种策略是没有意义的，这又是一个很好的经验法则，可以找出推理模型是否对给定的输入查询有用。）

一个经典 CoT 提示示例，来自论文《Large Language Models are Zero-Shot Reasoners》

上述 CoT 方法可被视为一种推理时间扩展，因为它会生成更多输出 token，使推理的成本也会更高。

推理时间扩展的另一种方法是使用投票和搜索策略。一个简单的例子是多数投票 —— 让 LLM 生成多个答案，然后我们通过多数投票选择正确的答案。同样，我们可以使用集束搜索和其他搜索算法来生成更好的响应。

这里强烈推荐一篇论文：

论文标题：Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters
论文地址：https://arxiv.org/pdf/2408.03314

不同的基于搜索的方法依赖于基于过程奖励的模型来选择最佳答案。

DeepSeek R1 技术报告指出其模型没有使用推理时间扩展。然而，这种技术通常在 LLM 之上的应用层实现，因此 DeepSeek 有可能会在其应用中使用它。

我猜想 OpenAI 的 o1 和 o3 模型使用了推理时间扩展，这可以解释为什么它们与 GPT-4o 等模型相比相对昂贵。除了推理时间扩展之外，o1 和 o3 可能使用类似于 DeepSeek R1 使用的 RL 流程进行训练。下面两节将详细介绍强化学习。

2. 纯 RL

DeepSeek R1 论文的亮点之一是他们发现推理是纯 RL 涌现出的一种行为。让我们更详细地探讨一下这意味着什么。

如前所述，DeepSeek 开发了三种类型的 R1 模型。第一个 DeepSeek-R1-Zero 建立在 DeepSeek-V3 基础模型之上，这是他们于 2024 年 12 月发布的标准预训练 LLM。与典型的 RL 流程不同（即在 RL 之前应用监督微调（SFT）），DeepSeek-R1-Zero 仅使用 RL 进行训练，没有初始 SFT 阶段，如下图所示。

DeepSeek-R1-Zero 模型的开发过程。

尽管如此，这种 RL 过程类似于常用的 RLHF 方法，后者通常应用于偏好微调 LLM。更多详情可参阅《LLM 成功不可或缺的基石：RLHF 及其替代技术》。但是，如上所述，DeepSeek-R1-Zero 的主要区别在于他们跳过了用于指令调整的监督微调（SFT）阶段。这就是他们将其称为「纯」RL 的原因。（不过需要指出，LLM 背景下的 RL 与传统 RL 有很大不同。）

对于奖励，他们没有使用根据人类偏好训练的奖励模型，而是采用了两种类型的奖励：准确度奖励和格式奖励。

准确度奖励使用 LeetCode 编译器来验证编码答案，并使用确定性系统来评估数学响应。
格式奖励依靠 LLM 评判员来确保响应遵循预期格式，例如将推理步骤放在标签内。

令人惊讶的是，这种方法足以让 LLM 发展出基本的推理技能。研究人员观察到了一个「啊哈！」时刻，尽管没有经过明确的训练，但模型开始在其响应中生成推理痕迹，如下图所示。

DeepSeek R1 技术报告展示的「啊哈」时刻，https://arxiv.org/abs/2501.12948

虽然 R1-Zero 并不是表现最好的推理模型，但它确实通过生成中间的「思考」步骤展示了推理能力，如上图所示。这证实了使用纯 RL 开发推理模型是可能的，DeepSeek 团队是第一个展示（或至少发布）这种方法的团队。

3. 监督微调加强化学习（SFT + RL）

接下来，让我们看看 DeepSeek 的旗舰推理模型 DeepSeek-R1 的开发过程，这可作为构建推理模型的蓝图。其方法是通过结合额外的 SFT 和 RL 来改进 DeepSeek-R1-Zero，以提高其推理性能。

请注意，在 RL 之前包含 SFT 阶段实际上很常见，如标准 RLHF 流程那样。OpenAI o1 很可能就使用了类似的方法。

DeepSeek-R1 模型的开发过程。

如上图所示，DeepSeek 团队使用 DeepSeek-R1-Zero 生成了所谓的「冷启动」SFT 数据。术语「冷启动」指的是这些数据是由 DeepSeek-R1-Zero 生成的，而 DeepSeek-R1-Zero 本身并未接受过任何 SFT 数据的训练。

DeepSeek 随后使用此冷启动 SFT 数据通过指令微调训练模型，然后进行另一个 RL 阶段。此 RL 阶段保留了 DeepSeek-R1-Zero RL 过程中使用的相同准确度和格式奖励。不过，他们还添加了一致性奖励以防止语言混合 —— 当模型在响应中在多种语言之间切换时就会发生这种情况。

RL 阶段之后是另一轮 SFT 数据收集。在此阶段，使用最新的模型检查点生成 600K 思维链 SFT 样本，同时使用 DeepSeek-V3 基础模型创建另外 200K 基于知识的 SFT 样本。

然后将这些 600K + 200K SFT 样本用于另一轮 RL。在此阶段，他们再次使用基于规则的方法对数学和编程问题进行准确度奖励，而对其他问题类型使用人类偏好标签。

最终模型 DeepSeek-R1 由于增加了 SFT 和 RL 阶段，性能在 DeepSeek-R1-Zero 基础上有了明显提升，如下表所示。

OpenAI o1 和 DeepSeek R1 模型的基准评测结果比较，来自 DeepSeek-R1 技术报告。

纯监督微调（SFT）和蒸馏

到目前为止，我们已经介绍了构建和改进推理模型的三种主要方法：

推理时间扩展，这是一种无需训练或以其他方式修改底层模型即可提高推理能力的技术。
纯 RL，如 DeepSeek-R1-Zero，它表明推理可以在没有监督微调的情况下成为一种学习行为。
SFT + RL，这得到了 DeepSeek 的旗舰推理模型 DeepSeek-R1。

那么，还有什么方法？模型「蒸馏」。

令人惊讶的是，DeepSeek 还发布了通过所谓「蒸馏」过程训练的较小模型。然而，在 LLM 语境中，蒸馏并不一定遵循深度学习中使用的经典知识蒸馏方法。传统上，在知识蒸馏中，较小的学生模型在较大的教师模型和目标数据集的 logits 上进行训练。

相反，这里的蒸馏是指在较大的 LLM 生成的 SFT 数据集上对较小的 LLM（例如 Llama 8B 和 70B 以及 Qwen 2.5 模型（0.5B 到 32B））进行指令微调。具体来说，这些较大的 LLM 是 DeepSeek-V3 和 DeepSeek-R1 的中间检查点。事实上，用于此蒸馏过程的 SFT 数据与用于训练 DeepSeek-R1 的数据集相同，如上一节所述。

下图中突出展示了蒸馏部分。

蒸馏版 DeepSeek R1 模型的开发过程。

他们为什么要开发这些蒸馏模型？我认为有两个主要原因：

较小的模型效率更高。这意味着它们运行起来更便宜，但它们也可以在低端硬件上运行，这对许多像我一样的研究人员和修补匠来说尤其有趣。
纯 SFT 案例研究。这些蒸馏模型可作为有趣的基准，展示纯监督微调 (SFT) 在没有 RL 的情况下可以让模型走多远。

下表比较了这些蒸馏模型与其他流行模型以及 DeepSeek-R1-Zero 和 DeepSeek-R1 的性能。

蒸馏模型与非蒸馏模型的基准比较。注释图来自 DeepSeek-R1 技术报告。

我们可以看到，蒸馏后的模型明显弱于 DeepSeek-R1，但与 DeepSeek-R1-Zero 相比，它们却出奇地强大，尽管规模小了几个数量级。值得注意的是，这些模型与 o1 mini 相比，表现非常好（我怀疑 o1-mini 本身可能是 o1 的一个类似的蒸馏版本）。

在结束本节之前，还有一个有趣的比较值得一提。DeepSeek 团队测试了 DeepSeek-R1-Zero 中出现的涌现推理行为是否也会出现在较小的模型中。为了研究这一点，他们将 DeepSeek-R1-Zero 中相同的纯 RL 方法直接应用于 Qwen-32B。

下表展示了实验的结果，其中 QwQ-32B-Preview 是千问团队基于 Qwen 2.5 32B 开发的参考推理模型（我认为训练细节从未披露过）。此比较提供了一些额外的洞察，即纯 RL 是否可以在比 DeepSeek-R1-Zero 小得多的模型中引导推理能力。

在较小的 32B 模型上对蒸馏和 RL 进行基准比较。注释图来自 DeepSeek-R1 技术报告。

有趣的是，结果表明，对于较小的模型，蒸馏比纯 RL 更有效。这与以下观点一致：单靠 RL 可能不足以在这种规模的模型中产生强大的推理能力，而使用高质量推理数据进行 SFT 在使用小模型时可能是一种更有效的策略。

为了完整性，查看表格中的其他比较将会很有用：

Qwen-32B 使用 SFT + RL 进行训练，类似于 DeepSeek-R1 的开发方式。这将有助于确定当 RL 与 SFT 结合时，与纯 RL 和纯 SFT 相比可以取得多大的改进。
DeepSeek-V3 使用纯 SFT 进行训练，与创建蒸馏模型的方式类似。这样可以直接比较，看看 RL + SFT 相对于纯 SFT 的效果如何。

总结

本节探讨了构建和改进推理模型的四种不同策略：

推理时间扩展不需要额外的训练，但会增加推理成本，随着用户数量或查询量的增加，大规模部署的成本会更高。不过，对于已经很强大的模型来说，提高性能仍然是明智之举。我强烈怀疑 o1 利用了推理时间扩展，这有助于解释为什么与 DeepSeek-R1 相比，它在每 token 基础上的成本更高。
纯 RL 对于研究目标来说很有趣，因为它可以提供推理作为一种涌现行为的洞察。然而，在实际的模型开发中，RL + SFT 是首选方法，因为它可以产生更强大的推理模型。我强烈怀疑 o1 也是使用 RL + SFT 进行训练的。更准确地说，我相信 o1 从比 DeepSeek-R1 更弱、更小的基础模型开始，但通过 RL + SFT 和推理时间扩展进行了补偿。
如上所述，RL + SFT 是构建高性能推理模型的关键方法。DeepSeek-R1 是一个很好的蓝图，展示了如何做到这一点。
蒸馏是一种有吸引力的方法，尤其是用于创建更小、更高效的模型。然而，蒸馏的局限性在于它不会推动创新或产生下一代推理模型。例如，蒸馏总是依赖于现有的、更强大的模型来生成监督微调 (SFT) 数据。

我预计接下来会看到的一个有趣的方面是将 RL + SFT（方法 3）与推理时间扩展（方法 1）相结合。

这很可能是 OpenAI o1 正在做的事情，只不过它可能基于比 DeepSeek-R1 更弱的基础模型，这解释了为什么 DeepSeek-R1 表现如此出色，同时在推理时间上保持相对低的成本。

关于 DeepSeek R1 的思考

最近几周，很多人都问我对 DeepSeek-R1 模型的看法。

简而言之，我认为它们是一项了不起的成就。作为一名研究工程师，我特别欣赏这份详细的技术报告，它提供了我可以从中学习的方法论见解。

最令人着迷的收获之一是：推理可以基于纯 RL 涌现出来。令人印象深刻的是，DeepSeek 已根据宽松的 MIT 开源许可证对其模型进行了开源，该许可证的限制甚至比 Meta 的 Llama 模型还要少。

与 o1 相比如何？

DeepSeek-R1 比 o1 好吗？我认为两者大致相同。然而，最突出的是 DeepSeek-R1 在推理时间上更高效。这表明 DeepSeek 可能在训练过程中投入了更多，而 OpenAI 可能更多地依赖于 o1 的推理时间扩展。

尽管如此，很难直接比较 o1 和 DeepSeek-R1，因为 OpenAI 尚未披露有关 o1 的太多信息。

例如，我们不知道一些信息：

o1 也是 MoE 吗？
o1 有多大？
o1 可能只是 GPT-4o 的稍微改进版本，具有最少的 RL + SFT 和仅广泛的推理时间扩展吗？

如果不知道这些细节，直接比较就是驴唇不对马嘴了。

训练 DeepSeek-R1 的成本

另一个讨论点是开发 DeepSeek-R1 的成本。有人提到训练成本约为 600 万美元，但他们可能将 DeepSeek-V3（去年 12 月发布的基础模型）和 DeepSeek-R1 混为一谈。

600 万美元的估算是基于每 GPU 小时 2 美元的假设以及 DeepSeek-V3 最终训练运行所需的 GPU 小时数，该估算最初于 2024 年 12 月进行讨论。

然而，DeepSeek 团队从未透露 R1 的具体 GPU 小时数或开发成本，因此任何成本估算都还只是纯粹的猜测。

无论如何，最终 DeepSeek-R1 成为了开放权重推理模型的一个重要里程碑，并且其推理时的效率使其成为 OpenAI o1 的一个有趣替代品。

在有限的预算下开发推理模型

开发 DeepSeek-R1 级推理模型可能需要数十万到数百万美元，即使从像 DeepSeek-V3 这样的开放权重基础模型开始也是如此。对于预算有限的研究人员或工程师来说，这可能会令人沮丧。

好消息：蒸馏可以发挥很大的作用

幸运的是，模型蒸馏提供了一种更具成本效益的替代方案。DeepSeek 团队通过 R1 蒸馏模型证明了这一点，尽管其比 DeepSeek-R1 小得多，但推理性能却出奇地强大。然而，即使是这种方法也并不完全便宜。他们的蒸馏过程使用了 800K SFT 样本，这需要大量计算。

有趣的是，就在 DeepSeek-R1 发布前几天，我偶然看到了一篇关于 Sky-T1 的文章，这是一个令人着迷的项目，一个小团队仅使用 17K 的 SFT 样本训练了一个开放权重 32B 模型。

总成本是多少？仅需 450 美元，这比大多数 AI 会议的注册费还低。

这个例子表明，尽管大规模训练仍然昂贵，但较小规模、有针对性的微调工作仍然可以以极低的成本产生出色的结果。

图源：《Sky-T1：在 450 美元以内训练你自己的 O1 预览模型》一文。https://novasky-ai.github.io/posts/sky-t1/

根据他们的基准测试，Sky-T1 的表现与 OpenAI o1 大致相当，考虑到其低廉的训练成本，这一表现令人印象深刻。

预算内的纯 RL：TinyZero

虽然 Sky-T1 专注于模型蒸馏，但我也在「纯 RL」领域发现了一些有趣的工作。一个值得注意的例子是 TinyZero，这是一个 3B 参数模型，它复制了 DeepSeek-R1-Zero 方法（附注：训练成本不到 30 美元）。

令人惊讶的是，即使只有 3B 参数，TinyZero 也表现出一些涌现的自我验证能力，这支持了推理可以通过纯 RL 涌现的想法，即使在小模型中也是如此。

TinyZero 库提到研究报告仍在进行中，我一定会密切关注更多细节。

TinyZero 库 (https://github.com/Jiayi-Pan/TinyZero) 中的一张图片表明该模型能够进行自我验证。（相比之下，看看基础模型的回复会很有趣。）

上述两个项目表明，即使预算有限，也可以在推理模型上开展有趣的工作。虽然这两种方法都复现了 DeepSeek-R1 的方法，一种专注于纯 RL（TinyZero），另一种专注于纯 SFT（Sky-T1），但探索如何进一步扩展这些想法将非常有趣。

超越传统 SFT：旅程学习

去年我偶然发现一种特别有趣的方法，论文《O1 Replication Journey: A Strategic Progress Report – Part 1》中对此进行了描述。尽管标题如此，但该论文实际上并没有复制 o1。相反，它介绍了一种改进蒸馏（纯 SFT）过程的另一种方法。

论文的核心思想是用「旅程学习」替代「捷径学习」。

捷径学习是指指令微调的传统方法，其中仅使用正确的解决方案路径来训练模型。
另一方面，旅程学习也包括错误的解决路径，让模型从错误中学习。

这种方法与 TinyZero 的纯 RL 训练中观察到的自我验证能力有点相似，但它专注于完全通过 SFT 改进模型。通过让模型接触错误的推理路径及其修正，旅程学习还可以增强自我修正能力，从而可能通过这种方式使推理模型更加可靠。

与传统的捷径学习不同，旅程学习在 SFT 数据中包含了错误的解决方案路径。注释图来自 https://arxiv.org/abs/2410.18982

这可能是未来工作的一个令人兴奋的方向，特别是对于低预算推理模型开发，因为基于 RL 的方法在计算上可能不切实际。

无论如何，推理模型方面目前正在发生很多有趣的工作，我相信我们将在接下来的几个月里看到更多令人兴奋的成果！

#FireRedASR

小红书语音识别新突破！开源，中文效果新SOTA

语音识别（ASR，Automatic Speech Recognition）是一种将语音转化为文字的技术，被广泛应用于智能语音交互和多媒体内容理解领域，例如语音助手、语音输入、视频字幕等场景。衡量中文 ASR 性能的主要指标是字错误率（CER，Character Error Rate），该值越低，表示模型的识别效果越好。

近日，小红书 FireRed 团队正式发布并开源了基于大模型的语音识别模型 ——FireRedASR，在语音识别领域带来新突破。在业界广泛采用的中文普通话公开测试集上，FireRedASR 凭借卓越的性能取得了新 SOTA！FireRedASR 在字错误率（CER）这一核心技术指标上，对比此前的 SOTA Seed-ASR，错误率相对降低 8.4%，充分体现了团队在语音识别技术领域的创新能力与技术突破。

论文标题：FireRedASR: Open-Source Industrial-Grade Mandarin Speech Recognition Models from Encoder-Decoder to LLM Integration
论文地址：http://arxiv.org/abs/2501.14350
项目地址：https://github.com/FireRedTeam/FireRedASR

FireRedASR 介绍

FireRedASR 系列模型包含两种核心结构：FireRedASR-LLM 和 FireRedASR-AED，分别针对语音识别的极致精度和高效推理需求量身打造。团队开源了不同规模的模型和推理代码，旨在满足全面覆盖多样化的应用场景。

FireRedASR-LLM 和 FireRedASR-AED 的结构如下图所示：

FireRedASR-LLM（左）：结合了文本预训练 LLM 的能力，为极致的 ASR 准确率而生，适用于对准确率要求极高的应用场景。
FireRedASR-AED（右下）：基于经典的 Attention-based Encoder-Decoder 架构，FireRedASR-AED 通过扩展参数至 1.1B，成功平衡了 ASR 语音识别的高准确率与推理效率。

实验及结果

下图是 FireRedASR 和其他 ASR 大模型的对比，在业界常用的中文普通话公开测试集上，FireRedASR-LLM（8.3B 参数量）取得了最优 CER 3.05%、成为新 SOTA！FireRedASR-AED （1.1B 参数量）紧随其后取得 3.18%，两者均比 Seed-ASR（12+B 参数量）的 3.33% 低、并且参数量更小。FireRedASR 也比 Qwen-Audio、SenseVoice、Whisper、Paraformer 取得了更优的 CER。

(aishell1 表示 AISHELL-1 测试集，aishell2 表示 AISHELL-2 iOS 测试集，ws_net 和 ws_meeting 分别表示 WenetSpeech 的 Internet 和 Meeting 测试集)

FireRedASR 不仅在公开测试集上表现优异，在多种日常场景下，也展现了卓越的语音识别效果。

如下图所示，在由短视频、直播、语音输入和智能助手等多种来源组成的 Speech 测试集上，与业内领先的 ASR 服务提供商（ProviderA）和 Paraformer-Large 相比， FireRedASR-LLM 的 CER 相对降低 23.7%~40.0%，优势十分明显。

值得一提的是，在需要歌词识别能力的场景中，FireRedASR-LLM 也表现出极强的适配能力，CER 实现了 50.2%～66.7% 的相对降低，这一成果进一步拓宽了 FireRedASR 的应用范围，使其不仅能胜任传统语音识别需求，还能在创新性的多媒体场景中大放异彩。

值得一提的是，FireRedASR 在中文方言和英语场景中同样表现不俗。在 KeSpeech（中文方言）和 LibriSpeech（英语）测试集上，FireRedASR 的 CER 显著优于此前的开源 SOTA 模型，使其在支持好普通话 ASR 的前提下，在中文方言和英语上也足够通用，进一步凸显了其鲁棒的语言适配能力。