51c大模型~合集86

whaosoft-143

已于 2025-04-17 08:26:19 修改

阅读量2k

点赞数 29

分类专栏：人工智能文章标签：人工智能

于 2024-12-09 16:25:08 首次发布

本文链接：https://blog.csdn.net/weixin_49587977/article/details/144351637

版权

人工智能专栏收录该内容

357 篇文章

订阅专栏

我自己的原文哦~ https://blog.51cto.com/whaosoft/12772867

#MILP-StuDio

拆解高复杂运筹问题的砖石，打破数据稀缺的瓶颈，中科大提出高质量运筹数据生成方法

论文作者刘昊洋是中国科学技术大学 2023 级硕士生，师从王杰教授，主要的研究方向为强化学习与学习优化理论及方法。他曾在 NeurIPS、ICML 和 ICLR 等人工智能顶级会议上发表论文三篇，曾获中国科学技术大学黄渝纪念奖学金、华为奖学金等荣誉。

近日，中科大王杰教授团队（MIRA Lab）提出了矩阵分块分解技术生成数学优化问题，有效解决运筹优化领域数据稀缺的问题，大幅提升 AI 运筹求解器求解质量。

数学优化在运筹优化领域中具有核心地位，是一种通过构建数学模型来寻找最优解的技术。混合整数线性规划（MILP）是一种基础的数学优化问题，在实际世界中有广泛的应用，如工业、金融、物流和芯片设计，其求解效率关系到重大的经济收益。

王杰教授团队提出了一种新颖的 MILP 生成框架，该框架在整个生成过程中考虑问题分块结构，从而生成高质量的优化问题样例，大幅提升求解器的求解质量。目前论文已被人工智能顶级会议 NeurIPS 2024 接收。

论文标题：MILP-StuDio: MILP Instance Generation via Block Structure Decomposition
论文链接：https://arxiv.org/abs/2410.22806

近年来，该团队已在国际人工智能顶级会议上发表了混合整数线性规划、偏微分方程等数据生成方法相关的论文四篇 [1-4]，提出了混合整数优化领域首个基于机器学习的数据生成框架 G2MILP。目前，G2MILP [2] 发表在人工智能顶会 NeurIPS 2023 中并取得大会 Spotlight，之后扩展了难例生成的相关任务并公开于 [5]。

引言

为了加速 MILP 求解过程，传统求解器和 AI 求解器都在很大程度上依赖大量高质量的 MILP 样例进行超参数调优或模型训练。然而，由于高昂的获取成本或隐私问题，获取大量样例通常是困难的，稀缺的训练数据成为严重制约求解器性能的瓶颈。

因此，研究者希望能开发 MILP 优化问题的数据生成技术来缓解数据稀缺的挑战。近年来，通用 MILP 生成方面取得了一些进展。然而，现有方法仍然面临显著的挑战。

（1）目前的方法在生成过程中往往忽略了 MILP 约束系数矩阵中与问题建模紧密相连的特定块状结构，这导致了块状结构的破坏和问题建模的改变，进而产生了难度过低或者不可解的样例。

（2）现有方法未能生成与原始样例不同大小的样例，限制了样例的多样性。

（3）在生成大规模样例时，现有方法需要大量运行时间。

针对上述挑战，研究者尝试分析和利用问题结构以解决上述问题。研究者观察到许多现实世界的 MILP 问题在其约束系数矩阵中表现出重复的块单元模式。基于此，研究者提出了一种新颖的 MILP 生成框架，该框架在整个生成过程中考虑问题分块结构，从而生成高质量的样例。

背景和问题介绍

混合整数线性规划（MILP）是一种应用广泛的通用优化模型，其具体形式如下

现实应用中，许多 MILP 样例在其约束系数矩阵 A 中表现出由多个块单元组成的分块结构。这些具有块结构的 MILP 问题，在现实场景中广泛存在，包括多个被广泛研究的多个数据集，如组合拍卖（CA）、容量设施选址（FA）、物品放置（IP）、多重背包（MIK）和工作负载平衡（WA）等。在图 1 中，研究者使用可视化这些 MILP 样例的约束系数矩阵。

图 1：四个常见运筹优化问题中约束系数矩阵的分块结构

在运筹学中，研究人员早已注意到来自同一问题类型的样例中约束系数矩阵的相似块结构，并意识到约束系数矩阵在确定问题建模和数学性质中的关键作用。因此，现有的一些 MILP 方法已经利用了该分块结构，并在加速此类 MILP 问题的求解过程中展现出了巨大潜力，著名的例子包括求解大规模 MILP 问题的 Dantzig-Wolfe 分解和 Benders 分解。

方法介绍

分块结构分析

现实场景中很多问题，将其约束系数矩阵会重新排列可以得到明显得分块结构。图 2 是一些简单的分块例子，研究者将块单元用蓝色突出显示。尽管这些结构相对简单，但它们是更复杂块结构的基本构建块，并在运筹学中广泛使用。

图 2：一些简单的分块约束矩阵例子

约束矩阵分块

研究者根据约束系数矩阵变量划分算法进行块分解。具体而言，研究者提取约束系数矩阵中块单元的子矩阵。在上面的三个分块例子中，第一个约束矩阵的分块单元子矩阵是

，在第二个例子中是

，在第三个例子中是

。最后，研究者将约束系数矩阵划分为一系列的分块单元的子矩阵。

各样例之间的块单元在内部结构上展现出显著的相似性。这些共同特征表明，块单元的分布蕴含着关于问题建模信息，使其成为重构新样例的理想砖石。在获得分块单元子矩阵后，并将其收集起来构建一个样例结构库。这个结构库作为收集到的子图的存储库，允许高效存储、检索和利用块信息。

通过分块实现可扩展生成

借助结构库，研究者设计了三类生成算子，生成具有多种规模的高质量 MILP 样例。

块删减：随机从原始样例中抽取一个分块单元并将其移除，生成的 MILP 样例相比原始样例具有更小的规模。
块替换：随机从原始样例中抽取一个块单元，然后用结构库中抽取的另一个块单元进行替换。块替换算子通过引入外部块单元带来了结构上的变化。
块增加：从结构库中随机抽取一个块单元并将其添加到原始样例中。这个过程生成的新样例规模相较于原始样例更大。

为了保留块结构，这些操作符应根据约束和变量的分类进行精确匹配结果。

研究者的方法具体流程如图 3 所示。

图 3：方法的总体流程。

实验

研究者实验测试了生成样例的求解时间，发现该方法生成样例的计算难度和可行性与原样例的更加相近。说明生成的样例数学性质得到更好的保持。此外，研究者还将方法生成的样例作为 AI 求解器的训练数据，实验表明该的方法能相比于其他数据生成方法能够跟显著提升求解器的性能，在困难的样例上相比于 Gurobi 降低 66.9% 的 gap。

#困扰数学家近60年的搬沙发难题疑似被解决

119页论文证明最优解，百万网友围观

《老友记》中的罗斯终于能把沙发搬进屋了。

生活中处处充满数学，比如在经典美剧《老友记》中，罗斯要搬家，却在和瑞秋抬沙发上楼梯扶手时翻了车。这涉及了数学领域一个著名的未解决难题 —— 移动沙发问题（the moving sofa problem）。

来源：《老友记 S05E16》

该问题是由加拿大数学家 Leo Moser 于 1966 年正式提出：在宽度为 1 的 L 形平面走廊中，能够通过一个直角转弯的「沙发」的最大面积是多少？

1968 年，数学家 John Michael Hammersley 提出了一种简单的解法。他将沙发设计成类似于一个电话听筒的形状，由两个四分之一圆和一个中间的矩形块组成，中间的矩形块中挖去了一个半圆形，从而得出的沙发最大面积为 2.2074。

但遗憾的是，这并不是最优解。

1992 年，美国数学家 Gerver 在 Hammersley 沙发的基础上进行了改进，算出的最大沙发面积为 2.2195，虽然比 Hammersley 沙发面积略大一些，但在方法上却聪明得多。

Gerver 沙发由 18 条不同的曲线段组成，其中包括圆弧、圆的渐开线以及圆的渐开线的渐开线等多种曲线。每条曲线段都由一个单独的解析表达式描述，这使得 Gerver 沙发在数学上非常复杂。

Gerver 推测他的解决方案是最优的，但他无法证明他的沙发是唯一一个（并且是最大面积的）满足这个强条件的沙发。

2024 年 12 月 2 日，韩国学者 Jineon Baek 发表了一篇新论文，声称证明了 Gerver 确实是正确的 —— 他的沙发是最优的。这项研究在社交媒体（如 x）上的热度非常高，引起了很多人的关注。

图源：x@Scientific_Bird

图源：x@morallawwithin

不过，Jineon Baek 的证明论文足足有 119 页，题目为《Optimality of Gerver’s Sofa》。相关专家验证证明的正确性还需要一些时间。

论文地址：https://arxiv.org/pdf/2411.19826

这道困扰人类 58 年的数学难题终于有了答案，不少网友也发表了自己的看法。

「我甚至不是数学家，自从 20 年前听说这个问题后，我就一直在思考它。每次我需要把东西通过门时，我都会想到这个问题。」

「我没想到这个形状会是最优的，这 18 个部分看起来不够优雅。」

证明过程简述

论文共分 8 章，目录如下：

摘要只有一句话，「通过证明具有 18 个曲线段的 Gerver 沙发的确达到了最大面积 2.2195，进而解决了移动沙发问题」。

下图为 Gerver 的沙发 G。刻度表示构成 G 边界的 18 条解析曲线和线段的端点，包含 G 的支撑走廊 L_t 在右侧以灰色表示。

在证明 Gerver 的沙发 G 达到最大面积的过程中，作者除了在科学计算器上进行数值计算之外，没有使用任何的计算机辅助。下图 1.3 为从走廊（顶部）和沙发（底部）视角来看移动沙发的移动。

下面为作者要证明的定理 1.1.1。

这个问题之所以很难，是因为没有一个通用的公式可以计算所有可能的移动沙发面积。因此，为了解决这个问题，作者证明了最大面积的移动沙发 S_max 的一个属性，被称为可注入性条件（injectivity condition）。

对于每个满足条件的移动沙发 S，作者将定义一个更大的形状 R，它类似于 Gerver 沙发的形状（下图 1.2）。那么 R 的面积 Q (S) 就是 S 面积的上限，如果是 Gerver 沙发 G，则 Q (S) 与 S 的精确面积相匹配。S 的可注入性条件确保区域 R 的边界形成 Jordan 曲线，从而能够使用格林定理计算 Q (S)。

然后，移动沙发 S 面积的上界 Q (S) 相对于 S 的最大值如下所示：作者使用 Brunn-Minkowski 理论将 Q 表示为凸体元组 (K,B,D) 空间 L 上的二次函数（上图 1.2），并使用 Mamikon 定理建立 Q 在 L 上的全局凹性（下图 1.13）。

作者使用加州大学戴维斯分校数学系教授 Dan Romik [Rom18] 关于 Gerver 沙发 G 的局部最优方程，来证明 S = G 局部最大化 Q (S)。由于 Q 是凹的，因此 G 也全局最大化 Q。并且，由于上界 Q 与 G 处的面积相匹配，因此沙发 G 也全局最大化了面积，从而证明定理 1.1.1。

具体来讲，定理 1.1.1 的完整证明分为以下三个主要步骤：

步骤 1 ：限制最大面积移动沙发 S_max 的可能形状；
步骤 2 ：建立 S_max 的可注入性条件；
步骤 3 ：构建满足可注入性条件的移动沙发 S 面积的上界 Q (S)，并最大化关于 S 的 Q (S)。

作者提供了步骤 1、2、3 的更细分步骤。

其中步骤 1-(a) 将 S_max 的可能形状缩小为单调沙发（monotone sofa），即由支撑走廊内角雕刻出的凹痕的凸体（下图 1.4）。

步骤 1-(b) 重新证明了 Gerver 的一个重要局部最优条件，即 S_max 的边长应该相互平衡（定理 1.3.1）。

由于 Gerver 的原始证明存在逻辑漏洞，没有解决移动沙发的连通性问题，因此作者引入了新的想法并重新进行了证明。步骤 1-(c) 使用前面的步骤和基本几何来表明 S_max 在移动过程中旋转了整整一个直角。

步骤 2 证明了 S_max 上的可注入性条件，这是之后建立上限 Q 的关键。它表明 L 内角 (0,0) 的轨迹在移动沙发的视角（参考系）中不会形成自环（下图 1.9）。

为了证明 S_max 的这一条件，作者在 S_max 上建立了一个新的微分不等式（等式 (1.9)。该不等式受到了 Romik 的一个 ODE 的启发，该 ODE 平衡了 Gerver 沙发的微分边（等式 (1.8)）。

步骤 3-(a) 将所有移动沙发的空间 S 扩展为具有单射条件的凸体元组 (K,B,D) 的集合 L，使得每个 S 一一映射到 (K,B,D) ∈ L（但不一定到 L）。该凸体描述了包围 S 的区域 R 的不同部分（上图 1.2）。

步骤 3-(b) 定义了扩展域 L 上的上界 Q。作者遵循 R 的边界，并使用格林定理和 Brunn-Minkowski 理论中关于 K、B 和 D 的二次面积表达式来表示其面积 Q。同时使用单射条件和 Jordan 曲线定理严格证明 Q (K,B,D) 是 S 面积的上界。

步骤 3-(c) 使用 Mamikon 定理确定 Q 在 L 上的凹度（上图 1.13）。步骤 3-(d) 计算由 Gerver 沙发 G 产生的凸体 (K,B,D) ∈ L 处 Q 的方向导数。Romik [Rom18] 在 G 上的局部最优 ODE 用于表明方向导数始终为非正值。这意味着 G 是 Q 在 L 中的局部最优值。Q 在 L 上的凹度意味着 G 也是 Q 在 L 中的全局最优值。由于 G 处 Q 的值与面积匹配，沙发 G 也全局最大化了面积，最终完成定理 1.1.1 的证明。

更具体的证明细节请参考原论文。

作者介绍

这篇论文的作者 Jineon Baek，本科毕业于韩国浦项科技大学，博士期间就读于美国密歇根大学安娜堡分校。现为韩国首尔延世大学的博士后研究员，导师是 Joonkyung Lee。

Jineon Baek2018 年讲解关于非对角线 Erdős-Szekeres 凸多边形问题视频截图

他主要研究兴趣是组合数学和几何学中的优化问题，这类问题往往通过简单却有趣的表述，能够吸引更广泛的受众。

他在人工智能领域也发表过一些相关文章。他在医学图像处理、教育数据挖掘等领域发表了多篇会议和期刊论文，特别是在 X 射线 CT 图像去噪、考试分数预测、标准化考试准备推荐系统等方面有所贡献。

查阅 Jineon Baek 发表过的文章，就会发现这已经不是他第一次研究移动沙发问题了。在今年 6 月他就移动沙发的上限问题进行了研究。在新文章发布的 12 月 2 日当天，arxiv 上显示，这篇论文提交了一个更新版本（v2），之后撤回了该版本。

现在，不少网友在网上讨论《Optimality of Gerver's Sofa》。

「非常直观，正是大多数人会猜测的那样。不过，我猜证明这一点要困难得多吧？」

「在现实生活中，答案取决于天花板的高度以及沙发是否带有可倾斜的靠背。」

「对于沙发来说，这真的是一个糟糕的设计。」

你怎么看这个移动沙发的最优解呢？

参考链接：

https://x.com/deedydas/status/1865060166322032764

https://x.com/Scientific_Bird/status/1865116279574528088

https://jcpaik.github.io/CV.pdf

#OpenAI的强化微调

RL+Science 创造新神还是灭霸？

2024 年 12 月 6 号加州时间上午 11 点，OpenAI 发布了新的 Reinforcement Finetuning 方法，用于构造专家模型。对于特定领域的决策问题，比如医疗诊断、罕见病诊断等等，只需要上传几十到几千条训练案例，就可以通过微调来找到最有的决策。

数据的形式类似于 instructiong tuning 的常见形式，有多个选项以及正确选项。同一时间，OpenAI 还发布了一个强化微调研究项目，鼓励学者专家们上传自己领域的独特数据，测试他们的强化微调能力。

这个结果很漂亮，用的技术正是已经广泛应用于 alignment, math, coding 领域的方法，其前身就是 Reinforcement learning from human feedback (RLHF). RLHF 用来对齐大模型与人类偏好性数据，训练数据的形式为（问题，回答 1，回答 2，偏好），让用户选择更喜欢的回答，学习人类的偏好，训练奖励模型（reward model）。给定 reward model 之后，用强化学习算法 (PPO, DPO）来微调模型参数，微调后的模型更容易生成用户喜欢的内容。

当求解 math 和 coding 问题时，每个问题都有正确答案。这时可以用 MCTS 等 RL 方法，生成大量的不同的求解轨迹，有的正确有的错误，用回答正确的轨迹做 SFT，或者用（正确解法，错误解法）的组合来做 RLHF。更进一步，可以把轨迹生成和 RLHF 微调这两步迭代起来，不断调整 reference policy，迭代不断提高正确率，如 GRPo 或 SPPO 等。

OpenAI 的 RFT 只需要很少数据，就能再一些专家场景中，学会医疗诊断和科学决策，这个方法本质上还是 CoT+RL，其中 CoT 这步可以 brainstorm 增强生成多样的不同推理路径，然后根据答对没有来进行打分，再继续做 RL 微调并且迭代。CoT 可以是把一系列的科学 / 医疗常识串联起来。这些常识来自预训练。

难点在于如何定义什么是 RL 里的 state-transition, 也即一步的思维推理。每一步 state transition 是大模型已经学到的科学常识，再用 RL 找到通向高分的完整链路。关键问题是如何做到 token-level 和 full-response level RL 直接找到平衡点，也即如何描述”state”。token-level 的微调效率太低、不容易泛化；full-response level 又会迷糊了推理的过程。

更 fundamental 的问题是：何找到思维链里面的 “state” 呢，思维的 state representation 是不是已经在预训练里涌现出来了？有了合适的 state representation，RFT 就可以 easy, stable and robust。

Demo 里也能看出这个技术现阶段的局限性。罕见病排查，从医学角度重要，但是确实已知的科学，而且是已知科学问题中最简单的一类。罕见病的诊断往往有清晰的基因指标，和相对流程化的判别路径。之所以能用很少的数据就学会这个诊断过程，是因为很多人类专家任务的 know-how 其实是简单的决策树，几十个案例就足以囊括底层逻辑。

这类问题本质是多项选择题，只要选择有限，不同选项之间区分度大就很容易掌握。

这个 demo 还规避了 RLHF 里最难搞的 reward modeling 步骤，随便设定一个打分函数就能用，比如正确答案给 1 分，错误答案 0 分。

然而真正的科学问题，往往不是有固定选项的选择题，没有标准答案，如何定义 action，如何定义问题该怎么问，如何给新的科学概念一个定义一个名字，这才是最高级也最有挑战的科学难题。科学的数据也往往是 noisy 的，不是简单的多选题，没有清晰的决策树。

讲完了技术的潜力，我们来讨论风险。今天 OpenAI 发布 RFT 的同一时间，推出了强化微调研究项目。这个项目邀请全世界的科研人员提供他们领域的决策数据集，让 OpenAI 来测试其 RFT 推理决策能力，不断进化。

然而，看到这个项目的时候，让人冷汗不已。

今年夏天，我参加美国科学院召开的 AI for science 安全讨论会，包括诺奖获得者 David Baker 在内的很多研究者也在场。讨论会上，每个人都要回答为什么自己正在开发的 AI for science 技术是安全的，是可控的、可追踪的。

如果科学这颗宝石，如果都集中在了同一个非开源公司手里，那么我们造出的是新神，还是带上了无限手套的灭霸？

作者介绍

王梦迪现任普林斯顿大学电子与计算机工程系终身教授，并创立并担任普林斯顿大学 “AI for Accelerated Invention” 中心的首任主任。她的研究领域涵盖强化学习、可控大模型、优化学习理论以及 AI for Science 等多个方向。王梦迪曾先后在 Google DeepMind、高等研究院与 Simons 研究院担任访问学者，并荣获 MIT TR35、美国国家科学基金会（NSF）事业奖、Google 学者奖等多项荣誉。2024 年 7 月，她获颁 AACC Donald Eckman 奖，以表彰其在控制与动态系统、机器学习及信息论交叉领域所作出的杰出贡献。

原文链接：

https://zhuanlan.zhihu.com/p/11273216258?utm_medium=social&utm_psn=1848703455629303809&utm_source=wechat_timeline&utm_id=0

#大模型微调样本构造的trick

对于 ChatGLM2-6B 模型的全参数微调。

开局一道面试题。

面试官：大模型微调如何组织训练样本？

你：大模型训练一问一答，一指令一输出，问题和指令可以作为prompt输入，答案作为输出，计算loss的部分要屏蔽掉pad token。

面试官：多轮对话如何组织训练样本呢？

你：假设多轮为Q1A1/Q2A2/Q3A3，那么可以转化成 Q1—>A1, Q1A1Q2->A2, Q1A1Q2A2Q3->A3三条训练样本。

面试官：这样的话一个session变成了三条数据，并且上文有依次重复的情况，这样会不会有啥问题？

你：数据中大部分都是pad token，训练数据利用效率低下。另外会有数据重复膨胀的问题，训练数据重复膨胀为 session数量*平均轮次数，且上文有重复部分，训练效率也会低下。

面试官：你也意识到了，有什么改进的方法吗？

你：有没有办法能一次性构造一个session作为训练样本呢？（思索）

面试官：提示你下，限制在decoder-only系列的模型上，利用模型特性，改进样本组织形式。

对于这个问题，我们思考下decoder-only模型有啥特点，第一点很关键的是其attention形式是casual的，casual简单理解就是三角阵，单个token只能看到其上文的信息。

如图所示：

其二是postion_id是只有token次序含义而无需特定指代信息，（区别于GLM模型需要postion_id来标识生成span的位置等特殊的要求）。

有了这两点我们就可以设想，如果构造多轮对话样本的input为 Q1 A1 <eos> Q2 A2 <eos> Q3 A3 <eos>，在计算loss的时候，只需要计算 A1 <eos> A2 <eos> 和 A3 <eos>部分，岂不是就可以进行session级别的训练了？

嗯为什么原来的chatglm不能用这种形式呢，虽然prefix attention可以推广为适应多轮训练的prefix attention形式，如图：

但是由于其postition id 无法简单按次序推广，故不能高效训练，这也是chatglm初代的很大的一个问题，导致后续微调的效果都比较一般。

现在chatglm2的代码针对这两个问题已经进行了改善，可以认为他就是典型的decoder-only模型了，具体表现为推断时候attention 是casual attention的形式，position id也退化为token次序增长。

那么好了，万事具备，只欠东风。我们据此实现了chatglm2-6b的代码微调。其核心代码逻辑为处理样本组织的逻辑，其他的就是大模型微调，大同小异了。

conversation = ''
input_ids = []
labels = []
eos_id = tokenizer.eos_token_id
turn_idx = 0
for sentence in examples[prompt_column][i]:
    sentence_from = sentence["from"].lower()
    sentence_value = '[Round {}]\n\n问：'.format(turn_idx) + sentence["value"] + '\n\n答：' if sentence_from == 'human' else sentence["value"]+'\n\n'
    conversation += sentence_value
    sentence_ids = tokenizer.encode(sentence_value, add_special_tokens=False)  
    label = copy.deepcopy(sentence_ids) if sentence_from != 'human' else [-100] * len(sentence_ids)               
    input_ids += sentence_ids 
    labels += label
    if sentence_from != 'human':
        input_ids += [eos_id]
        labels += [eos_id]
        turn_idx += 1
input_ids = tokenizer.encode('') + input_ids #add gmask bos 
labels =  [-100] * 2 + labels# #add padding
pad_len = max_seq_length - len(input_ids)
input_ids = input_ids + [eos_id] * pad_len 
labels = labels + [-100] * pad_len

其中有几个关键的地方，就是在开头要加上 bosgmask，遵循模型原来的逻辑。问答提示词和轮次prompt，还有两个\n保持和原模型保持一致，最后屏蔽掉pad部分的loss计算。

实测训练效果如下：

同样的数据在chatglm1上 train loss只能降到2.x左右，同时评估测试集结果，在同样的数据上rouge等指标都有不小的提升。

我们再仔细回顾下，对话session级别训练和拆开训练从原理上有啥区别？

1. session级别训练，效果之一为等价batchsize变大（1个batch可以塞下更多样本），且同一通对话产生的样本在一个bs内。

session级别的不同轮次产生的梯度是求平均的，拆开轮次构造训练是求和的，这样除了等价于lr会变大，还会影响不同轮次token权重的分配，另外还会影响norm的计算。

我们用一个简化地例子定量分析下，我们假设两条训练样本分为

1.问：A 答：xx

2.问: A 答：xx 问: B 答：xx 问: C答：xx

则session级别训练影响梯度为 (Ga+(Ga + Gb + Gc)/3 )/2。对 A，B，C影响的权重分别为，2/3 1/6 1/6。

拆开训练为 (Ga+Ga+ (Ga + Gb)/2 +(Ga + Gb + Gc)/3)/4。对 A，B，C影响的权重分别为，17/24 5/24 1/12。

从上面的权重分布来看，session级别靠后的轮次影响权重要比拆开更大。这也是更合理的，因为大部分场景下，开场白都是趋同和重复的。

一点小福利，以上面试题对应的ChatGLM2-6B 微调完整的代码地址为：

https://github.com/SpongebBob/Finetune-ChatGLM2-6B

实现了对于 ChatGLM2-6B 模型的全参数微调，主要改进点在多轮对话的交互组织方面，使用了更高效的session级别高效训练，训练效果相比原版ChatGLM-6B有较大提升。这可能是目前全网效果最好的ChatGLM2-6B全参数微调代码。

#严禁AI评审

重申大模型审稿0容忍，一首拒稿小诗爆笑全场

审稿人严重不足，审稿意见急剧下滑，CVPR官方坐不住了，不仅出台了七条新规，还再三强调，禁止审稿人用大模型生成/翻译评审结果。

CVPR的投稿量每年都在刷新纪录，总以为今年是巅峰，但明年只会更多。

CVPR 2024收到11532次提交，增幅达到了26%；今年的投稿增速虽然有所放缓，达到13%，但也超过了13000次提交。

投稿量过大，最直接导致的一个问题就是「高质量审稿人不足」，很多人为了简化审稿流程，可能会选择用大模型进行审稿。

比如CVPR 2024大约有9000名审稿人，但投稿作者的数量却超过了30000，为了平衡投稿与审稿，这届CVPR提出了七条审稿新规，来限制不负责任的审稿结果。

目前，CVPR 2025的审稿即将开启，今天也是区域主席提交推荐审稿人的最后期限，与此同时，官方推特再次发文强调了，绝对禁止使用大模型在「任何流程」中参与审稿！

搞笑的，CVPR直接附上了用LLM作了一篇拒稿的小诗的离谱案例。（手动狗头）

不过话虽如此，但网友在评论区中表示，虽然想法是好的，但并没有任何具体、可靠的方式来贯彻执行；即使审稿人用了大模型，也没办法证明这件事。

CVPR 2025审稿新规七板斧

为了应对投稿量的上涨，以及审稿质量的下降，CVPR 2025对会议规定做了七条修正，算是解决「大模型审稿」等问题的一个可行方案：

1、除非作者在CVPR 2025中担任其他职务，否则所有作者都都有义务担任审稿人，负责的审稿数量将根据作者资历水平决定。

2、如果审稿人被区域主席标记为「高度不负责任」，那其提交的论文也可能会被直接拒绝，要根据具体情况而定。

3、每位作者最多提交25篇论文，其中25篇的限制来源于CVPR 2024中单个投稿人最多的中稿数量。不过网友普遍表示，25篇还是太多了。

4、在任何阶段，都不允许使用大模型撰写审稿意见。

5、在最终论文决策公布后，审稿人的姓名在OpenReview上也会对其他审稿人可见。

6、每位投稿人都需要填写完整的OpenReview个人资料，以便更好地进行分配审稿人和利益冲突检测，否则论文也会被直接拒绝。

7、CVPR 2025的审稿数据会共享给其他会议，对不负责的审稿人可以起到长久的限制作用。

其中第二条最具威慑性，不负责任的审稿意见包括，只有一两句内容、使用大模型生成、与被审论文不相关，或者是遗漏了重要内容。

对于大模型，CVPR特意在审稿指南中列出要求：不能要求大模型撰写审稿内容，只能根据自己对论文的判断；不能向大模型共享论文或评审中的实质性内容，比如用大模型来翻译评审意见；可以使用大模型进行背景调研或语法检查，以确保审稿意见清晰。

不过具体执行时，这七条新规能否起到作用，还要等CVPR 2025论文录用结果发布后，再看各家网友对审稿结果的反应如何。

大模型审稿，堵不如疏

早在2023年1月，ICML就发布了关于禁止使用大模型来撰写论文的规定。

严禁任何形式的抄袭，以及审稿人、领域主席（AC）和高级领域主席（SAC）对特权信息的不道德使用，例如共享此信息，或将其用于评审过程以外的任何其他目的。

禁止包含从大模型（LLM）（如ChatGPT）生成的文本的论文，除非这些生成的文本作为论文实验分析的一部分呈现。

所有可疑的不道德行为都将由道德委员会进行调查，被发现违反规则的个人可能会面临制裁。

当时网友的普遍反应都是不理解，认为使用大模型进行润色是很正常的，MIT教授Erik Brynjolfsson甚至评价为「一场必败的仗」；LeCun当时还玩了一个文字游戏，「中小型模型」可以用吗？

如今看来，ICML确实败了，CVPR 2025新规中，允许使用大模型润色，但仍然不允许编写实质性审稿内容。

凡是合乎理性的东西都是现实的，凡是现实的东西都是合乎理性的。

既然用大模型审稿有他存在的现实意义，那么也一定有其合理性，科研大势就是使用大模型参与到审稿、论文编写过程中，已经有大量的相关研究来利用大模型辅助人类审稿，还提出相关评估基准等。

论文地址：https://arxiv.org/abs/2310.01783

比如斯坦福学者发现，GPT-4对于Nature、ICLR的论文给出的审稿意见，和人类审稿人已然有超过50%的相似性，未来让大模型辅助论文评审，也并不是完全不靠谱。

再换个思路，难道人类审稿就一定靠谱了吗？

既然无法一禁了之，更好的方法或许是引导审稿人合理利用大模型，比如官方提供大模型接口界面，标注出论文中的关键点，方便审稿人快速、直观地理解论文内容；有了更方便的工具之后，寻求外部大模型工具进行优化的动力就会小很多。

另一方面，科研人员也可以对所有大模型参与审稿的过程进行标准化，评估不同模型在审稿过程中的可靠性。

靠强硬规定来禁止大模型并不具备可操作性，只能起到威慑作用，即便引入所谓的「大模型数字签名」，甚至是用分类模型来判断审稿意见是否由AI生成，只要提交者自己重新编辑一下审稿意见，是否使用大模型也就无从判断了。

关于大模型审稿，你怎么看？或者说，你希望自己的论文被大模型评审吗？

参考资料：

https://x.com/CVPR/status/1865231116317212952

https://cvpr.thecvf.com/Conferences/2025/ReviewerGuidelines

#Densing Law

LLM最大能力密度100天翻一倍！清华刘知远团队提出

支持大模型一路狂飙的 Scaling Law 到头了？

近期，AI 圈针对 Scaling Law 是否到头产生了分歧。一派观点认为 Scaling Law 已经「撞墙」了，另一派观点（如 OpenAI CEO Sam Altman）仍然坚定 Scaling Law 的潜力尚未穷尽。

其实以上争论的核心点在于，大模型的性能提升是否还能继续靠无限堆叠数据和参数规模从而大力出奇迹。

然而 Scaling Law 并非唯一的视角，近期，来自清华大学刘知远教授团队发现并提出大模型的密度定律（Densing Law）—— 模型能力密度随时间呈指数级增长，2023 年以来能力密度约每 3.3 个月（约 100 天) 翻一倍。这意味着每 100 天，我们可以用一半参数量实现当前最优模型相当的性能。

根据密度定律，研究团队还得出以下重要推论，并且发现 AI 时代的三大核心引擎——电力、算力与智力，都同样遵循密度快速增长趋势。

推论 1 ：模型推理开销随时间指数级下降。
推论 2 ：大模型能力密度正在加速增强。
推论 3：模型小型化揭示端侧智能巨大潜力。
推论 4：无法依靠模型压缩算法增强模型能力密度。
推论 5：模型高性价比有效期不断缩短。

该定律还揭示了端侧智能的巨大潜力，并指出未来应持续探索大模型科学化建设路径，不断改进模型制造工艺，实现大模型的高质量、可持续发展。

相关研究成果可参考论文《Densing Law of LLMs》。

论文标题：Densing Law of LLMs
论文链接：https://arxiv.org/pdf/2412.04315v2

Scaling Law 和 Densing Law

大模型尺度定律（Scaling Law）和密度定律（Densing Law），都是大模型指导性的规律发现。它们分别在不同的维度，对大模型进行科学化的推演。

大模型尺度定律是一种描述大模型随着规模的变化而发生的规律性变化的数学表达，表现为大模型的 Loss 与模型参数规模、训练数据规模之间的幂律关系。

尺度定律之外，清华研究团队发现，大模型还有另一种度量与优化的空间，能力密度（Capability Density），它为评估不同规模 LLM 的训练质量提供了新的统一度量框架。

清华研究团队提出的「能力密度」（Capability Density），定义为给定 LLM 的有效参数大小与实际参数大小的比率。有效参数大小指的是达到与目标模型同等性能所需的参考模型的参数数量。清华研究团队特别引入了参考模型（Reference Model）的概念，通过拟合参考模型在不同参数规模下的性能表现，建立起参数量与性能之间的映射关系。

具体来说，若一个目标模型 M 的参数量为 N_M ，其在下游任务上的性能分数为 S_M，研究人员会计算出参考模型要达到相同性能所需的参数量 N (S_M)，即「有效参数量」。目标模型 M 的密度就定义为这个「有效参数量」与其实际参数量的比值：

比如一个 3B 的模型能达到 6B 参考模型的性能，那么这个 3B 模型的能力密度就是 2（6B/3B）。

为了准确估计模型性能，研究团队采用了两步估计法。第一步是损失（Loss）估计，通过一系列不同规模的参考模型来拟合参数量与语言模型 Loss 之间的关系；第二步是性能估计，考虑到涌现能力的存在，研究人员结合开源模型来计算它们的损失和性能，最终建立起完整的映射关系。

通过研究分析近年来 29 个被广泛使用的开源大模型，清华研究团队发现，LLM 的最大能力密度随时间呈指数增长趋势，可以以下公式来描述，其中 ρ_max 是时间 t 时 LLM 的最大能力密度。

密度定律表明，大约每过 3.3 个月 (100 天），我们就能用参数量减半的模型达到当前最先进模型的性能水平。

基于密度定律，清华研究团队提出了多个重要推论。

首先，模型推理开销随时间指数级下降。2022 年 12 月的 GPT-3.5 模型每百万 Token 的推理成本为 20 美元，而 2024 年 8 月的 Gemini-1.5-Flash 模型仅为 0.075 美元，成本降低了 266 倍，约 2.5 个月下降一倍。与此同时，大模型推理算法不断取得新的技术突破：模型量化、投机采样、显存优化。

其次，研究还发现，自 ChatGPT 发布以来，大模型能力密度正在加速增强。

以 MMLU 为评测基准测量的能力密度变化情况，ChatGPT 发布前按照每 4.8 月倍增，发布后按照每 3.2 月倍增，密度增强速度增加 50% 。这一现象背后，更高效模型引起了学术界和产业的广泛关注，诞生了更多高质量开源模型。

再次，芯片电路密度 (摩尔定律) 和模型能力密度 (密度定律) 持续增强，两条曲线交汇揭示端侧智能巨大潜力。研究显示，在摩尔定律的作用下，相同价格芯片的计算能力每 2.1 年翻倍，而密度法则表明模型的有效参数规模每 3.3 个月翻倍。两条曲线的交汇，意味着主流终端如 PC、手机将能运行更高能力密度的模型，推动端侧智能在消费市场普及。

此外，团队指出，无法仅依靠模型压缩算法增强模型能力密度。现有的模型压缩技术（如剪枝和蒸馏）未必能提高模型密度。实验表明，大多数压缩模型的密度低于原始模型，模型压缩算法虽可以节省小参数模型构建开销，但是如果后训练不充分，小参数模型能力密度将会有显著下降。

最后，研究团队指出，模型高性价比有效期不断缩短。根据尺度定律，更多数据 + 更多参数实现能力增强，训练成本会急剧上升；而能力密度定律，随着能力密度加速增强，每隔数月会出现更加高效的模型。这意味着模型高性价比的有效使用期缩短，盈利窗口短暂。例如，2024 年 6 月发布的 Google Gemma-2-9B 模型，其训练成本约 185 万人民币，但仅两个月后，它的性能就被参数量减半的 MiniCPM-3-4B 超越。以 API 盈利方式估算，2 个月内需要 17 亿次用户访问，才能够收回训练成本！

Densing Law（密度定律）揭示 LLM 进入「密度至上」新发展阶段

尺度定律下，LLM 规模至上。而在密度定律下，LLM 正进入一个全新的发展阶段。在清华刘知远老师最新报告中，AI 时代的三大核心引擎 —— 电力、算力与智力，密度都在快速增长：电池能量密度在过去 20 年中增长了 4 倍，其倍增周期约为 10 年；摩尔定律则揭示，芯片的晶体管密度每 18 个月翻倍；而 AI 模型能力密度每 100 天翻倍的速度更是惊人。

尤其是模型能力密度的提升也意味着用更少的资源实现更强的能力，这不仅降低了 AI 发展对能源和算力的需求，也为 AI 技术的可持续发展提供了无限可能。同时也揭示了端侧智能的巨大潜力。

在这一趋势下，AI 计算从中心端到边缘端的分布式特性协同高效发展，将实现「AI 无处不在」的愿景。随着全球 AI 计算云端数据中心、边缘计算节点的扩张，加上模型能力密度增长带来的效率提升，我们将看到更多本地化的 AI 模型涌现，云端和边缘端各司其职，可运行 LLM 的终端数量和种类大幅增长，「AI 无处不在」的未来正在到来。

#新版Sora要来了？

泄露视频引围观，网友：价格别太离谱

Sora 真的要来了？

最近几天，OpenAI 开启了为期 12 天的连续发布，第一天发布的 o1 完全体和 200 美元一个月的 ChatGPT Pro 刷新了外界对 AI 大模型定价的认知；第二天发布的强化微调（Reinforcement Fine-Tuning）则吸引了大批研究者和开发者的兴趣。

那第三天发什么呢？种种信号表明：很有可能是新版本的 Sora。

这种猜测源自 OpenAI 创意专家 Chad Nelson 在伦敦 C21Media 活动中的一次分享。在分享中，Chad Nelson 现场播放了多段由 Sora 生成的视频，并着重介绍了视频中的一些细节，比如在一个战争场面中，一个女战士的脸上、皮肤上甚至牙齿上都布满了泥浆和鲜血，而且这些印迹是有 3D 深度的（说明已经凝固），这说明 Sora 对于它所生成的场景是有一定了解的。

，时长02:07

根据泄露的现场视频，网友还整理出了更多关于新版本 Sora 能力的信息：

而且，从画面效果来看，Sora 生成的视频无论是分辨率还是帧率似乎都很高，主体一致性也令人印象深刻。

如果 ChatGPT Pro 那 200 美元的订阅费用里包含 Sora，可能这个费用看起来就没有那么离谱了。

除了这个泄露视频，OpenAI 官方 Youtube 账号也在周末放出了新的 Sora 作品，这或许也是给 Sora 的新发布做预热。

，时长01:18

在刚刚上传的视频中，我们可以看到一群狂欢的年轻人在跳舞。该视频由东京跨学科艺术家 Emi Kusano 借助 Sora 完成。

根据介绍，这个项目是受到了 1980 年代一个时尚团体 Takenoko-zoku 启发创作出来的。

根据视频内容，我们不难发现 Sora 精准地捕捉到了一群年轻人狂欢的场景，特别是舞蹈场景，展现了 Sora 独有的、可以创造出一种人类难以复制的独特魅力。尤其是多人物同屏，以及画面的表现力运镜非常高级，同时它还保持了电影般的质感，人群中的每个个体细节表现非常出色。

Emi Kusano 表示，创作过程中最让她兴奋的是 Sora 能够将自己脑海中想象的图像通过提示转化为视频，她将这种感觉形容为像是掉进了兔子洞（兔子洞源于著名童话书《爱丽丝漫游奇境记》，在这本书中，主角爱丽丝从兔子洞掉入了一个拟人化的异境世界，开启了她奇妙的旅程）。

看到最新版 Sora 视频，大家都用难以置信来形容，同时也希望如果 Sora 单独收费，价格不要太离谱。毕竟 ChatGPT Pro 已经高达 200 美元一个月了。

接下来，大家可以期待一下 OpenAI 即将要发布的内容，你认为新版 Sora 会来吗？

参考链接：

https://www.youtube.com/watch?v=c_kKKRQ5gYw

https://x.com/JustinLin610/status/1865798885643620400

#LIFT3D

3D具身基础模型！北大提出Lift3D赋予2D大模型鲁棒的3D操纵能力

为了构建鲁棒的 3D 机器人操纵大模型，Lift3D 系统性地增强 2D 大规模预训练模型的隐式和显式 3D 机器人表示，并对点云数据直接编码进行 3D 模仿学习。Lift3D 在多个仿真环境和真实场景中实现了 SOTA 的操纵效果，并验证了该方法的泛化性和可扩展性。

该项目由北京大学和北京智源研究院的仉尚航团队研究，作者包括北京大学博士生刘家铭、贾越如、陈思翔、顾晨阳、王之略、罗珑赞等。HMI 实验室长期致力于具身智能和多模态学习领域的研究。

论文链接: https://arxiv.org/pdf/2411.18623
论文标题：Lift3D Foundation Policy: Lifting 2D Large-Scale Pretrained Models for Robust 3D Robotic Manipulation
项目主页: https://lift3d-web.github.io/
代码链接: https://github.com/PKU-HMI-Lab/LIFT3D

，时长05:20

1. 摘要

3D 几何信息对于机器人操纵任务至关重要，因为机器人需要感知三维环境，推理空间关系，并与复杂的几何物体进行交互。近年来，研究逐渐聚焦于显式提取 3D 特征，但仍面临诸如：缺乏大规模机器人 3D 数据和潜在的空间几何信息丢失等挑战。为了解决这些问题，我们提出了 Lift3D 框架，通过隐式和显式的 3D 机器人表示逐步增强 2D 大规模预训练模型的 3D 空间感知能力，从而构建一个鲁棒的 3D 操纵策略。具体来说，我们首先设计了一个任务感知的掩码自编码器，该自编码器通过 Mask 与任务相关的 Affordance token 并重建深度几何信息，增强了 2D 基础模型的隐式 3D 机器人表达能力。在自监督微调之后，我们引入了一种 2D 基础模型 Lifting 策略，该策略在输入 3D 点和 2D 模型的位置编码之间建立了位置映射关系。基于该映射，Lift3D 利用 2D 基础模型直接显式的编码点云数据，借助大规模预训练知识提升 3D 模仿学习效率，同时最小化空间信息丢失。

图 1: 为了赋予大规模 2D 预训练模型 3D 操控能力， Lift3D 首先通过 mask 任务相关的 affordance 区域和深度重建，以提升隐式 3D 机器人表示；随后通过利用预训练的 2D 位置嵌入来直接编码 3D 点云数据，进行显式 3D 操纵模仿学习。Lift3D 在各种仿真（i.e., 机械臂，灵巧手）和现实世界任务中展现出强大的鲁棒性和令人惊讶的效果

为了全面评估我们提出的 Lift3D，我们在三个模拟器和多个真实场景中进行了广泛的实验，包括 30 多种不同的机械臂 gripper 和灵巧手操控任务，如图 1 所示。Lift3D 在各种任务上均表现出色，即使仅使用最简单的 MLP 策略头和单视角点云，也能够展示鲁棒的操纵能力和对机器人 3D 空间感知的理解。同时，我们通过逐步增加模型的参数量至 1B，验证了我们方法在多个复杂任务上的可扩展性。在真实世界实验中，Lift3D 在每个任务上只需 30 个 demonstration 的数据即可学习新的操控技能。为了评估 Lift3D 的泛化能力，我们在真实世界测试过程中融入了不同的操纵物体、背景场景和光照条件。Lift3D 展现出强大的泛化能力，能够有效利用 2D 大规模预训练知识和全面的 3D 机器人表示。

2. 研究背景

基于视觉的操纵策略的核心目标之一是理解场景并预测相应的 3D 位姿。一些现有的方法利用 2D 图像作为输入，通过强化学习或模仿学习直接预测 3D 末端执行器的位姿。尽管这些方法能够有效地处理一系列操纵任务，但它们未能完全理解物理世界中的空间关系和 3D 结构。在机器人操纵中，3D 几何信息对于应对复杂任务至关重要，因为机器人必须感知 3D 环境、推理几何关系并与复杂的空间物体进行交互。

近年来，研究越来越多地集中在机器人操纵任务中显式提取 3D 特征表示，这些方法可分为两类：1）一些方法直接编码点云数据，通过从头开始训练 3D 策略模型或微调预训练的点云编码器（例如 PointNet++ 和 PointNext）。然而，由于缺乏大规模机器人 3D 数据和基础模型，限制了它们的泛化能力。此外，处理 3D 或体素特征需要大量计算资源，这限制了其可扩展性和在现实世界应用中的可行性。2）另一方面，一些方法涉及模态转换，例如将预训练的 2D 特征提升到 3D 空间，或将 3D 点云投影到多视角图像中，以供 2D 预训练模型输入。尽管在一些后续的操纵任务中表现出色，但这些模态转换不可避免地导致空间信息的丢失，并不能完全激发模型对 3D 空间关系的理解。

基于上述 3D 策略中的挑战，我们提出了一个问题：“我们能否开发一个即有大规模预训练知识，又融合完整 3D 空间数据输入的 3D 策略基础模型？”

3. Lift3D 方法

3.1 贡献概述

我们提出了 Lift3D，通过系统地改进隐式和显式的 3D 机器人表示，将 2D 大规模预训练模型提升为鲁棒的 3D 操纵策略模型。
对于隐式 3D 机器人表示，我们设计了一种任务感知 MAE（Mask Autoencoder）自监督方法，它对任务相关的可操作区域进行掩蔽，并重建深度几何信息，从而增强 2D 基础模型的 3D 空间认知。
对于显式 3D 机器人表示，我们提出了一种 2D 基础模型 lifting 策略，利用 2D 基础模型的预训练位置编码（PE）来编码 3D 点云数据，用于 3D 操纵模仿学习。

3.2 Task-aware Masked Autoencoder (隐式 3D 机器人表示)

图 2: Lift3D 的整体流程。a) 对于隐式 3D 机器人表示，我们利用 CLIP 离线提取基于任务描述的图像注意力图，并将其反向投影到 2D 输入图像上，以指导 MAE 的掩码。然后，我们将可见的 tokens 输入 2D 基础模型进行特征提取。掩码 tokens 和编码后的可见 tokens 经过 MAE 解码器进行深度重建，从而增强 3D 空间感知。同时，编码后的可见 tokens 还会通过与原模型的特征进行蒸馏，以减轻灾难性遗忘问题。b) 对于显式 3D 机器人表示，我们首先将点云数据投影到多个虚拟平面上，建立 3D 输入点与每个虚拟平面上的 2D 位置嵌入（PEs）之间的位置映射。映射完成后，我们将每个 3D 补丁对应的 2D PEs 进行平均，形成统一的 3D 位置嵌入（3D PEs），然后将其与 3D tokens 结合。这些 3D tokens 是通过将点云输入轻量级 3D 分词器生成的。最后，来自 2D 基础模型的输出特征通过策略头进行处理，以预测模仿学习的位姿。

一些研究表明，2D 基础模型在各种下游机器人任务中展示了强大的操纵和泛化能力。在此基础上，Lift3D 首先增强了 2D 基础模型中的隐式 3D 机器人表示。现有的机器人 MAE 重建方法大多采用随机掩码。然而掩码部分可能主要包含无关的背景信息，这会阻碍对于前景物体表示的有效学习。不同于之前的方法，Lift3D 的目标是掩码与任务相关的 Affordance token，并重建深度几何信息，从而增强 2D 基础模型的 3D 空间感知能力。

具体而言，利用来自机器人操作的大规模数据集来构建 MAE 训练数据集，该数据集包括从视频中随机抽取的 100 万个训练样本，包含配对的图像和深度数据。如下图 2 a) 所示，具体的操作步骤如下：

1. 一旦获得数据，使用多模态模型（例如，CLIP）基于任务特定的文本描述生成图像 attention map。例如，图 2 中提取 attention map 的文本提示是：“机械臂将红色碗放入灰色碗中”。然后，这些 attention map 会被双线性插值并反投影到输入图像上，用于引导 MAE 的 mask 策略。为了区分与任务相关的可操作性标记和背景标记，我们对所有标记的注意力值应用一个阈值进行过滤。与之前的方法一致 [28]，我们也随机遮掩背景标记，以达到所需的比例（即 r=0.75）。

2. 重建目标在遮掩图像建模中起着至关重要的作用，直接影响特征表示的学习。先前的机器人 MAE 方法通常使用低级的 RGB 信息作为重建目标 [52, 60, 62]。为了增强 2D 基础模型的 3D 空间感知能力，我们重建任务相关的可操作性图像块和随机选择的背景图像块的深度信息。

3. 为了保持基础模型的固有能力，引入蒸馏损失，约束可见标记输出和原本 2D 预训练模型中对应特征之间的距离。在第一阶段的训练过程中，我们通过重建和蒸馏损失来微调注入的适配器和解码器，损失函数公式为：

3.2 2D Model-lifting Strategy (显式 3D 机器人模仿学习)

在赋予 2D 基础模型隐式的 3D 机器人感知能力后，我们引入了一种 Lifting 策略，使 2D 模型能够显式地理解点云数据。近期的工作，无论是将 3D 点云投影到多视图图像中，还是将 2D 特征提升到 3D 空间中，都面临由于模态转换而丢失空间信息的挑战。因此，高效地编码 3D 数据一直是 3D 机器人领域的一个关键研究方向。

对于基于 Transformer 的 2D 模型，位置嵌入（PEs）起着重要作用，因为它们为注意力机制中的输入 token 提供了位置信息。然而，直接创建新的 3D 位置嵌入来编码 3D token 可能会引入语义差异，这些差异源于预训练的 2D 基础模型与新添加的 3D 位置嵌入之间的不同，从而可能导致大规模预训练知识的丧失。因此，受 [23, 24, 71] 启发，将 3D token 投影到多个虚拟平面上。与之前的工作不同，我们的投影过程并不是为了构建模型的输入，而是为了在输入的 3D 点和每个虚拟平面的预训练 2D 位置嵌入之间建立位置对应关系。然后，这些 2D 位置嵌入被用于直接编码 3D 标记。

如图 2 b) 所示，我们将原始的点云数据转化为高维空间 (B x 128 x 768)，通过轻量级的 3D 标记器获得 k 个（k = 128）3D token。3D tokenizer 由最远点采样、k - 最近邻聚合算法和可学习的线性层构成，用于特征编码。随后，每个 3D 坐标投影到 n 个虚拟平面上，得到相应的 3D 到 2D 的坐标对应。投影机制无可学习参数且高效，我们采用带有 6 个面的立方体投影方法，有效捕获空间信息。这 n 个虚拟平面对应于 n 个原始的 2D 位置嵌入。

使用 3D 到 2D 坐标对应，将每个 3D token 分配到 n 个原始 2D 位置嵌入。在将每个 3D 标记与 n 个 2D 位置嵌入对齐后，我们通过平均值的方式创建一个统一的 3D 位置信号，表示为：

将 3D 位置嵌入与 3D tokens 结合，输入到 2D 基础模型中。通过这种方式，我们利用 n 个结合的原始 2D PEs 来编码 3D tokens，从而有效地提供了 2D 空间内的多样位置关系，并减轻了 3D 集合信息的丢失。来自 2D 基础模型的输出特征将通过一个简单的 policy head 进行处理，以预测用于模仿学习的位姿。我们使用三层多层感知机（MLP）来构建策略头。需要注意的是，我们的 Lift3D 编码器可以轻松适配不同的解码器或策略头，例如 Diffusion Transformer, Large Language Model；这里使用 MLP 头部是为了简单验证。最后，模仿学习的损失函数如下所示，其中 T、R 和 G 分别代表末端执行器位姿中的平移、旋转和夹持器状态。

4. 模拟器实验

4.1 基准测试

从三个广泛使用的操纵模拟器 benchmark 中选择了 30 多个任务：MetaWorld 和 Adroit 在 MuJoCo 模拟器中的任务，以及 RLBench 在 CoppeliaSim 模拟器中的任务。点云数据通过使用相机外参和内参从单视图 RGBD 数据中获得。对于 MetaWorld，选择了一个包含 Sawyer 臂和双指夹持器的桌面环境，并从不同难度级别中选择了 15 个任务。这些任务从两个角落摄像头视角捕捉，任务分类如下：简单任务：按钮按压、抽屉打开、到达、拉手柄、插头拔出、拉杆和旋钮转动。中等任务：锤子、清扫、垃圾桶取物、推墙和箱子关闭。难度较高任务：组装、手伸入和架子放置。对于 Adroit 任务，重点是使用与 [52] 中相同摄像头视角的灵巧手操作，包括了三个任务：锤子、门和钢笔。对于 RLBench，它使用 Franka Panda 机器人和前视摄像头。具体任务选择见论文 Appendix。

4.2 基线对比

Lift3D 的创新之处在于系统性地增强了隐式和显式的 3D 机器人表示。为了评估其有效性，将 Lift3D 与来自三个类别的 9 种方法进行了比较：

1）2D 机器人表示方法：选择了 CLIP（ViT-base），它是一个 2D 基础模型。此外，还包括了 R3M 和 VC1，这两者都是 2D 机器人预训练方法。

2）3D 机器人表示方法：借鉴了 [95]，采用了基础的 3D 模型，包括 PointNet、PointNet++ 和 PointNext。此外，还检验了 SPA ，这是之前的 SOTA 3D 机器人预训练方法。与 [52] 相同，所有机器人表示方法均使用与 Lift3D 相同的三层策略头和训练损失。

3）3D 策略方法：Lift3D 与之前的 SOTA 3D 扩散策略（DP3）在 MetaWorld 和 Adroit 上进行了比较，并在 RLBench 上与 RVT-2 进行了比较。

4.3 定量实验

如下表所示，Lift3D (CLIP) 在 MetaWorld 基准测试中达到了 83.9 的平均成功率，其中中等任务的准确率为 78.8，困难任务的准确率为 82.0。Lift3D 比 SOTA 2D 方法提高了 8.8 的平均成功率，比 SOTA 3D 方法上提高了 14.4。此外，Lift3D 在灵巧手操作任务上也优于以前的机器人表示和策略方法。需要注意的是，灵巧手在不同任务中有不同的自由度，其中 hammer, door, pen 任务分别具有 26、28 和 24 个自由度。这些结果表明，我们的方法在更复杂的灵巧手操作任务中同样有效，得益于强大的 3D 机器人表示能力。Lift3D (DINOV2) 也展示了良好的结果，证明了该方法在其他 2D 基础模型中的可行性。

5. 真机实验

5.1 数据收集

在真机实验设置中，我们使用 Franka Research 3 机械臂，并通过 Intel RealSense L515 RGBD 相机捕捉静态前视图。实验包括 10 种任务：1）将瓶子放到架子上，2) 倒水，3) 拔掉充电器，4) 堆积积木，5) 捡起并放置物体，6) 滑动积木，7) 浇水，8) 擦桌子，9) 打开抽屉，10) 关上抽屉。对于每个任务，我们在不同的空间位置收集了 40 次演示，轨迹以 30 fps 进行记录。我们选择了 30 次实验并提取了关键帧，用以构建每个任务的训练集。

5.2 定量实验

如下图和下表所示，我们将 Lift3D (CLIP) 与 DP3、VC-1 和 PointNet 进行比较。结果表明，Lift3D 在多个任务中表现一致且良好。特别是在 “将瓶子放到架子上” 任务中，该任务要求精确的 3D 位置和旋转预测，Lift3D 达到了 90 的成功率。结果表明，Lift3D 能够有效理解 3D 空间场景，并在现实世界中做出准确的位姿预测。对于复杂任务 “擦桌子”，由于需要操纵可变形的物体，所有方法在精度上都面临限制。尽管如此，Lift3D 仍然达到了 40 的成功率。

5.3 定性实验

如下图所示，展示了六个真实世界任务的操作过程。本文的方法准确预测了连续的 7 自由度末端执行器姿态，使得任务得以沿着轨迹顺利完成。例如，在 “给植物浇水” 任务中，Lift3D 首先准确抓住了浇水壶的手柄。接着，它平稳地抬起壶并将其定位到植物上方。最后，夹持器逐渐旋转以控制 “水流”。

6. 泛化性实验

借助于 2D 基础模型的大规模预训练知识和全面的 3D 机器人表示，Lift3D 展现出现实世界泛化能力。如下表所示，我们设计了三种与训练场景不同的现实世界测试场景，以验证其泛化性能。

6.1 不同的操纵实例

Lift3D 在多种不同的操纵物体上表现出色，准确度损失最小。这一成功主要得益于预训练的 2D 基础模型在语义理解方面的强大能力。

6.2 复杂的背景场景

背景干扰显著降低了所有方法的准确度，但 Lift3D 的准确度下降最小，操纵成功率保持在 50% 以上。这得益于在 3D 空间中有效利用大规模预训练知识。此外，基于可操作性的掩膜策略通过重建强化了模型对前景区域空间几何的理解，最大限度地减少了背景干扰的影响。

6.3 不同的光照条件

光照变化不仅会影响 2D 图像的数据分布，还会影响深度捕捉，从而影响点云数据。在光照变化的影响下，Lift3D 仅表现出约 20% 的准确度下降，充分展示了其强大的 3D 机器人表示能力。

7. 可扩展性（Scalability）探究

在计算机视觉中，2D 基础模型通常随着参数规模的增加，能够提升下游任务的表现。基于此，我们研究了我们提出的 Lift3D 策略是否也具有可扩展性。我们在非常困难的 MetaWorld 仿真任务 “shelf-place” 上进行了实验。在这个复杂任务中，Lift3D（DINOV2-ViT-base）仅达到 28 的准确率。ViT-base 的参数量只有 86M，而 ViT-large 和 ViT-giant 的参数量分别为 304M 和 1B。通过将 2D 基础模型替换为 DINOV2-ViT-large 和 DINOV2-ViT-giant，Lift3D 在 “shelf-place” 任务上的准确率分别提高到 60 和 68，并且收敛速度更快。这些改进表明，Lift3D 策略模型具有良好的可扩展性，且随着更大规模的 2D 基础模型，Lift3D 框架能够生成更鲁棒的操作策略。

#Drivingdojo

18k个视频、专为自动驾驶世界模型设计，DrivingDojo数据集来了

世界模型被广泛认为是实现通用人工智能的关键技术，其核心能力在于模拟真实世界的动态变化，并为决策提供精准的未来状态预测。在自动驾驶领域，世界模型的应用尤为引人注目。然而，现有数据集在视频多样性和行为复杂性方面的不足，限制了世界模型潜力的全面发挥。为了解决这一瓶颈，中国科学院自动化研究所联合美团无人车团队推出了 DrivingDojo 数据集 —— 全球规模最大、专为自动驾驶世界模型研究设计的高质量视频数据集。该数据集已被 NeurIPS 2024 的 Dataset Track 接收。

网站：https://drivingdojo.github.io/

论文：https://arxiv.org/pdf/2410.10738

代码：https://github.com/Robertwyq/Drivingdojo

世界模型的核心在于交互、知识以及泛化

世界模型刻画了智能体在当前状态

下采取特定动作

之后环境状态所有可能的变化的分布

。相比于单纯关注于

生成的图像质量，我们认为其他道路参与者的行为（other agents behavior）以及整体的世界动态（general world dynamics）也同样值得关注，即世界模型的交互、知识以及泛化能力。

交互：世界模型应具备合理预测动态交互行为的能力。例如，在自动驾驶场景中，系统需要准确预测自车与行人或其他道路使用者之间的交互。除了理解静态环境的变化，更重要的是能够提供动态反馈，以支持系统在复杂场景中的应对。

知识：世界模型应具备对环境中世界知识的深刻理解。例如，在自动驾驶场景中，系统需要能够理解红绿灯、升降杆等关键场景元素，以便作出恰当的驾驶决策。然而，仅通过像素级重建是否能准确建模这些知识仍然存在疑问，因此引入语言模型成为提升系统理解能力的关键手段。

泛化：世界模型的预测能力应能够扩展到新的未知场景，尤其是各种长尾场景，如稀有事件或极端环境下的驾驶表现。这种泛化能力是确保模型在真实世界中稳定运行的关键。

DrivingDojo 数据集

DrivingDojo 数据集相较于传统的感知数据集，经过精心的挖掘与筛选，更加注重视频多样性的设计。从掉落的水桶、倒下的栅栏，到突然窜出的动物、夜晚的篝火、路上的羊群，包含了海量的长尾驾驶场景，为世界模型的研究提供了坚实的基础。

DrivingDojo 数据集包含大约 18k 个视频，平均时长约为 20 秒。整个数据集可以划分为三个子集，分别聚焦于驾驶行为、动态交互和世界知识的探索。

驾驶行为：还原真实驾驶操作的多样性

我们精心构建了一个名为 DrivingDojo-Action 的子集，全面覆盖驾驶操作的多样化场景，呈现纵向与横向行为的均衡分布：

纵向操作：包含加速、减速、紧急刹车和起停驾驶，精准展现车辆在速度调控中的动态表现。
横向操作：涵盖变道和车道保持，细致描绘车辆在空间选择和路径优化中的决策能力。

动态交互：捕捉复杂交通中的行为模式

除了在静态道路网络环境中进行导航外，建模多智能体之间的动态交互（如并入和让行）也是世界模型的一个关键任务。我们精心挖掘了这一子集，比如并线、会车、被阻挡、超车、被超车。这一子集为世界模型提供了丰富的交互场景，助力其更好地应对复杂的交通环境。

世界知识：赋能开放世界的智能理解

不同于感知和预测模型通过将高维传感器输入压缩为低维向量表示，世界模型在像素空间中运行，展现出更强的场景建模能力。这种增强的能力使得世界模型能够有效捕捉开放世界驾驶场景中的复杂动态，例如动物突然横穿马路或货物从车辆后备厢掉落等意外情况。通过在像素层面上的深度理解，世界模型为处理复杂交通情境提供了更可靠的基础。

推动智能交互与知识驱动的自动驾驶世界模型

真实多样的驾驶场景生成

，时长00:28

轨迹控制的视频生成

给定初始帧和轨迹，世界模型预测未来的情景

，时长00:24

预测不同的未来情景

我们提出了运动指令跟随的视频预测任务，这也是世界模型的核心。以往的研究主要依赖于定性观察，而在实际驾驶中，控制精度需要通过定量指标进行评估。由于生成视频中缺少真实轨迹，我们采用了 COLMAP 重建方法对生成的轨迹进行重建，从而实现粗略的定量评测。

，时长00:02

利用 COLMAP 估计生成视频的轨迹

生成能力的泛化

与以往在同一数据集上进行的生成测试相比，我们认为跨数据集的测试更为重要，这更好地体现了模型的泛化生成能力。在测试过程中，我们选择了 OpenDV 的子集来进行评估。

我们也期望模型具备良好的泛化能力：如运动行为的泛化，以及跨数据集的运动行为泛化。

1. 异常行为生成 2. 在 nuScenes 数据集实现倒车

交互行为的预测

这一部分的核心在于探索世界模型是否能够根据不同行为的输入预测智能体之间的交互动态。以下示例中，当自车选择停车时，模型预测右前方的车辆会抢占道路进行超车；而当自车选择继续前行时，模型则预测右前方的车辆会等待自车先通过。

长时间高质量驾驶视频生成

#大模型微调项目

总结了一些热门的大模微调项目的亮点以及数据集。

本文主要总结本人最近跑过的大模型微调项目。

相信大家这几个月都会不断新出的微调大模型项目刷屏，频率基本每天都有高星的项目诞生，部分还宣称自己达到GPT的百分之多少，一方面弄得大家过度乐观，一方面弄得大家焦虑浮躁。

面对这种情况，我的建议是「多动手」。把这些项目 clone 下来，跑跑代码，把项目用到的数据集下载下来做做EDA，把项目训练完的checkpoint下载下来，用自己的例子跑跑。多接触反而心态平定了许多。

回归正题，这篇博文聊聊一些热门的大模型微调项目。首先我觉得大量这些项目的诞生是源于以下三个节点：

节点1 ChatGPT：由于 ChatGPT 惊人的效果，让大家意识到AGI的可能性，并重视起了大模型+开放指令微调+强化学习这种三阶段范式
节点2 LLaMA：LLaMA 是 Meta 在今年2月份推出的基座模型，宣称 LLaMA-13B 在大多数基准测试中超过了 GPT-3 (175B)，而 LLaMA-65B 与最好的模型 Chinchilla70B 和 PaLM-540B 相比非常有竞争力。此外，该项目还开源了7B、13B、30B和65B版本。
节点3 Stanford Alpaca：在 LLaMA 的基础上，用 Self-Instruct 去制造了52K的指令微调数据集，最后发现训练出来的模型确实是能听懂指令的，能看出ChatGPT的雏形

这三个节点加起来相当于证明了一条可以低成本复现的道路，然后大量的人沿着这条道路去进行时间。

再来说说这些项目的，本质都是：底座模型(ChatGLM/LLaMA/BLOOM)+ 微调数据(主要是指令微调数据集) + 高效微调方案(Fulltuning/Lora/Freeze/Ptuning)。

项目

这些介绍几个我认为比较好的，好的定义是：Github star 比较高的，持续在维护更新的，同时作者对自己的项目做了详细解析和深入研究的。

ChatGLM-6B

清华唐杰老师团队

项目: https://github.com/THUDM/ChatGLM-6B

Blog: https://chatglm.cn/blog

ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型，基于GLM架构，具有62亿参数。ChatGLM-6B 使用了和 ChatGPT 相似的技术，针对中文问答和对话进行了优化。经过约1T个标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持。为了方便下游开发者针对自己的应用场景定制模型，项目还开源了基于 P-Tuning v2(https://github.com/THUDM/P-tuning-v2) 的高效参数微调代码。

亮点：

GLM 是一种 Prefix decoder 的结构，而目前大模型采用的主流结构是 Casual decoder，可以说GLM走出了自己的道路，但究竟那种结构更优，需要更科学的评定
1T 个token的中英文预训练，对比 175B 的 GPT3 训练了300B个 token，540B的 PaLM 训练了780B个 token，而 ChatGLM-6B 的底座只是6B的模型，却训练了1T个 token，让人有种憧憬，用大数据训练小模型，是否能达到小数据训练大模型的效果
项目号称经过监督微调、反馈自助、人类反馈强化学习

但是 ChatGLM-6B 没有公布它的训练细节和语料是怎么做的，有人说 ChatGLM-6B 的 IFT 也是通过 self-Instruct 得到的，这也不是空穴来风，相信用过 ChatGLM-6B 的人都会觉得，ChatGLM-6B的回复风格跟ChatGPT十分相似。

Alpaca-CoT

中科院的学生做的项目

项目：https://github.com/PhoebusSi/Alpaca-CoT/blob/main/CN_README.md

多接口统一的大模型指令微调平台。该项目做了一个框架，利用这个框架，可以方便地用不同的底座模型+不同的指令数据集进行大模型的微调，不足的地方是，只提供了使用Lora的训练方式。除此之外，该项目主打一个思维链 (CoT)，把CoT数据集加入到指令微调中，在项目中还举了很多案例，证明加入了CoT数据集后对模型的提升作用。

亮点：

统一了多个底座模型，包括有 LLaMA、ChatGLM、BLOOM
整理统一了其他公开项目的数据集，如果大家想梳理下现在市面上开源的IFT数据集，建议可以通过这个项目了解
项目集成了 Int8-bitsandbytes、Fp16-mixed precision、LoRA（hugging peft库）等高效训练的方法
首个加入了 CoT 训练后的效果研究

BELLE

贝壳团队开源的项目

项目：https://github.com/LianjiaTech/BELLE

项目基于 Deepspeed-Chat 项目，包括全量参数微调(fine-tuning)和基于LoRA的参数高效微调。

亮点：

开源了一个规模巨大的中文IFT数据集，现在加起来有300万以上，基本都是通过Self-Instructi得到
做了一系列的实验，截止日前已发了4篇技术报告

《Exploring ChatGPT's Ability to Rank Content: A Preliminary Study on Consistency with Human Preferences》
《Exploring the Impact of Instruction Data Scaling on Large Language Models: An Empirical Study on Real-World Use Cases》
《Towards Better Instruction Following Language Models for Chinese: Investigating the Impact of Training Data and Evaluation》
《A Comparative Study between Full-Parameter and LoRA-based Fine-Tuning on Chinese Instruction Data for Instruction Following Large Language Model》

建议大家把它们的数据集下载下来看看，并把这4篇实验报告都看一次。虽然这些实验并不是很客观，例如最后的test集也是用的belle自己的，然后用的是GPT3.5打分。不过整体的实验思路和实验结果还是可以大致参考的。

Chinese-LLaMA-Alpaca

科大讯飞&哈工大团队，很出名的团队，很多耳熟能详的中文预训练模型，如RoBERTa、MacBERT、PERT都出自它们团队

项目：https://github.com/ymcui/Chinese-LLaMA-Alpaca

该项目包括词表扩充、继续预训练和指令精调三部分，其中词表扩充的代码参见 merge_tokenizers.py ；预训练和指令精调代码参考了 transformers中的 run_clm.py 和 Stanford Alpaca 项目中数据集处理的相关部分。

亮点：

相对完整的流程，不紧紧是指令微调这一步，还包括词表扩充、继续预训练
针对LLaMA模型扩充了中文词表，提升了中文编解码效率。这一步是我觉得假如想用LLaMA去做中文必须要做的一个事情，因为原生LLaMA对中文支持不好，很多中文词不在它们的词表中，会被切成两个token，极大影响了效果
对中文继续做了20G语料的预训练，这个预料规模一看就很熟，它们开源的RoBERTa、MacBERT也是在这个规模的预料上训练得到的
在预训练介绍，分成两部分，第一阶段：冻结transformer参数，仅训练embedding，在尽量不干扰原模型的情况下适配新增的中文词向量，第二阶段：使用LoRA技术，为模型添加LoRA权重（adapter），训练embedding的同时也更新LoRA参数。这给大家做高效继续预训练的提供了一个方向。

StackLLaMA

项目：https://huggingface.co/spaces/trl-lib/stack-llama

Blog: https://huggingface.co/blog/stackllama

Hugging Face的研究人员发布的一个70亿参数的模型——StackLLaMA。这是一个通过人类反馈强化学习在LLaMA-7B微调而来的模型。

个人感觉有价值的是Hugging Face研究人员发布的一篇Blog：用RLHF训练LLaMA的实践指南。

亮点：

博客更像是一个教程和指南，介绍如何使用RLHF来训练模型，而不是主要关注模型的性能表现
重点介绍了指令微调和强化学习部分，其中强化学习部分利用的是StackOverflow构建的数据集，利用网民们的upvotes去进行评分，给我们构造强化学习数据集部分提供了一个思路，能否利用微博点赞、知乎点赞等数据去构造一个中文的强化学习数据集呢？

数据集

介绍几个比较有特色的中文数据集

Alpaca-CoT

对大部份中英文的开源IFT数据集进行了整理和汇总，包括有 Guanaco、belle、firefly、COIG，加上项目自己开源的CoT数据集。假如不想自己去疏离数据集的话，就看这个它们整理好的就行了。

Alpaca_GPT4

https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM

微软论文《INSTRUCTION TUNING WITH GPT-4》开源的数据集。亮点是利用 GPT-4 生成的 Alpaca 数据，并做了中文的翻译。由于GPT4比GPT3.5强大很多的，因此质量自然会更高。

belle_data

https://github.com/LianjiaTech/BELLE/tree/main/data/10M

规模很大、类型也较多的数据集

School Math：包含约25万条中文数学题数据，包含解题过程。
Multiturn Chat：包含约80万条用户与助手的多轮对话。
Generated Chat：包含约40万条给定角色的多轮对话。
train_2M_CN：包含约200万条与Alpaca类似生成的多样化指令任务数据。

这些数据都是由ChatGPT生成，部分质量是不过关的，需要自己好好筛选一下。

COIG

https://huggingface.co/datasets/BAAI/COIG

规模很大，类型很全的数据集

翻译指令数据集：基于开源数据集精选得到，并通过DeepL高质量翻译、并进行人工验证+人工修正
考试指令数据集：中国高考、中考、公务员考试得到，可用作思维链 (CoT) 语料库
价值对齐数据集：「中文世界的价值观念不同于英语世界的价值观」，作者构建了与普世华人价值观match的数据集，也是通过 self-instruct 生成的
反事实校正数据集：构建了反事实校正多轮聊天数据集（CCMC）。CCMC 数据集包括学生和老师之间的 5 轮角色扮演聊天，以及他们所参考的相应知识。教师根据基本事实知识生成响应，并在每一轮中纠正学生问题或陈述中的事实错误或不一致之处
代码指令数据集：Leetcode 数据集，包含有代码到文本和文本到代码

总体来说，这份数据集质量非常高，需要我们好好根据任务进行挑选。

个人感悟

数据清洗方案如何更好？

多样性：例如在 Self-Instruct 论文中，会使用 ROUGE 指标，过滤掉生成的指令与已有指令重合的指令。
高质量：使用 ChatGPT 生成数据，自然训练出来的模型就是模仿 ChatGPT 的回复风格。然而，ChatGPT（指 GPT3.5）自身的缺点包括浓浓的机翻味道、文绉绉的、不够活泼可爱，其次中文生成不够流畅。一种思路是使用 PPL 等指标筛选出生成的指令和回复，计算困惑度 Perplexity。Perplexity 低的通常是不流畅的，可以将低于一定阈值的去掉。
启发式：例如过滤掉问题是中文但回答是英文的，过滤掉生成的指令包含需要外部知识库的情况。

更多的清洗方案，可以多看看开源数据集中它们是如何处理的，留意里面的数据清洗方式。

哪种微调方案比较好？

从 BELLE 的技术报告《A Comparative Study between Full-Parameter and LoRA-based Fine-Tuning on Chinese Instruction Data for Instruction Following Large Language Model》中可以看出，Full-Tuning 效果应该是最好的，但 Full-Tuning 需要机器资源多，训练时间长。其次是 P-TuningV2/Lora/Freezing 的话，貌似是 P-TuningV2 效果最佳，具体可以看这个https://github.com/liucongg/ChatGLM-Finetuning。然而，这些比较并不严谨，例如每个方案都有自己的超参，是否每个方法都做了超参搜索。

强化学习部分重要吗？

非常重要。现在发现 ChatGLM-6B 的回复虽然一看过去感觉像模像样，但仔细看会发现胡言乱语的情况很严重，也即幻觉问题。也有人会另辟蹊径，例如 COIG 中的 CCMC 数据集，通过将这些数据集加入到 IFT 训练中，让模型学习纠正不正确回复的能力。还有在 prompt 中加入“请不要生成虚假的、自我捏造的回复”等字眼，目的是让模型在生成更加谨慎。然而，这些都是折中的办法。个人认为减少幻觉问题这一步，还得靠强化学习。希望未来能看到更多构建强化学习数据和开源强化学习数据集、训练的方案。

#OpenAI Sora正式炸裂登场

山姆・奥特曼：「视频版的 GPT-1 时刻来了。」

OpenAI 12 天连更的第三个工作日，重磅发布终于来了！

正如直播之前大家在评论区预想的一样，视频生成大模型 Sora 正式版终于露面！

算起来，距离今年 2 月 16 日 Sora 的发布已经过去了近 10 个月的时间。

如今，广大网友终于可以体验 Sora 强大的视频生成能力！

同时，OpenAI 开发了 Sora 的新版本 ——Sora Turbo，它比二月份的预览版模型快得多。今天该版本将作为独立产品提供给 ChatGPT Plus 和 Pro 用户。

据今天的直播介绍，Sora 用户可以生成 1080p 分辨率、最长 20 秒、宽屏、竖屏或方形的视频。并且用户可以利用资源进行扩展、remix 和融合，或者基于文本生成全新的内容。OpenAI 开发了全新的界面，让使用文本、图像和视频来提示 Sora 变得更加容易，同时故事板工具让用户可以精准地指定每个帧的输入。

我们可以先看几个生成视频示例：

，时长00:10

，时长00:05

提示：镜头雾气弥漫，色彩对比鲜明，捕捉到的感觉是低能见度的镜头质量，提供一种即时感和混乱感。该场景从 17 世纪海盗船上水手的视角展示了摇晃的镜头。海浪冲击木制船体时，地平线剧烈摇晃，难以辨别细节。突然，一只巨大的海怪从汹涌的大海中突然出现。它巨大而滑溜的触手危险地伸出，黏糊糊的附肢以可怕的力量缠绕着船。当水手们慌乱地争先恐后地面对这个可怕的海洋生物时，视野发生了剧烈变化。气氛非常紧张，混乱中可以听到船的呻吟声和大海的咆哮声。

，时长00:10

提示：洛克菲勒中心到处都是金毛猎犬！无论你放眼望去，都是金毛猎犬。这是纽约夜间的冬季仙境，还有一棵巨大的圣诞树。背景中可以看到出租车和其他纽约元素

山姆・奥特曼表示，最令他兴奋的一点是与其他人共同创作的便捷性，感觉就像是一个有趣的新事物。大家可以将 Sora 看作视频版的 GPT-1。

OpenAI 研究科学家 Noam Brown 表示，Sora 是 scale 力量最直观的展示。

对于 Sora 的发布，有网友表示，这是最好的圣诞节礼物，也有称 Sora 将是游戏改变者。

通过文字、图片或视频

让你的想象力栩栩如生

怀着激动的心情，也想上手尝鲜 Sora！奈何想要体验的网友太多，一直登录不上：

体验地址：https://sora.com/onboarding

那就先为读者们展示下官方放出的 Sora 的能力吧。

使用 Remix 替换、删除或重新构想视频中的元素

打开通往图书馆的大门

将门替换为法式门

门外的场景替换为月球景观

Re-cut：找到并隔离最佳帧，然后向任一方向延伸它们以完成场景

，时长00:15

Storyboard：在时间线上组织和编辑视频的独特序列

视频前 114 帧的场景是「一片广阔的红色景观，远处停靠着一艘宇宙飞船。」

接着，可以将视频的 114-324 帧的场景变换为：「从宇宙飞船内部向外看，一位太空牛仔站在画面的中央。」

最后，可以将视频内容描述为「宇航员眼睛的特写镜头，眼睛被针织面料制成的面罩所框住。」

Loop：使用 Loop 剪辑并创建无缝重复的视频

，时长00:20

，时长00:12

Blend：将两个视频合并为一个无缝剪辑

，时长00:10

Style presets：使用「Presets」创建和分享激发自己想象力的风格

，时长00:10

更多 Sora 生成的惊艳视频，也需要广大网友们的想象力去创造了。

Sora 正式版系统卡

在今年 2 月份，Sora 刚发布时，OpenAI 曾公布了 Sora 的技术报告（参阅：我在模拟世界！OpenAI 刚刚公布 Sora 技术细节：是数据驱动物理引擎）。

OpenAI 认为，扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。

今天随着 Sora 的正式发布，OpenAI 也放出了 Sora 的系统卡（System Card），感兴趣的开发者们可以深挖一下技术细节。

地址：https://openai.com/index/sora-system-card/

Sora 是 OpenAI 的视频生成模型，旨在获取文本、图像和视频输入并生成新视频作为输出。用户可以创建各种格式的高达 1080p 分辨率（最长 20 秒）的视频。

Sora 建立在 DALL・E 和 GPT 模型的基础上，旨在为人们提供创意表达的工具。

Sora 是一种扩散模型，它从看起来像静态噪声的基本视频开始生成新视频，通过多个步骤消除噪声来逐渐对其进行转换。通过一次为模型提供多帧预测，Sora 解决了一个具有挑战性的问题，即确保画面主体即使暂时离开视野也能保持不变。与 GPT 模型类似，Sora 使用 transformer 架构，释放出卓越的扩展性能。

Sora 使用 DALL・E 3 中的重描述（recaptioning）技术，该技术涉及为视觉训练数据生成高度描述性的字幕（captions）。因此，Sora 能够更忠实地遵循生成视频中用户的文本指令。

除了能够仅根据文本指令生成视频之外，该模型还能够获取现有的静态图像并从中生成视频，准确地将图像内容动画化并关注细节。该模型还可以获取现有视频并对其进行扩展或填充缺失帧。Sora 是能够理解和模拟现实世界的模型的基础，OpenAI 认为 Sora 将成为通往 AGI 的重要里程碑。

在数据方面，正如 OpenAI 在 2 月的技术报告中所述，Sora 从大型语言模型中汲取灵感，这些模型通过互联网规模数据的训练来获得通才能力。LLM 得以确立新范式，部分得益于创新了 token 使用的方法。研究人员们巧妙地将文本的多种模态 —— 代码、数学和各种自然语言统一了起来。

在 Sora 中，OpenAI 考虑了生成视觉数据的模型如何继承这种方法的好处。大型语言模型有文本 token，而 Sora 有视觉 patch。此前的研究已经证明 patch 是视觉数据模型的有效表征。OpenAI 发现 patch 是训练生成各种类型视频和图像的模型的可扩展且有效的表征。

在更高层面上，OpenAI 首先将视频压缩到较低维的潜在空间，然后将表征分解为时空 patch，从而将视频转换为 patch。

Sora 接受过各种数据集的训练，包括公开数据、通过合作伙伴获取的专有数据以及内部开发自定义数据集：

公开可用的数据。这些数据主要从行业标准的机器学习数据集和网络爬虫中收集。
来自数据合作伙伴的专有数据。OpenAI 建立合作伙伴关系来获取非公开数据。例如，与 Shutterstock⁠ Pond5 合作构建、提供人工智能生成的图像。OpenAI 还委托创建适合自己需求的数据集。
人工数据。来自人工智能训练师、红队队员和员工的反馈。

更多细节，读者们可以查看系统卡介绍。

价格权益

当然，随着 Sora 的正式发布，OpenAI 也公布了使用价格。看来，也并不便宜：

20 美元一个月的 ChatGPT Plus 用户可以享受的视频生成权益包括：

最多 50 个优先视频（1000 个积分）
分辨率高达 720p，时长为 5 秒

200 美元一个月的 ChatGPT Pro 用户可以享受的视频生成权益包括：

最多 500 个优先视频（10000 个积分）
无限 relaxed 视频
分辨率高达 1080p，持续时间为 20 秒，可并发生成 5 个
下载无水印

毕竟期待了这么久。你们冲不冲？

参考链接：https://openai.com/sora/

#不做Sora ，要帮更多企业做出Sora

大模型「标王」硬气

被神话的 Sora ，被低估的多模态。

Sora 终于来了！

只要是 ChatGPT Plus/Pro 用户，直接就能用上。

至于效果 ......

看完官方放出的 demo，网友大呼：不太行！

当人们对「超级应用」的热情被 Sora 浇上一盆凉水时，多模态应用已经悄咪咪跑了起来，速度超出想象。

日均调用量 15 亿，

谁在给生产「上价值」？

一句话、30 秒，创意立刻「活了」。

Vidu 文生视频

一句话，召唤出 3D 世界。

哇嘶嗒（VAST）文生3D模型

一个创意、一键生成，短短五分钟，一段品牌宣传片便能完美呈现。手机，也能来个「即圈即搜」。

贵阳市民早高峰拥堵时长缩短了半小时，大模型功不可没。

在百胜中国，AI 客服每天能处理超过 15 万次消费者沟通。

龙源电力的 5 万路视频监控，现在只需一句话就能过滤掉无关的烟雾、灯光等干扰误报。

这些都不是简单的技术 demo ，而是百度智能云在给实际生产「上价值」的真实写照。

IDC 数据也印证了这一点。2023 年，百度智能云至少拿了两个第一：

在 AI 公有云市场份额达到了 26.4 %，已连续五年位居首位；

大模型又是 AI 公有云的细分领域，作为国内率先抢跑大模型的云厂商，2023 年百度智能云在大模型平台市场份额为 19.9%，也位居第一。

可见，大模型正成为百度智能云一年多来新的增长引擎。

百度创始人李彦宏曾在百度世界 2024 大会上透露，截至 11 月初，百度文心大模型的日均调用量达到 15 亿，相较一年前首次披露的 5000 万次，增长了约 30 倍。

调用量高、增速快，表明有越来越多的应用在使用大模型。「调用背后意味着它在给应用产生价值。」李彦宏说。

「标王」的底气

「 Sora 这种，无论多火，百度都不去做。」公开场合谈及此，李彦宏态度明确。

百度要做的是基建，帮更多用户做出自己的 Sora ，打造无数个「超级有用」的多模态应用。

市场也用真金白银投了票。据媒体报道，市场大盘上，2024 年 1-8 月大模型中标项目数量已是 2023 年全年的 5 倍，百度综合排名第一：

除了中标金额、项目数量最多，行业覆盖也最广，央国企客户过半。

作为「标王」，不做 Sora 并不意味着放弃多模态。很多场景应用，如果没有多模态技术支持，根本落不了地。

但企业要的不是裸的模型，而是贴合自家业务场景的多模态能力，能「开箱即用」就更好了。

身为「标王」，百度智能云也有底气给足各种选项。凭啥？

它控制了从底层算力到上层应用的堆栈每一层，在堆栈每一层都有关键自研技术。

在此，离不开两个核心支点：作为大模型精调和应用开发平台的千帆，以及提供稳定高效算力服务的百舸平台。

先看百舸。

想从 0 到 1 训练自己的多模态大模型？

百舸：安排！

一些前沿的空间智能玩家已经盖戳认证，如生数科技、哇嘶嗒（ VAST ）、光魔科技。

光魔科技，一键将故事生成视频。

这个以 GPU 为核心搭建的异构计算平台，本来就很适合多模态大模型训练，主打一个「多快稳省」。

「多」，是指「多芯混训」，支持同一智算集群中混合使用不同厂商芯片，兼容昆仑芯、昇腾、海光 DCU、英伟达、英特尔等国内外主流 AI 芯片。

选择灵活，也降低了算力成本，还不用担心性能显著下降。因为，百舸的多芯混合训练任务的性能损失，控制在了万卡性能损失 5%，已经是业界最高水平。

除了「多」，训练、推理也又「快」又「稳」。

从发布到上线仅三个月，生数科技就完成了对 Vidu 的快速迭代。为啥这么快？

因为百舸会把不同地点、不同规模、不同集群的算力统一管理起来，再通过一些优化经验和技术，大大提升智能算力的效能：

万卡集群上的模型有效训练时长占比超过 99.5%，线性加速比和带宽有效性均超过了 95% ，业界领先。

说地更具体点。

训练 Vidu 大模型需要长序列训练和较大的上下文窗口，百舸创新提供了序列并行策略、显存优化策略，还支持超长上下文训练。

作为结果，大模型训练中最费时间的渲染环节，效率提升了 3 倍。同时，通过优化数据拉取机制，显著压缩了数据准备时间。

在推理上，百舸也有三个亮点。

提供自定义镜像推理服务，用户可以「搭乐高」，满足不同推理服务部署。

异构多芯支持架构，既保证性能又控制成本。

多模态推理加速能力。这也是 Vidu 将 AI 视频生成等待时间压缩至 30 秒，比业内最快水平 Gen-3 还要快一倍的「幕后功臣」。

值得一提的是，大模型 Scaling Law 仍在继续，百舸 4.0 也具备了成熟的 10 万卡集群部署和管理能力。

再说千帆。

主打一个「低门槛」甚至「零门槛」，最好普通人都能用。至今，已经促成超 77 万应用的诞生。

凭借「三层分立」：模型开发层、模型服务层和应用开发层，满足千变万化现实需求。

在模型开发层，千帆提供全流程工具，从数据处理、模型调优到部署，满足多模态大模型定制化需求。

想直接调用多模态能力的用户，可以在模型服务层「各取所需」。多个领域主流模型，千帆都给安排了。

文生图：如 Stable-Diffusion-XL 、文心一格；

文生视频：如 Vidu 1.0 ；

图像理解：如 Fuyu-8B、LLaVA ；

除了多模态系列模型，还有百度视觉系列模型。

虽然百度 ERNIE 系列大语言模型和语音系列模型主要针对单一模态，但也可以通过组合使用来增强整体的多模态处理能力。

在扩大模型类型的同时，千帆也在降低模型调用成本。

过去一年，文心旗舰大模型降价幅度超过 90%，两款主力大模型 ERNIE Speed 和 ERNIE Lite 免费，最大限度降低企业创新试错的成本。

最上一层是应用开发，帮助企业用多模态能力改造业务，这个办法最简单、直接。

最近上新了企业级 RAG 和企业级 Agent 开发，将多模态应用门槛又拉低了一截。

就拿工作流 Agent 来说。

在现有工具链支持下，只需一、两句话+勾选、拖拽，大模型就能跑出一个简单、闭环的轻量化 Agent，如熟知业务「套路」的数字员工。

爱库存是一家私域电商供货平台，数百万店主通过微信群、朋友圈分发平台上的商品。他们正在千帆大模型平台开发「爱库存超级助手」Agent。

此前，店主遇到销量下滑需要经历繁琐流程：查看数据找原因，浏览热卖榜选品类，比价选品，再制作文案和海报。这一系列操作通常要花费数小时。

现在有了 Agent，这些工作只需几分钟就能完成。

「开箱即用」，支棱千行百业

对于千行百业中呈长尾分布、「拿来主义」就能搞定的需求来说，百度智能云打造的一批 AI 原生应用，会很趁手。

「客悦」、「曦灵」、「甄知」、「一见」等都实现了多模态的「开箱即用」。

营销、客服，几乎是所有企业舍得砸钱、也最容易积累数据与 AI 产生化反的通用场景。有了「客悦」、「曦灵」，数字人销售、直播带货，分分钟搞定。

某日化龙头企业用客悦 AI 外呼回访老客户，不仅摸清了客户流失原因，还通过精准派券带动复购，最终复购率提升超 10% 。

曦灵数字人平台拥有文生 3D 数字人的能力，不但可以一句话生成企业所需 3D 数字人形象，还可以让它立即投入工作，自动生成专业的带货视频。

，时长00:22

曦灵数字人平台，一句话生成3D数字人带货视频。

有了多模态能力的加持，数字人主播可以一边展示货品一边讲解，还能和直播间用户实时互动，全年无休，多国语言也能张嘴就来。

价格上，仅需 199 元！一个 3D 超写实的数字人，过去定价可是万元级别。

企业知识管理也迎来多模态升级。「甄知」让知识管理从「重存储」转向「重应用」，企业知识被盘活。

以南方电网为例，集团拥有数万篇各类标准文件，都以 PDF 形式存储。「甄知」运用大模型的 OCR 视觉能力，快速将这些文档拆解为章节段落和图表，完成知识结构化。

员工能在「甄知」辅助下编写各种企业文档，新产生的知识会自动进入企业知识库，精准推给需要的同事。

基于多模态大模型重构的「一见」视觉大模型，可快速满足碎片化场景下的视觉需求。矿区驾驶员的「一分钟安全确认」，从传统小模型需要 50 多天，缩短到现在仅需 2 天左右就能投产使用。

「开箱即用」的 AI 原生应用也延伸到了医疗、政务、交通等更多领域，加速多模态应用在千行百业落地。

砥砺多年，真·「卷王」

一旦技术得到广泛应用，就会产生海量数据，这些数据又反哺 AI 进化，推动数据飞轮高速运转。不同于 Sora，这是百度认准的一条通往 AGI 之路。

「我们应该把注意力放在闭环怎么走完，而不是不断解锁能力。」李彦宏认为，一旦有一家（大模型）厂商的「飞轮」转起来，后来者再追赶，需要花更多力气。

事实上，百度智能云能成为今天的「标王」、领跑者，除了技术上的领先，也源于多年坚守「向实」。

当一些互联网云厂商淡出政企市场时，百度智能云还在电信、能源、制造、交通等重点领域深耕，静待花开。这些年的项目经验，让百度智能云沉淀了大量 AI 解决方案，通过持续提炼，不断提升复用率和产品化水平。

正是沉淀在先，后来有了多模态大模型，才能「点石成金」。

没有「专业选手」，用户也能基于「一见」视觉大模型平台训练出和百度原厂效果一样的视觉模型，因为「一见」凝结了七年的行业实践，积累了丰富的模型、算子和场景化模型产线。

龙源电力平台已成功接入 5 万多路视频监控，覆盖 250 多个风电场，实现了实时 AI 分析与统一管控。「一见」在海量并发处理和数据管理方面的成熟能力也是通过大量标杆客户实践打磨出来的。

多模态生成式 AI 作为新一代前沿技术，正在突破大语言模型的固有局限。Omdia 最新发布的《全球生成式 AI 应用市场研究报告》预测，全球多模态生成式 AI 市场规模将于 2029 年达到 142 亿美元，较 2024 年增长 6 倍。

凭借技术实力和丰富的工程经验，百度智能云已在企业级市场建立起坚实根基。稳定的付费客户群不仅让其在价格竞争中保持优势，更为长远发展奠定了基础。

Omdia 也在报告中指出，企业在选择多模态应用解决方案时，百度智能云这类全栈服务供应商比单纯的多模态生成式 AI 基础模型提供商（如推出 Sora 的 OpenAI )更具优势。这源于其完整的技术体系能更好满足企业实际需求。

在大模型的马拉松争霸赛中，百度智能云正用实力证明：我不仅是开局的佼佼者，更将是决赛圈的重量级选手。

#5分钟完成最强超算10^25年工作

谷歌量子芯片重大突破，马斯克、奥特曼齐祝贺

算力更强大，错误更少，量子计算的最大挑战之一被搞定了。

这是一个重要的里程碑。

12 月 10 日凌晨，在 OpenAI 的 Sora 吸引 AI 社区眼球的同时，谷歌宣布了一个重大突破：他们新的量子计算芯片 Willow 可通过规模扩展来降低错误率 —— 其 5 分钟就能完成超级计算机 10^25 年才能完成的计算。这是 Scaling Law 开始在量子计算领域应验了吗？

这一突破性成就立刻赢得了一片惊呼之声，伊隆・马斯克也惊呼点赞，并且他与桑达尔・皮查伊的互动中还畅想了一下未来：未来或许会使用 Starship 在太空中建造量子计算集群，为此必须大规模收集太阳能。

马斯克还强调：「任何有自尊的文明都至少应该达到卡尔达肖夫 II 型文明。」而我们现在甚至还未达到 I 型文明的 5%。

OpenAI CEO 山姆・奥特曼在自己的发布结束后也特意向皮查伊祝贺。Hyperbolic 的联合创始人、CTO Yuchen Jin 在底下表示：要不 OpenAI 和谷歌合作，用量子芯片训练 AI 吧？

皮查伊回应道：量子加 AI，创造多元宇宙未来，也恭喜 OpenAI o1 的发布。

大佬们之间的潜在合作，或许这么简单就能谈成了？

由于新技术的出现，人们都在畅想 AI 与量子计算的结合了。

谷歌这次 Willow 量子芯片的相关研究已发布在最新一期的《自然》杂志上：https://www.nature.com/articles/s41586-024-08449-y

从相关信息看，这个项目的参与研究者多达数百人，涉及机构包括普林斯顿大学、马萨诸塞大学、谷歌 DeepMind 等十余所大学和机构。

Google Quantum AI 的创始人兼负责人 Hartmut Neven 发布了一篇官方博客对此进行了详细的介绍。

Willow 是谷歌最新一代量子芯片，在多个指标上拥有最先进的性能，实现了两大主要成就。

首先，Willow 能够随着使用更多量子比特的扩展而指数级降低错误。这解决了量子纠错领域近 30 年来一直在追求的一个关键挑战。
其次，Willow 在不到五分钟的时间内完成了一个标准基准计算，而今天的最快超级计算机需要 10^25 年 —— 这个数字远远超过了宇宙的年龄。

Willow 芯片是 Google Quantum AI 在量子计算技术发展道路上的一个重要里程碑。

2012 年 Hartmut Neven 创立 Google Quantum AI 时，愿景是构建一个有用的、大规模的量子计算机，能够利用量子力学 —— 今天所知的自然的「操作系统」—— 来推动科学发现、开发有益的应用，并应对社会面临的一些最大挑战。

作为 Google Research 的一部分，该团队绘制了长期路线图，而 Willow 让它们在这条通往商业相关应用的道路上迈出了重大一步。

，时长06:38

由量子硬件总监 Julian Kelly 介绍 Willow 及其突破性成就。

指数级量子纠错 —— 低于阈值！

错误率是量子计算中最大的挑战之一，因为量子计算机中的计算单位量子比特（qubits）倾向于与它们的环境迅速交换信息，这使得保护完成计算所需的信息变得困难。

通常情况下，使用的量子比特越多，发生的错误就越多，系统就越「经典计算」，这样就会导致规模无法扩展。

今天谷歌团队在《自然》杂志上发表的研究成果显示，在 Willow 中使用的量子比特越多，错误就越少，系统就越量子化。

这样的技术着实有点反直觉。他们测试了越来越大的物理量子比特阵列，从 3×3 编码量子比特的网格扩展到 5×5，再到 7×7—— 每一次，利用他们最新的量子纠错技术，都能将错误率减半。

换句话说，他们实现了错误率的指数级降低。这一历史性的成就在该领域被称为「低于阈值」—— 在增加量子比特数量的同时能够降低错误。

要想展示在纠错上取得真正的进展，就必须证明能够低于阈值，这自 1995 年 Peter Shor 引入量子纠错以来一直是一个巨大的挑战。

这项成果还涉及其他科学意义上的「首次」。

例如，这也是实时纠错在超导量子系统上的首次引人注目的例子 —— 这对于任何有用的计算都至关重要，因为如果你不能足够快地纠正错误，它们会在计算完成之前破坏计算。

而且这是一个「超越盈亏平衡」的演示，该团队的量子比特阵列比单个物理量子比特有更长的寿命，这是一个无法伪造的迹象，表明纠错正在改善整个系统。

作为第一个低于阈值的系统，这是迄今为止构建的最令人信服的可扩展逻辑量子比特的原型。这是一个强烈的信号，表明我们确实可以构建有用的、非常大的量子计算机。Willow 让我们更接近于运行实用、商业相关的算法，这些算法在传统计算机上无法复制。

做同样的事

最快超算需要花 10^25 年

作为衡量 Willow 性能的一个标准，该团队使用了随机电路采样（RCS）基准测试。这个测试由该团队首创，现在已成为该领域的一个标准。

RCS 是当今可以在量子计算机上进行的最难的经典基准测试。你可以将这看作是量子计算的起点 —— 它检查量子计算机是否在做经典计算机无法完成的事情。任何构建量子计算机的团队都应该首先检查它是否能在 RCS 上击败经典计算机；否则，有充分的理由怀疑它能否处理更复杂的量子任务。

该团队一直使用这个基准来评估从一代芯片到下一代芯片的进步 —— 他们在 2019 年 10 月报告了 Sycamore 的结果，最近在 2024 年 10 月再次报告。

Willow 在这项基准测试上的表现令人震惊：它在不到五分钟的时间内完成了一项计算，而当今最快的超级计算机需要 10^25 年。如果写全，这将是 10,000,000,000,000,000,000,000,000 年。

这个令人难以置信的数字超出了物理学中已知的时间尺度，远远超过了宇宙的年龄。它证实了量子计算发生在许多平行宇宙中的观点，与我们生活在多元宇宙中的观点相吻合，这一预测最早是由 David Deutsch 提出的。

如下图所示，Willow 的这些最新结果是迄今为止得到的最好的结果，但谷歌将继续深入研究。

计算成本受到可用内存的极大影响。因此，该团队的估计考虑了一系列情况，从理想情况下的无限内存（▲）到更实际的、在 GPU 上可并行化的实现（⬤）

该团队对 Willow 如何超越世界上最强大的经典超级计算机之一 ——Frontier 的评估是基于保守的假设。

例如，他们假设可以完全访问二级存储，即硬盘，没有任何带宽开销 —— 这是对 Frontier 的一个慷慨而不切实际的允许。当然，就像他们在 2019 年宣布第一个超越经典计算的计算后发生的那样，他们预计经典计算机将在这项基准测试上继续改进，但迅速扩大的差距表明，量子处理器正以双指数速率起势，并将继续在他们扩大规模时远远超越经典计算机。

，时长05:58

首席科学家 Sergio Boixo、创始人和领导 Hartmut Neven 以及著名物理学家 John Preskill 讨论随机电路采样，这是一个展示量子计算机超越经典性能的基准。

最先进的性能

Willow 在他们位于圣巴巴拉最新、最先进的制造设施中制造 —— 这是全球为数不多从头开始建造的量子计算设施之一。

系统工程在设计和制造量子芯片时至关重要：芯片的所有组件，如单量子比特门、双量子比特门、量子比特重置和读出，都必须同时得到良好的工程化和集成。如果任何一个组件落后，或者两个组件不能很好地协同工作，它就会拖累系统性能。

因此，最大化系统性能指导着他们从芯片架构和制造到门开发和校准的所有方面的过程。他们报告的成就从整体上评估量子计算系统，而不是一次只评估一个因素。

该团队关注的是质量，而不仅仅是数量 —— 因为如果量子比特的质量不够高，仅仅生产更多的量子比特是没有帮助的。

拥有 105 个量子比特的 Willow 现在在上述两个系统基准测试中拥有同类最佳的性能：量子纠错和随机电路采样。

这样的算法基准测试是衡量整体芯片性能的最佳方式，其他更具体的性能指标也很重要。例如，他们的 T1 时间用于测量量子位可以保留激发的时间 —— 关键的量子计算资源 —— 现在接近 100µs（微秒）。与他们上一代芯片相比，改进了约 5 倍。

如果你想在不同平台之间比较这些量子硬件，请参阅下表：

Willow 在多个指标上的表现。

Willow 及未来的发展

该领域的下一个挑战是在当今的量子芯片上展示第一个「实用且超越经典」的计算，这个计算任务与现实世界的应用相关。

谷歌团队乐观地认为，Willow 这一代芯片可以帮助他们实现这一目标。

到目前为止，已经有两种不同类型的实验。一方面，他们运行了 RCS 基准测试，它衡量了与经典计算机的性能对比，但尚未展示出实际的商业应用。另一方面，他们进行了量子系统的科学有趣模拟，这些模拟导致了新的科学发现，但仍然在经典计算机的能力范围内。他们的目标是同时做到这两点 —— 进入那些超越经典计算机能力范围的算法领域，并且对现实世界、商业相关的问题是有用的。

随机电路采样（RCS）对经典计算机来说极具挑战性，但尚未展示出实际的商业应用。

谷歌正在邀请研究人员、工程师和开发者加入他们，开发者通过查看他们的开源软件和教育资源，包括他们在 Coursera 上的新课程，可以学习量子纠错的基础知识，并帮助他们创建能够解决未来问题的算法。

当被问及「为什么离开了新兴的人工智能领域，转而专注于量子计算」时，Hartmut Neven 表示，两者都将被证明是这个时代最具变革性的技术，但先进的人工智能将从量子计算的接入中显著受益。这就是 Quantum AI 命名的由来。

「量子算法具备 scaling laws 的优势，正如我们从 RCS 中看到的那样。对于人工智能所需的许多基础计算任务，也有类似的 scaling laws。因此，量子计算对于收集经典机器无法访问的训练数据、训练和优化某些学习架构以及模拟量子效应重要的系统将是不可或缺的。这将有助于发现新药物、设计更高效的电动汽车电池，并推动核聚变与新能源技术的进展。许多这些未来的变革性应用在经典计算机上是不可行的，它们正等待被量子计算解锁。」

看起来，在量子计算芯片上构建 AI 系统，的确是谷歌的重要目标之一，这会是未来 AI 技术突破的方向吗？在这个技术的交汇点上，量子计算与人工智能的结合，势必将创造出改变世界的无限可能。

让我们共同期待！

参考链接：

https://x.com/sundarpichai

https://blog.google/technology/research/google-willow-quantum-chip/

https://research.google/blog/making-quantum-error-correction-work/

#Towards Reasoning Era

迈向推理时代：900+篇参考文献揭示长链思维的前世今生，最全综述来了

论文标题：Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models
论文主页：https://long-cot.github.io/
论文地址：https://arxiv.org/pdf/2503.09567
Github 仓库：https://github.com/LightChen233/Awesome-Long-Chain-of-Thought-Reasoning

1. 迈向推理时代

900 + 篇文献揭示长链思维（Long CoT）的前世今生

近年来，大模型（Large Language Models, LLMs）在数学、编程等复杂任务上取得突破，OpenAI-o1、DeepSeek-R1 等推理大模型（Reasoning Large Language Models，RLLMs）表现尤为亮眼。但它们为何如此强大呢？核心在于长链思维（Long Chain-of-Thought, Long CoT）—— 通过更深入的推理、更广泛的探索，以及更强的自我反思，使大模型能够高效解决复杂问题。

然而，长思维链仍然缺乏系统性研究，甚至面临诸多未解之谜：

长链思维究竟如何提升模型能力？与短链思维（Short CoT）的核心区别是什么？
“推理扩展性”（Test-Time Scaling）是关键突破，还是带来了 “过度思考”（Overthinking）？
长思维链有哪些未来的研究方向？

填补研究空白，建立统一视角：最全长思维链综述，来了！

在这篇综述中，该论文首先厘清长思维链（Long CoT）与短思维链（Short CoT）的本质区别，提出新的推理范式分类框架，明确它们在推理深度、探索范围和反馈机制上的差异，并为不同任务的推理需求提供系统性认知。
随后，该论文深入拆解长思维链的三大关键特性，即深度推理、广泛探索和可行性反思，揭示其如何在提升推理能力的同时，也带来了计算开销、冗余推理等挑战。
该论文进一步探讨长思维链相关的核心推理现象，如过度思考（Overthinking）、推理扩展性（Test-Time Scaling）以及 AI 的 “顿悟时刻”（Aha Moment），分析这些现象如何影响模型的推理效率和答案质量，并讨论其可能的优化方案。
最后，该论文展望长思维链的未来发展方向，包括多模态推理的融合、推理效率的优化以及知识增强技术等多个未来研究方向展望，以进一步提升推理大模型的推理能力和实际应用价值。通过这篇综述，该论文希望建立统一的研究视角，推动长思维链研究走向更深入的理论探索与更高效的实践落地。

2. 长思维链 vs. 短思维链

图 2：长思维链和思维链之间的差异具有三个关键特征：深度的推理，适当的反思和广泛的探索。此外，长思维链整合了所有这些特征以实现更好的逻辑效果。

在大模型推理演化的过程中，如图 2 所示，长思维链（Long CoT）与短思维链（Short CoT）代表了两种截然不同的推理范式。短思维链以浅层、线性的推理方式快速得出结论，逻辑路径短，探索性低，适用于结构清晰、解答明确的问题。而长思维链则强调深度推理、广泛探索和可行性反思，允许模型在更复杂的逻辑网络中展开深入分析，发现隐藏关系，并优化推理路径。

短思维链的推理方式逻辑节点数量有限，主要依赖顺序推理，且几乎不会回溯或检验先前的推理路径。在数学、编程等需要逻辑推导的任务中，短思维链往往难以应对复杂问题，而长思维链则可以通过扩展推理深度和增加探索空间，提高解题能力。形式上，长思维链放宽了传统短思维链在推理节点数量、并行探索能力以及回溯调整方面的限制，使得模型能够在更大的问题空间中寻找最佳解。

3. 长思维链具备三大核心特性

使其推理能力远超短思维链

深度推理（Deep Reasoning）：短思维链只能处理有限数量的逻辑节点，适用于较简单的问题，而长思维链允许推理路径大幅扩展，涵盖更多层次的逻辑关系，从而解决复杂的多步推理问题。数学推理、符号逻辑推导等领域对这一能力有极高需求。

广泛探索（Extensive Exploration）：短思维链仅限于固定的逻辑路径，往往导致推理过于单一，而长思维链通过拓展逻辑分支、并行探索多个可能解，能够大幅提高推理的稳健性和准确度。这种能力在具有多种可能解或需要跨领域推理的任务中尤为重要。

可行性反思（Feasible Reflection）：短思维链的推理过程不可回溯，一旦出错很难修正，而长思维链能够在推理过程中反思、校验先前的逻辑步骤，结合反馈机制优化推理路径，减少推理错误，提升整体推理质量。

4. 长思维链现象分析

六大推理现象

图 3：对长思维链外部行为六个经典现象的分析：（a）当前推理大模型为何会产生长思维链；（b）当前长思维链系统的推理边界及其局限性；（c）当超出推理大模型的推理边界时，过度思考可能导致的性能衰退；（d）测试阶段扩展方法的应用及其扩展规律与局限性；（e）使用过程中的奖励模型与结果奖励模型效果对比；（f）“顿悟” 时刻的探索及其潜在原因。

研究表明，长思维链通过多种方式增强了推理大模型的推理能力，主要表现为六大核心推理现象：

长思维链涌现现象：研究发现，长思维链在模型预训练阶段已被潜在编码，可通过上下文示例（contextual examples）或特定提示词进行激活。进一步地，一些工作发现大模型能够直接通过强化学习（RL）直接高效的激发出长思维链的能力。
推理边界（Reasoning Boundary）现象：推理大模型的推理能力并非无限扩展，而是在超出一定复杂度阈值后迅速下降，称之为 “推理边界”，并发现突破推理边界会导致推理错误累积，从而降低整体性能。
过度思考（Overthinking）现象：随着推理链的增加，模型性能在某个点之前持续提高，但超过该点后，错误率反而上升。例如，过长的推理链可能导致 “雪球效应”（snowball errors），即前期推理错误不断累积，最终影响结果可靠性。而一些研究者认为过度思考是由于推理长度超过了其推理边界导致的。
推理扩展性（Inference Test-Time Scaling）现象：推理路径的扩展可分为垂直扩展（Vertical Scaling）和并行扩展（Parallel Scaling），但两者均存在上限。例如，并行扩展虽然可以增加答案的多样性，但并不能超过最优验证策略的限制。
过程奖励 vs. 结果奖励的训练差异现象：强化学习优化推理路径时，过程奖励模型（PRM）能提供更精细的奖励反馈，而结果奖励模型（ORM）依赖最终答案进行优化，虽然收敛更快，但难以提供中间推理的细粒度优化信息。但二者在数据质量接近的情况下，理论上没有较大的性能差异。
顿悟时刻（Aha Moment）现象：某些情况下，模型在推理过程中会经历突如其来的认知突破。研究表明，基于规则的强化学习（rule-based RL）可以有效触发这一现象，使得大模型在无监督的情况下进行自我反思和推理优化。

5. 深度推理

构建长思维链逻辑深度的关键路径

深度推理（Deep Reasoning）是长思维链的核心能力，它决定了推理大模型在处理复杂推理任务时的表现。然而，缺乏足够的推理深度会导致模型在高难度任务上的性能下降。当前的研究主要从推理格式（Deep Reasoning Format）和推理学习（Deep Reasoning Learning）两方面入手，通过优化推理结构和训练方法，使推理大模型能够更高效地执行深度推理。

5.1 深度推理格式：优化推理结构的多种路径

长思维链的推理能力依赖于三种主要的推理格式：

图 4：深度推理格式主要分为三类：自然语言、结构化语言与潜在空间推理（进一步细分为基于 token、向量和管理器驱动的潜在推理）

自然语言推理（Natural Language Reasoning）：自然语言推理是最直观的推理方式，允许模型自由组织逻辑链，提高推理的可解释性。
结构化语言推理（Structured Language Reasoning）：结构化语言推理主要依赖代码或符号逻辑进行更精准的逻辑推理。
潜在空间推理（Latent Space Reasoning）：潜在空间推理通过在隐空间执行推理计算，提高推理效率和连贯性，主要包括三种方法：（1）基于 Token 的潜在推理：使用 “推理 Token” 或 “思维 Token” 引导大模型进行隐式推理。（2）基于向量的潜在推理：使用 “思维向量（Thought Vectors）” 在不同层次间传播推理状态，使推理更加动态和稳健。（3）基于管理器的潜在推理：通过 “推理管理器（Reasoning Manager）” 优化推理链的动态控制，提高推理效率。

5.2 深度推理学习：优化推理能力的训练方法

提升推理大模型的深度推理能力，需要结合模仿学习（Imitation Learning）和自学习（Self-Learning）两种方法，使模型能够在复杂推理任务中更好地泛化和优化。

图 5：深度推理学习的不同策略，包括：(a) 深度推理模仿学习，即模仿来自高级深度推理系统（如高级推理大模型、MCTS 等）产生的数据，通过监督微调训练推理模型；(b) 深度推理自我学习，即通过隐式奖励驱动的基于偏好的强化学习，实现推理模型的自我改进与优化。

5.2.1 深度推理模仿（Imitation Learning）

模仿学习通过监督微调（SFT），让模型从人类、先进推理大模型或扩展采样策略中学习推理模式：

模仿人类推理：使用高质量的人工标注数据训练推理大模型，直接模仿人类行为进行深度推理。
模仿先进推理大模型推理：利用先进的推理大模型作为教师模型训练不会深度推理的学生小模型，更加快速地升数学推理能力。
模仿扩展采样：结合扩展搜索策略优化推理路径，例如采用 MCTS 或者大量结果采样搜索优化推理，使模型更好地适应面向深度推理的长思维链任务。

5.2.2 深度推理自学习（Self-Learning）

自学习允许模型自主优化推理过程，主要采用强化学习（RL）和树搜索（MCTS）方法：

直接采样自学习：采用直接对大模型自身进行采样，从而进行自我学习。
树搜索采样自学习：通过 MCTS 等方法对大模型进行有指导的树搜索采样，提高推理的深度，优化长思维链生成过程。

6. 可行性反思（Feasible Reflection）

提升长思维链可靠性的关键机制

在长思维链推理中，可行性反思（Feasible Reflection）是确保逻辑链条准确性的重要机制，它涉及对推理过程的反馈（Feedback）和改进（Refinement）。反馈机制提供评估，帮助模型识别和修正错误，而改进机制则允许模型基于反馈进行调整，以提高推理质量。

图 6：可行反思的反馈能力框架包括总体反馈与过程反馈两种形式。总体反馈包括：结果奖励模型（以数值形式进行反馈、基于规则的正确性判断机制，以及基于推理大模型的总体评价模型。过程反馈则包含：以数值形式提供反馈的过程奖励模型，以及基于推理大模型的逐步评价模型。此外，过程反馈还可结合操作系统环境、真实环境或图形界面环境等进行交互式评估。

6.1 反馈（Feedback）：从整体到过程的优化

反馈是长思维链推理优化的关键环节，它可以用于验证逻辑正确性、提高模型稳定性，并减少错误累积。

6.1.1 整体反馈（Overall Feedback）：全局优化推理质量

整体反馈关注推理链条的最终结果，而非每一步的细节。它常用于强化学习（RL）中的奖励建模，以提升推理大模型的推理能力，主要包括：

结果奖励模型（ORM）：采用奖励模型评估推理结果，或者通过自一致性优化奖励反馈，获得数值化的结果奖励分数。
规则提取（Rule Extraction）：规则反馈可提供高准确度的结果校正，例如 STaR、ReST 和 ReFT 框架表明，数学问题中基于规则的反馈比 ORM 更有效。
批判性反馈模型（Critic Models）：这类方法利用大模型自我反思（Self-Reflection）机制进行自我批判，提供文本化结果奖励，提高推理效率。

6.1.2 过程反馈（Process Feedback）：细化推理步骤

过程反馈关注推理的中间步骤，通常可以增强强化学习（RL）或蒙特卡洛树搜索（MCTS）的优化，主要包括：

过程奖励模型（PRM）：PRM 通过 SFT 或者 DPO 训练一个面向过程的奖励打分器，提供基于步骤的数值化奖励信号。
批判性反馈模型（Critic Models）：允许 LLM 在推理过程中对推理过程与结果进行动态评估与调整，优化推理路径，提供更通用的步骤级文本化反馈信号。

6.1.3 混合反馈（Hybrid Feedback）

由于整体反馈和过程反馈各具优势，研究者提出了结合两者的混合方法，进行双重反馈优化，提高推理连贯性。

6.2 改进（Refinement）：优化推理路径的关键手段

在反馈机制的基础上，改进（Refinement）进一步帮助推理大模型纠正错误、优化推理路径，从而提升推理能力。现有研究主要采用三种方法：

图 7：细化方法主要分为三类：(a) 基于提示的改进生成，通过构造合适的提示策略，引导模型进行可行的反思过程并产出修正答案；(b) 基于监督微调的改进模仿，利用来自高级推理大模型的细化示例，通过监督学习对模型进行微调；(c) 基于强化学习的改进学习，模型根据反馈信号（如奖励）对自身生成的修正进行优化，逐步学会自我改进推理与输出。

基于提示的改进（Prompt-Based Refinement）：该方法通过 LLM 生成初始推理，再利用自身的反馈迭代优化。
基于监督微调的改进（SFT-Based Refinement）：SFT 方法通过从先进 LLMs 或人工标注数据中学习推理改进方式，提升推理大模型反思能力。
基于强化学习的改进（RL-Based Refinement）：RL 方法允许推理大模型在推理过程中自适应调整推理路径，减少对人工标注数据的依赖。

7. 广泛探索（Extensive Exploration）

拓展长思维链推理的边界

探索能力是长思维链推理的关键，使推理大模型能够在复杂问题空间中进行策略性分支和迭代优化。研究表明，假设分支和基于反思的错误回溯是突破线性推理路径局限的重要方法。当前研究主要关注探索规模化、内部探索、外部探索，以提高模型的推理质量和适应性。

图 8：推理测试阶段的两种常见扩展策略示意图，包括：(a) 纵向扩展：通过延长模型的长链式思维过程以增强推理能力，但受限于大语言模型的推理边界，最终可能难以突破性能瓶颈。(b) 横向扩展：通过增加采样次数生成多个推理结果，并结合自一致性、自验证等机制进行结果验证与整合，从而提升输出的整体质量，但其性能上限仍不超过 Pass@k 指标所代表的理论最优水平。

7.1 探索规模化（Exploration Scaling）：优化推理长度与广度

探索规模化旨在扩展推理大模型的推理能力，提高任务求解效率。

7.1.1 垂直扩展（Vertical Scaling）

通过延长推理路径增加推理深度，如推理时扩展（Test-time Scaling）优化计算资源以提升推理效果。此外，隐空间扩展（Latent Space Scaling）在注意力跨度限制下，利用递归计算增强推理深度。

7.1.2 并行扩展（Parallel Scaling）

采用多次推理采样结合验证机制，以筛选最优推理路径。

探索验证优化方面，最早地，自一致性（Self-Consistency）方法就可通过多轮推理采样及多数投票机制优化答案选择，而一些工作通过进一步引入细粒度自一致性（Fine-grained Self-Consistency）结合逐步验证机制（Step-wise Verification），有效减少推理验证错误的累积。

探索路径优化方面，短路径多样化采样（Diverse Short-path Sampling）方法通过优化采样温度和跨语言推理拓展，提高探索的多样性和泛化能力。

图 9：用于优化内部探索的两类主要方法：(a) 强化学习策略：通过参考模型与价值模型辅助，结合奖励模型进行优势聚合，从而提升策略模型的输出质量，实现策略优化。(b) 奖励策略：根据模型输出设计奖励机制，包括规则驱动奖励，例如使用正则匹配或测试用例打分；以及模型驱动奖励，基于如和 PRM 等评价模型生成奖励，以提升强化学习性能。

7.2 内部自主探索（Internal Exploration）：强化学习驱动的推理优化

内部自主探索强调通过强化学习（Reinforcement Learning, RL）和奖励策略（Reward Strategies），使推理大模型能够自主优化推理策略，提高泛化能力和探索深度。

7.2.1 强化学习策略

主要分为：

基于奖励模型的 RL：如 Proximal Policy Optimization（PPO）和 Group Relative Policy Optimization（GRPO）基于奖励模型或奖励策略从而完成策略优化，提升推理能力；
无奖励模型 RL：采用 DPO 风格或者规则抽取的奖励计算方案，通过明确的规则奖励反馈，提高策略学习的稳定性。

7.2.2 奖励策略

奖励策略的优化是强化学习中的关键，包括正确性奖励（Correctness Rewarding）、格式奖励（Format Rewarding）和规模奖励（Scaling Rewarding）。正确性奖励通过提高答案准确性引导模型优化推理路径，格式奖励确保推理过程符合规范，而规模奖励则鼓励更长的推理链条，但研究表明过度扩展可能导致低效推理。

为了展示当前主流奖励策略在各类基准测试中的表现，表 5 总结了不同方法在 GSM8K、AIME 2024、MATH500 等数据集上的性能对比，能够直观体现策略设计对推理能力的影响。

表 5：不同内部探索方法在多个基准测试上的性能表现，主要按 AIME 2024 排序。“-” 表示论文未报告该得分。

7.3 外部引导探索（External Exploration）：结合外部系统增强推理能力

外部引导探索结合人类或外部系统，提高推理大模型的探索能力和推理质量。

7.3.1 人类驱动探索（Human-driven Exploration）

依赖于预设的推理结构，如 Tree-of-Thought（ToT）采用树状推理结构增强复杂任务求解能力，而 Forest-of-Thought（FoT）结合多棵推理树提高探索的全面性。

7.3.2 模型驱动探索（Model-driven Exploration）

通过自适应搜索结构和反馈机制进行优化，探索路径优化方法包括束搜索（Beam Search）、A* 搜索（A* Search）和蒙特卡洛树搜索（Monte Carlo Tree Search, MCTS），提升搜索效率和推理质量。

图 11：外部探索策略根据过程管理角色的不同可分为两类：(a) 人类驱动的探索：由人工设定的提示词与固定流程控制推理过程，探索结构通常为线性、树状或图状，但路径固定、缺乏适应性。(b) 模型驱动的探索：由模型主导进行探索，具备反思与自适应搜索能力，采用动态结构并结合 Beam、A*、MCTS 等搜索逻辑与多种反馈机制（如 PRM、Critic、Advantage、Q-Value、Verifier）来实现更灵活且高效的深度推理。

8. 前沿研究与未来方向

长思维链正在不断拓展其应用边界，推动多模态、跨语言、智能体、效率优化、知识增强及安全性方面的研究发展。未来的探索方向主要涵盖以下六个关键领域：

图 11：长思维链的未来发展方向包括：(a) 多模态长思维链：融合多种模态的输入与输出（如图像、文字、公式等），增强推理表现力与适应性；(b) 多语言长思维链：支持跨语言推理与应用，提升模型的多语种通用性；(c) 具身智能与代理型长思维链：通过引入具身交互机制，提升模型在真实环境中的推理与行动能力；(d) 高效长思维链：优化推理路径与效率，加快思维链生成速度；(e) 知识增强型长思维链：引入外部知识库丰富推理过程，提高准确性与解释性；(f) 安全性保障的长思维链：强化推理过程中的可靠性，避免产生有害或误导性的输出，确保伦理合规。

8.1 多模态长思维链（Multimodal Long CoT）

多模态推理的研究聚焦于将长思维链扩展至图像、视频、音频等多种数据模态，以提升模型对复杂任务的理解和推理能力。研究方向主要包括：

多模态提示（Prompting）：改进视觉 LLMs 的上下文描述能力，并结合自反馈优化推理长度与准确性。
多模态蒸馏（Imitation）：利用数据蒸馏策略训练模型，使其能够模仿长思维链过程，提高复杂问题求解能力。
基于奖励模型的推理探索（Reward Model-Based Exploration）：通过奖励模型优化推理过程，在探索和训练阶段提升多模态推理能力。

主要挑战包括如何有效融合视觉信息辅助逻辑推理，以及如何优化长思维链的推理长度和测试时扩展能力。

8.2 多语言长思维链（Multilingual Long CoT）

尽管推理大模型在英语领域取得了显著进展，但要实现真正的通用智能，多语言推理能力仍需进一步增强。当前研究主要集中在：

跨语言提示（Multilingual Prompting）：使用通用模板提示，促进不同语言间的逻辑推理能力对齐。
多语言训练（Multilingual Training）：采用监督微调（SFT）或强化学习（RL）训练，提升低资源语言的推理一致性。
测试时扩展（Test-Time Scaling）：利用多语言树搜索（Tree Search）等方法，在推理过程中动态选择最佳语言，提升泛化能力。

未来挑战包括跨语言知识迁移及低资源语言的推理能力优化，以确保多语言推理在不同文化背景下的一致性。

8.3 长思维链助力智能体与具身智能（Long CoT for Agentic & Embodied AI）

智能体与具身智能系统不仅仅需要通过长思维链进行任务推理，还需要在动态环境中通过不断与环境交互，逐步调整和优化长思维链，修正推理路径并实现有效的目标导向行为。当前的研究方向主要集中在以下几个方面：

基于树搜索的推理增强：通过引入树搜索算法（如 MCTS），对推理过程进行优化，智能体和具身机器人能够结合长思维链，更加高效地探索状态空间，逐步逼近最优解。
环境交互优化：智能体和具身机器人通过与环境的互动，不断更新历史记忆，并根据动态变化的环境进行自适应调整长思维链的推理内容。
多智能体协作：为了应对更复杂的任务，一些研究正在探索多个能够进行长思维链推理的高级智能体和具身机器人协同工作以提高工作效率。通过多智能体之间的信息共享与长思维链推理协作，共同解决单一智能体难以应对的挑战。

主要挑战包括在不确定环境中保持决策稳健性，以及在多智能体协作过程中优化推理效率。

8.4 高效长思维链（Efficient Long CoT）

长思维链的深度、探索性和反思机制往往导致推理过程冗长，因此优化推理速度成为关键问题。当前研究方向包括：

推理链压缩（Direct Compression）：通过剪枝、跳步或直接预测减少冗余推理过程，提高推理效率。
隐藏空间推理（Hidden Space Reasoning）：在潜空间中执行推理，避免显式解码，以减少计算资源消耗。

未来挑战包括如何构建自适应推理策略，使模型能够根据任务复杂性动态调整推理深度，并探索更高效的推理格式，如多模态或隐变量推理。

8.5 知识增强长思维链（Knowledge-Augmented Long CoT）

尽管推理大模型具有强大的推理能力，但在某些专业领域仍然存在知识空白，因此结合外部知识库成为关键研究方向：

检索增强生成（Retrieval-Augmented Generation, RAG）：动态结合知识检索与文档推理，以提升复杂任务的求解能力。
模型知识注入（Model Knowledge Injection）：在 SFT 或 RL 训练过程中引入外部知识，以提升专业领域的推理表现，如医学推理任务。

主要挑战在于如何有效地将更多外部知识融入到长思维链的推理过程，并开发可扩展的知识存储与检索机制，以确保实时更新和知识一致性。

8.6 长思维链的安全性（Safety in Long CoT）

长思维链虽然提升了模型的推理能力，但也增加了潜在的安全风险，例如误导性信息和有害内容的生成。当前研究主要关注：

推理攻击（长思维链 Attack）：研究发现长思维链可能使模型更易受到错误推理或不安全输出的影响，例如 "OverThink 攻击" 和 "迭代混乱攻击"。
安全优化（长思维链 Safety Improvement）：引入动态安全提示、偏见检测、强化学习等方法，以减少有害输出的概率，提高模型的可靠性。

未来挑战包括如何平衡推理能力与安全性，防止长思维链导致的认知过载，同时确保推理的可解释性和可控性，以应对潜在的对抗性攻击。

9. 总结

本文系统回顾了长思维链在推理大模型中的核心作用，梳理了其从提出到发展的关键脉络。该论文通过 900 篇参考文献，构建了一个贯穿理论与实践的系统性框架，首次清晰地区分长思维链与短思维链在推理结构、思维能力与反馈机制上的本质差异，提出 “深度推理、广泛探索、可行反思” 三大核心能力模型，并据此解析了六大关键推理现象（如推理边界、过度思考、顿悟时刻等），阐释其底层机制与行为表现。

更重要的是，该论文不仅仅停留在现象描述，而是进一步展开了方法论总结，全面整理了当前主流的长思维链优化策略，包括基于格式设计的深度推理、基于模仿与自学习的能力提升、基于反馈与奖励的过程细化、基于强化学习与外部引导的探索机制等，并展望了多模态、跨语言、智能体交互、效率优化、知识增强与安全保障等未来研究方向。

#可灵AI全球发布2.0模型

史上最强视觉模型来了！网友：人人都能手搓科幻片

这次，可灵 AI 又出尽了风头。

4 月 15 日，可灵 AI 开了场发布会，高调推出最新升级的两款基础模型 —— 可灵 2.0 视频生成模型和可图 2.0 图像生成模型。

新模型效果好到什么程度？我们先整几个 case 开开眼。

教父怒目圆睁，脸部肌肉剧烈扭曲，嘴角下拉，露出紧咬的牙齿。这「演技」是不是和马龙・白兰度有一拼？

，时长00:05

女人手握破碎的手机，面露惊恐，浑身颤抖，一股恐怖气氛扑面而来，极具视觉引导力和情绪张力。

，时长00:05

骏马在草原奔跑，鬃毛随风翻飞，身后扬起阵阵尘土，即使是大幅度运动，画面也丝毫没崩。

，时长00:05

总体来说，相比于之前版本，可灵 2.0 拥有更强的语义响应、更优的动态质量和更好的画面美学。

可灵AI

，赞57

同时，图像生成模型可图 2.0 也完成了重磅更新，不仅提升了语义遵循能力，画面更具电影质感，还能响应近百种风格。

prompt ：现代城市被切割成一块块悬浮在空中的片段，每块中都有正常的、完整的生活场景（例如行人、交通、建筑），但它们彼此之间由不可见的空间分离，有城市被切割开的断裂感，营造出一种 “现实感中的超现实”。科幻大片质感，细节完美。

prompt 摆满了白色桌子的宴会厅，周围坐着的人在享用一顿美餐。

多种风格响应

最重要的是，可灵 AI 不搞期货，发布即上线，全球会员都能上手体验。

可灵 AI 链接：https://app.klingai.com/

有史以来最强大视觉生成模型

「双模型」同时迭代让可灵 AI 展现出了向专业级创作工具迈进的潜力，也真正开启了 AI 生成内容的黄金时代。

接下来，我们就用 20 组镜头，来看看这两个模型到底升级了啥，又是怎么玩出新高度的。

可灵 2.0 视频生成模型

相比于 1.6 模型，可灵 2.0 主要有三大优势。

首先，在语义遵循方面，它对动作、表情、运镜响应更佳，并支持描述时序更复杂的镜头。

比如输入 Prompt：男人先是开心的笑着，突然变得愤怒，手锤桌子起身。

这段文本描述看似简单，实则很考验模型的情感捕捉、动作生成以及细节表现能力。

可灵 2.0 不仅成功捕捉到了男子从开心到愤怒的情感转变，还在时间上合理衔接每个阶段的表情和动作，并通过运镜来实现视觉的自然过渡。

可灵 2.0 生成效果

相比之下，1.6 模型在生成中就存在明显差距，没有呈现「手锤桌子起身」的动作，而且手部细节还出现肉眼可见的崩坏。

可灵 1.6 生成效果

再来看看 2.0 模型的运镜响应能力。

Prompt：镜头捕捉身穿白色连衣裙和草帽的女孩在海边漫步，镜头围绕女孩环绕运镜，女孩面带微笑，眼神温柔，夕阳的余晖洒在海面上。

，时长00:05

可灵 2.0 环绕运镜

Prompt：镜头 1：手持镜头特写男子在直升机舱内强风吹拂面部扭曲，自然光下背景广阔天空，表情坚定；镜头 2：男子纵身跃出机舱急速下坠，高空云层翻滚，镜头跟随展现自由落体动态；镜头 3：降落伞在空中猛然展开，镜头拉远呈现全景，阳光穿透云层照亮伞面，紧张氛围瞬间缓解。

，时长00:05

可灵 2.0 镜头组合运镜

由此可见，可灵 2.0 不仅能 get 到推拉摇移等基础运镜术语，还能通过提示词激活环绕运镜、跟随运镜以及镜头组合运镜等。

而所谓的时序响应能力，就是在同一个 Prompt 中按照时间顺序进行分段描述，模型严格按照时间顺序生成。

比如 Prompt：女孩从静坐在公园长椅上，到慢慢走出画面，晨光逐渐转为正午烈日再过渡至暮色四合，天空色彩从粉橙渐变为湛蓝再转为紫红，来往行人形成流动的虚影轨迹，固定镜头，突出光影在长椅木纹上的缓慢爬行，飘落的树叶在长椅下堆积又随风卷起。

，时长00:10

可灵2.0生成效果

这段提示词既包括复杂的光影色彩变化，又涉及固定镜头、静态场景（长椅）和动态元素（行人、风、树叶），这对 AI 的生成能力提出了极高的要求。

不过 2.0 模型严格遵循了文本提示，无论是女孩的肢体动作，还是背景的光线、色彩变化，以及行人的虚影轨迹，它都处理得很到位。

其次，在动态质量方面，可灵 2.0 生成的运动幅度更大，速度更流畅，复杂动作也更自然、更合理。

比如小男孩在街头玩滑板，这一过程包含滑行、跳跃、翻转、落地等一系列动作，可灵 2.0 生成的视频呈现出一种快速且流畅的运动感，即使涉及复杂运动，人物动作也没有变形扭曲。

可灵2.0生成效果。图生视频。Prompt：滑板运动，围绕滑板少年不断运动

而 1.6 模型生成的视频则像开了慢速，而且滑板在空中翻转时画面出现了伪影和闪烁。

可灵1.6生成效果.。图生视频。Prompt：滑板运动，围绕滑板少年不断运动

此前，Sora 等 AI 视频生成模型只要碰上体育运动就歇菜，不是顺拐就是脑袋乱飞，而现在可灵 2.0 竟能轻松生成「飞檐走壁」的跑酷运动，整套动作行云流水、一气呵成。

，时长00:05

可灵2.0生成效果

还有下面这个视频，身穿貂皮大衣的男人为躲避爆炸在雪地里狂奔，如此大幅度的运动，可灵 2.0 也没有出现左右腿不分的问题。

，时长00:05

可灵2.0生成效果

此外，可灵 2.0 生成的画面美感也大幅提升。

其中文生视频可响应影视级别的画面描述，极具大片质感。

比如 Prompt：镜头跟随蜜蜂快速的在花丛中穿行，最后聚焦在一刻沾满露珠的鲜花上。

可灵 2.0 模型生成的画面中，蜜蜂表面的绒毛、花瓣的纹理以及露珠全都清晰可见。

图生视频则可以更好地保持原图画风，延续更多美感。

比如「喂」给它一幅孩子们在海边奔跑的油画，可灵 2.0 立马让画面「活」起来，并且视频的每一帧都保留了原图独特的油画纹理感。

除了基础模型迭代优化以外，可灵还基于 1.6 模型上线了多模态编辑功能。只需上传一段 1-5 秒的视频，它就能对画面元素进行增、删、改、替。

，时长00:18

可图 2.0 图像生成模型

据快手副总裁、可灵 AI 负责人张迪透露，当前，图生视频约占到可灵 AI 视频创作量的 85%，图片质量对视频的生成效果产生重要作用。

为了更好赋能创作者，可图 2.0 文生图能力也迎来全面升级，包括大幅提升指令遵循能力、显著增强电影美学表现力以及更多元的艺术风格。

Prompt:低饱和度，大师构图，电影画面，欧洲电影，磨砂质感，高质量画面，穿着白色裙子的女孩，背包里都是野花，她站在草地上，空中飘着非常多的迎春花的花朵。

Prompt: 电影质感，法国影片，复古，自然光线，暖光，一个穿着浅绿色茶歇裙的女生抱着一捧花，躺在湖心的小木船闭眼哭泣，湖中有大片睡莲，前景有一棵大树，夕阳洒在湖中，水面波光粼粼。

prompt：两位年轻亚洲高中生在一架豪华黑色三角钢琴前并排坐着，沉浸在演奏中。左侧是一位短发女性，穿着正式的黑色燕尾服式演出服，白色蝴蝶结，黑色背心，闭着眼睛，表情专注而陶醉。右侧是一位短黑发男性，身着灰色V领毛衣，白色衬衫和紫色领带，微微低头专注于琴键。钢琴盖完全打开，露出内部精致的铜色琴弦和复杂的机械结构。场景位于一个古典风格的音乐厅或豪宅内，背景墙面呈淡绿色，装饰有金色相框中的古典画作。整个画面采用电影般的复古色调，带有轻微颗粒感，主要光源从侧面柔和地照射，在钢琴表面和演奏者脸上形成温暖的高光。构图从钢琴侧面略微俯视角度拍摄，前景是钢琴边缘的模糊轮廓，中景是两位演奏者，背景是模糊的墙面和画作。画面氛围优雅、庄重而富有艺术感，捕捉了音乐演奏的深度专注与情感交流的瞬间。

Prompt：电影静帧，镜头正面跟随一位身穿红色连衣裙的女子在雨中奔跑，她的头发被风吹乱，脸上混合着雨水和泪水，背景是模糊的霓虹灯光，街道湿滑反光。

瞅瞅这配色、这光影、这构图，乍一看还真以为是电影剧照。

此外，可图 2.0 还支持近百种风格响应，涵盖特殊材质、数字艺术和绘画技法等。什么吉卜力、赛博朋克、透明玻璃、极简摄影…… 通通能搞定。

image (60).png

image (61).png

image (62).png

image (63).png

image (64).png

image (65).png

image (66).png

image (67).png

image (68).png

image (69).png

image (70).png

image (71).png

image (72).png

image (73).png

image (74).png

image (75).png

image (76).png

image (77).png

左右滑动查看更多

如果想对画面细节或尺寸进行修改，我们还可以使用局部重绘或扩图功能。

只要一涂一抹，再输入提示词描述，就能对图片元素进行增加、修改等操作。

或者随意拖拽原图位置，就能改变原图大小，自由扩充图片内容，而且完全看不出扩图痕迹。

不仅如此，在图像的多模态可控生成中，可图 2.0 还上线了全新的风格转绘功能，只需上传图片并输入风格描述，就能一键切换艺术风格。

image (80).png

image (81).png

image (2).jpeg

image (82).png

image (83).png

image (84).png

左右滑动查看更多。图一：原图；图二：吉卜力风；图三：手办风；图四：3D卡通风；图五：美少女风；图六：平涂插画风；图七：棉花娃娃风

可灵 AI 如何稳居 AI 视频赛道 C 位？

自去年 6 月 6 日上线以来，可灵 AI 就开启狂飙模式，仅 10 个月就迭代 20 多次，并发布 9 个具有里程碑意义的产品。

，时长00:25

模型从 1.0 不断升级到如今的 2.0 版本，不仅显著提升了视频生成质量，也奠定了其在全球市场的领先地位。

此次发布会上，快手高级副总裁、社区科学线负责人盖坤透露，可灵 2.0 在团队内部的多项胜负率评测中，均稳居业内第一。

比如在文生视频领域，可灵 2.0 对比谷歌 Veo2 的胜负比为 205%，对比 Sora 的胜负比达 367%，在文字相关性、画面质量、动态质量等维度上显著超越对手。（注：胜负比为 100% 说明两个模型同样厉害）

3 月 27 日，全球知名 AI 基准测试机构 Artificial Analysis 发布最新全球视频生成大模型榜单，快手可灵 1.6 pro（高品质模式）以 1000 分的 Arena ELO 基准测试评分，登顶「图生视频」赛道榜首，超越了 Google Veo 2 与 Runaway Gen-4 等国际顶尖模型。

而模型能力的迭代自然离不开技术上的创新支撑。这既包括基础模型架构上的升级，也包括训练和推理策略上的突破。

一方面，可灵 2.0 采用了全新设计的 DiT 架构，提升了视觉 / 文本模态信息融合能力；全新设计的视觉 VAE，使复杂动态场景下过渡更自然；同时可灵 2.0 首次系统性研究视频生成 DiT 架构的 Scaling Law 特性。可以说，全新设计的视频生成基础模型，使得可灵 2.0 打开了建模和仿真能力空间。

另一方面，可灵 2.0 全面升级训练和推理策略，强化对于复杂运动、主体交互的生成能力，强化对运镜语言、构图术语等专业表达的理解和响应能力，还进一步对齐人类偏好，让模型更懂「常识」和「审美」。

在图像生成大模型领域，可图 2.0 同样处于行业领先水平，在团队内部的多项胜负率评测中，相较于 Midjourney V7、FLUX1.1 [pro] 以及 Reve 等图像模型，均保持明显优势。

可图 2.0 的基座升级，背后也对应着大量的技术突破。在预训练阶段更精准地建模了文本到视觉模态的映射，在后训练阶段使用了更多的强化学习进行美学和人类偏好的对齐，在图像生成阶段则使用了全新的提示词工程和推理策略来优化图像的生成。

在图像和视频的多模态控制能力方面，可灵团队则使用了统一的模型架构处理文本、图像和视频表示及输入，实现有效的多模态控制效果；同时，通过高效的 Token 压缩与缓存算法，支持长序列的上下文学习；最后通过带 COT 能力的多模态推理技术，帮助精确理解用户意图，模型可以提供更好的基于多模态理解的视觉生成。

AI 视频进入 2.0 时代

定义人与 AI 的交互新方式

作为全球领先的视频生成大模型，可灵 AI 基础模型「双子星」的重磅升级，标志着 AI 视频创作正式迈进了 2.0 时代。

那么，这个新时代最核心的变革是什么？简单来说，就是人人都能用 AI 讲好故事。

在 1.0 时代，各科技大厂隔空斗法，通过持续的技术创新，解决了 AI 视频生成领域多个核心难题。比如，可灵 AI 陆续上线了人脸建模、口型同步、智能配音、运动质量、风格化、首尾帧、AI 音效以及资产管理等关键功能，并深度接入 DeepSeek，全面打通文案、图像、视频、音效等内容形态，实现真正的一站式智能创作链路。

得益于此，视频生成大模型的用户规模也迎来爆发式增长。截至目前，可灵 AI 全球用户规模突破 2200 万。过去的 10 个月里，月活用户量增长 25 倍，累计生成超过 1.68 亿个视频及 3.44 亿张图片。

不过，盖坤在发布会上坦言，尽管 AI 在辅助创意表达上拥有巨大潜力，但当前的行业发展现状还远远无法满足用户需求，尤其在 AI 生成内容的稳定性、以及用户复杂创意的精确传达上仍有「很多挑战」。也因此，要真正实现「用 AI 讲好每一个故事」的愿景，必须对基模型能力进行全方位提升，定义人和 AI 交互的「全新语言」。

在本次 2.0 模型的迭代中，可灵 AI 正式发布 AI 视频生成的全新交互理念 Multi-modal Visual Language（MVL），让用户能够结合图像参考、视频片段等多模态信息，将脑海中包含身份、外观、风格、场景、动作、表情、运镜在内的多维度复杂创意，直接高效地传达给 AI。

「大家应该很自然地会感受到文字在表达影像信息时，是不完备的。我们需要有新的方式，能让人真正精准地表达出心中所想。」盖坤指出，MVL 由 TXT（Pure Text，语义骨架）和 MMW（Multi-modal-document as a Word，多模态描述子）组成，能从视频生成设定的基础方向以及精细控制这两个层面，精准实现 AI 创作者们的创意表达。

为了进一步激发 AI 爱好者们的创作热情，快手副总裁、可灵 AI 负责人张迪还在发布会现场正式发起「可灵 AI NextGen 新影像创投计划」。该计划将加大对于 AIGC 创作者的扶持力度，通过千万资金投入、全球宣发、IP 打造和保障，以全资出品、联合出品和技术支持等灵活多样的合作方式，让 AI 好故事走向世界。

如今，从 UGC（用户生成内容）到 PGC（专业生成内容），从社交短视频到广告营销，可灵 AI 在各类场景中的应用趋势日益明显，这也意味着，未来「人人都能用 AI 讲好故事」不再是一句口号，而成为每个人的创作现实。

#一探究竟Janus 系列模型

DeepSeek多模态能力起底！解耦统一多模态理解和生成模型的视觉编码

DeepSeek 团队生成理解统一架构代表作 Janus 以及后续扩大版本 Janus-Pro

DeepSeek 团队生成理解统一架构代表作 Janus 以及后续扩大版本 Janus-Pro。

本文介绍 DeepSeek 团队的 Janus 系列模型 (Janus 和 Janus-Pro)。Janus 系列是 DeepSeek 多模态团队的作品，是一种既能做图像理解，又可以做图像生成任务的 Transformer 模型。这类模型存在的问题之一是：由于多模态理解和生成所需的信息粒度不同，这种方法可能会导致次优的性能。

为了解决这个问题，Janus 仍利用单个统一的 Transformer，但是将视觉编码解耦为单独的路径。这种解耦不仅缓解了视觉编码器在理解和生成中的作用之间的冲突，而且增强了框架的灵活性。比如多模态理解和生成组件都可以独立选择最合适的编码方法。

Janus-Pro 是先前工作 Janus 的高级版本。Janus-Pro 具体特点：(1) 优化的训练策略；(2) 扩展训练数据；(3) 更大的模型大小。通过这些改进，Janus-Pro 在多模态理解和文本到图像指令跟踪能力方面都取得了显著进步，同时还提高了文生图任务的稳定性。

图1：Janus Benchmark Performance

图2：Janus-Pro 的多模态理解和生成结果

下面是对本文的详细介绍。

1 Janus：解耦统一多模态理解和生成模型的视觉编码

论文名称：Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation

论文地址：http://arxiv.org/pdf/2410.13848

项目主页：http://github.com/deepseek-ai/Janus

1.1 Janus 模型

Janus 是使用一个统一的 Transformer 架构来统一多模态图像理解和多模态图像生成任务的模型。这种方法通常使用单个视觉编码器来处理这 2 个任务的输入。然而，多模态理解和生成任务所需的表征差异很大：多模态理解任务中，视觉编码器的目的是提取高级语义信息。理解任务的输出不仅涉及从图像中提取信息，还涉及复杂的语义推理。因此，视觉编码器表示的粒度往往主要集中在高维语义的表征上。相比之下，视觉生成任务中，主要关注点是生成局部细节并保持图像中的全局一致性。在这种情况下，表征需要表示出细粒度的空间结构，以及纹理细节。在同一空间中统一这两个任务的表示将导致冲突。因此，现有的多模态理解和生成的统一模型通常会影响多模态理解性能，明显低于最先进的多模态理解模型。

Janus 作为一个类似的统一多模态模型，为了解决这个问题，将视觉编码进行解耦来进行多模态理解和生成。Janus 引入了 2 个独立的视觉编码路径：一个用于多模态理解，一个用于多模态生成，由相同的 Transformer 架构统一。

这有两个主要好处：

Janus 减轻了源自多模态理解和生成的不同粒度需求的冲突，并消除了在选择视觉编码器时需要在 2 个任务之间进行权衡的需要。
Janus 灵活且可扩展。在解耦后，理解和生成任务都可以采用各自领域里最先进的编码技术。

如图 3 所示是 Janus 的架构。对于纯文本理解、多模态理解和视觉生成，Janus 应用独立的编码方法将原始输入转换为特征，然后由统一的 Autoregressive Transformer 处理。

文本理解： 使用 LLM 内置的 tokenizer 将文本转换为离散的 ID，并获得与每个 ID 对应的特征表征。
多模态理解： 使用 SigLIP[1]Encoder 从图像中提取高维语义特征。这些特征从二维网格 flattened 为一维序列，利用 Understanding Adaptor 将这些图像特征映射到 LLM 的输入空间。
图像生成： 使用 LLamaGen[2]中的 VQ tokenizer 将图像转换为离散的 ID。在 ID 序列被 flattened 为一维之后，使用 Generation Adaptor 将每个 ID 对应的 codebook embedding 映射到 LLM 的输入空间。

图3：Janus 架构。不同于以往通常假设视觉理解和生成的方法需要相同的视觉编码器，Janus 将视觉编码解耦为视觉理解和视觉生成。Und. Encoder 和 Gen. Decoder 分别是 Understanding Encoder 和 Generation Decoder 的缩写

然后，将这些特征序列 Concatenate 起来形成一个多模态特征序列，然后将其输入到 LLM 进行处理。LLM 内置的预测头用于纯文本理解和多模态理解任务中的文本预测，而随机初始化的预测头用于生成任务中的图像预测。

整个模型遵循自回归框架，无需专门设计 Attention Mask。

1.2 Janus 训练策略

Janus 的训练分为 3 个阶段，如图 4 所示。

第 1 阶段：训练 Adaptors 和 Image Head。

这一阶段的主要目标是在嵌入空间中创建视觉和语言元素之间的概念联系，使 LLM 能够理解图像中显示的实体，并具有初步的视觉生成能力。作者在这个阶段保持 Vision Encoder (SigLIP) 和 LLM 完全冻结，只允许更新 Understanding Adaptor、Generation Adaptor 和 Image Head 中的可训练参数。

第 2 阶段：联合预训练，除了理解编码器和生成编码器之外的所有组件都更新参数。

在这个阶段，作者使用多模态语料库进行统一预训练，使 Janus 能够学习多模态理解和生成。作者解冻 LLM 并利用所有类型的训练数据：纯文本数据、多模态理解数据和视觉生成数据。受 PixArt[3]的启发，作者首先使用 ImageNet-1K 进行简单的视觉生成训练，以帮助模型掌握基本像素依赖关系。随后，作者使用通用 T2I 数据增强了模型的开放域视觉生成能力。

第 3 阶段：有监督微调，进一步解锁理解编码器的参数。

这个阶段作者使用 instruction tuning 数据，增强其指令跟随和对话能力。作者微调除生成编码器之外的所有参数。作者只微调答案，mask 掉系统和用户的提示。为了确保 Janus 在多模态理解和生成方面的熟练程度，作者不会为特定任务微调单独的模型。相反，作者使用纯文本对话数据、多模态理解数据和视觉生成数据的混合，确保跨各种场景的多功能性。

1.3 Janus 训练目标

Janus 是一个自回归模型，作者在训练期间简单地采用交叉熵损失：

这里，表示由 Janus 的权重建模的条件概率。对于纯文本理解和多模态理解任务，作者计算纯文本序列的 loss。对于视觉生成任务，作者仅在图像序列上计算 loss。为了使设计简单，没有为不同的任务分配不同的权重。

1.4 Janus 推理过程

在推理过程中，Janus 模型采用 next-token prediction 方法。对于纯文本理解和多模态理解，作者遵循从预测分布顺序采样 token 的标准实践。对于图像生成，利用 classifier-free guidance (CFG)，类似于先前的工作 Muse[4]，LLamaGen。具体来说，对于每个 token，logit 的计算如下：，其中是条件 logit，是无条件 logit，是无分类器指导的尺度。以下评估的默认数量为 5 。

1.5 实验设置

Janus 利用最大支持序列长度为 4096 的 DeepSeek-LLM (1.3B)[5]作为基础语言模型。对于理解任务中使用的视觉编码器，选择 SigLIP-Large-Patch16-384。generation encoder 有一个大小为 16,384 的 codebook，并将图像下采样 16 倍。Understanding Adaptor 和 Generation Adaptor 都是两层 MLP。所有图像都被调整为 384×384 像素。对于多模态理解数据，调整图像的长边，并用背景颜色 (RGB: 127, 127, 127) 填充短边，达到 384。对于视觉生成数据，短边被调整为 384，长边裁剪为 384。

训练数据

阶段1：

作者使用包含来自 ShareGPT4V 的 1.25 million 个图文配对字幕的数据集做多模式理解，以及来自 ImageNet-1K 的大约 1.2 million 样本用于视觉生成。ShareGPT4V 数据格式化为 ""。ImageNet 数据使用类别名称组织成文本到图像数据格式："<category_name>"。

阶段2： 将数据组织成以下类别。

纯文本数据：使用来自 DeepSeek-LLM 的预训练文本 copus。
交错图像文本数据：使用 WikiHow 和 WIT 数据集。
Image caption 数据。
表和图表数据：使用来自 DeepSeek-VL 的相应表格和图表数据。
视觉生成数据：利用图像标题对 (包括 2M 内部数据)。视觉生成数据格式：""。

在训练期间，以 25% 的概率只使用标题的第 1 句，鼓励模型为短描述开发强大的生成能力。ImageNet 数据只在前 120K 训练步骤中提出，而其他数据集的图像出现在后面的 60K 步。这种方法帮助模型首先学习基本像素依赖关系，然后再发展到更复杂的场景理解。

阶段3：

对于文本理解，使用来自[6]的数据。对于多模态理解，使用来自[7]等的指令微调数据。对于视觉生成，使用来自 [8]等以及 4M 内部数据图像-文本对。利用以下格式进行指令微调："用户：<Input Message>\n Assistant：<Response>"。

1.6 Janus 评测

多模态理解

如图 4 所示，比较了 Janus 与最先进的 Unified 模型以及 Understanding-only 模型。 Janus 在类似规模的模型中取得了最好的结果。具体来说，与之前的最佳统一模型 Show-o 相比，Janus 在 MME 和 GQA 数据集上分别实现了 41% (949 → 1338) 和 30% (48.7 → 59.1) 的性能改进。这可以归因于 Janus 将视觉编码解耦以进行多模态理解和生成，减轻了这两个任务之间的冲突。与尺寸明显较大的模型相比，Janus 仍然具有很强的竞争力。例如，Janus 在多个数据集上优于 LLaVA-v1.5 (7B)，包括 POPE、MMbench、SEED Bench 和 MM-Vet。

图4：多模态理解基准比较

(多模态) 视觉生成

图5：GenEval Benchmark 上文生图能力的评估

作者报告了 GenEval、COCO30K 和 MJHQ-30K 基准上的视觉生成性能，如图 5 所示。Janus 在 GenEval 上获得了 61% 的整体精度，优于之前最好的统一模型 Show-o (53%) 和一些流行的生成模型，例如 SDXL (55%) 和 DALL-E 2 (52%)。这表明本文方法具有更好的指令跟随能力。

图6：MSCOCO-30K 和 MJHQ-30K Benchmark 上文生图能力评估

如表 4 所示，Janus 在 COCO-30K 和 MJHQ-30K Benchmark 上分别实现了 8.53 和 10.10 的 FID，超过了统一模型 Show-o 和 LWM，并且与一些众所周知的仅生成方法相比表现出具有竞争力的性能方法。这表明 Janus 生成的图像具有良好的质量，并突出了其在视觉生成方面的潜力。

有一个消融实验的细节值得注意，即如图 7 所示。Exp-D 为 Unified Training，Exp-E 相当于是训练了一个纯理解模型，Exp-F 相当于是训练了一个纯生成模型。对于纯理解模型，作者省略了视觉生成数据；对于纯生成模型，作者省略了理解数据。注意，统一训练和纯理解训练对于理解部分遵循相同的步骤，统一训练和纯生成训练对于生成部分遵循相同的步骤。实验结果表明，Unified Training 的性能与 Pure Understanding 或 Pure Generation 的训练相当。这表明 Janus 能够结合强大的生成能力，同时最低限度地影响多模态理解性能。

图7：消融实验结果

视觉生成可视化

图 8 显示了 Janus 多模态理解能力的定性结果，与 Chameleton 和 Show-o 相比。Janus 准确地解释文本标题并捕获记忆中传达的情感。相比之下，Chameleon 和 Show-o 都难以准确识别图像中的文本。此外，Chameleon 无法识别 meme 中的对象，而 Show-o 误解了狗的颜色。这些示例强调，与 Chameleon 和 Show-o 使用的共享编码器相比，解耦视觉编码器显着提高了 Janus 的细粒度多模态理解能力。

图8：多模态理解幽默记忆的定性结果

2 Janus-Pro：解耦统一多模态理解和生成模型的视觉编码

论文名称：Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling

论文地址：http://arxiv.org/pdf/2501.17811

项目主页：http://github.com/deepseek-ai/Janus

2.1 Janus-Pro 模型

Janus 在 1B 参数量级上得到验证。然而，由于训练数据量有限，模型容量相对较小，存在一定的不足，例如：在短提示图像生成的性能次优，文生图质量不稳定。

Janus-Pro 是一种增强的 Janus 版本，结合了 3 个维度的改进：训练策略、数据和模型大小。Janus-Pro 系列包括两个模型大小：1B 和 7B，展示了视觉编码解码方法的可扩展性。

作者在多个基准上评估了 Janus-Pro，结果揭示了其优越的多模态理解能力，并显着提高了文生图的指令跟随性能。Janus-Pro-7B 在多模态理解基准 MMBench 上得分为 79.2，超过了最先进的统一多模态模型，例如 Janus (69.4)、TokenFlow (68.9) 和 MetaMorph (75.2)。此外，在文生图指令跟随排行榜 GenEval 中，Janus-Pro-7B 得分为 0.80，优于 Janus (0.61)、DALL-E 3 (0.67) 和 SD-3 Medium (0.74)。

图9：Janus-Pro 与其前身 Janus 之间的文生图的比较。Janus-Pro 为短 Prompt 提供了更稳定的输出，提高了视觉质量、更丰富的细节和生成简单文本的能力。图像分辨率为 384×384

2.2 Janus-Pro 模型架构

Janus-Pro 的模型架构如图 3 所示，与 Janus 完全相同。整体架构的核心设计原则是将视觉编码解耦以进行多模态理解和生成。

作者应用独立的编码方法将原始输入转换为特征，然后由 Unified Autoregressive Transformer 来处理。

对于多模态理解，使用 SigLIP Encoder 从图像中提取高维语义特征 (和 Janus 一致)。这些特征从二维网格 flattened 为一维序列，利用 Understanding Adaptor 将这些图像特征映射到 LLM 输入空间。

对于视觉生成任务，使用 LLamaGen[2]中的 VQ tokenizer 将图像转换为离散的 ID (和 Janus 一致)。在 ID 序列被 flattened 为 1D 之后，使用 Generation Adaptor 将每个ID 对应的 codebook 嵌入映射到 LLM 输入空间。

然后，作者将这些特征序列连接起来形成一个多模态特征序列，然后将其输入到 LLM 进行处理。除了 LLM 的内置预测头外，作者还利用随机初始化的预测头进行视觉生成任务中的图像预测 (和 Janus 一致)。整个模型遵循 Autoregressive 框架。

2.3 Janus-Pro 训练策略

Janus 的训练分为 3 个阶段，如 1.2 节所示。

第 1 阶段：训练 Adaptors 和 Image Head。

第 2 阶段：联合预训练，除了理解编码器和生成编码器之外的所有组件都更新参数。

第 3 阶段：有监督微调，进一步解锁理解编码器的参数。

但是 Janus 的训练策略有问题：

在第 2 阶段，Janus 按照 PixArt 将文生图的训练分为 2 部分。第 1 部分在 ImageNet 数据上进行训练，使用图像类别名称作为文生图的提示，目标是对像素依赖进行建模。第 2 部分在正常的文生图数据上训练。实施过程中，第 2 阶段的文本-图像训练步骤中有 66.67% 被分配给第 1 部分。

但是通过进一步的实验，作者发现这种策略是次优的，并导致计算效率显著低下。

第 1 阶段较长训练： 在第 1 阶段增加训练步骤，允许在 ImageNet 数据集上进行足够的训练。本文的研究结果表明，即使 LLM 参数固定，该模型也能有效建模像素依赖性，并根据类别名称生成合理的图像。

第 2 阶段集中训练： 在第 2 阶段丢弃 ImageNet 数据，直接利用正常的文生图数据训练模型，根据密集描述生成图像。这种重新设计的方法使第 2 阶段能够更有效地利用文生图数据，提高训练效率和整体性能。

作者还调整了第 3 阶段监督微调过程在不同类型数据集上的数据比率，将多模态数据、纯文本数据和文本图像数据的比例从 7:3:10 更改为 5:1:4。通过略微降低文生图数据的比例，作者观察到这种调整允许我们保持强大的视觉生成能力，同时实现改进的多模态理解性能。

2.4 Janus-Pro 数据缩放

作者在多模态理解和视觉生成方面扩展了用于 Janus 的训练数据。

多模态理解：对于第 2 阶段的预训练数据，参考 DeepSeekVL2 并添加大约 90 万个样本。这些包括图像标题数据集 (例如 YFCC)，以及表、图表和文档理解的数据 (例如，Docmatix)。对于第 3 阶段的监督微调数据，作者还结合了 DeepSeek-VL2 的附加数据集，例如 MEME 理解、中文会话数据和旨在增强对话体验的数据集。这些添加显着扩展了模型的能力，丰富了它在提高整体对话体验的同时处理各种任务的能力。
视觉生成：作者观察到，先前版本的 Janus 中使用的真实世界数据缺乏质量并且包含显著的噪声，通常会导致文生图的不稳定性，从而导致美学上较差的输出。在 Janus-Pro 中，作者结合了大约 7200 万个合成美学数据，在统一的预训练阶段将真实数据与合成数据的比率提高到 1:1。这些合成数据样本的提示是公开的。实验表明，该模型在对合成数据进行训练时收敛速度更快，得到的文生图不仅更稳定，而且显著提高了审美质量。

2.5 Janus-Pro 模型缩放

先前版本的 Janus 使用 1.5B LLM 验证了视觉编码解耦的有效性。在 Janus-Pro 中，作者将模型缩放到 7B，1.5B 和 7B LLM 的超参数如图 10 所示。作者观察到，当使用更大规模的 LLM 时，与较小的模型相比，多模态理解和视觉生成的损失收敛速度显著提高。这一发现进一步验证了这种方法的强大可扩展性。

图10：Janus-Pro 1.5B 和 7B 版本的超参数

2.6 Janus-Pro 实验设置

作者利用最大支持序列长度为 4096 的 DeepSeek-LLM (1.5B 和 7B) 作为基础语言模型。对于理解任务中使用的视觉编码器，选择 SigLIP-Large-Patch16-384。生成编码器有一个大小为 16,384 的 codebook，并将图像下采样 16 倍。Understanding Adaptor 和 Generation Adaptor 都是 2 层的 MLP。每个阶段的详细超参数如图 11 所示。所有图像都被调整为 384×384 像素。

对于多模态理解数据，作者调整图像的长边，并用背景颜色 (RGB: 127, 127, 127) 填充短边，达到 384。

对于视觉生成数据，短边被调整为 384，长边裁剪为 384。

在训练期间使用序列打包来提高训练效率。Janus 使用 HAI-LLM (幻方-深度求索研发的深度学习训练工具) 训练和评估，这是一个建立在 PyTorch 之上的轻量级且高效的分布式训练框架。对于 1.5B/7B 的模型，整个训练过程在 16/32 个 mode 的集群上大约需要 7/14 天，每个模型配备 8 个 Nvidia A100 (40GB) GPU。

图11：Janus-Pro 的超参数

2.7 Janus-Pro 评测

多模态理解

为了评估多模态理解能力，作者在广泛认可的基于图像的视觉语言基准上评估我们的模型，其中包括 GQA，POPE，MME，SEED，MMB，MM-Vet，和 MMMU。

图 12 比较了 Janus-Pro 和最先进的 Unified Model 和 Pure Understanding Model。 Janus-Pro 取得了最好的结果。这可以归因于解耦视觉编码以进行多模态理解和生成，减轻了这两个任务之间的冲突。与尺寸明显较大的模型相比，Janus-Pro 仍然具有很强的竞争力。例如，除了 GQA 之外，Janus-Pro-7B 在所有基准测试中都优于 TokenFlow-XL (13B)。

图12：多模态理解基准与最新技术的比较

视觉生成

为了评估视觉生成能力，作者使用 GenEval 和 DPG-Bench。GenEval 是文生图的一个具有挑战性的基准，旨在通过对其组合能力进行详细的实例级分析来反映视觉生成模型的综合生成能力。DPG-Bench (Dense Prompt Graph Benchmark) 是一个由 1065 个冗长的密集提示组成的综合数据集，旨在评估文生图模型的复杂语义对齐能力。

作者报告了 GenEval 和 DPG-Bench 上的视觉生成性能。如图 13 所示，Janus-Pro-7B 在 GenEval 上获得了 80% 的整体准确率，优于所有其他统一或仅生成的方法，例如 Transfusion (63%) SD3-Medium (74%) 和 DALL-E 3 (67%)。这表明本文方法具有更好的指令跟随能力。如图 14 所示，Janus-Pro 在 DPG-Bench 上得分为 84.19，超过了所有其他方法。这表明 Janus-Pro 擅长遵循文生图的密集指令。

图13：GenEval benchmark 上文生图能力评估

图14：DPG-Bench 性能。此表中的方法是除 Janus 和 Janus-Pro 之外的所有特定于生成的模型

定性结果

作者在图 15 中展示了多模态理解的结果。 Janus-Pro 在处理来自不同上下文的输入时表现出令人印象深刻的理解能力，展示了其强大的能力。作者还在图 15 的下半部分展示了一些文生图的结果。 Janus-Pro-7B 生成的图像是高度现实的，尽管分辨率只有 384×384，但它们仍然包含大量细节。对于富有想象力和创造性的场景，Janus-Pro7B 准确地从提示中捕获语义信息，产生合理和连贯的图像。

图15：多模态理解和视觉生成能力的定性结果。模型为 Janus-Pro-7B，视觉生成的图像输出分辨率为 384×384

参考

1.^Sigmoid loss for language image pretraining

2.^abAutoregressive model beats diffusion: Llama for scalable image generation

3.^Pixart-𝑎𝑙 𝑝ℎ𝑎: Fast training of diffusion transformer for photorealistic text-to-image synthesis

4.^Muse: Text-To-Image Generation via Masked Generative Transformers

5.^Deepseek llm: Scaling open-source language models with longtermism

6.^Llava-onevision: Easy visual task transfer

7.^Llava-onevision: Easy visual task transfer

8.^Laion-aesthetics-umap.

#为什么DeepSeek-R1之后的大模型都开始做思维链？

何为思维链？

思维链最早是在预训练模型中涌现出来的现象。人们发现，仅仅只是在模型解数学题的时候，要求它 think step by step，模型就能极为显著地改善其做数学题的正确率。这个现象在最初是让很多人感到相当震撼的，和 In-context learning （大模型有能力看懂任务指示和示例，在不进行训练的情况下，直接学会在训练时没遇到过的新任务）一道成为大模型智能涌现的标志之一。

大模型的数学能力以及逻辑能力差，是所有和它们对话过的人都能发现的一个问题。这个问题严重影响了大模型落地赚钱的可能，因为人们普遍不敢信任说话没逻辑的大模型能做出什么正确的决策。于是，提升大模型数学能力，被所有做基础模型的公司当作了第一目标。

那么自然会有人想要强化思维链，看看有没有办法能够把大模型的数学能力给做上去。一个很简单的想法是，模型 think step by step 就像人类思考问题、并且用草稿纸写下过程那样，这里面有假设、演绎、反思、纠错等等。既然人类这样做可以有效做对数学题，那大模型应该也可以？于是问题就转化为了如何让大模型学会正确地思考。

第一个证明这件事有用的是 OpenAI 的 o1 系列模型。在此之前，OpenAI 已经炒作了很久的 Q* 以及“草莓”，让人猜想下一个模型强化的地方。而在o1-preview之后，便掀起了复现 o1 的竞赛。大部分题目中提到的公司（kimi、qwen、天工）都早就开始了这方面的探索，并且在 DeepSeek-R1 发布前就已经有思维链模型发布，只不过效果没做到 DeepSeek-R1 这么好。

那么怎么强化思维链复现 o1 呢？主要有以下四条路线：

一、基于过程监督的强化学习。

就是说，本来我们让模型 think step by step 它就可以写出一些过程的，但这些过程大抵是不太对的。那我们就像人类的老师改学生作业一样，仔细看看过程，看看是哪一步做错了，对于做错的那一步扣分；做对的那一步加分。

这个路线所面临的核心问题是，

1、怎么去界定步骤？毕竟打分是以步骤来进行的。但是每次解题的过程都不一定能和标答对上，于是得分点就不好判断了。
2、谁来判定哪个过程是正确的？理想情况是老师能仔细阅读每一个步骤，如果想错了就扣分，如果做对了就给分。但是在当时大家手上并没有一个数学非常好的模型能做到这一点。

代表性的工作，比如 OpenAI 的 Let's verify step by step，就是用过程监督的办法来强化思维链，取得了一定效果。

二、蒙特卡洛树搜索（MCTS）。

这也是个强化学习的经典算法，当初阿尔法狗就是用了这个算法在围棋中打爆了人类的。如果把解数学题看作是一个在迷宫中搜索正确路径的过程，那么就可以引入这个算法。在搜索中，需要准确评估当前这条路径到底看上去合不合理（状态价值有多少，状态价值可以看作是当前期望能拿到的奖励）。

这个路线所面临的核心问题：

1、把以文字为主的数学题抽象成迷宫，怎么做？毕竟无论是题目还是解答过程都是文字，怎么对这些连续的文字划分成分段的过程？怎么清晰地把所有下一步可能的过程或者结果抽象成有限的节点？
2、假如我们已经把数学问题抽象成了一个迷宫，怎么判断当前这条路径好不好？谁有能力来做这样的判断？

这一类工作代表作有微软的 rStar，也取得了一定的效果。

三、监督微调。

既然原先大模型在预训练的时候要预测下一个字符是什么，那么我们收集一堆思维过程给大模型，让它们照葫芦画瓢，没准就有用呢？毕竟一开始的预训练模型就能通过 think step by step 来改善正确率，当然有理由认为我塞更多思维链的数据进去，能进一步改善正确率。

这个路线所面临的核心问题是：并没有那么多思维过程数据能给到大模型。 几乎所有的教科书、教辅书都只会把正确过程给印到答案上，而不会把错误的过程给印上去，但很多时候我们希望模型在想错的时候能稍微多想一步、反思一下，至少能纠正那些看起来明显不对的错误。所以这种思维数据得从头收集。

1、可以让已有的预训练大模型 think step by step 然后筛选出得到正确结果的那些样本。但有人观察到某些大模型的 think step by step 是装模做样分析一通，但实际上给出的结果和它的分析并不符合。换句话说，这样收集到的过程并不一定可靠。
2、也可以召集一堆学生把自己解题时脑袋里的碎碎念给写下来。但是很显然这样做的成本很高，毕竟脑袋里的碎碎念这种东西全部写下来要花的时间可不短。尽管语音输入可以稍微缓解这个问题，但数学公式还是没法语音输入的。
3、蒸馏 OpenAI o1 (preview/mini)。但是 OpenAI 并不开放思维链，而且对任何妄图诱导模型说出自己思维过程的用户都进行严厉打击。

这一类工作的代表作有很多，比如 DeepSeek-R1 蒸馏出来的那些 Qwen 和 Llama 小模型。在这之前也有很多模型，并且报告说自己的模型能达到 OpenAI o1 preview 的水平，那大抵是用了这个方法，效果也确实很不错。只要真的收集到了很多思维链数据，小模型就真的照葫芦画瓢学会思考。

四、基于规则的强化学习。

在过程监督以及 MCTS 两种方法中，都会面临怎么去对过程进行拆分、怎么去对过程中的某一步（正确性或者未来预期的正确性）进行打分的问题。有人感到这件事实在是过于困难了，等于是手动往解题这件事上加“结构”（见《苦涩的教训》）。所以，他们打算只看结果，不看过程，让模型自由发挥。

这条路线面临的问题是，没什么人对这件事情有信心。毕竟，你只关心结果，那你怎么知道，模型会按照你期望的方式获得正确的结果呢？

1、模型可能一直都做不对题，从而摆烂。就算做对了，那也是侥幸对的。
2、模型可能找到一些其他的办法稍微多做对几道题，比如背答案，或者找一些逻辑上完全没有关联的规律。总之模型看上去不像是能自己学会思考的样子。
3、想想就觉得这事很难。要是这能成，那我干脆直接设立一个目标，让模型去给我赚钱，那模型就能真的学会怎么赚钱了？这就AGI了？这条路线事实上也挺难，很多人也尝试过，但没调通，放弃了。

这条路线的代表作，自然是 DeepSeek-R1、Kimi-k1.5。当然我们现在知道了，OpenAI 的 o1 系列也是这条路线训练出来的——这件事很难，但真的能成，而且效果非常好。在 DeepSeek-R1 出来之后，基本上就只剩下第三和第四条路线了（因为它们的效果最好，而且既然有人能做出来，那自己做不出来肯定是没做对，只要多试试就好了）。

未来展望

那么以后的大模型是不是得标配思维链呢？基本上是的。GPT-4.5 是 OpenAI 公司发布的最后一个非思维链大模型，以后该公司的所有模型都会具有思维链能力。思维链是一个能以最小的代价，而非常显著提升模型智力水平（逻辑能力、解题能力、代码能力）的技术，此外还有一些其他方面的好处，不做白不做。

#大模型自主工具调用能力的深度实现

从思考到行动

本项目由复旦大学知识工场实验室肖仰华教授、梁家卿青年副研究员领导，博士生韩槿一，硕士生李廷云、熊程元、姜子上、王昕奕等同学共同参与完成。

GPT - 4o、Deepseek - R1 等高级模型已展现出令人惊叹的「深度思考」能力：理解上下文关联、拆解多步骤问题、甚至通过思维链（Chain - of - Thought）进行自我验证、自我反思等推理过程。

但是，多数主流模型仍在基础问题上犯错，复杂四则运算计算失误，简单「两个小数比大小」出错、甚至连数清楚 strawberry 里有几个「r」都能翻车……即使提示像 R1 这样具备深度思考能力的大模型也要消耗大量的 token 才能勉强答对。

合适的工具调用能够拓展大模型的能力边界，但现有工具调用方式将大模型限制在预设的工具使用框架内，更像是一个被动的「提线木偶」，而非真正具备主动性的智能体。主要体现在以下几个方面：

浅层模仿而非深度理解：SFT 只是学会了特定场景下工具调用的表面模式，而非真正理解工具的功能边界、适用场景和内部工作机制
上下文依赖性强：基于 Prompt 的工具调用方法高度依赖于提示的精确性和完整性。一旦用户描述模糊或提示设计不当，模型就无法正确选择和使用工具
工具组合能力受限：当需要多个工具协同解决复杂问题时，现有方法难以支持模型进行灵活的工具组合

复旦大学知识工场实验室团队在开源项目 SimpleGRPO 中开源实现了大模型自主工具调用机制，通过引入大模型的深度思考能力，从根本上重构了大模型工具调用的范式。该技术使大模型实现了从被动执行的「提线木偶」到具备自主决策能力的智能体的根本跃迁。

项目开源地址为：https://github.com/lsdefine/simple_GRPO/tree/main/Auto_Program

为什么大模型需要自主调用工具的能力？

深度整合：大模型不仅是工具的「操控者」，而是能在推理过程中深度理解工具的功能，知道什么时候、如何使用工具才能更高效地解决问题。
动态调整：每次调用工具后，模型会根据新获得的信息自动调整思路，不断改进解决方案，让每一次思考都更精确。
连续性与灵活性：不同于传统的单次工具调用，自主工具调用能力可以使得模型能够在复杂任务中多次调用工具，通过连续的交互获取最佳答案。
创新组合：当一个工具无法完成任务时，模型能创新性地将多个工具结合起来，解决更为复杂的挑战。

表. 一般模型和融入思考进行自主工具调用的模型在工具调用上的能力表现的差异

如何实现大模型的工具自主调用？

我们使用强化学习算法给 LLM 装上「决策中枢」，实现两种神仙模式：

方案 1【边想边干】：LLM 思考到一半突然写代码辅助解决 → 编译器运行 → 继续思考完成后续的推理

当大模型在生成推理或解决问题的过程中，意识到某些步骤需要借助编程工具（如 Python）来完成时，它会直接生成相应的代码片段，并通过编译器执行这些代码，执行结果会被捕获并作为输入重新融入到大模型的推理过程中。

这种即时反馈机制使得模型能够动态调整后续的生成内容。这种方式类似于人类在解决问题时，发现某个计算或分析任务复杂到需要用程序来辅助，便动手编写代码并运行结果。

方案 2【专业分工】：LLM 负责提需求，直接说「我需要计算 38 和 16 的最小公倍数」，专属代码小弟秒速响应！强强联手更精准！

生成模型在推理过程中，当遇到需要编程工具协助的任务时，会明确描述出需求。例如，「我需要计算一组数据的标准差」或「请帮我实现一个排序算法」。这种需求描述通常以自然语言的形式表达，清晰且易于理解。接收到需求后，专门的代码生成模型会根据描述生成对应的 Python 代码。

该模型经过大量代码训练，擅长将自然语言需求转化为准确的代码实现。生成的代码通过编译器执行，执行结果被返回给生成模型。生成模型根据结果调整后续推理路径，确保整个过程连贯一致。

大模型边思考边行动

大模型自主调用 Python 命令行

我们首先在简单数学题上验证模型能否通过强化学习学会调用工具计算器来辅助解决问题，并观察其泛化性。我们设定模型可在回答中通过「>>>」调用 Python 命令行，检测到需要调用 python 程序时，编译执行并将代码运行结果插入到先前的生成过程中。以 Qwen2.5 - 7B 为基础模型，在 GSM8K 上训练。

模型执行复杂运算时会自主调用命令行来计算

模型在训练时只接触数学题，但推理时能自主泛化到其他问题上
3.11 和 3.9 谁大？

以前：瞎蒙（甚至理直气壮答错）

现在：秒写代码 print(3.11 > 3.9)，输出 False，铁证如山！

strawberry 有几个「r」？

以前：靠概率硬猜（结果常漏数）

现在：直接上代码 "strawberry".count('r')，精准输出 3！

模型调用 Python 程序

面对更难的问题时，我们发现命令行难以发挥作用。例如，模型使用 Python 来解方程时，需要导入相应的包，如果使用互相独立的命令行难以完成，将多个命令行一起执行则模型容易在格式和代码编写上出错。因此，我们尝试让模型自己写整段的 python 程序。

基础模型：Qwen2.5 - Math - 7B - Base
算法：Reinforce++ • 数据集：MATH level3 - 5 上进行训练
训练重要参数设置：temperature：0；学习率：4e - 7；batch_size: 32；
奖励设置：回答中包含 \boxed{} 且其中答案正确，则奖励为 1，否则奖励为 0

训练结果如下：

复杂一元三次方程求解借助编程解决

模型内心 OS：「这题手算会崩，看我召唤 Python！」

大模型主动提出调用工具需求

实验细节

1、训练数据集构建：

从 MATH、Numina、OpenThoughts 中筛选训练问题时按照以下原则：

使用 Qwen2.5 - 7B - Base 对问题生成多个答案，过滤掉对模型而言较为简单的题（正确率为 100%）
过滤掉选择题、概念题等没有标准答案的问题

2、测试数据集：以 GSM8K 题目为原型，将其中的数值替换成超大（9～11 位）或者更加复杂（小数）的数值。

数据集开源地址：https://huggingface.co/datasets/JinyiHan/big-value-gsm

3、算法：GRPO

4、训练技巧：

奖励设置：我们注重对格式的奖惩，这样可以保证在模型训练前期能快速学习到格式，格式准确率能够逐渐达到 95% 以上；从而在后期训练阶段模型能够专注于提升回答的准确率。

课程学习：按照模型正确回答的概率从大到小进行排列
避免 GRPO 同组得分同质化：在训练过程中，得分完全相同的样本直接过滤掉

5、模型选择：

生成模型：Qwen2.5 - 7B - Instruct

代码模型：Qwen2.5 - 7B - Instruct

实验结果

模型反复多次提需求调用工具

以前：硬着头皮硬算，强行编答案

现在：思考后主动使用工具辅助解决

其他有意思的观察：

模型能够根据代码编译结果能进一步反思

当模型编写的 python 代码出现编译报错、没有输出或运行超时：

以前：出现错误后，后续生成的内容全部出错

现在：模型会根据报错信息继续调整策略

自主调用工具的能力能在未见的任务上进行泛化

以前：特定领域微调后并不会迁移到未见任务上

现在：掌握工具后可以在其他领域灵活使用

case1: Knight & Knave (Logic - RL)

case2: CountDown

解锁新能力，使用 python 来验证生成答案的正确性

总结

我们探索了结合大模型的深度思考能力提升大模型自主工具调用的能力的两种方式，包括让大模型边思考边行动、以及让大模型提出调用工具的需求。

我们发现，通过强化学习的训练方式，边想边干和专业分工两种方式都能够使大模型灵活、自主地调用工具，并在生成过程中多次调用工具，将工具调用的结果无缝融入后续的推理与决策流程中。

更重要的是，这种自主工具调用能力展现出强大的泛化性，能够成功应用于完全未见过的任务场景，表现出令人惊叹的潜力。

这一研究成果为未来大模型深度思考能力的实际应用提供了重要的参考价值和技术基础。我们计划在不久后发布相关技术报告或论文，对这些方法进行更详细的阐述和讨论，敬请期待。

#OpenAI发布最强推理模型o3

图像深度思考首秀，开源编程智能体已揽5k+star

深夜，OpenAI 发布了 o 系列模型的最新成果 o3 和 o4-mini。该系列模型经过训练，会在响应之前进行更长时间的思考。

OpenAI 表示，这是他们迄今为止发布的最智能模型，也标志着 ChatGPT 能力的巨大飞跃。

这次新发布的推理模型能够像智能体一样使用并组合 ChatGPT 中的每一个工具 —— 这包括搜索互联网、用 Python 分析上传的文件和其他数据、深入推理视觉输入，甚至生成图像。

至关重要的是，这些模型经过训练，能够推理何时以及如何使用工具，以在正确输出格式下产生详细且深思熟虑的答案，通常在不到一分钟的时间内解决更复杂的问题。这使得它们能够更有效地应对多面性问题，迈向一个更具自主性的 ChatGPT，独立为你执行任务。

OpenAI CEO 山姆・奥特曼表示，o3 和 o4-mini 功能非常强大，尤其擅长多模态理解，并且可以组合使用 ChatGPT 中的所有工具。另外，o4-mini 的价格非常划算。

从今天开始，ChatGPT Plus、Pro 和 Team 用户可以在模型选择器中看到 o3、o4-mini 和 o4-mini-high，取代 o1、o3‑mini 和 o3‑mini‑high。ChatGPT Enterprise 和 Edu 用户将在一周内获得访问权限。

免费用户可以在提交查询之前，在编辑器中选择「Think」来试用 o4-mini。所有计划的速率限制与之前的模型组保持不变。

此外，OpenAI 预计将在几周内发布 o3‑pro，并提供全面的工具支持。目前，Pro 用户仍然可以访问 o1‑pro。

开发者现在也可以通过「Chat Completions API」和「Responses API」使用 o3 和 o4-mini（部分开发者需要验证其组织才能访问这些模型）。 Responses API 支持推理摘要，能够在函数调用周围保留推理 token 以提高性能，并且即将在模型推理中支持内置工具，例如网页搜索、文件搜索和代码解释器。

至于 API 价格，o3 比 o1 全方位（输入、cached 输入和输出）降低，o4-mini 也比 o3-mini 部分降低。

价格2_副本.jpg

新模型强在哪里？

o3 是 OpenAI 最强大的推理模型，它推动了编程、数学、科学、视觉感知等领域的前沿发展。o3 在 Codeforces、SWE-bench（无需构建自定义模型专用框架）和 MMMU 等基准测试中创下了新的 SOTA（最佳性能）。

o3 非常适合需要多方面分析且答案可能并非显而易见的复杂查询，并在分析图像、图表和图形等视觉任务中表现尤为出色。在外部专家的评估中，o3 在困难的现实任务中比 o1 犯的重大错误少 20%，尤其是在编程、商业 / 咨询和创意构思等领域表现出色。

早期测试人员强调了 o3 作为思想伙伴的分析严谨性，并强调了其生成和批判性评估新假设的能力，尤其是在生物学、数学和工程学领域。

OpenAI o4-mini 是一款小型模型，专为快速、经济高效的推理而优化，它以其尺寸和成本实现了卓越的性能，尤其是在数学、编程和视觉任务方面。

o4-mini 是 AIME 2024 和 2025 基准测试中表现最佳的模型。在专家评估中，它在非 STEM 任务以及数据科学等领域的表现也优于其前身 o3-mini。得益于其高效性，o4-mini 支持的使用限制远高于 o3，使其成为解决需要推理能力的问题的强大高容量、高吞吐量解决方案。

外部专家评估人员认为，得益于智能化的提升和网络资源的引入，o3 和 o4-mini 都比前代模型展现出了更佳的指令遵循能力，以及更实用、更可验证的响应。

与 OpenAI 之前的推理模型相比，这两个模型的体验也更加自然、更具对话性，尤其是在参考记忆和历史对话的情况下，响应更加个性化和相关。

多模态基准测试（包括 MMMU 大学水平的视觉问答、MathVista 视觉数学推理和 CharXiv-Reasoning 论文图表推理）：

编程基准测试（包括 SWE-Lancer: IC SWE Diamod Freelancer 编程任务和 SWE-Bench Verified 软件工程任务）：

Aider Polyglot 代码编辑任务：

指令遵循和智能体工具使用任务（包括 Scale MultiChallenge 多轮指令遵循和 BrowerComp 智能体浏览）：

Tau-bench 函数调用：

继续扩展强化学习，模型掌握工具使用

在 OpenAI o3 开发过程中，OpenAI 观察到大规模强化学习表现出与 GPT 系列预训练中观察到的趋势相同，即「计算量越大，性能越好（more compute = better performance）」。

通过重新追溯这一扩展路径，这次是在强化学习中 ——OpenAI 在训练计算和推理时间推理能力方面又向前推进了一个数量级，但仍能清晰地看到性能的提升，这验证了模型的性能会随着其被允许思考的时间越长而持续提高。在与 OpenAI o1 相同的延迟和成本下，o3 在 ChatGPT 中的性能更高 ——OpenAI 已经验证，如果让模型思考更长时间，其性能还会继续攀升。

OpenAI 还通过强化学习训练这两个模型掌握工具使用的能力 —— 不仅教会它们如何使用工具，更让它们学会判断何时该使用工具。这种根据目标结果自主调配工具的能力，使它们在开放式场景中表现尤为出色 —— 特别是在涉及视觉推理和多步骤工作流的任务中。正如早期测试者反馈所示，这种提升既体现在学术基准测试中，也反映在实际任务表现上。

根据图像进行思考

首次，模型能够在思维链中运用图像进行思考，而不仅仅是看到图像。这开启了一类新的问题解决方式，视觉和文本推理终于结合在一起了。无论是上传的白板照片、教科书图表或手绘草图，即使图像模糊、反转或质量低下，模型也能对其进行解读。

与之前的 OpenAI o1 模型类似，o3 和 o4-mini 经过训练，可以在回答前进行更长时间的思考，并在回复用户之前运用较长的内部思维链。o3 和 o4-mini 进一步扩展了这一能力，将图像融入其思维链中，通过使用工具转换用户上传的图像，使其能够进行裁剪、放大和旋转等简单的图像处理技术。更重要的是，这些功能是原生的，无需依赖单独的专用模型。

这种方法为测试时间计算扩展提供了一个新的轴，可以无缝融合视觉和文本推理，这反映在它们在多模态基准测试中的最先进的性能上，标志着朝着多模态推理迈出了重要一步。

用户可以通过拍照提问，无需担心物体的位置 —— 无论是文字颠倒，还是一张照片中存在多个物理问题。即使物体乍一看并不明显，视觉推理也能让模型放大查看，从而更清晰地观察。

举例来说：问笔记本上写了什么，其实这个笔记本上的字体根本看不清，并且字体是颠倒的，这些问题都被 OpenAI o3 在推理过程中一一解决了。

用户输入图片

下面的示例是 OpenAI o3 做题过程，我们能看到其清晰的思维链过程。

用户输入图片

走迷宫示例：

中间省略了较长的思维链过程

智能体工具使用

o3 和 o4-mini 可以完全访问 ChatGPT 中的工具，以及通过 API 中的函数调用访问用户自己的自定义工具。这些模型经过训练，能够推理如何解决问题，选择何时以及如何使用工具，从而快速（通常在一分钟内）以正确的输出格式生成详细而周到的答案。

例如，用户可能会问：「加州夏季的能源使用量与去年相比如何？」该模型可以在网上搜索公共事业数据，编写 Python 代码构建预测，生成图表或图像，并解释预测背后的关键因素，并将多个工具调用串联在一起。

推理功能使模型能够根据遇到的信息做出反应和调整。例如，它们可以借助搜索引擎多次搜索网页，查看结果，并在需要更多信息时尝试新的搜索。

这种灵活的策略方法使模型能够处理需要访问最新信息的任务，而不仅仅是模型的内置知识、扩展推理、综合和跨模态输出生成。

比如在视觉推理任务中，o3 准确地考虑了时间表并输出了可用的计划，而 o1 则存在不准确之处，导致某些演出时间出现错误。

再比如在科学问答任务中，o3 提供了全面、准确且富有洞察力的分析，分析了最近的电池技术突破如何延长电动汽车续航里程、加快充电速度并推动采用，所有这些都有科学研究和行业数据作为支持。o1 虽然可信且切题，但不够详细和具有前瞻性，存在一些小错误或过于简单化。

推进高效（cost-efficient）推理

o3 和 o4-mini 是 OpenAI 迄今为止发布的最智能模型，而且它们通常也比其前辈 o1 和 o3-mini 更高效。

例如，在 2025 年 AIME 数学竞赛中，o3 的性价比边界比 o1 有显著提升；同样，o4-mini 的性价比边界也比 o3-mini 有显著提升。

更普遍地讲，OpenAI 预计，在大多数实际应用中，o3 和 o4-mini 也将分别比 o1 和 o3-mini 更智能、更经济。

安全

模型能力的每一次提升都意味着安全性的相应提升。对于 o3 和 o4-mini，OpenAI 彻底重建了安全训练数据，在生物威胁（生物风险）、恶意软件生成和越狱等领域添加了新的拒绝提示。

这些更新的数据使 o3 和 o4-mini 在 OpenAI 的内部拒绝基准测试（例如指令层次结构、越狱）中取得了优异的表现。

除了模型拒绝方面的出色表现外，OpenAI 还开发了系统级缓解措施，以标记前沿风险领域的危险提示。与之前在图像生成方面的工作类似，OpenAI 训练了一个推理 LLM 监控器，它基于人工编写且可解释的安全规范。当应用于生物风险时，该监控器成功标记了 OpenAI 人工红队演练活动中约 99% 的对话。

OpenAI 还采用迄今为止最严格的安全程序对这两种模型进行了压力测试。根据 OpenAI 更新的应急准备框架，他们根据该框架涵盖的三个跟踪能力领域（生物和化学、网络安全以及人工智能自我改进）对 o3 和 o4-mini 进行了评估。

根据评估结果，OpenAI 确定 o3 和 o4-mini 在所有三个类别中均低于该框架的「高」阈值。

关于更多 o3 和 o4-mini 的信息，大家可以参考 OpenAI 完整的模型系统卡。