51c大模型~合集21_consistency model 网课推荐-CSDN博客

本文链接：https://blog.csdn.net/weixin_49587977/article/details/143669006

我自己的原文哦~ https://blog.51cto.com/whaosoft/11576482

#Embodied_AI_Paper_List

全球首篇！调研近400篇文献，鹏城实验室&中大深度解析具身智能

具身智能是实现通用人工智能的必经之路，其核心是通过智能体与数字空间和物理世界的交互来完成复杂任务。近年来，多模态大模型和机器人技术得到了长足发展，具身智能成为全球科技和产业竞争的新焦点。然而，目前缺少一篇能够全面解析具身智能发展现状的综述。因此，鹏城实验室多智能体与具身智能研究所联合中山大学 HCP 实验室的研究人员，对具身智能的最新进展进行了全面解析，推出了多模态大模型时代的全球首篇具身智能综述。

该综述调研了近 400 篇文献，从多个维度对具身智能的研究进行了全面解析。该综述首先介绍了一些具有代表性的具身机器人和具身仿真平台，深入分析了其研究重点和局限性。接着，透彻解析了四个主要研究内容：1) 具身感知，2) 具身交互，3) 具身智能体和 4) 虚拟到现实的迁移，这些研究内容涵盖了最先进的方法、基本范式和全面的数据集。此外，该综述还探讨了数字空间和物理世界中具身智能体面临的挑战，强调其在动态数字和物理环境中主动交互的重要性。最后，该综述总结了具身智能的挑战和局限，并讨论了其未来的潜在方向。本综述希望能够为具身智能研究提供基础性参考，并推动相关技术创新。此外，该综述还在 Github 发布了具身智能 paper list，相关的论文和代码仓库将持续更新，欢迎关注。

论文地址: https://arxiv.org/pdf/2407.06886
具身智能 Paper List: https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List

1. 具身智能的前世今生

具身智能的概念最初由艾伦・图灵在 1950 年建立的具身图灵测试中提出，旨在确定智能体是否能显示出不仅限于解决虚拟环境（数字空间）中抽象问题的智能（智能体是具身智能的基础，存在于数字空间和物理世界中，并以各种实体的形式具象化，这些实体不仅包括机器人，还包括其他设备。），还能应对物理世界的复杂性和不可预测性。因此，具身智能的发展被视为一条实现通用人工智能的基本途径。深入探讨具身智能的复杂性、评估其当前的发展现状并思考其未来的发展轨迹显得尤为重要。如今，具身智能涵盖了计算机视觉、自然语言处理和机器人技术等多个关键技术，其中最具代表性的是具身感知、具身交互、具身智能体和虚拟到现实的迁移。在具身任务中，具身智能体必须充分理解语言指令中的人类意图，积极主动探索周围环境，全面感知来自虚拟和物理环境的多模态元素，并执行适当的操作以完成复杂任务。多模态模型的快速进展展示了在复杂环境中相较于传统深度强化学习方法更强的多样性、灵活性和泛化能力。最先进的视觉编码器预训练的视觉表示提供了对物体类别、姿态和几何形状的精确估计，使具身模型能够全面感知复杂和动态的环境。强大的大语言模型使机器人更好地理解人类的语言指令并为具身机器人对齐视觉和语言表示提供了可行的方法。世界模型展示了显著的模拟能力和对物理定律的良好理解，使具身模型能够全面理解物理和真实环境。这些进展使具身智能体能够全面感知复杂环境，自然地与人类互动，并可靠地执行任务。下图展示了具身智能体的典型架构。

具身智能体框架

在本综述中，我们对具身智能的当前进展进行了全面概述，包括：（1）具身机器人 —— 具身智能在物理世界中的硬件方案；（2）具身仿真平台 —— 高效且安全地训练具身智能体的数字空间；（3）具身感知 —— 主动感知 3D 空间并综合多种感官模态；（4）具身交互 —— 有效合理地与环境进行交互甚至改变环境以完成指定任务；（5）具身智能体 —— 利用多模态大模型理解抽象指令并将其拆分为一系列子任务再逐步完成；（6）虚拟到现实的迁移 —— 将数字空间中学习到的技能迁移泛化到物理世界中。下图展示了具身智能从数字空间到物理世界所涵盖的体系框架。本综述旨在提供具身智能的全面背景知识、研究趋势和技术见解。

本综述整体架构

2. 具身机器人

具身智能体积极与物理环境互动，涵盖了广泛的具身形态，包括机器人、智能家电、智能眼镜和自动驾驶车辆等。其中，机器人作为最突出的具身形态之一，备受关注。根据不同的应用场景，机器人被设计成各种形式，以充分利用其硬件特性来完成特定任务。如下图所示，具身机器人一般可分为：（1）固定基座型机器人，如机械臂，常应用在实验室自动化合成、教育、工业等领域中；（2）轮式机器人，因高效的机动性而闻名，广泛应用于物流、仓储和安全检查；（3）履带机器人，具有强大的越野能力和机动性，在农业、建筑和灾难场景的应对方面显示出潜力；（4）四足机器人，以其稳定性和适应性而闻名，非常适合复杂地形的探测、救援任务和军事应用。（5）人形机器人，以其灵巧手为关键，在服务业、医疗保健和协作环境等领域广泛应用。（6）仿生机器人，通过模拟自然生物的有效运动和功能，在复杂和动态的环境中执行任务。

不同形态的具身机器人

3. 具身智能仿真平台

具身智能仿真平台对于具身智能至关重要，因为它们提供了成本效益高的实验手段，能够通过模拟潜在的危险场景来确保安全，具有在多样环境中进行测试的可扩展性，具备快速原型设计能力，能够为更广泛的研究群体提供便利，提供用于精确研究的可控环境，生成用于训练和评估的数据，并提供算法比较的标准化基准。为了使智能体能够与环境互动，必须构建一个逼真的模拟环境。这需要考虑环境的物理特性、对象的属性及其相互作用。如下图所示，本综述将对两种仿真平台进行分析：基于底层仿真的通用平台和基于真实场景的仿真平台。

通用仿真平台

基于真实场景的仿真平台

4. 具身感知

未来视觉感知的 “北极星” 是以具身为中心的视觉推理和社会智能。如下图所示，不同于仅仅识别图像中的物体，具有具身感知能力的智能体必须在物理世界中移动并与环境互动，这需要对三维空间和动态环境有更透彻的理解。具身感知需要具备视觉感知和推理能力，理解场景中的三维关系，并基于视觉信息预测和执行复杂任务。该综述从主动视觉感知、3D 视觉定位、视觉语言导航、非视觉感知（触觉传感器）等方面进行介绍。

主动视觉感知框架

5. 具身交互

具身交互指的是智能体在物理或模拟空间中与人类和环境互动的场景。典型的具身交互任务包括具身问答和具身抓取。如下图所示，在具身问答任务中，智能体需要从第一人称视角探索环境，以收集回答问题所需的信息。具有自主探索和决策能力的智能体不仅要考虑采取哪些行动来探索环境，还需决定何时停止探索以回答问题，如下图所示。

具身问答框架

除了与人类进行问答交互外，具身交互还涉及基于人类指令执行操作，例如抓取和放置物体，从而完成智能体、人类和物体之间的交互。如图所示，具身抓取需要全面的语义理解、场景感知、决策和稳健的控制规划。具身抓取方法将传统的机器人运动学抓取与大型模型（如大语言模型和视觉语言基础模型）相结合，使智能体能够在多感官感知下执行抓取任务，包括视觉主动感知、语言理解和推理。

语言引导的交互式抓取框架

6. 具身智能体

智能体被定义为能够感知环境并采取行动以实现特定目标的自主实体。多模态大模型的最新进展进一步扩大了智能体在实际场景中的应用。当这些基于多模态大模型的智能体被具身化为物理实体时，它们能够有效地将其能力从虚拟空间转移到物理世界，从而成为具身智能体。为了使具身智能体在信息丰富且复杂的现实世界中运行，它们已经被开发出强大的多模态感知、交互和规划能力。如下图所示，为了完成任务，具身智能体通常涉及以下过程：

（1）将抽象而复杂的任务分解为具体的子任务，即高层次的具身任务规划。

（2）通过有效利用具身感知和具身交互模型，或利用基础模型的策略功能，逐步实施这些子任务，这被称为低层次的具身行动规划。

值得注意的是，任务规划涉及在行动前进行思考，因此通常在数字空间中考虑。相比之下，行动规划必须考虑与环境的有效互动，并将这些信息反馈给任务规划器以调整任务规划。因此，对于具身智能体来说，将其能力从数字空间对齐并推广到物理世界至关重要。

基于多模态大模型的具身智能体框架

7. 虚拟到现实的迁移

具身智能中的虚拟到现实的迁移（Sim-to-Real adaptation）指的是将模拟环境（数字空间）中学习到的能力或行为转移到现实世界（物理世界）中的过程。该过程包括验证和改进在仿真中开发的算法、模型和控制策略的有效性，以确保它们在物理环境中表现得稳定可靠。为了实现仿真到现实的适应，具身世界模型、数据收集与训练方法以及具身控制算法是三个关键要素，下图展示了五种不同的 Sim-to-Real 范式。

五种虚拟到现实的迁移方案

8. 挑战与未来发展方向

尽管具身智能发展迅速，但它面临着一些挑战，并呈现出令人兴奋的未来方向：

（1）高质量机器人数据集。获取足够的真实世界机器人数据仍然是一个重大挑战。收集这些数据既耗时又耗费资源。单纯依靠模拟数据会加剧仿真到现实的差距问题。创建多样化的真实世界机器人数据集需要各个机构之间紧密且广泛的合作。此外，开发更真实和高效的模拟器对于提高模拟数据的质量至关重要。为了构建能够在机器人领域实现跨场景和跨任务应用的通用具身模型，必须构建大规模数据集，利用高质量的模拟环境数据来辅助真实世界的数据。

（2）人类示范数据的有效利用。高效利用人类演示数据包括利用人类展示的动作和行为来训练和改进机器人系统。这个过程包括收集、处理和从大规模、高质量的数据集中学习，其中人类执行机器人需要学习的任务。因此，重要的是有效利用大量非结构化、多标签和多模态的人类演示数据结合动作标签数据来训练具身模型，使其能够在相对较短的时间内学习各种任务。通过高效利用人类演示数据，机器人系统可以实现更高水平的性能和适应性，使其更能在动态环境中执行复杂任务。

（3）复杂环境认知。复杂环境认知是指具身智能体在物理或虚拟环境中感知、理解和导航复杂现实世界环境的能力。对于非结构化的开放环境，目前的工作通常依赖预训练的 LLM 的任务分解机制，利用广泛的常识知识进行简单任务规划，但缺乏具体场景理解。增强知识转移和在复杂环境中的泛化能力是至关重要的。一个真正多功能的机器人系统应该能够理解并执行自然语言指令，跨越各种不同和未见过的场景。这需要开发适应性强且可扩展的具身智能体架构。

（4）长程任务执行。执行单个指令通常涉及机器人执行长程任务，例如 “打扫厨房” 这样的命令，包含重新排列物品、扫地、擦桌子等活动。成功完成这些任务需要机器人能够规划并执行一系列低级别动作，且持续较长时间。尽管当前的高级任务规划器已显示出初步的成功，但由于缺乏对具身任务的调整，它们在多样化场景中往往显得不足。解决这一挑战需要开发具备强大感知能力和大量常识知识的高效规划器。

（5）因果关系发现。现有的数据驱动的具身智能体基于数据内部的相关性做出决策。然而，这种建模方法无法使模型真正理解知识、行为和环境之间的因果关系，导致策略存在偏差。这使得它们难以在现实世界环境中以可解释、稳健和可靠的方式运行。因此，具身智能体需要以世界知识为驱动，具备自主的因果推理能力。

（6）持续学习。在机器人应用中，持续学习对于在多样化环境中部署机器人学习策略至关重要，但这一领域仍未被充分探索。虽然一些最新研究已经探讨了持续学习的子主题，如增量学习、快速运动适应和人机互动学习，但这些解决方案通常针对单一任务或平台设计，尚未考虑基础模型。开放的研究问题和可行的方法包括：1) 在最新数据上进行微调时混合不同比例的先前数据分布，以缓解灾难性遗忘，2) 从先前分布或课程中开发有效的原型，用于新任务的推理学习，3) 提高在线学习算法的训练稳定性和样本效率，4) 确定将大容量模型无缝集成到控制框架中的原则性方法，可能通过分层学习或慢 - 快控制，实现实时推理。

（7）统一评估基准。尽管有许多基准用于评估低级控制策略，但它们在评估技能方面常常存在显著差异。此外，这些基准中包含的物体和场景通常受到模拟器限制。为了全面评估具身模型，需要使用逼真的模拟器涵盖多种技能的基准。在高级任务规划方面，许多基准通过问答任务评估规划能力。然而，更理想的方法是综合评估高级任务规划器和低级控制策略的执行能力，特别是在执行长时间任务和衡量成功率方面，而不仅仅依赖于对规划器的单独评估。这种综合方法能够更全面地评估具身智能系统的能力。

总之，具身智能使智能体能够感知、认知并与数字空间和物理世界中的各种物体互动，显示了其在实现通用人工智能方面的重要意义。本综述全面回顾了具身机器人、具身仿真平台、具身感知、具身交互、具身智能体、虚拟到现实的机器人控制以及未来的研究方向，这对沿着促进具身智能的发展具有重要意义。

关于鹏城实验室多智能体与具身智能研究所

隶属鹏城实验室的多智能体与具身智能研究所汇聚了数十名智能科学与机器人领域顶尖青年科学家，依托鹏城云脑、中国算力网等自主可控 AI 基础设施，致力于打造多智能体协同与仿真训练平台、云端协同具身多模态大模型等通用基础平台，赋能工业互联网、社会治理与服务等重大应用需求。

#AutoAlign

彻底摒弃人工标注，AutoAlign方法基于大模型让知识图谱对齐全自动化

本工作由来自清华大学、墨尔本大学、香港中文大学、中国科学院大学的 Rui Zhang, Yixin Su, Bayu Distiawan Trisedya, Xiaoyan Zhao, Min Yang, Hong Cheng, Jianzhong Qi 等学者团队联合完成。该团队专注于大模型、知识图谱、推荐搜索、自然语言处理、大数据等方向的研究。

知识图谱作为结构化知识的重要载体，广泛应用于信息检索、电商、决策推理等众多领域。然而，由于不同机构或方法构建的知识图谱存在表示方式、覆盖范围等方面的差异，如何有效地将不同的知识图谱进行融合，以获得更加全面、丰富的知识体系，成为提高知识图谱覆盖度和准确率的重要问题，这就是知识图谱对齐（Knowledge Graph Alignment）任务所要解决的核心挑战。

传统的知识图谱对齐方法必须依赖人工标注来对齐一些实体（entity）和谓词（predicate）等作为种子实体对。这样的方法昂贵、低效、而且对齐的效果不佳。来自清华大学、墨尔本大学、香港中文大学、中国科学院大学的学者联合提出了一种基于大模型的全自动进行知识图谱对齐的方法——AutoAlign。AutoAlign彻底不需要人工来标注对齐的种子实体或者谓词对，而是完全通过算法对于实体语义和结构的理解来进行对齐，显著提高了效率和准确性。

论文：AutoAlign: Fully Automatic and Effective Knowledge Graph Alignment enabled by Large Language Models，36 (6) TKDE 2024
论文链接：https://arxiv.org/abs/2307.11772
代码链接：https://github.com/ruizhang-ai/AutoAlign

模型介绍

AutoAlign 主要由两部分组成：

用于将谓词（predicate）对齐的谓词嵌入模块（Predicate Embedding Module）。
用于将实体（entity）对齐的实体嵌入学习部分，包括两个模块：属性嵌入模块 （Attribute Embedding Module）和结构嵌入模块（Structure Embedding Module）。

总体流程如下图所示：

谓词嵌入模块：谓词嵌入模块旨在对齐两个知识图谱中代表相同含义的谓词。例如，将“is_in”和“located_in”进行对齐。为了实现这一目标，研究团队创建了一个谓词邻近图（Predicate Proximity Graph），将两个知识图谱合并成一个图，并将其中的实体替换为其对应的类型（Entity Type）。这种方式基于以下假设：相同（或相似）的谓词，其对应的实体类型也应相似（例如，“is_in”和“located_in”的目标实体类型大概率属于location或city）。通过大语言模型对类型的语义理解，进一步对齐这些类型，提高了三元组学习的准确性。最终，通过图编码方法（如TransE）对谓词邻近图的学习，使得相同（或相似）的谓词具有相似的嵌入，从而实现谓词的对齐。

具体实现上，研究团队首先构建谓词邻近图。谓词邻近图是一种描述实体类型之间关系的图。实体类型表示实体的广泛类别，可以自动链接不同的实体。即使某些谓词的表面形式不同（例如“lgd:is_in”和“dbp:located_in”），通过学习谓词邻近图，可以有效识别它们的相似性。构建谓词邻近图的步骤如下：

实体类型提取：研究团队通过获取每个实体在知识图谱中的rdfs:type谓词的值来提取实体类型。通常，每个实体有多个类型。例如，德国（Germany）实体在知识图谱中可能有多个类型，如“thing”、“place”、“location”和“country”。在谓词邻近图中，他们用一组实体类型替换每个三元组的头实体和尾实体。
类型对齐：由于不同知识图谱中的实体类型可能使用不同的表面形式（例如，“person”和“people”），研究团队需要对齐这些类型。为此，研究团队利用最新的大语言模型（如ChatGPT和Claude）来自动对齐这些类型。例如，研究团队可以使用Claude2来识别两个知识图谱中相似的类型对，然后将所有相似类型对齐为统一的表示形式。为此，研究团队设计了一套自动化提示词（prompt），能够根据不同的知识图谱进行自动化对齐词的获取。

为了捕捉谓词相似性，需要聚合多个实体类型。研究团队提出了两种聚合方法：加权和基于注意力的函数。在实验中，他们发现基于注意力的函数效果更好。具体而言，他们计算每个实体类型的注意力权重，并通过加权求和的方式获得最终的伪类型嵌入。接下来，研究团队通过最小化目标函数来训练谓词嵌入，使得相似的谓词具有相似的向量表示。

属性嵌入模块和结构嵌入模块：属性嵌入模块和结构嵌入模块都用于实体（entity）对齐。它们的思想和谓词嵌入相似，即对于相同（或相似）的实体，其对应的三元组中的谓词和另一个实体也应该具有相似性。因此，在谓词对齐（通过谓词嵌入模块）和属性对齐（通过 Attribute Character Embeding 方法）的情况下，我们可以通过TransE使相似的实体学习到相似的嵌入。具体来说：

属性嵌入学习：属性嵌入模块通过编码属性值的字符序列来建立头实体和属性值之间的关系。研究团队提出了三种组合函数来编码属性值：求和组合函数、基于LSTM的组合函数和基于N-gram的组合函数。通过这些函数，我们能够捕捉属性值之间的相似性，从而使得两个知识图谱中的实体属性可以对齐。
结构嵌入学习：结构嵌入模块基于TransE方法进行了改进，通过赋予不同邻居不同的权重来学习实体的嵌入。已对齐的谓词和隐含对齐的谓词将获得更高的权重，而未对齐的谓词则被视为噪声。通过这种方式，结构嵌入模块能够更有效地从已对齐的三元组中学习。
联合训练：谓词嵌入模块、属性嵌入模块和结构嵌入模块这三个模块可以进行交替训练，通过交替学习的方式互相影响，通过优化嵌入使其在各个结构的表示中达到整体最优。训练完成后，研究团队获得了实体（entity）、谓词（predicate）、属性（attribute）和类型（type）的嵌入表示。最后，我们通过对比两个知识图谱中的实体相似性（如cosine similarity），找到相似性高的实体对（需要高于一个阈值）来进行实体对齐。

实验结果

研究团队在最新的基准数据集DWY-NB (Rui Zhang, 2022) 上进行了实验，主要结果如下表所示。

AutoAlign在知识图谱对齐性能方面有显著提升，特别是在缺少人工标注种子的情况下，表现尤为出色。在没有人工标注的情况下，现有的模型几乎无法进行有效对齐。然而，AutoAlign在这种条件下依然能够取得优异的表现。在两个数据集上，AutoAlign在没有人工标注种子的情况下，相比于现有最佳基准模型（即使有人工标注）有显著的提升。这些结果表明，AutoAlign不仅在对齐准确性上优于现有方法，而且在完全自动化的对齐任务中展现了强大的优势。

#MoE

算法、系统和应用，三个视角全面读懂混合专家（MoE）

LLM 很强，而为了实现 LLM 的可持续扩展，有必要找到并实现能提升其效率的方法，混合专家（MoE）就是这类方法的一大重要成员。

最近，各家科技公司提出的新一代大模型不约而同地正在使用混合专家（Mixture of Experts：MoE）方法。

混合专家这一概念最早诞生于 1991 年的论文《Adaptive mixtures of local experts》，三十多年来已经得到了广泛的探索和发展。近年来，随着稀疏门控 MoE 的出现和发展，尤其是与基于 Transformer 的大型语言模型相结合，这种已有三十多年历史的技术焕发出了新的生机。

MoE 框架基于一个简单却又强大思想：模型的不同部分（称为专家）专注于不同的任务或数据的不同方面。

使用这一范式时，对于一个输入，仅有与之相关的专家（Expert）才会参与处理，这样一来便能控制计算成本，同时仍能受益于大量专业知识。因此，MoE 可在不大幅提升计算需求的前提下提升大语言模型的能力。

如图 1 所示，MoE 相关研究增长强劲，尤其是在 2024 年 Mixtral-8x7B 以及 Grok-1、DBRX、Arctic、DeepSeek-V2 等各种产业级 LLM 出现之后。

这张图来自香港科技大学（广州）的一个研究团队近日发布的一篇 MoE 综述报告，其中清晰且全面地总结了 MoE 相关研究，并提出了一种全新的分类法，将这些研究归类到了算法、系统和应用三大类。

论文标题：A Survey on Mixture of Experts
论文地址：https://arxiv.org/pdf/2407.06204

混合专家的背景知识

在基于 Transformer 的大型语言模型（LLM）中，每个混合专家（MoE）层的组成形式通常是 𝑁 个「专家网络」{𝑓_1, ... , 𝑓_𝑁} 搭配一个「门控网络」G。

这个门控网络的形式通常是一个使用 softmax 激活函数的线性网络，其作用是将输入引导至合适的专家网络。MoE 层的放置位置是在 Transformer 模块内，作用是选取前向网络（FFN），通常位于自注意力（SA）子层之后。这种放置方式很关键，因为随着模型增大，FFN 的计算需求也会增加。举个例子，在参数量达到 5400 亿的 PaLM 模型中，90% 的参数都位于其 FFN 层中。

用数学形式描述的话：每个专家网络 𝑓_𝑖 （通常是一个线性 - ReLU - 线性网络）都由 W_𝑖 进行参数化，其接收同一输入 x 并生成输出 𝑓_𝑖 (x; W_𝑖)。同时，参数为 Θ 的门控网络 G（通常由一个线性 - ReLU - 线性 - softmax 网络构成）得到输出 G (x; Θ)。再根据门控函数的设计方式，可以将 MoE 层大致分为以下两类。

密集 MoE

密集混合专家层是在每次迭代过程中激活所有专家网络 {𝑓_1, ... , 𝑓_𝑁}。早期的 MoE 研究普遍采用了这一策略。近段时间也有一些研究采用了密集 MoE，比如 EvoMoE、MoLE 、LoRAMoE 和 DS-MoE。图 2a 给出了密集 MoE 层的结构。因此，密集 MoE 层的输出可以表示成：

其中，𝑔(x; Θ) 是 softmax 运算之前的门控值。

稀疏 MoE

尽管密集混合专家的预测准确度通常更高，但其计算负载也非常高。

为了解决这个问题，Shazeer et al. 的论文《Outrageously large neural networks: The sparsely-gated mixture-of-experts layer》引入了稀疏门控 MoE 层，其能在每次前向通过时仅激活选定的专家子集。该策略实现稀疏性的方式是计算 top-k 个专家的输出的加权和，而非将所有专家的输出聚合到一起。图 2b 展示了这种稀疏 MoE 层的结构。

根据上述论文提出的框架，可对 2.2 式进行修改以反映稀疏门控机制：

这里解释一下：TopK (・, 𝑘) 函数是仅保留向量原始值的前 k 项，同时将其它项设置为 −∞。之后是 softmax 运算，所有 −∞ 项都会变成近似于零。超参数 k 要根据具体应用选取，常见选项是 𝑘 = 1 或 𝑘 = 2。加入噪声项 R_noise 是训练稀疏门控 MoE 层的一种常用策略，可促进专家之间的探索并提升 MoE 训练的稳定性。

尽管稀疏门控 G (x; Θ) 可在不增加相应计算成本的前提下显著扩展模型的参数空间，但也会导致负载平衡问题。负载平衡问题是指各专家的负载分布不均 —— 某些专家被频繁使用，而另一些专家则很少被使用甚至完全不上场。

为了解决这个问题，每个 MoE 层都要集成一个辅助损失函数，其作用是敦促每批次的 token 被均匀分配给各个专家。从数学形式描述来看，首先定义一个包含 T 个 token 的查询批次 B = {x_1 , x_2, ... , x_𝑇 } 以及 N 个专家。则对于其的辅助负载平衡损失定义为：

其中 D_i 是分配给专家 i 的 token 比例，P_i 是分配给专家 i 的门控概率比例。为了确保该批次在 N 个专家之间均匀分布，应当最小化负载平衡损失函数 L_{load-balancing}。当每个专家都被分配了同等数量的 token D_𝑖 = 1/𝑁 和同等的门控概率 P_𝑖 = 1/𝑁 时，即达到最优条件：

此时各专家的负载达到平衡。

在后文中，除非另有明确说明，则「MoE」这一术语单指「稀疏 MoE」。

混合专家的分类

为了帮助研究者在大量采用 MoE 的 LLM 研究中找到目标，该团队开发了一套分类方法，根据三个方面对这些模型进行了分类：算法设计、系统设计和应用。

图 3 展示了这种分类法以及一些代表性研究成果。

下面将全面深入地介绍各类别的情况。

混合专家的算法设计

门控函数

门控函数（也被称为路由函数或路由器）是所有 MoE 架构的基础组件，其作用是协调使用专家计算以及组合各专家的输出。

根据对每个输入的处理方法，该门控可分为三种类型：稀疏式、密集式和 soft 式。其中稀疏式门控机制是激活部分专家，而密集式是激活所有专家，soft 式则包括完全可微方法，包括输入 token 融合和专家融合。图 4 展示了 MoE 模型中使用的各种门控函数。

稀疏式

稀疏门控函数在处理各个输入 token 时会激活被选中的部分专家，这可被视为一种形式的条件计算。

门控函数可以实现多种形式的门控决策，比如二元决策、稀疏或连续决策、随机或确定性决策；其已经得到了深入的研究，可使用各种形式的强化学习和反向传播来训练。

Shazeer et al. 的研究《Outrageously large neural networks: The sparsely-gated mixture-of-experts layer》开创性地提出了一种使用辅助负载平衡损失的可微分启发式方法，其中可根据选取概率对专家计算的输出进行加权。这为门控过程引入了可微性，由此可通过梯度来引导门控函数的优化。

后来，这一范式便成了 MoE 研究领域的主导范式。由于这种方法会针对每个输入 token 选择专家，因此可将其看作是 token 选择式门控函数。

以下为这一小节的要点，详见原论文：

token 选择式门控
用于 token 选择式门控的辅助损失
token 选择式门控的专家容量
token 选择式门控的其它进展
不可训练的 token 选择式门控
专家选择式门控

密集式

密集 MoE 是指处理每个输入时都激活所有专家。

虽然稀疏 MoE 有效率方面的优势，但密集 MoE 方向依然在不断迎来创新。尤其值得一提的是，密集激活在 LoRA-MoE 微调方面表现很好，并且 LoRA 专家的计算开销相对较低。这种方法能够有效灵活地集成多个 LoRA 以完成各种下游任务。这能保留原始预训练模型的生成能力，同时保留各个 LoRA 针对各个任务的独有特性。

soft 式

对稀疏 MoE 来说，一大基本离散优化难题是如何决定为每个 token 分配哪些合适的专家。为了确保专家能平衡地参与并尽可能减少无分配 token，这通常必须启发式的辅助损失。在涉及分布外数据的场景（比如推理批次小、有全新输入或迁移学习）中，这个问题尤其显著。

类似于密集 MoE，soft MoE 方法在处理每个输入时也会使用所有专家，从而维持完全可微性，进而避免离散专家选择方法的固有问题。soft MoE 与密集 MoE 的不同在于前者会通过对输入 token 或专家进行门控加权的融合来缓解计算需求。

专家

这一节会介绍 MoE 框架内专家网络的架构，并会讨论协调这些专家的激活的门控函数。

网络类型

自从 MoE 被整合到 Transformer 架构中以来，其通常会替代这些模型中的前向网络（FFN）模块。通常来说，MoE 层中的每个专家都会复制其替换的 FFN 的架构。

这种将 FFN 用作专家的范式到现在依然是主流，但人们也对此做了不少改进。

超参数

稀疏 MoE 模型的规模由几个关键超参数控制，包括：

每个 MoE 层的专家数量
每个专家的大小
MoE 层在整个模型中的放置频率

这些超参数的选择至关重要，因为它会深刻影响模型在各种任务中的性能和计算效率。因此，要根据特定的应用要求和计算基础设施来选择最佳超参数。表 2 给出了一些使用 MoE 的模型的配置情况。

另外，表 3 列举了一些近期的开源模型的参数数量和基准性能。

激活函数

基于密集 Transformer 架构构建的稀疏 MoE 模型采用了与 BERT、T5、GPT 和 LLAMA 等领先的密集 LLM 类似的激活函数。激活函数已经从 ReLU 发展出了 GeLU、GeGLU、SwiGLU 等更先进的选择。

这一趋势也扩展到了 MoE 模型的其它组件，它们经常整合均方根层归一化（RMSNorm）、分组查询注意力（GQA）和旋转位置嵌入（RoPE）等技术。

共享专家

DeepSpeed-MoE 创新性地引入了残差 MoE（Residual-MoE）架构，其中每个 token 都由一个固定专家外加一个门控选择的专家进行处理，实现了每一层都有两个专家参与处理，同时也不会让通信成本超过 top-1 门控方法。这种方法是把门控选择的 MoE 专家当作是固定密集 FFN 的纠错辅助。

NLLB 中使用的条件式 MoE 路由（CMR/Conditional MoE Routing）也采用了类似的方法，将密集 FFN 和 MoE 层的输出组合起来使用。

将固定 FFN 和稀疏 MoE 整合起来的范式通常被称为共享专家，如图 5b 所示。

近期有 DeepSeekMoE、OpenMoE、Qwen1.5-MoE 和 MoCLE 等模型采用这一范式，表明其正在成为一种主流配置。不过 DeepSeekMoE 和 Qwen1.5-MoE 采用了多个共享专家，而不是单个。

混合参数高效型专家

参数高效型微调（PEFT）是一种提升微调效率的方法。简单来说，PEFT 就是在微调时仅更新基础模型的一小部分参数。

PEFT 很成功，但由于其可训练的参数有限以及可能存在的灾难性遗忘问题，该方法难以用于需要泛化到多个任务的情况。

为了缓解这些局限，混合参数高效型专家（MoPE）诞生了，其将 MoE 框架与 PEFT 整合到了一起。MoPE 集成了 MoE 的门控机制与多专家架构，同时每个专家都使用了 PEFT 技术进行构建。这种巧妙的组合能极大提升 PEFT 在多任务场景中的性能。此外，由于使用了 PEFT 来构建专家，因此 MoPE 使用的参数也更少，资源效率比传统 MoE 模型高得多。

MoPE 融合了 MoE 的多任务特性与 PEFT 的资源效率，是一个极具前景的研究方向。图 6 根据在 Transformer 模型架构中的位置对 MoPE 进行了分类。至于 MoPE 方面更详细的研究成果介绍，请参看原论文。

训练和推理方案

混合专家在进步发展，相关的训练和推理方案也在进步发展。

初始的训练和推理方案需要从头开始训练 MoE 模型，直接采用训练的模型配置来执行推理。

但现在，MoE 模型的训练和推理方面已经出现了许多新范式，包括组合密集模型和稀疏模型的优势实现取长补短。

图 7 展示了与 MoE 相关的训练和推理方案，可以看到新出现的方案可分为三类：

密集到稀疏：从密集模型训练开始，逐步过渡到稀疏 MoE 配置；
稀疏到密集：涉及到将稀疏 MoE 模型降格为密集形式，这有利于将推理实现为硬件形式；
专家模型融合：将多个预训练密集专家模型整合成一个统一的 MoE 模型。

MoE 的衍生技术

混合专家（MoE）启发了许多不同的变体技术。举个例子，Xue et al. 的论文《Go wider instead of deeper》提出了模型宽度增大的 WideNet，其做法是将前向网络（FFN）替换成 MoE 层，同时维持 Transformer 层上的共享可训练参数，但归一化层除外。

另外还有 Tan et al. 提出的 SYT（稀疏通用 Transformer）、Antoniak et al. 提出的 MoT（混合 token）、Choi et al. 提出的 SMoP（稀疏混合提词）、Chen et al. 提出的 Lifelong-MoE、Raposo et al. 提出的 MoD（混合深度）等。

总结一下，MoE 衍生技术的发展揭示了一个趋势：MoE 的功能越来越多，越来越能适应不同的领域。

混合专家的系统设计

混合专家（MoE）虽然能增强大型语言模型的能力，但也带来了新的技术挑战，因为其具有稀疏且动态的计算负载。

GShard 引入了专家并行化（expert parallelism），可根据专家能力的负载平衡限制来调度切分后的局部 token，从而实现并行的门控和专家计算。该范式已经成为促进 MoE 模型高效扩展的基础策略。我们可以将该方法看作是增强版的数据并行化 ——MoE 层中的每个专家都被分配到一台不同设备，同时所有设备上都重复配备所有非专家层。

如图 8a 所示，专家并行化的工作流程是按顺序执行以下操作：门路由、输入编码、All-to-All 调度、专家计算、All-to-All 组合、输出解码。

一般来说，GEMM 的输入大小需要足够大，以便充分利用计算设备。因此，要使用输入编码将同一个专家的输入 token 聚合到连续的内存空间中，这由门路由中的「token - 专家映射」决定。之后，All-to-All 调度的作用是将输入 token 分发给各设备上对应的专家。之后是专家的本地化计算。计算完成后再通过 All-to-All 组合汇总，然后解码输出，根据门控索引恢复原始数据的布局。

此外，也有研究者探索专家并行化与其它已有并行策略（比如张量、管道化、序列并行化）的协同，以提升 MoE 模型在大规模分布式环境中的可扩展性和效率。

图 8 中给出了一些混合并行化示例，包括 (b) 数据 + 专家 + 张量并行化、(c) 数据 + 专家 + 管道并行化、(d) 专家 + 张量并行。

需要认识到，计算效率、通信负载、内存占用之间存在复杂的相互作用，分布式并行化策略的选择会对其产生影响，并且也会被不同的硬件配置影响。因此，在部署用于实际应用的策略时，必须细致地权衡考虑并针对具体场景进行调整。

之后，该团队分计算、通信和存储三大板块介绍了 MoE 模型开发所面临的系统设计难题以及解决这些难题的研究成果，详见原论文。表 4 给出了开源 MoE 框架的概况。

混合专家的应用

在当前 Transformer 主导的大型语言模型（LLM）领域，混合专家（MoE）范式颇具吸引力，因为其能在不给训练和推理阶段引入过大计算需求的前提下大幅提升模型能力。这类技术能显著 LLM 在多种下游任务上的性能，甚至造就了一些超越人类水平的 AI 应用。

有传言说强大如斯的 GPT-4 可能也采用了某种 MoE 架构 —— 由 8 个 2200 亿参数的专家构成，在多样化的数据集和任务上完成了训练，并使用了一种 16 次迭代的推理过程。

所以，毫不奇怪 MoE 在自然语言处理、计算机视觉、推荐系统和多模态应用中遍地开花了。

这些应用本质上就需要使用条件计算来大幅提升模型的参数量，以此增强模型在固定计算成本下的性能，或通过门控机制实现动态专家选择来实现高效多任务学习。

该团队也介绍了这些不同领域的代表性 MoE 应用，可帮助读者理解如何将 MoE 用于具体任务。详见原论文。

挑战与机遇

混合专家，功能强大，降低成本，提升性能。前景虽好，仍有挑战。

这一节中，该团队梳理了 MoE 相关的关键性挑战，并指出了有希望获得重要成果的未来研究方向。下面简要列出了这些挑战和研究方向，更多详情请查看原论文。

训练稳定性和负载平衡
可扩展性和通信开销
专家的专业化和协作
稀疏激活和计算效率
泛化和稳健性
可解释性和透明性
最优的专家架构
与现有框架整合

#清影

智谱AI杀入视频生成「清影」上线，时长6秒，免费不限量

智谱大模型团队自研打造。

自从快手可灵 AI 火爆海内外，国内视频生成也如同 2023 年的文本大模型一样，越来越卷了。

刚刚，又一视频生成大模型产品宣布正式上线：智谱 AI 正式发布「清影」。只要你有好的创意（几个字到几百个字），再加上一点点耐心（30 秒），「清影」就能生成 1440x960 清晰度的高精度视频。

即日起，清影上线清言 App，所有用户都可以全方位体验对话、图片、视频、代码和 Agent 生成功能。除了覆盖智谱清言的网页端和 App，你也可以在「AI 动态照片小程序」上进行操作，快速为手机里的照片实现动态效果。

智谱「清影」生成的视频时长有 6 秒，清晰度达到 1440×960，所有用户均可以免费使用。

PC 端访问链接：https://chatglm.cn/
移动端访问链接：https://chatglm.cn/download?fr=web_home

智谱 AI 表示，随着技术的不断发展，「清影」的生成能力很快将可以用于短视频制作，广告生成甚至电影剪辑等工作中。

在生成式 AI 视频模型的研发中，Scaling Law 继续在算法和数据两方面发挥作用。「我们积极在模型层面探索更高效的 scaling 方式。」在智谱 Open Day 上，智谱 AI CEO 张鹏表示：「随着算法、数据不断迭代，相信 Scaling Law 将继续发挥强有力作用。」

拿捏各种风格

从目前的一些 Demo，以及简单试用的情况看来，智谱 AI 的「清影」具有如下特点：

在风景、动物、科幻、人文历史等类型的视频内容上生成的表现较好；
擅长生成的视频风格包括卡通风格、真实摄影风格、二次元动漫风格等；
实体类型呈现效果上看，动物 > 植物 > 物品 > 建筑 > 人物。

它既可以文字生成视频，也可以完成图生视频，生成的风格覆盖奇幻动画风格。

文生视频

提示词：低角度向上推进，缓缓抬头，冰山上突然出现一条恶龙，然后恶龙发现你，冲向你。好莱坞电影风。

提示词：一个法师正在海浪中施展法术，宝石将海水都聚集过来，打开了一道魔法传送门。

提示词：蘑菇变成小熊。

到真实景物：

提示词：在一片森林中，人视，参天大树遮蔽着太阳，树叶的缝隙中洒下一些阳光，丁达尔效应。

提示词：一只水豚鼠像人一样站立着，手里拿着冰激凌，开心得吃起来。

图生视频

除了文本生成视频，也可以到清影上玩图片生成视频。图生视频带来了更多的新玩法，包括表情包梗图、广告制作、剧情创作、短视频创作等。同时，基于清影的「老照片动起来」小程序也会同步上线，只需一步上传老照片，AI 就能让凝练在旧时光中的照片灵动起来。

提示词：一条自由移动的七彩鱼。

提示词：图中男子站起来，风吹着他的头发。

提示词：小黄鸭玩具漂浮在游泳池的水面，特写。

再到现代艺术：

提示词：摄像机围绕着一大堆老式电视旋转，这些电视播放着不同的节目 ——20 世纪 50 年代的科幻电影、恐怖电影、新闻、静态、70 年代的情景喜剧等，背景设在纽约博物馆的一个大型画廊里。

提示词：掏出一个苹果手机拍照。

无提示词。

你常用的表情包，智谱 AI 能把它延长成「连续剧」。

提示词：师徒四人伸出手互相击掌，脸上是困惑的表情。

提示词：小猫张大了嘴，脸上是困惑表情，很多问号。

可以看出，清影各类风格都可以拿捏，还有更多的玩法等待人们来发掘。只需要在智谱清言 PC/APP 上，点击「清影智能体」功能，就可以让你的每一个创意在瞬间化为现实。

全自研技术

All in 大模型的智谱 AI，很早就开始部署多模态生成式 AI 模型。从 2021 年开始，智谱 AI 先后发布了 CogView（NeurIPS’21）、 CogView2（NeurIPS’22）、CogVideo（ICLR’23）、Relay Diffusion（ICLR’24）、CogView3 （2024）等多项研究。

据介绍，「清影」依托于智谱 AI 大模型团队自研打造的新一代视频生成大模型 CogVideoX。

去年 11 月，其团队基于文生图模型 CogView2 打造出了文本到视频生成模型 CogVideo，并随后将其开源。

CogVideo 拥有 94 亿参数，它通过 CogView2 生成一系列初始帧，基于双向注意力模型对图像进行插帧的方法实现视频生成。此外，CogVideo 根据文本描述生成 3D 环境，可直接利用预训练模型，避免了昂贵的训练，它也支持中文的 Prompt 输入。

本次清影底座的视频生成模型是 CogVideoX，它能将文本、时间、空间三个维度融合起来，参考了 Sora 的算法设计，它也是一个 DiT 架构，通过优化，CogVideoX 相比前代（CogVideo）推理速度提升了 6 倍。

OpenAI 的 Sora 横空出世，让 AI 在视频生成方面取得了显著进展，但大多数模型在生成具有连贯性和逻辑一致性的视频内容方面仍然存在困难。

为了解决这些问题，智谱 AI 自研了一个高效的三维变分自编码器结构（3D VAE），可以将原视频空间极致压缩到 2%，使得模型训练成本大幅下降，训练难度也大大降低。

模型结构采用因果三维卷积（Causal 3D convolution）为主要模型组件，并将自编码器中常用的注意力模块移除，使得模型具备不同分辨率迁移使用的能力。

同时，在时间维度上因果卷积使得模型视频编解码具备从前向后的序列独立性，这有助于通过微调将模型扩展到更高帧率和更长时间的场景。

除此以外，视频生成还面临这样一个问题，即视频数据大多缺乏对应的描述性文本或者描述质量低下，为此智谱 AI 自研了一个端到端的视频理解模型，用于为海量的视频数据生成详细的、贴合内容的描述，进而构建海量的高质量视频文本对，使得训练出的模型指令遵循度高。

最后值得一提的是，智谱 AI 自研了一个将文本、时间、空间融合起来的 transformer 架构，该架构没有采用传统 cross attention 模块，而是在输入阶段就将文本嵌入和视频嵌入连接起来，以便更充分地进行两种模态的交互。

然而文本和视频特征空间存在很大差异，智谱 AI 通过 expert adaptive layernorm 对两者分别进行处理，使得模型能够高效利用参数来更好地将视觉信息与语义信息对齐。

智谱 AI 表示，通过优化技术，智谱 AI 生成式视频模型的推理速度提升了 6 倍。目前生成 6s 视频，模型花费的理论时间是 30 秒钟。

如今随着「清影」的上线，视频生成赛道又出现了智谱 AI 这位重磅玩家。

除了人人都能尝试的应用之外，清影 API 也同步上线大模型开放平台 bigmodel.cn，企业和开发者可以通过调用 API 的方式，体验和使用文生视频以及图生视频的模型能力。

随着各家公司 AI 视频生成功能的不断上线，今年的生成式 AI 竞赛已经进入白热化阶段。对于大多数用户来说，选择也更多了：现在，无论是完全没有视频制作基础的人，还是专业的内容创作者，都能借助大模型能力实现视频创作。

#AI学习搭子

B站AI课几秒出总结，划词就给解释，这个「AI学习搭子」真香

在 ChatGPT 走红之后，本着「打不过就加入」的心态，很多职场人学起了 AI。但遗憾的是，不少人走了弯路，甚至还被某些「199」的课程割了韭菜。

其实，学 AI 这事儿并不难。读文章、看视频、啃论文都是很好的学习方式。

当然，还是有不少读者吐槽，学 AI 就像当年学英语一样，总会遇到一些让人头疼的「生词」，读论文比做阅读理解还麻烦，视频课程也不知道哪个适合自己，浪费了不少时间。

AI 学习路上遇到的这些「绊脚石」，皆因你缺少一个学习搭子。

有人可能在第一句就卡住了：AlphaGo 是什么？别着急，只要轻轻一划，学习搭子就给解释得明明白白。

学到一定程度要读英文论文，但英语水平一般？别着急，这个搭子不仅会翻译，还随时等着你提问。

网上的学习视频五花八门，不知道应该选哪个？没关系，先让学习搭子总结一下。

怎么样，用上这个学习搭子，AI 学习之路是不是顺畅多了？

这就是我们最近发现的一个学习、工作神器 —— 豆包电脑版。

接下来，就来揭秘一下这款提效神器是怎么帮我们学习 AI 的吧。

在 B 站白嫖的课，还能有助教？

对于大部分 AI 初学者来说，看视频是最快速的入门方式。在这方面，B 站可以说是 AI 爱好者的「天堂」，网罗了众多学习资源，例如宝可梦大师李宏毅、江湖人称「沐神」的李沐录制的学习视频，随便一扒拉就能找到。

但是，找到并不意味着适合。很多视频其实有一定难度，需要有点编程和数学基础才能听懂。不少初学者可能接连点开十几个视频，经历了满满的挫败感、浪费了几个小时后才找到适合自己的。

编辑部新同学在学 AI 的时候也遇到这个问题。所以，当发现豆包电脑版的「AI 看 B 站」功能时，大家如获至宝。

以李宏毅最近开设的《生成式人工智能导论》这门课为例，在点开之前，我们还担心，这门课会不会要求很高。结果，看了豆包总结的第一讲概要，这种顾虑就打消了。

为了进一步确认，我们还向豆包发起了一轮追问：

既然门槛不高，那就学学看。不过，学习总要做笔记，打工人看视频的时间本身就是挤出来的，压根没时间慢慢整理。

在看到第二讲时，我们发现，这个活儿，豆包就能干。它不仅能整理出每堂课的要点，甚至连脑图都能画出来。要知道，李宏毅老师操着一口浓重的台湾腔，豆包竟也能总结得如此精准，这多少有点出人意料。

也许会有人说，前面讲的内容过于简单，课程总共 26 个小时，为了节省时间，我只想看我没学过的。豆包电脑版让这事儿变得 so easy，因为无论是「原网页」模式，还是「AI 看视频」模式，它都有按照时间轴排列的局部总结，直接点感兴趣的部分就可以挑着看。

不过有时候，这些总结可能解答不了我们的疑问，或者老师讲的某个概念我们没听过。这要搁以前，我们需要切换网页，比如打开 ChatGPT 查一查，弄懂之后再切回来。看一个视频，往往要在各种网页间反复横跳。

在豆包电脑版里，这些问题都可以在一个界面里解决，因为它有一个「在聊天中继续」的功能，可以边看视频边提问，就像听那种配置了助教的网课一样，不管问什么都有人回应你。

我们还用这个工具尝试了一下李沐的课程，效果一样丝滑：

总的来说，以前在 B 站看 AI 视频，在搜出符合条件的课程之后非常迷茫，不知道看哪个，而且看完满脑子问号。现在用豆包看，花几秒钟就能了解个大概，而且看的过程中，问题也能解决个七七八八，学习效率蹭蹭往上提。喜欢看视频学习的小伙伴可以试试这个功能。

读 AI 文章不卡壳，哪里不懂划哪里

看视频入了门，再读几篇文章巩固一下学习成果是最好的。不过，很多读者反映，读文章时总遇到一些麻烦，比如每读几句就有一个词不知道什么意思，就像当年在考场上做英语阅读理解一样。要是有个类似「词典笔」的东西就 perfect。

在豆包电脑版上，这个「词典笔」还真有，就是你的鼠标。读到哪段，只需要用鼠标轻轻一划，豆包的工具栏就出来了。而且，根据我们的实测，这个功能不限制浏览器。也就是说，无论你在哪个浏览器上看文章，都能通过「划词」把豆包调出来，它如同内置在你的系统中一样。

初学 AI，被各种专业名词搞得云山雾罩，有招！继续划词，点「解释」或「搜索」。

英语不过关，看不懂文章中引用的原文，还是划词，点「翻译」。

文章中间某个版块太长，没时间慢慢看。那就整个板块都划一下，然后点「总结」，原文中的亮点、精华就条分缕析地摆了出来。

在探索过程中，我们还发现，这个工具栏其实是自定义的，你可以把自己常用的几个功能放在优先位置。

如果要说用上该功能的总体感觉，那就是，原来读文章，读几段就犯迷糊，有些地方不懂也懒得查，因为网页切换是个分散精力的事情。现在，有了这个「词典笔」一样的划词功能，读一篇文章学到的东西比以往读好几篇都多，这是之前使用其他单独的 AI 大模型不曾有过的体验。

身兼翻译和顾问，「AI 伴读」陪你读论文

入门视频、文章看得差不多了，如果还想在 AI 之路上进阶，就得在论文里「历劫」。

众所周知，AI 论文是出了名的难啃，不仅篇幅长得吓人，还是全英文，其中穿插着各种不明觉厉的图表。AI 学习者光瞅着这些密密麻麻的英文单词，热情就消了一半。

巧了，豆包电脑版搞了个 AI 伴读模式，经过一段时间的试用，我们发现它对搞定论文有「奇效」。

以 Meta 最新发布的 Llama 3 论文为例，我们把它丢给豆包，并启用「AI 伴读」模式，全文对照翻译「哗」一下就出来了。所以说，这年头想学 AI，英语不过关也不是什么大事。

不过，这篇论文总共有 92 页，即使读中文翻译，一时半会儿也读不完。好在，豆包就在侧边栏候着，等着你给它分配任务，比如总结论文要点。

对于总结中没有涵盖的细枝末节，你也不需要瞪大眼睛找，直接问豆包就行。

有些人不喜欢看论文描述，只关心模型跑分，那就把整个页面调成图表模式，感兴趣的图表一键直达。

按照这种方式，资深 AI 研究者一天读个十几篇论文也是洒洒水而已。

在豆包里写博客，不用对着一个空白文档发呆

读完论文，很多 AI 学习者有将其写成博客的习惯，这既是一种对学习成果的巩固，也是一种传播知识的有效方式。

不过，我们观察到，很多高质量博客的博主更新频率较低。这可能是因为写博客非常占用时间，构思框架、填充细节都相当繁琐；又或许是有表达欲望，但面对一片空白的文档，发一会儿呆之后就放弃了。

安上豆包后，这个情况也许会有所改善。因为我们发现，豆包不仅能出大纲，还承包了写作、润色、配图等多项工作，可以让博客作者专注于思想的传达，而不是一些细枝末节。

还是以 Llama 3 的论文为例，我们把它喂给豆包，让它构思个大纲。为了重点突出，我们还把 prompt 限制了一下，豆包也遵循了我们的指示。

文章骨架支棱起来，接下来就是填充「血肉」。为了让豆包获取最新最准确的消息，我们在 prompt 中要求启用「深度搜索」功能，然后根据上述大纲分段写作。

担心文章有 AI 味？豆包的划词功能再度「出山」，哪里不满意划哪里。比如信息增量太少，就使用划词扩写功能。

要是嫌语言干干巴巴，我们还可以使用划词的自定义功能，让它写得通俗易懂一些。

搞定了文字部分，下一步就是配图啦。

豆包电脑版的「图像生成」功能主打一个贴心，官方给出了「人像摄影」、「艺术」、「国风插画」等 7 个风格标签，同时提供一大堆图像实例，甚至还附上了提示词。

我们让它画一幅「机器人在看书」的画作，风格为 3D。来瞅瞅效果：

此外，它还能上传参考图。例如，我们上传一张带有未来科技风格的人形机器人，输入提示词后，一次就能得到 4 张类似插图。

再上效果：

至此，一篇关于开源 AI 模型 Llama3 的博客文章就完事了。

要是有朋友觉得这样麻烦，也可以启用豆包电脑版的「帮我写作」功能，34 种体裁和风格随便选，什么公众号文章、论文、报告、微博、小红书…… 它都能玩转。

举个例子，我们写一篇关于 Llama3.1 的微博，只要告诉它主题和参考信息，它就能把语言自动转换成微博风，就连表情包、标签都生成好了，只等你一键复制到微博。

整套流程走下来，豆包电脑版确实能给想写点 AI 知识性内容的同学省出不少时间。

网友：豆包就像一个带 AI 功能的操作系统

豆包电脑版一出，不少网友前去尝鲜。

有网友表示，豆包野心不小，也整起了浏览器，甚至可以说是一个带 AI 功能的操作系统。

还有网友种草了「AI 看 B 站」功能，要把它焊死在小破站上。

当然，罗马不是一日建成的。

2023 年 6 月，字节开始测试代号 Grace 的 AI 对话项目，彼时，云雀大模型还未出世。

8 月份，字节发布自研的云雀大模型，并搭上了国内大模型产品备案的首班车，同时还将 Grace 更名为「豆包」，正式进行公测。

经过大半年的蛰伏，在今年 5 月中旬的火山引擎原动力大会上，豆包传来了新消息 ——字节跳动给云雀大模型也改了个名，统一叫「豆包」大模型，还一口气发布了 9 个大模型产品，涵盖通用模型、角色扮演、语音识别、文生图等多个领域。

#ETH官宣制裁zg学生

(这边邮发布了又和谐~~~~~)

xxxx以下又没了

在这种双重限制下，如果确实在受影响的高校和专业就读，最明智的做法就是尽早准备，并尝试申请其他学校。相信能够申请ETH的学生背景都不会差，他们在其他优质院校同样能够获得良好的发展机会。

#教授何恺明在MIT的第二门课——《深度生成模型》

又有机会跟着大神学习了！

今年 2 月起，何恺明已经开始了自己在 MIT 的副教授职业生涯，并在 3 月 7 日走上讲台完成了「人生中教的第一堂课」。

近日，我们发现了何恺明的第二门课程《深度生成模型》（6.S978: Deep Generative Models），已经于 9 月初开始了授课。

在何恺明担任讲师之外，MIT CSAIL 计算设计与制造团队（Computational Design & Fabrication Group）的四年级博士生 Minghao Guo 担任助教。

这门课程被热心网友推荐给准备教授计算机视觉与深度学习的人作为参考。

网友感慨何恺明是残差网络（ResNet）的发明者，非常厉害。不过能具备这门课程先修知识的人应该很少。看来，课程的难度较高，需要较为扎实的学习背景。

课程概览

据介绍，这是一门研讨会课程，目标受众是正在进行（或计划进行）深度生成模型研究的研究生（graduate）。

课程介绍了深度生成模型的概念、原理和应用，主要涵盖了计算机视觉（如图像、视频、几何）和相关领域（如机器人技术、生物学、材料科学等）中的场景。课程侧重于不同问题和学科之间共享的通用范式和方法。

核心主题包括变分自编码器、自回归模型、生成对抗网络、扩散模型及其应用，覆盖了基础框架和最新研究前沿。

课程分为讲师讲座、客座讲座和学生研讨会。学生研讨会包括了论文阅读、演示和讨论。当然了，课程对学生的要求非常高，包括如下：

参加所有讲座和研讨会
每两周完成一次习题集
在研讨会上发表一篇论文：20 分钟演示 + 10 分钟讨论和 QA
完成最终项目和项目演示
……

课程共分为 15 周完成，除了第 1 周和最后一周，每周各有两节课（分别为阅读课和讲座）。目前，课程已经进行到了第 10 周，主题分别如下：

Week 1：深度生成模型简介
Week 2：建模图像先验、变分自编码器（VAE）
Week 3：归一化流、自回归（AR）模型
Week 4：自回归（AR）模型、AR 和分词器（tokenizer）
Week 5：AR 和扩散、生成对抗网络（GAN）
Week 6：扩散领域的 GAN
Week 7：基于能量的模型、分数匹配和扩散模型
Week 8：扩散模型、去噪后的扩散
Week 9：离散扩散、流匹配 1
Week 10：流匹配 2、CMU 助理教授朱俊彦讲座《确保生成模型的数据所有权》（Ensuring Data Ownership in Generative Models）

其中前 5 期讲座的 PPT 已经放出来了。

地址：https://mit-6s978.github.io/assets/pdfs/lec1_intro.pdf

地址：https://mit-6s978.github.io/assets/pdfs/lec2_vae.pdf

地址：https://mit-6s978.github.io/assets/pdfs/lec3_ar.pdf

地址：https://mit-6s978.github.io/assets/pdfs/lec4_gan.pdf

地址：https://mit-6s978.github.io/assets/pdfs/lec5_diffusion.pdf

更详细的课程计划参考下图，接下来的主题将包括：视频、3D、几何、机器人、材料科学、蛋白质和生物学等领域的应用。此外还有 OpenAI 战略探索团队负责人宋飏的讲座《一致性模型》（Consistency Models）。

课程地址：https://mit-6s978.github.io/

#FAN

揭示Transformer重要缺陷！北大提出傅里叶分析神经网络FAN，填补周期性特征建模缺陷

本文的通讯作者是北京大学计算机学院长聘教授李戈。第一作者：董益宏，北京大学计算机学院 22 级博士生，曾在 ISSTA、FSE、ACL、NeurIPS、TOSEM 等 CCF-A 类 / SCI 一区国际顶级会议和期刊上发表 11 篇学术论文。

周期性现象广泛存在，深刻影响着人类社会和自然科学。作为最重要的基本特性之一，许多规律都显式或隐式地包含周期性，例如天文学中的行星运动、气象学中的季节变化、生物学中的昼夜节律、经济学中的商业周期、物理学中的电磁波以及数学运算和逻辑推理等。因此，在许多任务和场景中，人们希望对周期进行建模，以便根据以往的经验进行推理。

尽管以 MLP 和 Transformer 为代表的基础模型已经取得了显著的成功，但是它们却在周期性建模方面存在潜在的缺陷。即使面对简单的正弦函数，现有基础模型也难以理解其中的周期性规律，在外推时表现出完全失控的状态，未能有效捕捉到周期性现象的本质。

图 1：不同基础模型在其训练数据域内外对正弦函数的表现，其中 x 为标量。

为此，北京大学李戈教授的团队提出了一种新型网络架构 FAN（Fourier Analysis Networks）。通过引入傅里叶级数的思想，FAN 能够将周期性信息直接嵌入网络的结构中，使模型更自然地捕捉和理解数据中的周期性模式。

论文链接：https://arxiv.org/pdf/2410.02675.pdf
代码链接：https://github.com/YihongDong/FAN
论文标题：FAN: Fourier Analysis Networks

实验表明，FAN 不仅在周期性建模上的表现显著优于现有模型，而且在符号公式表示、时间序列预测和语言建模等实际任务中也同样表现出色，超过了 Transformer 等主流模型。

研究者认为，许多实际任务都显式或者隐式地包含潜在的周期性特征，良好的周期性建模对于提升模型在这些任务上的表现是必要的，而现有基础模型严重依赖数据驱动的优化方式，缺少明确的机制来理解数据中的根本原理。

FAN 的意义在于，它提供了一种全新的范式来有效地建模周期性，能够无缝替换传统 MLP，同时减少参数量和计算量，填补了当前基础模型在周期性建模上的缺陷，并展示出广泛的应用潜力。

图 2：MLP Layer 和 FAN Layer 的示例。

FAN 的实现细节

北大研究团队首先构建一个简单神经网络来建模傅里叶级数，然后在此基础上设计了 FAN 网络架构。

为构建一个简单的神经网络

表示函数的傅里叶级数展开，我们可以将

表示为：

其中

是可学习参数，(I) 根据

和

通过定积分计算，(II) 和 (III) 是矩阵运算的等价形式，[・||・] 和 [・,・] 分别表示沿第一维度和第二维度的连接。为了充分利用深度学习的优势，我们可以堆叠上述网络

形成深度神经网络

，其中第 i 层表示为

。因此，

可以表示为：

其中

表示左侧函数

作用于右侧输入

，即

。然而，我们发现直接堆叠

会导致模型

的主要参数集中于学习角频率 (

)，从而忽略了傅里叶系数 (

和

) 的学习，如下所示：

其中

定义为

，

用于近似角频率，

用于近似傅里叶系数。因此，拟合傅里叶系数的能力与的深度无关，这是一个不理想的结果。

为了应对这一问题，研究团队根据以下原则设计了 FAN：1) FAN 表示傅里叶系数的能力应与其深度正相关；2) 任何隐藏层的输出都可以通过后续层使用傅里叶级数来建模周期性。第一个原则通过利用 FAN 的深度增强了其周期性建模的表现力，而第二个原则确保 FAN 中间层的特征可用于执行周期性建模。

假设我们将

解耦为：

其中

为了满足这两个原则，FAN 的中间层输入需要同时使用

和

而不是依次应用它们。

最终，FAN 基于此设计，其 FAN 层

定义如下：

其中

是可学习参数，

表示激活函数。

整个 FAN 定义为 FAN Layer

的堆叠：

其中

FAN 的性能表现

1. 周期建模

下图 3 展示了 FAN 和其他模型在周期性建模中的表现。结果表明，现有的神经网络（包括 MLP、KAN 和 Transformers）在建模周期性方面表现出明显的不足。尽管它们试图拟合这些周期函数，但其内在能力限制了它们在大范围周期性上的性能表现。相比之下，FAN 在所有这些周期性建模任务中都明显优于基线。更值得一提的是，FAN 在训练数据域内和域外的测试数据上都表现得非常出色，表明它能够真正理解周期性的深刻原理并对其进行精准建模，而不仅仅是记住训练数据。

图 3 FAN 在周期性建模中的表现与 MLP、KAN 和 Transformer 相比，其中绿线表示训练数据域内的测试数据，而蓝线表示训练数据域外的测试数据。

研究团队还分析了不同模型在学习复杂周期函数任务上的训练过程，如下图 4 所示，结果如下：1）FAN 在收敛速度和最终效果方面都远远超过其他模型。2）与 FAN 相比，FAN (Gated) 通常可以实现更快的收敛，但最终性能仍然相当。3）随着训练轮数的增加，虽然其他模型的训练损失变得稳定或逐渐减少，但它们的建模可能与测试数据的分布有很大差异，导致测试损失急剧增加。这一现象进一步证明了这些模型在捕捉周期性方面的缺陷。

图 4 不同模型在学习复杂周期函数任务上的训练和测试损失比较

2. 符号公式表示

从不同模型应用于数学和物理学中四个常见函数的表现中可以观察到，虽然 KAN 在参数数量较少时能与 FAN 相媲美，但随着参数数量的增加，其性能会显著下降。相反，随着参数数量的增加，FAN 拟合这些函数始终优于其他基线，包括 MLP、KAN 和 Transformer，尽管这些函数中的许多只是部分周期性的或完全非周期性的。这些结果表明，FAN 不仅增强了对周期性的建模能力，同时也没有损害拟合非周期性函数的能力。

图 5 不同模型在符号公式表示任务中不同参数量的表现

3. 时间序列预测

如下表 2 所示，研究团队在四个公共数据集上比较了结合 FAN 的 Transformer 和其他序列模型在时间序列预测任务上的表现。

在大多数情况下，与 LSTM、Mamba 和标准 Transformer 相比，结合 FAN 和 FAN（Gated）的 Transformer 在这些任务上取得了最佳性能。它们相对于标准 Transformer 的改进是显著的，平均相对改进范围为 14.3%-15.0% 的 MSE 和 7.6%-7.9% 的 MAE。这些结果表明，在神经网络中加入显式周期模式编码可以提高实际应用中的时间序列预测性能。

4. 语言建模

研究者报告了不同序列模型在四种情绪分析数据集上的性能比较，如表 3 所示。可以发现，结合 FAN 和 FAN（Gated）的 Transformer 与标准 Transformer 和其他序列模型（例如 LSTM 和 Mamba）相比表现出明显优越的性能，尤其是在 IMDB、Sentiment140 和 Amazon Reviewers 数据集上的零样本跨领域表现。结合 FAN 的 Transformer 在损失和准确度方面分别实现了最 14.65% 和 8.50% 的相对改进，同时将参数数量减少了约 14.16M。结果表明周期性建模在跨领域语言建模和情绪分析任务上具有提高有效性和泛化的潜力。

FAN 的表达能力和应用范围

FAN 在理论上具有与 MLP 相同的表达能力，因为它也遵循通用近似定理，这确保了其函数近似能力。不同的是，FAN 通过明确纳入周期性，引入了重要的功能增强，这是传统 MLP 所不具备的。FAN 的这一设计，不仅全面继承了 MLP 的既有优势，还增强了其捕获数据周期性特征的能力。因此，FAN 可以作为 MLP 的有力替代品。

当然，FAN 的实用性不仅限于明确需要周期性建模的任务，在更广泛的应用中也展现出强大的适用性。研究团队通过一系列现实世界任务的实验证明，如符号公式表示、时间序列预测和语言建模等，FAN 的表现明显优于 MLP 和其他基线模型。

事实上，许多看似与周期性无直接关联的机器学习任务，如数学运算和逻辑推理，实际上也可能隐藏着周期性。如果神经网络缺乏针对周期性特征进行建模的能力，则可能会损害其学习效率。从更深层次的角度来看，周期性不仅仅是一种数据特征，还反映了一种规律或知识，即允许抽象的规则和原理在不同上下文之间转移和重用。

总结来看，FAN 与 MLP 相比，不仅增强了周期性建模能力，且参数量和计算量更少，有望成为基础模型的关键组成部分。未来，北大研究团队将进一步扩大 FAN 的应用范围，增强其作为基础模型组件的表现，持续推动基础模型的技术进步与创新发展。

#Reasoning Boundary Framework, RBF

如何量化与提升思维链的推理能力边界？

本篇工作已被 NeurIPS（Conference on Neural Information Processing Systems）2024 会议接收，并被评为 Oral Presentation (72/4553) 。该文章的第一作者陈麒光，目前就读于哈工大赛尔实验室。他的主要研究方向包括大模型思维链、跨语言大模型等。

该研究主要提出了推理边界框架（Reasoning Boundary Framework, RBF），首次尝试量化并优化思维链推理能力。

论文链接：https://arxiv.org/abs/2410.05695

代码地址：https://github.com/LightChen233/reasoning-boundary

1. 大型语言模型（LLMs）与思维链推理能力

什么是思维链（Chain-of-Thought, CoT）？

近年来，大型语言模型（LLMs）在处理各种复杂任务中取得了长足进展，从文本生成到问题解答，LLMs 几乎无所不能。然而，面对复杂的推理任务，LLMs 也存在瓶颈 —— 模型往往容易跳过推理的中间步骤，直接生成最终答案，这使得它们在应对复杂问题时容易犯错。

思维链推理（CoT）是一种让模型分步推理复杂问题的方法。与传统模型的直接生成答案不同，CoT 通过逐步细化问题的每一步，从而得到更准确、更有逻辑的结果。

为什么它如此重要？

为什么 CoT 很重要？因为面对复杂的推理任务，模型往往会因为信息量大、推理路径复杂而犯错。CoT 的逐步推理策略使模型能够处理更具挑战性的任务 —— 从数学题解到现实决策问题，它能帮助模型分解任务，找到每个步骤的最佳解法。

这不仅提升了模型的准确性，还显著增强了它处理复杂任务的能力，使其能够应用于更广泛的实际场景中。

2. 模型推理的困境：复杂任务中的可解释性难题

想象这样一个情景：你正在处理一个复杂的项目，需要模型综合多种能力，最终通过多步推理找到最优解决方案，那么这些能力和推理能力是如何组合，共同影响并改进最终性能的呢？

为了解决该问题，该文章通过研究以下几个问题来理解和解决这个问题。

2.1 模型在面对复杂推理时，如何对推理能力进行量化？

当前多数研究依赖定性分析，缺乏统一的量化指标来系统比较不同的 CoT 推理方法。这种局限性导致研究者难以精确评估和预测模型在复杂任务中的推理能力上限，阻碍了对 CoT 推理效果的深入理解和科学验证。

为此，研究人员提出推理边界框架（Reasoning Boundary Framework, RBF），定义了模型在不同准确率对于的推理能力边界。并提出了三种推理边界以量化推理能力边界：完全可行推理边界（CFRB）；完全不可行推理边界（CIRB）; 部分可行推理边界（PFRB）。

2.2 推理能力与不同的其他能力如何组合？

在实际场景中，模型往往需要集成多种能力才能有效地解决某一任务。

为了定量描述如何通过思维链 CoT 机制实现多种能力的协同提升，研究者进一步提出了 “ 推理边界的组合律 ”，并推导并验证了该组合律的具体公式。

2.3 如何基于可解释性框架优化思维链？

虽然已有研究揭示了 CoT 推理的部分机制，但如何系统性地优化 CoT 推理的效率和效果仍缺少明确的策略与方法指导。这一不足限制了 CoT 技术在实际应用中的进一步改进与拓展。

根据推理边界框架，本文提出了最短可接受推理路径（MARP）优化推理效率。无论是在复杂的数学推理还是多跳推理中，RBF 都能帮助模型在海量信息中找到最优路径，大幅提升推理效果。

3. 概念定义

3.1 推理边界

为了量化大型语言模型的复杂推理能力，如图 1 (a) 所示，研究者引入了推理边界（Reasoning Boundary, RB）的概念，定义了 LLMs 在特定推理过程中能够处理的任务难度上限。

具体而言，RB 被定义为模型 m 和任务 t 作为问题难度 d 的最大值，模型的准确性达到预定义阈值

：

其中 Acc (t|d, m) 表示模型在难度为 d 的任务 t 上的准确率。难度可以通过推理步骤数或计算复杂度等因素来衡量。简而言之，RB 反映了模型在保持一定准确性（accuracy）的前提下，其推理能力的边界。

* 为了简洁起见，在后续文章中将 RB 表示为

。

总结：模型的推理边界是由其针对给定任务难度实现特定准确度的能力来定义的。

3.2 推理边界间的组合律

在实际场景中，模型往往需要集成多种能力才能有效地解决某一任务。

为了定量描述如何通过思维链 CoT 机制实现多种能力的协同提升，研究者提出了“推理边界的组合律”，并推导出 CoT 能力上限的具体公式。

该定律估计模型 m 内 n 个任务的统一推理边界

，即表述为：

其中

表示任务

的推理边界。

和

是缩放因子，仅受相关任务影响。如图 1 (b) 所示，该方程提供了一个数学公式来估计独立 RB 的组合，从而可以更深入地了解复杂任务的模型行为。

总结：推理边界的组合律描述了多个推理能力的协同效应，满足加权调和平均公式，用以估计模型在多个任务上的整体推理能力。

3.3 推理边界划分

此外，为了指导 CoT 的优化和更方便的表达，如图 1 (c) 所示，研究者根据经验准确性定义了以下三类 RB：

完全可行的推理边界：研究者定义准确率大于 90% 的部分是完全可行的推理边界 (CFRB=
)，这意味着 LLM 可以有效地掌握这部分的表现。
完全不可行的推理边界：研究者认为准确率小于 10% 的部分是完全不可行的推理边界 (CIRB=
)，这意味着模型永远无法有效掌握这部分的性能。
部分可行推理边界：研究者将除 CFRB 和 CIRB 之外的其余部分中的 RB 定义为部分可行推理边界 (PFRB=
)，这需要模型重复思考或者更清晰的信息来解决问题。

研究者通过详细分析了这三类 RB 的性质，进一步结合组合律来优化这三个推理边界，从而为支持未来 CoT 优化提供有效的建议和指导。

4. 实验设置

模型设置：研究者们采用了 GPT-3.5-Turbo 作为主要模型，实验还涵盖了多任务场景，包括数学推理、多跳问答和多语言推理等领域，以确保推理边界的全面评估。
基准设置：为了更好地评估 LLMs 的推理能力，作者引入了一个新的数据集 ——BigGSM。这个数据集不仅具有较高的计算复杂性，还包含更长的推理链，能够更好地挑战模型的推理上限。

5. 验证性实验

5.1 推理边界存在性验证

研究者们通过实证分析，验证了推理边界在三类任务中的普遍性：

在基础算术运算中，呈现出三种不同的推理边界 (图 2 (a))；

在自然语言规划任务中，同样展现出三种不同的推理边界 (图 2 (b))；

在代码规划任务中，仍然表现出一致的三种推理边界 (图 2 (c))。

5.2 推理边界组合律验证

在实际应用中，模型通常需要集成多种能力才能高效解决复杂任务。为此，研究者们进一步地验证了实际场景中，推理边界组合律的广泛适用性：

复杂多项式计算的推理边界：可视为 ①计算步骤规划与 ②数学运算两个推理边界的结合。如图 3 (a) 所示，实验结果显示了三个具有明显边界的推理边界划分区域。
复杂小学数学推理的推理边界：可理解为 ①自然语言步骤规划与 ②数学运算的结合，图 3 (b) 中同样展示了三个清晰的推理边界划分区域。
多跳问答的推理边界：可被视作 ①多跳规划与 ②实体推理的结合。正如图 3 (c) 所示，三个推理边界划分的有效区域同样可见。

5.3 不同推理边界的不同性质

研究者验证了不同推理边界在模型中的性质：

完全可行推理边界-->完全掌握：如图 4 (a, b) 所示，在这一边界下，模型即使在没有示例、无需 self-consistency 的情况下也能够高效完成任务。
部分可行推理边界-->不完全掌握：在这一推理边界下，如图 4 (b) 所示，模型对任务的掌握程度有限，需要通过多次 Self-consistency 来增强信心，从而提高准确率。
完全不可行推理边界-->完全不掌握：在这种边界下，如图 4 (b) 所示，模型的推理表现极其有限，即便采用 Self-consistency，模型的准确率仍难以得到提升。
大模型能够自己意识到自己的推理边界：研究还发现，如图 4 (c) 所示，当让模型自行生成 CoT 示例时，模型更倾向于生成符合其推理边界的样本，特别是在完全可行推理边界范围内，而很少生成其完全无法掌握的样本。这表明模型对推理边界具有一定的自我感知能力，能够根据自身能力选择合适的任务进行推理。

6. 基于推理边界的 CoT 优化

为了进一步优化思维链的表现，研究者们提出了基于推理边界优化的多种策略，并对这些策略进行了全面的实验验证，揭示了如何通过调整 RB 提升复杂任务中的推理能力。

6.1 推理边界优化策略

工具使用可以提升大语言模型的推理边界

当模型使用工具时，可以简单地认为模型可以以无限精度执行计算，因此数学计算的推理边界趋向于无穷大，即

。显然，模型的组合推理边界可以计算为：

其中，c 表示计算任务，p 表示规划任务。很容易得出，

，这表明工具使用可以提高推理的边界。这解释了为什么工具使用比普通的推理链性能更好（见表 1）。此外，如图 5 所示，理论推理边界与实际推理边界的分布几乎完美重合，这也证明了该假设的可靠性和适用性。

程序化思维可以进一步提升大语言模型的推理边界。

由工具使用的组合推理边界计算公式可得，LLM 的推理边界完全取决于其规划能力。由于自然语言可能过于冗长，它会妨碍 LLM 的规划能力。因此，程序化思维（Program-of-Thought，PoT）通过代码提供了更清晰的逻辑表示，使得规划更为清晰（如图 2 (b, c) 所示）。所以，这导致更好的步骤规划推理边界，即

。那么，PoT 的推理边界

。

6.2 推理路径优化策略

对于固定推理方式的模型而言，其推理边界（即能力边界）是相对固定的。因此，关键问题在于如何通过优化策略，提升模型的推理能力，使得优化后的推理边界超越原问题所需的边界。

Complex CoT 在推理步骤与性能之间的平衡
单次计算负荷缓解：研究表明，通过增加推理步骤，可以缓解单次计算的负荷，从而提升模型的计算边界
，这有助于提高整体的推理能力。
规划难度增加：然而，推理步骤的过度增加可能带来负面影响：原问题在准确率较高的边界
上，经过 Complex CoT，可能落到准确率较低的边界
上，其中
。这意味着过多的推理步骤可能导致组合推理准确度的下降。

在规划与计算负荷之间存在一个平衡：如图 6 所示，随着推理步骤的增加，模型性能在初期显著提高，但当步骤数超过模型的最优推理能力时，性能开始下降。这表明，Complex CoT 在推理步骤数量与计算负荷之间存在一个最佳平衡点。超出这一点，计算负荷的增加会对模型的整体表现产生负面影响。
Least-to-Most 的分步优化策略

局部规划压力缓解：通过将问题拆解为多个子问题，如图 7 所示，可以有效减少每个步骤内的规划压力，对各种不同计算量的问题都能有一定的性能提升。

全局规划难度增加：虽然这种策略能够降低局部规划负担，它同时引入了全局分解规划中的额外推理边界

。如图 15 所示，接近 70% 的全局规划数超过了 5 步，严重加大了模型规划难度，从而使实际的组合推理边界对应的准确率下降。

最短可接受推理路径提示（MARP）

为了克服上述策略的局限性，研究者提出了最短可接受推理路径提示（MARP）策略。该策略通过提示大模型在每个步骤中尽可能高效地执行计算，同时减少不必要的全局规划，从而降低了模型的计算负担和规划复杂度：

最小化推理路径提示：为了减轻与规划相关的认知负担，通过该提示让模型尽可能简洁地回答问题，确保提供简短、清晰和直接的推理路径。

可接受推理路径提示：为了更有效地利用推理边界的上限，通过该提示要求模型每一个推理步骤的复杂性在可接受的范围内。

实验结果（见表 1）显示，MARP 显著提高了模型性能，并有效减少了 token 的使用量。

7. 拓展性探索

7.1 模型扩展验证

推理边界与模型准确率的正相关性：研究者通过对 25 个不同模型的推理边界表现进行分析，发现推理边界与数学任务中的准确率呈现出正相关关系。
数学模型与通用模型在推理边界 - 准确率分布上的差异：通过数学数据微调的模型，推理边界 - 准确率分布虽然呈现出正相关，但与通用 LLM 存在显著差异。这可以为未来区分模型是否进行了数学专项训练提供了一个潜在的指标。
开源模型在完全可行推理边界上的局限性：开源模型在完全可行推理边界（CFRB）上的表现与闭源模型存在显著差异。几乎所有开源模型的 CFRB 值均为 0，这表明开源模型在高级推理任务上的不足，表明其在未来优化中的潜力。

7.2 任务扩展验证

更进一步地，该研究不仅验证了在数学运算、数学推理和多跳问答任务中的推理边界扩展规律，还进一步探索了在多语言推理和医疗推理任务中的表现。

多语言推理：通过将多语言能力、数学计算与推理规划相结合，实验结果表明，这些能力的正交组合后，推理边界依然保持了三类不同的推理边界模式，进一步证实了此方法的普适性和稳定性。

医疗推理：类似地，在医疗领域，研究通过将医疗实体推理与多跳推理规划相结合，验证了推理边界在正交组合后仍然保持一致，说明该推理策略同样适用于医疗推理任务。

8. 如何理解 o1 的优异性能？

为了深入理解当前最先进的大型语言模型 o1，研究人员利用推理边界框架对 GPT 系列模型进行了全面评估。

如图 11 所示，与早期版本相比，各项推理边界指标均有显著提升，模型性能也随之增强。特别是，尽管 GPT-3.5 与 GPT-4o 之间在完全不可行推理边界（CIRB）上的改进幅度较大，但完全可行推理边界（CFRB）的提升相对较小。然而，在 GPT-o1 版本中，完全可行推理边界的表现则有了显著改善。

进一步来看，图 14 揭示了 GPT-o1 版本在完全可行推理边界上的卓越表现，提升幅度几乎是其他模型的三倍。

研究人员认为，这一成果主要归功于逻辑强化学习技术的进步和 Inference Scaling Law 策略的优化。这些新策略在提升完全可行推理边界方面起到了关键作用，远远超越了常规的改进路径。这一现象可能为未来研究提供了新的方向和启示。

总结

本研究提出了一个推理边界（RB）框架，系统量化并优化大语言模型（LLMs）在思维链（CoT）任务中的推理能力边界。通过定义推理边界和应用优化策略，合理解释了多个 CoT 策略其在推理性能上的优势。同时，最短可接受推理路径（MARP）策略通过减少不必要的推理步骤，显著提高了不同任务中的推理性能与效率。研究者希望 RB 框架能够为相关研究提供理论基础，推动 LLMs 在复杂推理任务中的发展。

#自驾世界模型生成和理解事故场景

清华x光轮

近年来，自动驾驶技术快速发展，萝卜快跑已经无缝融入了武汉的交通，不少车企的智驾系统也都上路了。

然而，在复杂交通环境中，如何理解和预防事故仍然是一个巨大挑战。比如前段时间特斯拉 FSD 终于入华。但中国版 FSD 似乎有些「水土不服」，频繁闯红灯、开上人行道、逆行，被网友调侃为「美国司机直接来中国开车」。

同时，现有的方法往往难以准确解释事故发生的原因，并缺乏有效的预防策略。此外，由于事故数据较为稀缺，自动驾驶系统在面对突发情况时往往难以作出合理决策。

为了解决这一问题，光轮智能（Lightwheel）和来自来自清华、香港科技大学、吉林大学、南京理工大学、北京理工大学、复旦大学等的研究团队，提出了AVD2（Accident Video Diffusion for Accident Video Description），提高行业的自动驾驶事故场景的安全能力。

AVD2 是一个创新的事故视频生成与描述框架，旨在提升自动驾驶系统对事故场景的理解。通过生成与自然语言描述和推理高度一致的事故视频，AVD2 增强了对事故场景的建模能力。

同时，该团队还贡献了 EMM-AU（Enhanced Multi-Modal Accident Video Understanding）数据集，以推动事故分析和预防的研究。

项目主页链接：https://an-answer-tree.github.io/
论文链接：https://arxiv.org/abs/2502.14801
EMM-AU 数据集链接：https://huggingface.co/datasets/secsecret/EMM-AU/blob/main/Processed_EMM-AU_Dataset.zip
代码链接：https://github.com/An-Answer-tree/AVD2

模型架构

AVD2 框架包含两个主要部分：视频生成和事故分析。通过生成与事故描述一致的高质量视频，并结合自然语言解释，AVD2 能够更深入地理解事故场景。

视频生成

AVD2 的视频生成部分旨在基于输入的事故描述生成具有现实感的交通事故视频。该部分使用了 Open-Sora 1.2 模型，并通过两个阶段的微调来优化模型：

1. 第一阶段 Finetune：基于 MM-AU 数据集对 Open-Sora 1.2 模型进行预训练，生成与事故场景相关的视频。

2. 第二阶段 Finetune：利用选取的 2,000 个详细事故场景视频进一步微调模型，以确保生成的视频与真实事故场景高度一致。

通过这一过程，AVD2 能够根据描述生成多个具有高保真度的事故视频，用于进一步的事故理解和分析。

生成视频的增强

为了提高视频质量，AVD2 框架采用 RRDBNet 模型，在 Real-ESRGAN 框架下进行超分辨率处理。每个生成的低分辨率视频帧都被提升到更高的分辨率，以增强细节并减少伪影，从而为后续的分析提供高质量的视频数据。

事故分析

AVD2 的事故分析部分结合了视频理解与自然语言处理技术，主要包括两个任务：

车辆行为描述和原因分析（如何规避）

AVD2 生成两个自然语言描述：

1. 车辆行为描述：基于输入的视频，生成描述车辆动作的句子（例如：“车辆右转”）。

2. 原因解释：解释为什么车辆执行这一动作（例如：“因为前方交通信号灯变绿”）。同时进一步给出如何规避事故的发生（例如：“转弯前应环顾四周注意直行车辆”）。

这两个任务共同协作，利用 Vision-Language Transformer（视觉 - 语言 Transformer）来进行多任务学习。模型同时学习生成描述与推理任务，增强了两者之间的关联性，从而提高了整体性能。

多任务学习与文本生成

多任务学习方法使得 AVD2 能够联合训练行为描述任务和事故原因理解任务，以及预防措施任务。

通过这种方式，AVD2 在生成的事故视频基础上，结合视觉特征与文本特征进行分析，不仅可以描述事故发生的过程，还能为事故的预防提供有价值的建议。

AVD2 的整体架构

在图中，输入视频通过 SwinBERT 进行处理，生成视频特征，随后这些特征被输入到不同的任务模块中进行预测和描述生成。同时，SCST（自我批判序列训练）机制被用来优化生成文本的质量。

生成与分析模块的协同工作

AVD2 框架中的生成模块与分析模块紧密配合，生成的事故视频不仅为自动驾驶系统提供了训练数据，还为系统提供了关于事故行为的详细解释和原因分析。两者结合，大大提升了系统的透明度和可解释性。

实验结果

该团队通过多种机器评测指标（如 BLEU、METEOR、CIDEr 等）对 AVD2 进行了评估，并与现有的先进方法进行了对比。

以下是 AVD2 与 ADAPT 框架 (Jin et al., 2023) 在描述任务与解释和预防任务上的比较结果：（MM-AU 为原始数据集 (Fang et al., 2024)，EMM-AU 为该团队结合生成的事故数据集新提出的数据集，SR 为经过超分处理后的数据集）

如上所示，AVD2 在所有评测指标上优于 ADAPT，尤其是在 CIDEr 指标上，AVD2 在动作描述和原因解释（预防措施）两个方面都表现出了更好的性能。

可视化结果

以下是 AVD2 对事故场景的可视化结果，在此展示两个不同的事故视频及对视频的分析：

第一张图示例：车辆变道未打转向灯，未给优先通行车辆让路，导致了潜在的碰撞风险。

第二张图示例：由于过快的车速，刹车距离不足，造成了跟车过近的危险情况。

未来，该团队将计划进一步优化 AVD2 框架，并将此新技术通过光轮智能的端到端自动驾驶应用于客户的上车训练评测中，以促进自动驾驶技术的安全在产业界真正落地。

参考文献：

[Atakishiyev et al., 2023](https://doi.org/10.1109/IT）

[Jin et al., 2023](https://doi.org/10.1109/ICRA.2023.654567)

[Fang et al., 2024](https://arxiv.org/abs/2403.00436)

#最新「大模型简史」整理

从Transformer（2017）到DeepSeek-R1（2025）

本文详细回顾了大型语言模型从2017年Transformer架构的出现到2025年DeepSeek-R1的发展历程，涵盖了BERT、GPT系列、多模态模型、推理模型等关键进展，展示了LLMs在规模、性能、成本和多模态能力上的巨大进步，以及对AI领域和社会的深远影响。

2025年初，我国推出了一款开创性且高性价比的「大型语言模型」（Large Language Model, LLM） — — DeepSeek-R1，引发了AI领域的巨大变革。

本文回顾LLM的发展历程，以2017年具有革命性意义的Transformer架构为起点。

1. 什么是语言模型 (Language Models)？

「语言模型」是一种「人工智能系统」，旨在处理、理解和生成类似人类的语言。它们从大型数据集中学习模式和结构，使得能够产生连贯且上下文相关的文本，应用于翻译、摘要、聊天机器人和内容生成等领域。

图片

1.1 大型语言模型（LLMs）

「语言模型」（LMs）和「大型语言模型」（LLMs）这两个术语虽然经常被互换使用，但实际上它们基于规模、架构、训练数据和能力指代不同的概念。LLMs 是 LMs 的一个子集，其规模显著更大，通常包含数十亿个参数（例如，GPT-3 拥有 1750 亿个参数）。这种更大的规模使 LLMs 能够在广泛的任务中表现出卓越的性能。“LLM”这一术语在 2018 至 2019 年间随着基于 Transformer 架构的模型（如 BERT 和 GPT-1）的出现开始受到关注。然而，在 2020 年 GPT-3 发布后，这个词才被广泛使用，展示了这些大规模模型的重大影响力和强大能力。

1.2 自回归语言模型（Autoregressive Language Models）

大多数LLMs以「自回归方式」(Autoregressive)操作，这意味着它们根据前面的「文本」预测下一个「字」（或token／sub-word）的「概率分布」(propability distribution)。这种自回归特性使模型能够学习复杂的语言模式和依赖关系，从而善于「文本生成」。

在数学上，LLM 是一个概率模型(Probabilistic Model)，根据之前的输入文本（₁₂ₙ₋₁）预测下一个字ₙ

ₙ₁₂ₙ₋₁

在文本生成任时，LLM通过解码算法(Decoding Algorithm)来确定下一个输出的字。

这一过程可以采用不同的策略：既可以选择概率最高的下个字（即贪婪搜索），也可以从预测的概率分布中随机采样一个字。后一种方法使得每次生成的文本都可能有所不同，这种特性与人类语言的多样性和随机性颇为相似。

1.3 生成能力

LLMs的自回归特性使其能够基于前文提供的上下文逐词生成文本。从「提示」(prompt)开始，如下图，模型通过迭代预测下一个词，直到生成完整的序列或达到预定的停止条件。为了生成对提示的完整回答，LLM通过将先前选择的标记添加到输入中进行迭代生成，尤如「文字接龙」游戏。

LLM的文本生成尤如「文字接龙」游戏

这种生成能力推动了多种应用的发展，例如创意写作、对话式人工智能以及自动化客户支持系统。

2. Transformer革命 (2017)

Vaswani等人在2017年通过其开创性论文“Attention is All You Need”引入了Transformer架构，标志着NLP的一个分水岭时刻。它解决了早期模型如循环神经网络（RNNs）和长短期记忆网络（LSTMs）的关键限制，这些模型在长程依赖性和顺序处理方面存在困难。

这些问题使得使用RNN或LSTM实现有效的语言模型变得困难，因为它们计算效率低下且容易出现梯度消失等问题。另一方面，Transformers克服了这些障碍，彻底改变了这一领域，并为现代大型语言模型奠定了基础。

自注意力和Transformer架构

2.1 Transformer架构的关键创新

自注意力机制 (Self-Attention)：与按顺序处理标记并难以应对长程依赖性的RNN不同，Transformers使用自注意力来权衡每个标记相对于其他标记的重要性。这使得模型能够动态关注输入的相关部分。数学上：

这里，Q、K、V是查询(query)、键(key)和值(value)矩阵，dₖ是键的维度。自注意力允许并行计算，加快训练速度，同时提高全局上下文理解。

多头注意力：多个注意力头并行操作，每个头专注于输入的不同方面。它们的输出被连接并转换，从而实现更丰富的上下文表示。

前馈网络(FFN)和层归一化(Layer Norm)：每个Transformer层包括应用于每个标记的前馈网络，以及层归一化和残差连接。这些稳定了训练并支持更深的架构。

位置编码：由于Transformers本身不编码标记顺序，因此添加了位置编码（位置和频率的正弦函数）以表示词序，在不牺牲并行化的情况下保留顺序信息。

对语言建模的影响

可扩展性：Transformers实现了完全并行化的计算，使得在大型数据集上训练大规模模型成为可能。

上下文理解：自注意力捕捉局部和全局依赖关系，提高了连贯性和上下文意识。

Transformer架构的引入为构建能够以前所未有的精确性和灵活性处理复杂任务的大规模高效语言模型奠定了基础。

3. 预训练Transformer模型时代 (2018–2020)

2017年Transformer架构的引入为NLP的新时代铺平了道路，其特点是预训练模型的兴起和对扩展的前所未有的关注。这一时期见证了两个有影响力的模型家族的出现：BERT和GPT，它们展示了大规模预训练和微调范式的强大功能。

3.1 BERT：双向上下文理解 (2018)

2018年，谷歌推出了BERT（Bidirectional Encoder Representations from Transformers），这是一种使用Transformer编码器(Encoder)的突破性模型，在广泛的NLP任务中取得了最先进的性能。

与之前单向处理文本（从左到右或从右到左）的模型不同，BERT采用了双向训练方法，使其能够同时从两个方向捕获上下文。通过生成深层次的、上下文丰富的文本表示，BERT在文本分类、命名实体识别（NER）、情感分析等语言理解任务中表现出色。

BERT的关键创新包括：

掩码语言建模（Masker Language Modeling — MLM）：BERT不是预测序列中的下一个词，而是被训练预测句子中随机掩码的标记。这迫使模型在进行预测时考虑整个句子的上下文 — — 包括前后词语。例如，给定句子“The cat sat on the [MASK] mat”，BERT会学习根据周围上下文预测“soft”。
下一句预测（Next Sentence Prediction — NSP）：除了MLM之外，BERT还接受了称为下一句预测的次要任务训练，其中模型学习预测两个句子是否在文档中连续。这帮助BERT在需要理解句子之间关系的任务中表现出色，例如问答和自然语言推理。

BERT的影响：BERT的双向训练使其在GLUE（通用语言理解评估）和SQuAD（斯坦福问答数据集）等基准测试中取得了突破性的表现。它的成功证明了上下文嵌入的重要性 — — 这些表示根据周围词语动态变化 — — 并为新一代预训练模型铺平了道路。

3.2 GPT：生成式预训练和自回归文本生成（2018–2020）

虽然BERT优先考虑双向上下文理解，但OpenAI的GPT系列采用了不同的策略，专注于通过自回归预训练实现生成能力。通过利用Transformer的解码器(Decoder)，GPT模型在自回归语言模型和文本生成方面表现出色。

GPT (2018)GPT的第一个版本于2018年发布，是一个大规模的Transformer模型，经过训练以预测序列中的下一个词，类似于传统语言模型。

单向自回归训练：GPT使用因果语言建模目标进行训练，其中模型仅基于前面的标记预测下一个标记。这使得它特别适合于生成任务，如文本补全、摘要生成和对话生成。
下游任务的微调：GPT的一个关键贡献是它能够在不需要特定任务架构的情况下针对特定下游任务进行微调。只需添加一个分类头或修改输入格式，GPT就可以适应诸如情感分析、机器翻译和问答等任务。

GPT-2 (2019)在原版GPT的成功基础上，OpenAI发布了GPT-2，这是一个参数量达15亿的更大模型。GPT-2展示了令人印象深刻的零样本(Zero-shot)能力，意味着它可以在没有任何特定任务微调的情况下执行任务。例如，它可以生成连贯的文章、回答问题，甚至在语言之间翻译文本，尽管没有明确针对这些任务进行训练。

GPT-3 (2020)GPT-3的发布标志着语言模型规模扩展的一个转折点。凭借惊人的1750亿参数(175B parameters)，GPT-3突破了大规模预训练的可能性界限。它展示了显著的少样本(Few-short)和零样本(Zero-short)学习能力，在推理时只需提供最少或无需示例即可执行任务。GPT-3的生成能力扩展到了创意写作、编程和复杂推理任务，展示了超大模型的潜力。

3.3 GPT的影响及规模的作用

GPT模型的引入，特别是GPT-3，标志着AI的一个变革时代，展示了自回归架构和生成能力的强大功能。这些模型为内容创作、对话代理和自动推理等应用开辟了新的可能性，在广泛的任务中达到了接近人类的表现。GPT-3凭借其1750亿参数证明了规模的深远影响，表明在大规模数据集上训练的更大模型可以树立新的AI能力标杆。

语言建模性能随着模型大小、数据集大小和训练使用的计算量的增加而平稳提升。https://arxiv.org/pdf/2001.08361

在2018年至2020年间，该领域由对规模的不懈追求驱动。研究人员发现，随着模型规模的增长 — — 从数百万到数十亿参数 — — 它们在捕捉复杂模式和泛化到新任务方面变得更好。这种规模效应得到了三个关键因素的支持：

数据集大小：更大的模型需要庞大的数据集进行预训练。例如，GPT-3是在大量互联网文本语料库上进行训练的，使其能够学习多样化的语言模式和知识领域。
计算资源：强大的硬件（如GPU和TPU）的可用性以及分布式训练技术，使得高效训练具有数十亿参数的模型成为可能。
高效架构：混合精度训练和梯度检查点等创新降低了计算成本，使得在合理的时间和预算内进行大规模训练更加实际。

这个规模扩展的时代不仅提升了语言模型的性能，还为未来的AI突破奠定了基础，强调了规模、数据和计算在实现最先进结果中的重要性。

4. 后训练对齐：弥合AI与人类价值观之间的差距 (2021–2022)

GPT-3（一个拥有1750亿参数的LLM）生成几乎无法与人类写作区分的文本的能力引发了关于AI生成内容的真实性和可信度的重大担忧。

尽管这一成就标志着AI发展的一个重要里程碑，但也突显了确保这些模型与人类价值观、偏好和期望保持一致的关键挑战。一个主要问题是「幻觉」（Hallucination），即LLM生成与事实不符、无意义或与输入提示矛盾的内容，给人一种「一本正经地胡说八道」的印象。

为了解决这些挑战，2021年和2022年的研究人员专注于改善与人类意图的一致性并减少幻觉，导致了监督微调（SFT）和基于人类反馈的强化学习（RLHF）等技术的发展。

4.1 监督微调 (SFT)

增强GPT-3对齐能力的第一步是监督微调（SFT），这是RLHF框架的基础组成部分。SFT类似于指令调优，涉及在高质量的输入-输出对或演示上训练模型，以教它如何遵循指令并生成所需的输出。

这些演示经过精心策划，以反映预期的行为和结果，确保模型学会生成准确且符合上下文的响应。

然而，SFT本身有局限性：

可扩展性：收集人类演示是劳动密集型且耗时的，尤其是对于复杂或小众任务。
性能：简单模仿人类行为并不能保证模型会超越人类表现或在未见过的任务上很好地泛化。

为了克服这些挑战，需要一种更具可扩展性和效率的方法，为下一步铺平了道路：基于人类反馈的强化学习（Reinforcement Learning from Human Feedback — RLHF）。

4.2 基于人类反馈的强化学习 (RLHF)

OpenAI在2022年引入的RLHF解决了SFT的可扩展性和性能限制。与需要人类编写完整输出的SFT不同，RLHF涉及根据质量对多个模型生成的输出进行排名。这种方法允许更高效的数据收集和标注，显著增强了可扩展性。

RLHF过程包括两个关键阶段：

训练奖励模型：人类注释者对模型生成的多个输出进行排名，创建一个偏好数据集。这些数据用于训练一个奖励模型，该模型学习根据人类反馈评估输出的质量。
使用强化学习微调LLM：奖励模型使用近端策略优化（Proximal Policy Optimization - PPO）（一种强化学习算法）指导LLM的微调。通过迭代更新，模型学会了生成更符合人类偏好和期望的输出。

这个两阶段过程 — — 结合SFT和RLHF — — 使模型不仅能够准确遵循指令，还能适应新任务并持续改进。通过将人类反馈整合到训练循环中，RLHF显著增强了模型生成可靠、符合人类输出的能力，为AI对齐和性能设定了新标准。

4.3 ChatGPT：推进对话式AI (2022)

2022年3月，OpenAI推出了GPT-3.5，这是GPT-3的升级版，架构相同但训练和微调有所改进。关键增强包括通过改进数据更好地遵循指令，减少了幻觉（尽管未完全消除），以及更多样化、更新的数据集，以生成更相关、上下文感知的响应。

ChatGPT基于GPT-3.5和InstructGPT，OpenAI于2022年11月推出了ChatGPT，这是一种突破性的对话式AI模型，专门为自然的多轮对话进行了微调。ChatGPT的关键改进包括：

对话聚焦的微调：在大量对话数据集上进行训练，ChatGPT擅长维持对话的上下文和连贯性，实现更引人入胜和类似人类的互动。
RLHF：通过整合RLHF，ChatGPT学会了生成不仅有用而且诚实和无害的响应。人类培训师根据质量对响应进行排名，使模型能够逐步改进其表现。

ChatGPT的推出标志着AI的一个关键时刻，通常被称为「ChatGPT时刻」(ChatGPT moment)，因为它展示了对话式AI改变人机交互的潜力。

5. 多模态模型：连接文本、图像及其他 (2023–2024)

在2023年至2024年间，像GPT-4V和GPT-4o这样的多模态大型语言模型（MLLMs）通过将文本、图像、音频和视频整合到统一系统中重新定义了AI。这些模型扩展了传统语言模型的能力，实现了更丰富的交互和更复杂的问题解决。

5.1 GPT-4V：视觉遇见语言

2023年，OpenAI推出了GPT-4V，将GPT-4的语言能力与先进的计算机视觉相结合。它可以解释图像、生成标题、回答视觉问题，并推断视觉中的上下文关系。其跨模态注意力机制允许文本和图像数据的无缝集成，使其在医疗保健（如分析医学图像）和教育（如互动学习工具）等领域具有价值。

5.2 GPT-4o：全模态前沿

到2024年初，GPT-4o通过整合音频和视频输入进一步推进了多模态。它在一个统一的表示空间中运行，可以转录音频、描述视频或将文本合成音频。实时交互和增强的创造力 — — 如生成多媒体内容 — — 使其成为娱乐和设计等行业的多功能工具。

视频地址：https://youtu.be/vgYi3Wr7v_g

现实世界的影响: MLLMs革新了医疗保健（诊断）、教育（互动学习）和创意产业（多媒体制作）等领域。它们处理多种模态的能力解锁了创新的新可能性。

6. 开源和开放权重模型 (2023–2024)

在2023年至2024年间，开源和开放权重AI模型获得了动力，使先进AI技术的访问民主化。

开放权重LLMs：开放权重模型提供公开访问的模型权重，限制极少。这使得微调和适应成为可能，但架构和训练数据保持封闭。它们适合快速部署。例子：Meta AI的LLaMA系列和Mistral AI的Mistral 7B / Mixtral 8x7B
开源模型使底层代码和结构公开可用。这允许全面理解、修改和定制模型，促进创新和适应性。例子：OPT和BERT。
社区驱动的创新：像Hugging Face这样的平台促进了协作，LoRA和PEFT等工具使高效的微调成为可能。

社区开发了专门针对医疗、法律和创意领域的模型，同时优先考虑道德AI实践。开源社区目前处于一个激动人心的阶段，得益于尖端对齐技术的出现。这一进展导致越来越多的卓越开放权重模型发布。因此，闭源和开放权重模型之间的差距正在稳步缩小。LLaMA3.1–405B模型首次历史性地弥合了与闭源对应物的差距。

7. 推理模型：从「系统1」到「系统2」思维的转变 (2024)

2024年，AI开发开始强调增强「推理」(Reasoning)，从简单的模式识别转向更逻辑化和结构化的思维过程。这一转变受到认知心理学双重过程理论的影响，区分了「系统1」（快速、直觉）和「系统2」（缓慢、分析）思维。虽然像GPT-3和GPT-4这样的早期模型在生成文本等「系统1」任务上表现出色，但在深度推理和问题解决方面却有所欠缺。

「系统1」与「系统2」思维

7.1 OpenAI-o1：推理能力的一大飞跃(2024)

2024年9月12日，OpenAI发布的o1-preview标志着人工智能能力的重大飞跃，尤其是在解决复杂推理任务（如数学和编程）方面。与传统LLMs不同，推理模型采用了「长链思维」（Long CoT） — — 即内部的推理轨迹，使模型能够通过分解问题、批判自己的解决方案并探索替代方案来“思考”问题。这些CoTs对用户是隐藏的，用户看到的是一个总结性的输出。

推理模型的关键特性包括：

长链思维（Long CoT）：使模型能够将复杂问题分解为更小的部分，批判性地评估其解决方案，并探索多种方法，类似于搜索算法。
推理时计算控制：对于更复杂的问题，可以生成更长的CoTs；而对于较简单的问题，则使用较短的CoTs以节省计算资源。
增强的推理能力：尽管像o1-preview这样的初始推理模型在某些领域的能力不如标准LLMs，但在推理任务中，它们的表现远远超越了后者，常常能与人类专家媲美。例如，o1-preview在数学（AIME 2024）、编程（CodeForces）和博士级别的科学问题上均超越了GPT-4o。

OpenAI-o1：

2024年12月5日，OpenAI的完整版o1模型进一步提升了性能，在美国AIME 2024数学考试中排名前500名学生之列，并显著超越了GPT-4o（解决了74%-93%的AIME问题，而GPT-4o仅为12%）。此外，o1-mini作为更便宜且更快的版本，在编码任务中表现出色，尽管其成本仅为完整版o1的20%。

OpenAI-o3：

2025年1月31日，OpenAI发布了o3，这是其推理模型系列的最新突破，建立在o1模型成功的基础之上。尽管完整的o3模型尚未发布，但其在关键基准测试中的表现被描述为具有开创性。

ARC-AGI ：达到87.5%的准确率，超过了人类水平的85%，远超GPT-4o的5%。
编程：在SWE-Bench Verified上得分71.7%，并在Codeforces上获得2727的Elo评分，跻身全球前200名竞争性程序员之列。
数学：在EpochAI的FrontierMath基准测试中达到25.2%的准确率，相比之前的最先进水平（2.0%）有了显著提升。

OpenAI-o1和OpenAI-o3推理模型的发布代表了人工智能领域的重大进步，通过结构化的内部推理过程提供了卓越的问题解决能力，并在复杂数学和编程任务中树立了新的标杆。

8. 成本高效的推理模型：DeepSeek-R1 (2025)

LLMs通常需要极其庞大的计算资源来进行训练和推理。像GPT-4o和OpenAI-o1这样的最先进LLM模型的闭源性质限制了对尖端AI的「普及化」。

8.1 DeepSeek-V3 (2024–12)

2024年12月下旬，「深度求索-V3」(DeepSeek-V3)作为一种成本高效的开放权重LLM出现，为AI的可访问性设定了新标准。DeepSeek-V3与OpenAI的ChatGPT等顶级解决方案相媲美，但开发成本显著降低，估计约为560万美元，仅为西方公司投资的一小部分。

该模型最多包含6710亿个参数，其中370亿个活跃参数，并采用专家混合（MoE）架构，将模型划分为专门处理数学和编码等任务的组件，以减轻训练负担。DeepSeek-V3采用了工程效率，例如改进Key-Value缓存管理和进一步推动专家混合方法。该模型引入了三个关键架构：

多头潜在注意力（Multi-head Latent Attention — MLA）：通过压缩注意力键和值来减少内存使用，同时保持性能，并通过旋转位置嵌入（RoPE）增强位置信息。
DeepSeek专家混合（DeepSeekMoE）：在前馈网络（FFNs）中采用共享和路由专家的混合，以提高效率并平衡专家利用率。
多标记预测 (Multi-Token Prediction — MTP)：增强模型生成连贯且上下文相关的输出的能力，特别是对于需要复杂序列生成的任务。

DeepSeek-V3的发布引发了全球科技抛售，危及1万亿美元的市值，并导致英伟达股票盘前下跌13%。DeepSeek-V3的价格为每百万输出标记2.19美元，约为OpenAI类似模型成本的1/30。

8.2 DeepSeek-R1-Zero 和 DeepSeek-R1 (2025–01)

仅仅一个月后，2025年1月下旬，DeepSeek通过发布DeepSeek-R1-Zero和DeepSeek-R1再次引起轰动，这些模型展示了卓越的推理能力，训练成本极低。

利用先进的强化学习技术，这些模型证明了高性能推理可以在没有通常与尖端AI相关的巨额计算费用的情况下实现。这一突破巩固了DeepSeek作为高效和可扩展AI创新领导者的地位。

DeepSeek-R1-Zero：一种基于DeepSeek-V3的推理模型，通过强化学习（RL）增强其推理能力。它完全消除了「监督微调」(SFT)阶段，直接从名为DeepSeek-V3-Base的预训练模型开始。它采用了一种基于「规则的强化学习方法」(Rule-based Reinforcement Learning)，称为「组相对策略优化」（Group Relative Policy Optimization — GRPO），根据预定义规则计算奖励，使训练过程更简单且更具可扩展性。

DeepSeek-R1：为了解决DeepSeek-R1-Zero的局限性，如低可读性和语言混杂，DeepSeek-R1纳入了一组有限的高质量冷启动数据和额外的RL训练。该模型经历了多个微调和RL阶段，包括拒绝采样和第二轮RL训练，以提高其通用能力和与人类偏好的一致性。

蒸馏DeepSeek模型：DeepSeek开发了较小的、蒸馏版的DeepSeek-R1，参数范围从15亿到700亿，将先进的推理能力带到较弱的硬件上。这些模型使用原始DeepSeek-R1生成的合成数据进行微调，确保在推理任务中表现出色，同时足够轻量化以便本地部署。DeepSeek 蒸馏DeepSeek模型

DeepSeek-R1在各种基准测试中表现出竞争力，包括数学、编码、常识和写作。根据使用模式，它相比OpenAI的o1模型等竞争对手提供了显著的成本节省，使用成本便宜20到50倍。

8.3 对AI行业的影响

DeepSeek-R1的引入挑战了AI领域的既定规范，使先进LLMs得以「普及化」，并促进了一个更具竞争力的生态系统。其可负担性和可访问性预计将推动各行各业的采用和创新增加。最近，领先的云服务提供商如AWS、微软和谷歌云已在其平台上提供DeepSeek-R1。较小的云提供商和DeepSeek母公司以竞争性定价提供它。

结论

从2017年Transformer架构的引入到2025年DeepSeek-R1的发展，大型语言模型（LLMs）的演变标志着人工智能领域的一个革命性篇章。LLMs的崛起由四个里程碑式的成就标示：

Transformers (2017)：Transformer架构的引入为构建能够以前所未有的精确性和灵活性处理复杂任务的大规模高效模型奠定了基础。
GPT-3 (2020)：该模型展示了规模在AI中的变革力量，证明了在大规模数据集上训练的巨大模型可以在广泛的应用中实现接近人类的表现，为AI所能完成的任务设立了新的基准。
ChatGPT (2022)：通过将对话式AI带入主流，ChatGPT使高级AI对普通用户来说更加可访问和互动。它还引发了关于广泛采用AI的伦理和社会影响的关键讨论。
DeepSeek-R1 (2025)：代表了成本效率的一大飞跃，DeepSeek-R1利用专家混合架构(MoE)和优化算法，与许多美国模型相比，运营成本降低了多达50倍。其开源性质加速尖端AI应用的普及化，赋予各行业创新者权力，并强调了可扩展性、对齐性和可访问性在塑造AI未来中的重要性。

LLMs正逐步演变为多功能、多模态的推理系统，能够同时满足普通用户和特定需求。这一演变得益于突破性技术创新，以及在规模、易用性和成本效益上的显著提升，推动人工智能朝着更加包容和影响力深远的方向迈进。

原文链接：

https://medium.com/@lmpo/%E5%A4%A7%E5%9E%8B%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E7%AE%80%E5%8F%B2-%E4%BB%8Etransformer-2017-%E5%88%B0deepseek-r1-2025-cc54d658fb43

#大模型面经

目前不同阶段的scaling law之间的区别和联系是什么？

本篇主要总结目前三种scaling law：Pre-train、RL、Test Time相关的内容。

现在关于scaling law是否“撞墙”的讨论越来越多，Chinchilla Scaling Law推断，"即使没有新数据，也并不意味着模型效果提不上去了，很简单，只要增加基座模型尺寸，效果仍然会提高，只是从付出的算力和获得的效果提升来说很不合算，性价比过低"这也是为什么大家由Pre-train Scaling Law转到RL Scaling Law和Test Time Scaling Law的原因。

本篇就来以面经的形式整理三种scaling law相关的内容，快捷目录如下。

一、请简要解释预训练（Pre-train）、强化学习（RL）和测试时（Test Time）三种 Scaling Law 的核心观点，在对应的阶段起到的作用。二、预训练和测试时的 Scaling Law 都与计算资源相关，它们在资源分配的策略上有何本质区别？三、RL Scaling Law 中提到的“过优化”现象是什么？如何缓解这一问题？四、在资源有限的情况下，在训练模型的时候如何结合三种 Scaling Law 制定模型优化优先级？五、Test Time Scaling Law 可能带来哪些工程挑战？怎么处理

一、请简要解释Pre-train、RL和Test Time三种 Scaling Law 的核心观点，在对应的阶段起到的作用

Pre-train Scaling Law

核心观点是模型性能（如损失函数值）随计算量（FLOPs）、数据量和模型参数量的增加呈幂律（Power Law）提升，但边际收益会逐渐递减。

OpenAI 的 Scaling Law 指出，当计算预算增加时，应平衡模型参数量和数据量的增长（如按比例扩展）。主要目的是在预训练阶段，高效分配算力以最大化模型能力。

RL Scaling Law

核心观点是在 RL 阶段（如 RLHF），模型性能随训练步数、奖励模型的准确性、策略优化算法的稳定性等维度扩展。

但实际上RL 阶段这里存在“过优化”现象：模型性能会随训练步数先提升后下降，需谨慎控制训练步数。

主要目的是在对齐与微调阶段，平衡模型性能与安全对齐。

Test Time Scaling Law

在推理阶段，通过增加测试时计算（如思维链、自洽性采样、集成等方法）提升模型表现，但边际收益递减。

比如采样 10 次可能显著提升效果，但增加到 100 次收益有限。

主要目的是在推理阶段利用额外计算资源优化最终输出质量。

二、预训练和测试时的 Scaling Law 都与计算资源相关，它们在资源分配的策略上有何本质区别？

Pre-train Scaling Law资源分配是离线的，主要在模型参数量（N）、数据量（D）、训练计算量（C）之间按比例权衡（如 Chinchilla 定律建议 N∝D，即模型大小与数据量应同步增长）。目标是找到三者最优配比，避免某一维度成为瓶颈。
Test Time Scaling Law资源分配是在线的，通过动态增加单次推理的计算开销（如采样次数、Prompt 设计复杂度）提升效果。例如，在低延迟场景下可能仅采样 1 次，而在高精度场景下采样 5-10 次。
关键区别预训练的资源分配影响模型的“先天能力”，需长期训练；测试时的资源分配则是在模型能力固定的前提下，通过灵活调整推理策略优化结果。

三、RL Scaling Law 中提到的“过优化”现象是什么？如何缓解这一问题？

1. RL的过优化现象

在 RLHF 训练中，当策略模型过度优化奖励模型（RM）时，可能导致模型输出偏离人类真实偏好（如过度迎合 RM 的缺陷），表现为训练后期验证集性能下降。

2. 缓解方法

Early Stopping：通过验证集监控，在性能下降前终止训练。
使用 PPO 中的 KL 惩罚项限制策略模型与初始模型的偏离程度。
reward model更新：提升 RM 的泛化性和鲁棒性，现在一般会设置多目标奖励或对抗训练。

四、在资源有限的情况下，在训练模型的时候如何结合三种 Scaling Law 制定模型优化优先级？

优先级主要就根据目前的模型的效果，以及具体需求来调整。

如果基座模型能力不足（如逻辑推理弱），那就优先扩展预训练规模（提升数据质量或者参数量），用Pre-train scaling law。

如果是模型已具备基础能力但未对齐，那么就用 RLHF 对齐人类偏好，用RL scaling law。

当基座模型和对齐已完成，但需低成本提升特定任务效果时（如数学推理），可增加测试时计算量（比如COT）。

总结一下，假设预算有限且需快速部署客服模型：

基座模型回答不准 → 优先优化预训练数据质量。
回答准确但不符合企业规范 → 进行 RLHF 微调。
需要进一步提升复杂问题解决率 → 在推理时使用思维链（CoT）提示。

五、Test Time Scaling Law 可能带来哪些工程挑战？怎么处理

Test Time Scaling Law存在边际收益递减特性，模型固有能力会限制测试时优化的上限（例如基座模型无法解决数学问题，再多采样也没用）。

工程上的挑战主要是成本和延迟，增加采样次数也会线性增加计算成本和响应时间。

解决方案

根据任务难度自适应选择采样次数（如简单问题仅采样 1 次，复杂问题采样 5 次）。
使用蒸馏技术将大模型推理能力迁移到小模型，降低单次推理成本。
结合测试时优化与轻量级微调（如 Adapter），突破基座模型的能力限制

关于scaling law这块更深度的内容其实推荐大家去看看《张俊林—S型智能增长曲线：从Deepseek R1看Scaling Law的未来 - 知乎》—（https://zhuanlan.zhihu.com/p/22658624635），会很有收获~

#为DeepSeek MoE模型带来「免费午餐」加速

专家链可大幅提升LLM的信息处理能力

我们都知道，DeepSeek-R1 的训练过程使用了一种名为专家混合模型（Mixture-of-Experts, MoE）的技术，而当前的 MoE 技术依然还有显著的优化空间。

近日，美国西北大学计算机科学博士生王子涵（Zihan Wang）等人在这个方向上取得了突破，提出了一种名为专家链（CoE）的技术。实验表明，CoE 在性能、扩展策略、资源效率和专家使用效率等多个方面都显著超越先前的 MoE 模型。

目前，核心研究者王子涵已经撰写并发布 CoE 的中英文博客并已经在 GitHub 开源相关代码，他也在博客中表示研究论文将在近期发布。以下为相关链接：

代码：https://github.com/ZihanWang314/coe
中文报告：https://sandy-server-87f.notion.site/1ab9bb750b79801bbfebf01ae9a77b3f
英文报告：https://sandy-server-87f.notion.site/Chain-of-Experts-Unlocking-the-Communication-Power-of-MoEs-1ab9bb750b7980048d43e6aab3537cea

授权转载了其中文报告。

作者简介：王子涵，美国西北大学计算机科学博士一年级学生，导师为 Manling Li。他本科毕业于中国人民大学高瓴人工智能学院，并曾参与过 DeepSeek-V2 模型的开发工作。

引言

我们提出专家链 (Chain-of-Experts，CoE) 架构，一种通过在单层内实现专家间串行通信的创新方法，从根本上改变稀疏神经网络的信息处理方式。

MoE 设计中存在专家间独立处理以及显存需求高的问题。与先前 MoE 独立处理每个 token 不同，CoE 引入迭代机制使专家能够 "沟通"，在其他专家的输出之上处理 token。

实验证明 CoE 在多个方面显著超越先前 MoE 模型。性能显著提升，CoE 两次迭代在 Math 任务上将验证 loss 从 1.20 降至 1.12；扩展策略优势，CoE 中扩展两次迭代性能相当于将专家选择数量扩大 3 倍，并优于扩展模型层数；资源效率优化，相似表现下减少了 17.6-42% 的内存需求；专家组合自由度提升了 823 倍；专家使用效率增强，促进了专家间的直接通信和更好的专家分化。这些优势构成了一种罕见的 "免费午餐" 效应，为大规模语言模型的高效扩展开辟了新途径。

Chain-of-Experts：释放 MoE 专家的沟通潜能

大型语言模型（LLMs）不断推动人工智能可能性的边界，但高效扩展这些模型仍然是一个重大挑战。专家混合（Mixture of Experts，MoE）模型作为一种有前景的方法出现，通过每个 token 仅激活部分参数来解决这一挑战，理论上实现更高效的扩展。然而，MoE 模型存在以下局限性：

独立标记处理：MoE 模型通常并行独立处理 token，专家之间没有沟通。
内存效率低下：由于具有稀疏激活模式，MoE 整体参数数量较大，需要大量内存资源。

Chain-of-Experts (CoE) 介绍

我们的研究引入了 Chain-of-Experts (CoE)，这是一种改变稀疏神经网络处理信息方式的新方法。

Chain-of-Experts 的形式化表述

CoE 的关键创新在于建立沟通性处理机制，超越了先前 MoE 模型中的独立标准处理。我们如何实现这一点？通过在单个层的迭代中将 MoE 输出反馈为多次迭代的输入。

1、先前 MoE 的输出表示

在先前的 MoE 层中，不考虑共享专家，输出可以表示为：

其中 x 是输入，

是门控值（路由函数分配给专家

的权重），K 是每个 token 选择的专家数量，N 是每层专家总数，

是专家 i 的路由参数。

考虑共享专家时，路由函数计算不变，MoE 的输出变为

其中 M 是共享专家的总数，

是共享专家。

2、CoE 的迭代处理机制

在 CoE 中，我们引入迭代处理机制，可以形式化表示为：

其中

是第 t 次迭代的中间表示，

是第 t 次迭代中专家 i 的门控值，C 是迭代的总次数，

是第 i 个专家，

是残差连接指示变量，当使用内残差时

，否则为0。

考虑到共享专家，可以形式化表示为：

3、门控机制详细说明

参考 DeepSeek-V2 的实现，我们定义门控机制为：

其中，我们为每次迭代使用独立门控，采用不同的路由函数，K/C 是每次迭代选择的专家数量（以保持总计算量不变），

的路由参数。

方法分析

1、CoE 的优势

这种迭代式专家处理方法具有两个关键优势：

每次迭代的专家选择由前一次迭代的输出决定，形成专家间的依赖关系和更动态的路由机制
串行信息可以在迭代过程中累积，实现专家间的直接通信

通过这种方式，CoE 能够在保持计算效率的同时，显著提高模型的表现，特别是在复杂的场景中（如实验采用的数学任务）。

2、路由函数如何影响决策过程

在 CoE 模型中，路由函数

对决策过程的影响是多层次的：

动态专家选择：在每次迭代 t 中，
基于前一次迭代的输出
信息流控制：路由函数控制了信息如何在专家网络中流动，通过在每次迭代中重新评估路由决策，确保信息能够流向最相关的专家。
适应性处理：随着迭代的进行，路由函数可以调整其路由策略，根据先前迭代的处理结果来优化后续专家的选择。

实验结果与发现

我们采取 DeepSeekV2 结构，在 500M 级别 MoE 下使用 32K Tok 的 batch size 训练 1000 步，完成了一系列实验来验证 CoE 的有效性。单次训练使用一张 H100 约为 30 分钟，使用一张 4090 约为 2 小时。更多实验细节见后。

我们的实验方法命名为

，例如 CoE-2 (4/64) 代表使用 CoE，循环次数为 2，每次选取 4 个专家，每层一共有 64 个专家。我们在所有实验中设置共享专家的数量为 1，在迭代次数为 2 的情况下，这会提高 5% 左右的计算需求。

效果优势

1、在算力预算与显存预算相似时，CoE 效果明显更优。

在 Math 任务上进行预训练 (步数 1000)，CoE-2 (4/64) 的效果明显优于 MoE (8/64)，在相似的算力和内存要求下，将 loss 从 1.20 下降至 1.12，且有更陡峭的下降趋势。

我们进一步在 “dense”（专家 8 选 8）模型上也测试了 CoE，证明了串行处理在 Sparse MoE 上相比 Dense 模型更有效，CoE 是 (Fine-Grained) Sparse MoE 的专属方法。如图所示，采取 2 次序列化处理对 Dense 模型性能没有显著益处。

资源效率

1、在计算量和效果相似的情况下，CoE 可以减小对显存的要求。

例如，CoE-2 (4/48) 的效果与 MoE (8/64) 相近，但使用更少的总专家数量。

如下图所示，loss match 的情况下减小了 17.6% 的显存需求。

（注，我们记录了 GPU memory allocated，与 micro_bsz=1 的时候理论最小显存相关，实际上因为实验中使用了较大的 batch size，使用的显存会更大）

2、在预算相似的情况下，CoE 是更好的计算扩展方式。

我们对比了 CoE 和其他计算扩展方法：拓展模型层数与拓展专家选择个数。

a) 拓展迭代次数 (CoE) > 拓展模型层数

CoE-2 (8/64),4 层 vs MoE (8/64),8 层 / 12 层，8 层 MoE 和 CoE 效果几乎相同，但是对 Memory 要求高 72%，即 CoE 相对节省了 42% memory。

b) 拓展迭代次数 (CoE)> 拓展专家选择个数

CoE-2 (8/64),4 层 vs MoE (16/64) 或 MoE (24/64),4 层，Memory 和 Compute 要求一致，CoE 效果更好。

3、架构设计的关键发现

a. 独立门控机制

独立门控机制可以提升模型性能，能从一定程度上解释专家的分化，表明同一专家在不同迭代阶段处理不同类型的信息。

我们实现了共享门控的 CoE 变种，使用共享的

，具体而言：

发现效果差于 CoE，甚至差于没有拓展规模的 MoE，如下图所示，体现独立门控机制的重要性。

b. 残差连接

内残差连接 (inner residual) 比外残差连接 (outer residual) 更有效，这表明每组专家对 token 的串行处理实际上是在提高模型的有效深度，每个专家的处理都在更好地学习残差。

我们实现了外残差连接的变种，将

设置为 0，层内迭代处理结束后再连接残差，具体而言：

发现效果差于 CoE 且与 MoE 相当，如下图所示，体现内残差连接的重要性。

理论观察：免费午餐效应

最显著的是，CoE 或许提供了我们称之为 "免费午餐" 加速。通过重构信息在模型中的流动方式，与以往 MoE 方法相比，我们以更少的计算开销实现了更好的结果。我们认为这种效果可能来自于三个因素：

1. 专家选择的自由度提高。

，选择的可能性变多

2. CoE 统一了串行处理 (sequential processing) 和专家通信 (expert communication) 两个概念：

不同专家之间可以串行处理，提高了 Transformer 的有效深度。两次前向传播送到不同专家时，增强了专家的串行特征 — 处理同一个 token 的路由专家数相同，但是是串行地处理。
一个专家在迭代过程中有机会处理一个 token 多次，可能有助于促进专家的分化：一个专家与其他专家合作处理后，可以在后续迭代对 token 进行补充处理。

实验细节

1、数据集

实验使用的数据集为 MetaMathQA (链接：https://huggingface.co/datasets/meta-math/MetaMathQA )，该数据为从 GSM8K 和 MATH 数据集中增强而来，不含网络获取的通用数据。

2、模型配置

我们基于 DeepSeek-V2-Lite 架构，设置总参数为 544MB（不含 embedding）的模型，实现了 CoE 方法，主要配置参数如下：

基础模型参数：隐藏层大小：1024，隐藏层数量：4，注意力头数：8
MoE 相关参数：路由专家总数：63，共享专家数量：1，每个 token 选择的专家数量：8 (routed) + 1 (Shared)，MoE 中间层大小：704，MoE 层频率：1 (每层都是 MoE 层)
CoE 特有参数：迭代次数：2，残差连接方式：内部连接，独立门控机制：开启 (每次迭代使用不同的路由函数)

3、训练设置

批量大小 (batch size)：64，序列长度：512，训练步数：1000，优化器：AdamW，学习率：3e-4，学习率调度：10% Warmup，betas: [0.9, 0.95] weight_decay: 0.01 warmup_steps_ratio: 0.1 clip_grad: 1.0。

4、系统设置

训练采取改版后的 veRL 架构（微调了原版实现），代码参考 https://github.com/ZihanWang314/coe，实验都在多个单张 H100 的服务器上进行。每组实验在 1 小时以内完成。

结论

Chain-of-Experts 代表了高效、高性能语言模型发展的重要一步。通过在稀疏神经网络中实现沟通处理，CoE 解决了当前 MoE 架构中的基本限制，同时以更少的计算需求提供优越的性能。

这项研究为高效扩展语言模型开辟了新途径，可能使先进的人工智能能力更加普惠和可持续。

未来工作

1. 扩展法则研究：提高模型尺寸、预训练步数、批量大小，测试不同数据集等。目前使用数学数据集是因为其推理复杂性具有挑战性，但计划在通用数据集上进行测试。

2. 进一步评估：

测试模型的实际任务表现而非仅限于评估损失
扩展循环次数：目前只测试了循环次数 = 2，探索 3、4 次等是否有效
进一步评估共享专家对 CoE 的作用

3. 架构创新：

基于循环告诉我们一个专家可以使用多次的原理，探索是否可以实现所有层共享专家的 MoE Transformer，并分层选择专家
例如，DeepSeekV2Lite 有 27 层，每层 64 个专家，目前每层选 6 个路由专家有约 7×10⁷ 种组合，而如果每一层过 MoE 时，都从全部 27×64 个专家中选择，一共将有 3×10¹⁶ 种可能的组合

局限性

虽然理论上 TFLOPs 保持一致，但实际训练时间会略微增加，因为单次迭代选择更少专家减小了矩阵乘法并行度。未来工作可能需要进行底层适配。
该方法需要从头预训练而不能简单地适配现有模型，限制了大众研究者的应用。
模型更大时，多节点 EP 通信开销也需要纳入考虑；当前架构基于 DeepSeekV2，与 V3 的模型架构兼容，但 V3 中实现的 MTP、FP8 等训练架构尚未测试，兼容性未知。

这篇博客文章基于我们关于 Chain-of-Experts (CoE) 的研究论文。有关更多技术细节和实验结果，请关注我们即将发布的完整论文。

贡献者

Zihan Wang*

Rui Pan*

Lu Yin*

Manling Li*

Shiwei Liu*

参考文献

https://arxiv.org/pdf/2309.08520 MoE 缩放法则

https://arxiv.org/pdf/2101.03961 Switch Transformer

https://arxiv.org/pdf/2502.05171 循环深度

https://arxiv.org/pdf/1909.11942 ALBERT (密集模型上的循环)

https://arxiv.org/abs/2401.06066 DeepSeekMoE

https://arxiv.org/abs/2405.04434 DeepSeek V2

https://arxiv.org/abs/2412.19437 DeepSeek V3

https://arxiv.org/abs/1512.03385 ResNet

#Visual-RFT

视觉强化微调！DeepSeek R1技术成功迁移到多模态领域，全面开源

今天给大家重磅推荐一个突破性的视觉强化微调开源项目 —— Visual-RFT (Visual Reinforcement Fine-Tuning)。

论文地址: https://arxiv.org/abs/2503.01785
代码地址: https://github.com/Liuziyu77/Visual-RFT

视觉强化微调 Visual-RFT 将 DeepSeek-R1 背后的基于规则奖励的强化学习方法和 OpenAI 的强化微调（Reinforcement Fine-Tuning，RFT）范式成功从纯文本大语言模型拓展到了视觉语言大模型（LVLM）。通过针对视觉的细分类、目标检测等任务设计对应的规则奖励，Visual-RFT 打破了 DeepSeek-R1 方法局限于文本、数学推理、代码等少数领域的认知，为视觉语言模型的训练开辟了全新路径！

图 1 用一张包含许多宝可梦的图片展示了这一过程，当通过多模态强化微调 Visual-RFT 训练的模型被提问什么宝可梦可以释放技能十万伏特时，模型通过 < think > 推理过程准确找出皮卡丘对应的坐标框，展示出模型的泛化能力。

图 1. Visual-RFT 首次实现将强化微调能力迁移到多模态模型中，只需 10～1000 条数据就能通过思考过程和基于规则的监督提升多模态大模型的性能

从 R1 到 Visual-RFT：强化学习的多模态突破

OpenAI o1 主打的强化微调能力（Reinforcement Fine-Tuning）能只用少量样本就将 o1 迁移到新的任务上。最近 DeepSeek-R1 解释了 o1 模型背后的强推理能力来自基于可验证奖励（Verified Rewards）/ 规则奖励（Rule-based Verifier）的强化学习策略。不过，目前主流的认知在于这种基于规则奖励的方法只适用于数学推理、代码等少数便于验证的任务。我们在 Visual-RFT 中，将这一策略迁移到了视觉语言模型。通过对细分类、目标检测等任务建立对应的可验证规则奖励，我们解决了传统方法在视觉领域中的局限性，只需少量微调样本就实现了更高效、泛化性更强的视觉理解与推理能力。

传统的视觉指令微调（Visual Instruction Tuning/Supervised Fine-Tuning，SFT）需要海量数据对模型微调，在数据量有限（例如某些难以收集数据的特定学科场景）的情况下带来的提升有限。我们提出的视觉强化微调（Visual Reinforcement Fine-Tuning）具有少样本学习能力和更强的泛化性，在数据量有限的场景下相比指令微调具有很大的优势。

为验证 Visual-RFT（视觉强化微调）的泛化能力和普适性，力求对视觉领域的全面覆盖，我们在多个视觉感知任务上对 Visual-RFT 进行验证，包含 Detection，Classification，Grounding 等。其中，Visual-RFT 在 open vocabulary，few-shot learning 等设定下，仅仅通过非常少量的数据就取得了显著的性能提升，轻松实现能力的迁移，且结果明显优于 SFT 的微调方法。在 reasoning grounding (推理定位) 的测试中，Visual-RFT 展现出强大的视觉推理能力。评测结果如图二所示，详细实验信息欢迎参见论文。

图 2. Visual-RFT（视觉强化微调）在各种任务上显著超越 SFT：包括目标检测（OD），开放目标检测（OVD），少样本检测与分类（FSOD/IC），推理定位（Reasoning Grounding）

图 3. 框架图：Visual-RFT（视觉强化微调）通过 IoU 和 cls 奖励和强化学习策略（例如 GRPO）更新模型参数

为了在视觉多模态领域验证可验证奖励的作用，我们提出了使用基于 IoU 的 verified reward 奖励应用于 detection 和 grounding 等任务，使用基于分类正确判断的 cls reward 用于 classification 任务（如图三所示）。

图 4. 部分推理定位结果展示，通过引入思考过程和强化学习策略 Visual-RFT（多模态强化微调）显著超越 SFT，更加准确地定位物体。

图 5. 部分推理细粒度分类结果展示，通过引入思考过程和强化学习策略，（多模态强化微调）Visual-RFT 显著超越 SFT，更加准确地定位物体。

部分模型输出结果展示如图 4 和图 5 所示，相比于传统的视觉指令微调（Visual Instruction/Supervised Fine-Tuning），Visual-RFT（视觉强化微调）通过强化学习方法，对问题进行深入的 think 分析取得更佳推理性能，相较于传统的指令微调（SFT）方法取得显著提升。如询问模型图中的运动员在水下依然保持清晰的视野需要带什么物体时，通过传统指令微调的方法模型直接将整个运动员框出。而 Visual-RFT 通过引入推理过程准确地指出防水眼镜及其所在的位置并准确框出。

Visual-RFT 实验结果

Visual-RFT（视觉强化微调）在各大图文感知任务中均展现出强大的性能。我们的实验主要基于视觉语言大模型基座 QWen2-VL 2B/7B 模型，和传统的监督微调（Supervised Fine-Tuning）方法进行对比。在开放目标检测，少样本检测，细粒度分类和推理定位任务上 Visual-RFT 相比 SFT 全面实现了性能提升。值得一提的是，我们的测试数据既包含 COCO、LVIS 等通用场景，又包含从互联网中收集的卡通人物等开放场景数据。只需要几十条数据，模型通过 Visual-RFT 可以学会检测某动漫中的史莱姆形象。实验结果广泛验证了 Visual-RFT 的卓越性能和鲁棒性。

图 5. 部分实验结果展示，Visual-RFT 显著超越 SFT，建立了新的模型微调范式

Visual-RFT 已经开源！欢迎加入！

我们坚信开源的力量，Visual-RFT 项目已全面开源（包含训练、评测代码，数据）。如果你对多模态模型、强化学习、视觉语言理解感兴趣，不妨一起来探索更多可能性吧！

项目地址：https://github.com/Liuziyu77/Visual-RFT

#Anthropic完成35亿美元新融资

估值飙升至615亿美元，网友催发Claude 4

继上周发布全球首个混合推理模型 Claude 3.7 Sonnet 之后，Anthropic 又迎来了一个好消息。

今天凌晨，Anthropic 官宣完成 E 轮融资，筹集到了 35 亿美元，投后估值 615 亿美元。

本轮融资由 Lightspeed Venture Partners 领投，Bessemer Venture Partners、Cisco Investments、D1 Capital Partners、Fidelity Management & Research Company、General Catalyst、Jane Street、Menlo Ventures 和 Salesforce Ventures 以及其他新老投资者也参与其中。

融资消息一出来，评论区热闹了起来。有人表示祝贺，有人认为估值过低，还有人催发 Claude 4 Sonnet。

借助这笔融资，Anthropic 将推进其下一代 AI 系统的开发，扩大其计算能力，深化其在机械可解释性和一致性方面的研究，并加速其国际扩张。

新一轮融资公告是在 Claude 3.7 Sonnet 和 Claude Code 推出之后发布的，这彰显了 Anthropic 持续的产品和商业势头。尤其是 Claude 3.7 Sonnet，该模型在编程能力方面创下了新的高水准。

在 SWE-bench Verified（评估 LLM 解决 GitHub 上真实软件问题能力的基准测试数据集）上，Claude 3.7 Sonnet 实现了 SOTA 性能，远远超过了 Claude 3.5 Sonnet、OpenAI 的 o3-mini (high) 和 o1 以及 DeepSeek R1。

Anthropic 计划未来几个月内在编程领域取得进一步进展。在此基础上，Anthropic 专注于开发可以作为真正合作者的 AI 系统，与人类团队合作解决复杂项目，综合各个领域的信息，并帮助组织实现巨大影响。

当前，各行各业，从 Cursor 和 Codeium 等快速发展的初创公司到 Zoom、Snowflake 和辉瑞等全球性企业，都需要 Claude 来改变他们的运营方式。

Replit 将 Claude 集成到「智能体」中，将自然语言转化为代码，推动收入增长 10 倍；汤森路透的税务平台 CoCounsel 使用 Claude 来协助税务专业人士；Novo Nordiskhas 使用 Claude 将临床研究报告撰写时间从 12 周缩短到 10 分钟；Claude 现在为 Alexa + 提供支持，为数百万家庭和 Prime 会员带来先进的 AI 功能。

继续这一轨迹，Anthropic 将专注于加深自身对前沿 AI 系统的理解，并确保 AI 推动人类进步。

博客地址：https://www.anthropic.com/news/anthropic-raises-series-e-at-usd61-5b-post-money-valuation

#Liquid

生成与理解相互促进！华科字节提出Liquid，揭示统一多模态模型尺度规律！

近年来大语言模型（LLM）的迅猛发展正推动人工智能迈向多模态融合的新纪元。然而，现有主流多模态大模型（MLLM）依赖复杂的外部视觉模块（如 CLIP 或扩散模型），导致系统臃肿、扩展受限，成为跨模态智能进化的核心瓶颈。

为此，华中科技大学、字节跳动与香港大学联合团队提出了极简的统一多模态生成框架 ——Liquid。Liquid 摒弃了传统的外部视觉模块，转而采用 VQGAN 作为图像分词器，将图像编码为离散的视觉 token，使其与文本 token 共享同一词表空间，使 LLM 无需任何结构修改即可 “原生” 掌握视觉生成与理解能力，彻底摆脱对外部视觉组件的依赖。研究团队首次揭示了统一表征下的多模态能力遵循 LLM 的尺度定律，且视觉生成与理解任务可双向互促，这一发现为通用多模态智能的架构设计提供了新的范式。

论文标题：Liquid: Language Models are Scalable and Unified Multi-modal Generators
论文链接：https://arxiv.org/abs/2412.04332
主页链接：https://foundationvision.github.io/Liquid/

背景与贡献

传统多模态大模型（MLLM）普遍依赖外部视觉模块（如 CLIP、扩散模型）作为编码器或解码器，需通过特征投影层对齐视觉与文本特征，导致架构复杂化。近期一些研究尝试采用 VQVAE 替代传统模块，通过将原始像素映射为离散编码，实现图像与文本的统一表征。离散视觉 token 可视为一种新 “语言”，将其扩展至 LLM 的词表中，使得视觉与文本能够以相同的 “下一 token 预测” 范式联合建模，无缝融合多模态信息。尽管早期工作（如 LWM、Chameleon）验证了该范式的潜力，但其从头训练的方式计算成本高昂，而后续工作引入扩散模型（如 Transfusion、Show-o）又导致训练目标割裂，制约了模型效率与灵活性。

本文提出 Liquid，一种将现有 LLM 直接扩展为统一多模态大模型的框架。Liquid 通过 VQVAE 将图像编码为离散视觉 token，使图像与文本共享同一词汇空间，无需修改 LLM 结构即可实现视觉理解与生成。研究发现，现有 LLM 因其强大的语义理解与生成能力，是理想的多模态扩展起点。相比从头训练的 Chameleon，Liquid 节省 100 倍训练成本，同时实现更强的多模态能力。团队进一步探索了从 0.5B 到 32B 六种不同规模 LLM 的扩展性能，覆盖多种模型家族，并揭示三大核心特性：

a. 尺度规律统一性：视觉生成任务中验证损失与生成质量遵循与语言任务一致的缩放规律；

b. 规模化解耦效应：多模态训练下受损的语言能力随模型规模扩大而逐渐恢复，表明大模型具备多任务无缝处理能力；

c. 跨任务互惠性：视觉理解与生成任务通过共享表征空间实现双向促进，验证统一建模的联合优化优势。

极简多模态架构 Liquid

Liquid 采用了将图像与文本以完全相同的方式对待的一致处理框架。基于 VQVAE 的图像分词器将输入图像转换为离散编码，这些编码与文本编码共享相同的词汇表和嵌入空间。图像 token 与文本 token 混合后，输入到 LLM 中，并以 “next token prediction” 的形式进行训练。

图像分词器：对于图像分词器采用与 Chameleon 相同的 VQGAN 作为图像分词器，将 512×512 的图像编码为 1024 个离散 token，嵌入到大小为 8192 的码本中。这些离散图像 token 被附加到 BPE 分词器生成的文本码本中，扩展了 LLM 的词表，使其语言空间升级为包含视觉与语言元素的多模态空间。

架构设计：Liquid 基于现有 LLM 构建，本文以 GEMMA-7B 为基础模型，验证其在多模态理解、图像生成及纯文本任务中的性能。通过对 LLAMA-3、GEMMA-2 和 Qwen2.5 系列模型（规模从 0.5B 到 32B）的缩放实验，全面研究了其多模态扩展行为。Liquid 未对 LLM 结构进行任何修改，仅添加了 8192 个可学习的图像 token 嵌入，保留了原始的 “下一 token 预测” 训练目标及交叉熵损失。

数据准备：为保留现有 LLM 的语言能力，从公开数据集中采样了 30M 文本数据（包括 DCLM、SlimPajama 和 Starcoderdata），总计约 600 亿文本 token。对于图文对数据，使用 JourneyDB 和内部图文数据，构建了 30M 高质量图像数据，总计 300 亿图像 token。所有数据用于混合多模态预训练，使模型快速获得图像生成能力的同时保留语言能力。此外，其中 20% 的图文数据用于训练图像描述任务，以增强视觉理解能力。

训练流程：使用总计 60M 数据进行继续训练。对于多模态训练数据，输入格式定义为：[bos] {text token} [boi] {image token} [eoi][eos] ，其中 [bos] 和 [eos] 为原始文本分词器的序列开始与结束标记，[boi] 和 [eoi] 为新增的图像 token 起始与结束标记。在缩放实验中，针对每个模型规模，分别使用 30M 纯文本数据、30M 文本到图像数据及 60M 混合数据训练三个独立版本，并评估其在一系列任务中的性能。

统一多模态模型尺度规律探索

文章探索了规模从 0.5B 到 32B 的 6 种 LLM 在混合模态训练后的视觉生成性能。随着模型规模和训练迭代次数的增加，验证损失平稳下降，而 token 准确率和 VQA 分数持续上升。在相同的训练 FLOPs 下，较小模型能够更快地达到较低的验证损失和较高的 VQA 分数，但较大模型最终能够实现更高的评估指标。这可能是因为较小模型能够快速完成更多训练步骤，从而更快地适应视觉信息，但其上限较低，难以实现高质量的视觉生成结果。

为了探究视觉生成能力是否影响语言能力，文章比较了在不同规模下，使用 30M 纯语言数据训练和 60M 多模态混合数据训练的模型在语言任务上的表现。较小模型在混合任务训练时存在权衡现象：多模态混合训练后 1B 模型语言任务下降 8.8%，7B 模型下降 1.9%。然而，随着模型规模的增加，这种权衡逐渐消失，32B 模型实现几乎零冲突共生（语言能力保留率 99.2%），这表明较大模型具备足够的能力，能够同时处理视觉和语言空间的生成任务。

理解与生成相互促进

为探究 Liquid 统一范式中理解与生成任务的交互关系，研究团队设计了一组消融实验：以 10M 纯文本 + 10M 视觉生成 + 10M 视觉理解数据（总计 30M）作为基线，分别额外增加 10M 生成或理解数据进行对比训练。实验发现，增加理解数据可使生成任务性能显著提升，反之增加生成数据亦能增强理解能力。这一突破性现象表明，当视觉理解与生成共享统一模态空间时，两者的优化目标具备同源性 —— 均依赖语言与视觉信息的深度对齐与交互，从而形成跨任务协同效应。该发现不仅验证了多模态任务联合优化的可行性，更揭示了 LLM 作为通用生成器的本质潜力：单一模态空间下的跨任务互惠可大幅降低训练成本，推动多模态能力高效进化。

模型性能

视觉生成实验效果

在 GenAI-Bench 评测中，Liquid 在基础与高级文本提示下的综合得分均超越所有自回归模型，其生成的图像与文本语义一致性显著领先。更值得关注的是，Liquid 以远少于扩散模型的数据量（如 SD v2.1、SD-XL），实现了与之匹敌甚至更优的性能，验证了基于 LLM 的跨模态学习在语义关联捕捉与训练效率上的双重优势。

在 MJHQ-30K 评测中，Liquid 以 FID=5.47 刷新自回归模型上限，不仅大幅领先同类方法，更超越多数知名扩散模型（仅次 Playground v2.5），证明 LLM 在图像美学质量上可与顶尖生成模型抗衡。

语言能力保留

在一些经典的语言能力评估 benchmark 上，Liquid 在大多数任务中超越了成熟的 LLAMA2 和经过大规模混合预训练的多模态语言模型 Chameleon，展示了其未退化的语言能力。与 Chameleon 相比，Liquid 基于已具备优秀语言能力的丰富现有 LLM 进行训练，在扩展视觉生成与理解能力的同时，成功保留了语言能力，证明 Liquid 可以将视觉生成与理解能力扩展到任何结构和规模的 LLM 中。

视觉理解能力

在视觉理解任务中，Liquid 性能显著超越采用标准 VQVAE 的同类模型（如 LWM、Chameleon、Show-o）。尽管其表现仍略逊于依赖连续视觉 token 的主流模型（如 LLaVA），但研究团队通过引入 Unitok 图像分词器（融入图文特征对齐训练，* 标结果），使模型理解能力大幅提升，逼近 LLaVA 水平。这验证了基于离散编码的多模态大模型具有摆脱 CLIP 编码器的潜力。

总结

综上所述，本文提出了 Liquid，一种极简的统一多模态生成与理解任务框架。与依赖外部视觉模块的传统方法相比，Liquid 通过视觉离散编码直接复用现有大语言模型处理视觉信息，实现了图像生成与理解的无缝融合。实验验证了语言模型在视觉生成任务中可以在保留语言能力的情况下媲美主流扩散模型，并且发现多模态任务的统一带来的语言和视觉能力的削弱，会随着模型规模的增加而逐渐消失。此外，原文还揭示了多模态任务间的互惠关系和更多的尺度现象，为大规模预训练提供了新的思路。