51c大模型~合集6

whaosoft-143

已于 2025-03-16 21:40:17 修改

阅读量1.5k

点赞数 25

分类专栏：人工智能文章标签：人工智能

于 2024-10-30 10:08:06 首次发布

本文链接：https://blog.csdn.net/weixin_49587977/article/details/143357581

版权

人工智能专栏收录该内容

361 篇文章

订阅专栏

我自己的原文哦~ https://blog.51cto.com/whaosoft/11519413

#斯坦福小镇

机器人版的「斯坦福小镇」来了，专为具身智能研究打造

首个专为各种机器人设计的模拟互动 3D 社会。

还记得斯坦福的 AI 小镇吗？这是斯坦福的 AI 研究者打造的一个虚拟环境。在这个小镇上，25 个 AI 智能体正常生活、工作、社交，甚至谈恋爱，每个智能体都有自己的个性和背景故事。智能体的行为和记忆通过大语言模型来驱动，这些模型能够存储和检索智能体的经历，并根据这些记忆来规划行动。

与之类似，最近，来自上海人工智能实验室 OpenRobotLab 等机构的一批研究者也打造了一个虚拟小镇。不过，生活在其中的是机器人和 NPC。

这个小镇包含 10 万个交互式场景和 89 种不同的场景类别，是首个专为各种机器人设计的模拟互动 3D 社会。

作者表示，他们设计这个环境是为了解决具身智能领域的数据稀缺问题。众所周知，由于收集真实世界数据的成本过高，在具身智能领域探索 scaling law 一直困难重重。因此，从仿真到真实（Sim2Real）的范式成了扩展具身模型学习的关键一步。

他们为机器人设计的这个虚拟环境名叫 GRUtopia，项目主要包括：

1、场景数据集 GRScenes。包含 10 万个交互式、精细注释的场景，可自由组合成城市规模的环境。与以往主要关注家庭的工作不同，GRScenes 涵盖了 89 种不同的场景类别，弥补了服务型环境的空白（一般机器人最初会部署在服务型环境中）。

2、GRResidents。这是一个大型语言模型（LLM）驱动的非玩家角色（NPC）系统，负责社交互动、任务生成和任务分配，从而模拟具身 AI 应用的社交场景。

3、基准 GRBench。支持各种机器人，但侧重于作为主要智能体的有腿机器人，并提出了涉及物体定位导航、社交定位导航和定位操纵的中等难度任务。

作者希望这项工作能缓解该领域高质量数据稀缺的问题，并为具身 AI 研究提供更全面的评估。

论文标题：GRUtopia: Dream General Robots in a City at Scale
论文地址：https://arxiv.org/pdf/2407.10943
项目地址：https://github.com/OpenRobotLab/GRUtopia

GRScenes：大规模的完全互动环境

要建立一个用于训练和评估具身智能体的平台，具有不同场景和物体资产的完全交互式环境是必不可少的。因此，作者收集了一个包含各种物体资产的大规模 3D 合成场景数据集，作为 GRUtopia 平台的基础。

多样、逼真的场景

由于开源 3D 场景数据的数量和类别有限，作者首先从设计师网站上收集了约 10 万个高质量的合成场景，从而获得多样化的场景原型。然后，他们对这些场景原型进行清理，并对其进行区域和物体级别的语义注释，最后将它们组合在一起，形成城镇，作为机器人的基本游乐场。

如图 2-(a) 所示，除了常见的家庭场景外，作者构建的数据集中还有 30% 的其他不同类别的场景，如餐厅、办公室、公共场所、酒店、娱乐等。作者从大规模数据集中初步筛选出 100 个带有精细注释的场景，用于开源基准测试。这 100 个场景包括 70 个家庭场景和 30 个商业场景，其中家庭场景由综合性常见区域和其他不同区域组成，商业场景涵盖医院、超市、餐厅、学校、图书馆和办公室等常见类型。

此外，作者还与几位专业设计师合作，按照人类的生活习惯来分配物体，使这些场景更加逼真，如图 1 所示，而这在以前的作品中通常是被忽略的。

具有部件（part）级注释的交互式物体

这些场景原本包含多个 3D 物体，但其中一些没有内部建模，因此无法训练机器人与这些物体进行交互。为了解决这个问题，作者与专业团队合作，对这些资产进行修改，并创建完整的物体，使它们能够以物理上可信的方式进行交互。此外，为了提供更全面的信息，使智能体能够与这些资产进行交互，作者在英伟达 Omniverse 中以 X 形式为所有物体的交互部件附加了细粒度部件标签。最后，100 个场景包含 96 个类别的 2956 个交互式物体和 22001 个非交互式物体，其分布情况如图 2-(b) 所示。

分层多模态注释

最后，为了实现具身智能体与环境以及 NPC 的多模态交互，还需要对这些场景和对象进行语言注释。与之前的多模态 3D 场景数据集只关注对象层面或对象间关系不同，作者还考虑了场景元素的不同粒度，如对象与区域的关系。鉴于缺乏区域标签，作者首先设计了一个用户界面，在场景鸟瞰图上用多边形注释区域，然后可以在语言注释中涉及对象 - 区域关系。对于每个对象，他们都会用渲染的多视图图像提示功能强大的 VLM（如 GPT-4v），以初始化注释，然后由人工进行检查。由此产生的语言注释为后续基准测试生成具身任务提供了基础。

GRResidents3D 环境中的生成式 NPC

在 GRUtopia 中，作者通过嵌入一些「居民」（即由 LLM 驱动的生成式 NPC）来赋予世界以社交能力，从而模拟城市环境中的社会互动。这个 NPC 系统被命名为 GRResidents。在 3D 场景中构建真实虚拟角色的主要挑战之一是整合 3D 感知能力。然而，虚拟角色可以轻松访问场景注释和模拟世界的内部状态，从而实现强大的感知能力。为此，作者设计了一个世界知识管理器（WKM），用于管理实时世界状态的动态知识，并通过一系列数据接口提供访问。借助 WKM，NPC 可以检索所需的知识，并通过参数化函数调用执行细粒度的对象 grounding，这构成了其感知能力的核心。

世界知识管理器（WKM）

WKM 的主要职责是持续管理虚拟环境知识，并向 NPC 提供高级场景知识。具体来说，WKM 分别从数据集和模拟器后台获取分层注释和场景知识，构建场景图作为场景表示，其中每个节点表示一个对象实例，边表示对象之间的空间关系。作者采用 Sr3D 中定义的空间关系作为关系空间。WKM 会在每个模拟步骤中保留该场景图。此外，WKM 还提供了三个核心数据接口，用于从场景图中提取知识：

1、find_diff (target, objects)：比较目标对象与一组其他对象之间的差异；

2、get_info (object, type)：根据所需的属性类型获取对象的知识；

3、filter (objects, condition):：根据条件过滤对象。

LLM 规划器

NPC 的决策模块是一个基于 LLM 的规划器，由三个部分组成（图 3）：一个存储模块，用于存储 NPC 与其他智能体之间的聊天历史记录；一个 LLM 程序员，使用 WKM 的接口来查询场景知识；以及一个 LLM 发言器，用于消化聊天历史记录和查询到的知识，从而生成回复。当一个 NPC 收到一条信息时，它会首先将信息存储在内存中，然后将更新的历史记录转发给 LLM 程序员。然后，程序员会反复调用数据接口来查询必要的场景知识。最后，将知识和历史记录发送给 LLM 发言器，由其生成响应。

实验

作者进行了对象指代、语言 grounding 和以对象为中心的 QA 等方面的实验，以证明论文中的 NPC 能够生成对象说明，通过描述定位对象，以及为智能体提供对象信息。这些实验中的 NPC 后端 LLM 包括 GPT-4o、InternLM2-Chat-20B 和 Llama-3-70BInstruct。

如图 4 所示，在指代实验中，作者采用了 human-in-the-loop 评估。NPC 随机选择一个对象并对其进行描述，然后人类注释者根据描述选择一个对象。如果人类注释者能找到与描述相对应的正确对象，则指代成功。在 grounding 实验中，GPT-4o 扮演了人类注释者的角色，它提供了一个物体的描述，然后由 NPC 对其进行定位。如果 NPC 能够找到相应的物体，则 grounding 成功。

表 2 中的成功率（指代和 grounding）显示，不同 LLM 的准确率分别为 95.9%-100% 和 83.3%-93.2% ，这验证了我们的 NPC 框架在不同 LLM 中指代和接地的准确性。

在以对象为中心的 QA 实验中，作者评估了 NPC 在导航任务中通过回答问题向智能体提供对象级信息的能力。他们设计了一个 pipeline 来生成以对象为中心的导航情节，模拟真实世界的场景。在这些场景中，智能体向 NPC 提问以获取信息，并根据回答采取行动。给定智能体问题后，作者根据 NPC 的答案与真实答案之间的语义相似性对其进行评估。表 2（QA）中显示的总体得分表明，NPC 可以提供精确而有用的导航帮助。

GRBench：一个评估具身智能体的基准

GRBench 是评估机器人智能体能力的综合评估工具。为了评估机器人智能体处理日常任务的能力，GRBench 包括三个基准：物体定位导航、社交定位导航和定位操作。这些基准的难度逐渐增加，对机器人技能的要求也随之提高。

由于腿式机器人具有卓越的跨地形能力，作者优先考虑将其作为主要智能体。然而，在大规模场景中，要同时执行高级感知、规划和低级控制并取得令人满意的结果，对当前的算法来说具有挑战性。

GRBench 的最新进展证明了在仿真中针对单项技能训练高精度策略的可行性，受此启发，GRBench 的初始版本将重点放在高级任务上，并提供基于学习的控制策略作为 API，如行走和拾放。因此，他们的基准提供了更真实的物理环境，缩小了模拟与真实世界之间的差距。

下图是 GRBench 的一些任务示例。

下图是基准智能体的概览。grounding 模块 (a) 将原始感官数据处理成语义丰富的信息，记忆模块（b）存储行动观察历史等历史信息。决策模块（c）由 VLM 或 LLM 组成，根据（a）和（b）的信息做出行动决策，而行动模块（d）则执行输出的行动。环境模拟行动带来的物理变化，并产生感官数据。智能体可以选择向顾问 NPC 询问有关任务的进一步指示。

定量评估结果

作者在三个基准测试中对不同大型模型后端下的大型模型驱动智能体框架进行了比较分析。如表 4 所示，他们发现随机策略的性能接近于 0，这表明他们的任务并不简单。当使用相对较优的大型模型作为后端时，他们在所有三个基准测试中都观察到了明显更好的整体性能。值得一提的是，他们观察到 Qwen 在对话中的表现优于 GPT-4o（见表 5）。

此外，与直接使用多模态大模型进行决策相比，本文提出的智能体框架表现出明显的优越性。这表明，即使是目前最先进的多模态大型模型，在现实世界的具身任务中也缺乏强大的泛化能力。不过，本文的方法也有相当大的改进空间。这表明，当引入更接近真实世界的任务设置时，即使是像导航这样已经研究多年的任务，仍然远未完全解决。

定性评估结果

图 7 展示了 LLM 智能体在「社会定位导航」（Social Loco-Navigation）任务中执行的一个小片段，以说明智能体如何与 NPC 互动。该智能体最多可与 NPC 对话三次，以查询更多任务信息。在 t = 240 时，智能体导航到一把椅子前，询问 NPC 这把椅子是否是目标椅子。然后，NPC 提供有关目标的周边信息，以减少模糊性。在 NPC 的协助下，智能体通过类似人类行为的交互过程成功识别了目标椅子。这表明，本文中的 NPC 能够为研究人与机器人的互动和协作提供自然的社会互动。

#DataComp-LM（DCLM）

权重、代码、数据集全开源，性能超越Mistral-7B，苹果小模型来了

小模型成趋势？

本周，OpenAI 上线小模型 GPT-4o-mini，小模型赛道正式开卷。近期加入这一赛道的还有苹果。

最近，苹果公司作为 DataComp-LM（DCLM）项目的研究机构之一，在 Hugging Face 上发布了 DCLM-7B 开源模型。该模型性能已经超越了 Mistral-7B，并且正在逼近其他领先的开源模型，包括 Llama 3 和 Gemma。

论文链接：https://arxiv.org/pdf/2406.11794
项目链接：https://huggingface.co/apple/DCLM-7B

论文作者之一、苹果机器学习团队 Vaishaal Shankar 将 DCLM 模型描述为「真正开源的最佳模型」，因为 DCLM 不仅开源了模型权重，还开源了训练代码和预训练数据集。

研究介绍

大型语言模型（LLM）目前面临的一个评估挑战是缺乏受控比较。LLM 研究通常会比较采用不同架构、计算或超参数的模型，因此难以理清影响语言模型质量的因素。

基于此，研究团队提出了语言模型数据比较新基准 ——DCLM，这是语言模型训练数据整编（curation）的第一个基准，旨在让 LLM 通过设计高质量数据集来提高模型性能，特别是在多模态领域。

研究团队发现基于模型的过滤，即由机器学习 (ML) 模型从较大的数据集中自动过滤和选择高质量数据，可能是构建高质量训练集的关键。

DCLM 整体思路很简单：使用一个标准化的框架来进行实验，包括固定的模型架构、训练代码、超参数和评估，最终找出哪种数据整理策略最适合训练出高性能的模型。

使用 DCLM，研究团队构建了一个高质量数据集 DCLM-BASELINE，并用该数据集从头开始训练了一个 7B 参数模型 —— DCLM-7B。

DCLM-7B 模型的细节。

DCLM-7B 使用基于 OpenLM 框架的预训练方案，在 MMLU 基准上 5-shot 准确率达到 64%，可与 Mistral-7B-v0.3（63%）和 Llama 3 8B（66%）相媲美，并且在 53 个自然语言理解任务上的平均表现也可与 Mistral-7B-v0.3、Llama 3 8B 相媲美，而所需计算量仅为 Llama 3 8B 的 1/6。

以下是 DCLM-7B 在各种任务（部分）上的评估结果：

DCLM-7B 与其他同等大小模型比较结果如下表所示：

值得注意的是，大部分其他模型虽然开放权重但封闭数据。这就是 Vaishaal Shankar 将 DCLM 模型描述为「真正开源」的原因。

参考链接：https://venturebeat.com/ai/apple-shows-off-open-ai-prowess-new-models-outperform-mistral-and-hugging-face-offerings/

#Awesome-LLM4Graph-Papers

港大黄超团队深度解析大模型在图机器学习领域的「未知边界」

本文的主要作者来自香港大学的数据智能实验室 (Data Intelligence Lab)。作者中，第一作者任旭滨和第二作者汤嘉斌都是香港大学数据科学院的一年级博士生，指导老师为 Data Intelligence Lab@HKU 的黄超教授。香港大学数据智能实验室致力于人工智能和数据挖掘的相关研究，涵盖大语言模型、图神经网络、信息检索、推荐系统、时空数据挖掘等领域。此前的工作包括了通用图大语言模型 GraphGPT，HiGPT；智慧城市大语言模型 UrbanGPT；可解释大语言模型推荐算法 XRec 等。

在信息爆炸的当今时代，我们如何从浩如烟海的数据中探寻深层次的联系呢？

对此，香港大学、圣母大学等机构的专家学者在图学习与大型语言模型领域的最新综述中，为我们揭示了答案。

图，作为描绘现实世界中各种关系的基础数据结构，其重要性不言而喻。以往的研究已证明，图神经网络在图相关的任务中取得了令人瞩目的成果。然而，随着图数据应用场景复杂度的不断提升，图机器学习的瓶颈问题也越发凸显。近期，大型语言模型在自然语言处理领域大放异彩，其出色的语言理解和总结能力备受瞩目。正因如此，将大语言模型与图学习技术相融合，以提升图学习任务的效能，已成为业界新的研究热点。

这篇综述针对当前图学习领域的关键技术挑战，如模型泛化能力、鲁棒性，以及复杂图数据的理解能力等，进行了深入分析，并展望了未来大模型技术在突破这些 "未知边界" 方面的潜力。

论文地址：https://arxiv.org/abs/2405.08011
项目地址：https://github.com/HKUDS/Awesome-LLM4Graph-Papers
港大数据智能实验室：https://sites.google.com/view/chaoh/home

该综述深入回顾了最新应用于图学习中的 LLMs，并提出了一种全新的分类方法，依据框架设计对现有技术进行了系统分类。其详尽剖析了四种不同的算法设计思路：一是以图神经网络为前缀，二是以大语言模型为前缀，三是大语言模型与图集成，四是仅使用大语言模型。针对每一类别，我们都着重介绍了其中的核心技术方法。此外，该综述还深入探讨了各种框架的优势及其局限性，并指明了未来研究的潜在方向。

香港大学数据智能实验室的黄超教授领导的研究团队，将在 KDD 2024 大会上深入探讨大模型在图学习领域所面临的 "未知边界"。

1 基本知识

在计算机科学领域，图（Graph）是一种重要的非线性数据结构，它由节点集（V）和边集（E）构成。每条边连接一对节点，并可能是有向的（具有明确的起点和终点）或无向的（不指定方向）。特别值得一提的是，文本属性图（Text-Attributed Graph, TAG）作为图的特殊形式，为每个节点分配了一个序列化的文本特征，如句子，这一特性在大型语言模型时代显得尤为关键。文本属性图可以规范地表示为由节点集 V、边集 E 和文本特征集 T 组成的三元组，即 G* = (V, E, T)。

图神经网络（Graph Neural Networks, GNNs）是针对图结构数据设计的深度学习框架。它通过聚合邻近节点的信息来更新节点的嵌入表示。具体来说，GNN 的每一层都会通过特定的函数来更新节点嵌入 h，该函数综合考虑当前节点的嵌入状态以及周边节点的嵌入信息，从而生成下一层的节点嵌入。

大型语言模型（Large Language Models, LLMs）是一种强大的回归模型。近期研究显示，包含数十亿参数的语言模型在解决多种自然语言任务时表现卓越，如翻译、摘要生成和指令执行，因而被称为大型语言模型。目前，大多数前沿的 LLMs 都基于采用查询 - 键 - 值（QKV）机制的 Transformer 块构建，该机制能高效地在词元序列中整合信息。根据注意力的应用方向和训练方式，语言模型可分为两大类型：

掩码语言建模（Masked Language Modeling, MLM）是一种广受欢迎的 LLMs 预训练目标。它涉及在序列中选择性地掩盖特定的词元，并训练模型依据周边上下文预测这些被掩盖的词元。为实现精准预测，模型会综合考虑被掩盖词元的前后文环境。
因果语言建模（Causal Language Modeling, CLM）是另一种主流的 LLMs 预训练目标。它要求模型根据序列中先前的词元预测下一个词元。在此过程中，模型仅依据当前词元之前的上下文来进行准确的预测。

2 图学习与大语言模型

在这篇综述文章中，作者依据模型的推理流程 —— 即图数据、文本数据的处理方式以及与大型语言模型（LLMs）的交互方式，提出了一种新的分类方法。具体而言，我们归纳了四种主要的模型架构设计类型，具体如下：

GNNs as Prefix（GNNs 作为前缀）：在此类别中，图神经网络（GNNs）作为首要组件，负责处理图数据，并为 LLMs 提供具有结构感知的标记（如节点级、边级或图级标记），以供后续推理使用。
LLMs as Prefix（LLMs 作为前缀）：在这一类别中，LLMs 首先处理附带文本信息的图数据，随后为图神经网络的训练提供节点嵌入或生成的标签。
LLMs-Graphs Integration（LLMs 与图集成）：该类别的方法致力于实现 LLMs 与图数据之间更为深入的整合，例如通过融合训练或与 GNNs 的对齐。此外，还构建了基于 LLM 的智能体（agent），以便与图信息进行交互。
LLMs-Only（仅使用 LLMs）：此类别设计了实用的提示技巧，将图结构化数据嵌入到词元序列中，从而便于 LLMs 进行推断。同时，部分方法还融合了多模态标记，进一步丰富了模型的处理能力。

2.1 GNNs as Prefix

在图神经网络（GNNs）作为前缀的方法体系中，GNNs 发挥着结构编码器的作用，显著提升了大型语言模型（LLMs）对图结构数据的解析能力，从而为多种下游任务带来益处。这些方法里，GNNs 主要作为编码器，负责将复杂的图数据转换为包含丰富结构信息的图 token 序列，这些序列随后被输入到 LLMs 中，与自然语言处理流程相契合。

这些方法大体上可分为两类：首先是节点级 Token 化，即将图结构中的每个节点单独输入到 LLM 中。这一做法的目的是使 LLM 能够深入理解细粒度的节点级结构信息，并准确辨别不同节点间的关联与差异。其次是图级 Token 化，它采用特定的池化技术将整个图压缩为固定长度的 token 序列，旨在捕捉图结构的整体高级语义。

对于节点级 Token 化而言，它特别适用于需要建模节点级别精细结构信息的图学习任务，如节点分类和链接预测。在这些任务中，模型需要能够区分不同节点间的细微语义差别。传统的图神经网络会根据相邻节点的信息为每个节点生成一个独特的表示，然后基于此进行下游的分类或预测。节点级 Token 化方法能够最大限度地保留每个节点的特有结构特征，对下游任务的执行大有裨益。

另一方面，图级 Token 化则是为了适应那些需要从节点数据中提炼全局信息的图级任务。在 GNN 作为前缀的框架下，通过各种池化操作，图级 Token 化能够将众多节点表示综合成一个统一的图表示，这样不仅能够捕获图的全局语义，还能进一步提升各类下游任务的执行效果。

2.2 LLMs as Prefix

大语言模型（LLMs）前缀法利用大型语言模型生成的丰富信息来优化图神经网络（GNNs）的训练过程。这些信息涵盖了文本内容、LLMs 产生的标签或嵌入等多种数据。根据这些信息的应用方式，相关技术可分为两大类：一是利用 LLMs 生成的嵌入来助力 GNNs 的训练；二是将 LLMs 生成的标签整合到 GNNs 的训练流程中。

在利用 LLMs 嵌入方面，GNNs 的推理过程涉及节点嵌入的传递与聚合。然而，初始节点嵌入的质量和多样性在不同领域中差异显著，例如推荐系统中的 ID 基础嵌入或引文网络中的词袋模型嵌入，可能缺乏清晰度和丰富性。这种嵌入质量的不足有时会限制 GNNs 的性能表现。此外，缺乏通用的节点嵌入设计也影响了 GNNs 在处理不同节点集时的泛化能力。幸运的是，通过借助大型语言模型在语言总结和建模方面的卓越能力，我们可以为 GNNs 生成富有意义和效果的嵌入，从而提升其训练效果。

在整合 LLMs 标签方面，另一种策略是将这些标签作为监督信号，以增强 GNNs 的训练效果。值得注意的是，这里的监督标签不仅限于传统的分类标签，还包括嵌入、图等多种形式。由 LLMs 生成的信息并不直接作为 GNNs 的输入数据，而是构成了更为精细的优化监督信号，从而帮助 GNNs 在各种图相关任务上取得更加卓越的性能。

2.3 LLMs-Graphs Intergration

该类方法进一步整合了大型语言模型与图数据，涵盖多样化的方法论，不仅提升了大型语言模型（LLMs）在图处理任务中的能力，同时也优化了图神经网络（GNNs）的参数学习。这些方法可被归纳为三种类型：一是 GNNs 与 LLMs 的融合，旨在实现模型间的深度整合与共同训练；二是 GNNs 与 LLMs 之间的对齐，专注于两种模型在表示或任务层面上的对齐；三是构建基于 LLMs 的自主智能体，以规划和执行图相关任务。

在 GNNs 与 LLMs 的融合方面，通常 GNNs 专注于处理结构化数据，而 LLMs 则擅长处理文本数据，这导致两者具有不同的特征空间。为了解决这一问题，并促进两种数据模态对 GNNs 和 LLMs 学习的共同增益，一些方法采用对比学习或期望最大化（EM）迭代训练等技术，以对齐两个模型的特征空间。这种做法提升了图和文本信息的建模精度，从而在各种任务中提高了性能。

关于 GNNs 与 LLMs 的对齐，尽管表示对齐实现了两个模型的共同优化和嵌入级别的对齐，但在推理阶段它们仍是独立的。为了实现 LLMs 和 GNNs 之间更紧密的集成，一些研究聚焦于设计更深层次的模块架构融合，例如将 LLMs 中的变换器层与 GNNs 中的图神经层相结合。通过共同训练 GNNs 和 LLMs，可以在图任务中为两个模块带来双向的增益。

最后，在基于 LLM 的图智能体方面，借助 LLMs 在指令理解和自我规划解决问题上的出色能力，新的研究方向是构建基于 LLMs 的自主智能体，以处理人类给出的或与研究相关的任务。通常情况下，这样的智能体包括记忆、感知和行动三个模块，形成观察、记忆回忆和行动的循环，用于解决特定任务。在图论领域，基于 LLMs 的智能体能够直接与图数据进行交互，执行如节点分类和链接预测等任务。

2.4 LLMs-Only

该综述在 LLMs-Only 的章节中详细阐述了直接将大型语言模型（LLMs）应用于各种以图为导向任务的情况，即所谓的 “仅 LLMs” 类别。这些方法的目标是让 LLMs 能够直接接受图结构信息，理解它，并结合这些信息对各种下游任务进行推理。这些方法主要可以分为两大类：i）无需微调的方法，旨在设计 LLMs 能够理解的提示，直接促使预训练的 LLMs 执行以图为导向的任务；ii）需要微调的方法，专注于将图转换为特定方式的序列，并通过微调方法对齐图 token 序列和自然语言 token 序列。

无需微调的方法：鉴于图数据独特的结构特性，出现了两个关键挑战：一是有效地用自然语言格式构建图；二是确定大型语言模型（LLMs）是否能够准确理解以语言形式表示的图结构。为了解决这些问题，一部分研究人员开发了无需调整的方法，在纯文本空间内对图进行建模和推理，从而探索预训练 LLMs 在增强结构理解方面的潜力。

需要微调的方法：由于使用纯文本表达图结构信息存在局限性，近期的主流方法是在将图输入到大型语言模型（LLMs）时，将图作为节点 token 序列与自然语言 token 序列对齐。与前述的 GNN 作为前缀的方法不同，需要调整的仅 LLM 方法放弃了图编码器，转而采用特定的文本描述来体现图结构，并且在提示中精心设计了 prompts，这在各种下游图相关任务中取得了有希望的表现。

3 未来的研究方向

该综述还讨论了大型语言模型在图领域的一些开放问题和潜在的未来研究方向：

多模态图与大型语言模型（LLMs）的融合。近期研究显示，大型语言模型在处理和理解图像、视频等多模态数据方面表现出非凡能力。这一进步为将 LLMs 与包含多种模态特征的多模态图数据相结合提供了新的契机。研发能够处理此类图数据的多模态 LLMs，将使我们在综合考虑文本、视觉、听觉等多种数据类型的基础上，对图结构进行更为精确和全面的推理。

提升效率与降低计算成本。目前，LLMs 的训练和推理阶段涉及的高昂计算成本已成为其发展的重大瓶颈，制约了它们处理包含数百万节点的大规模图数据的能力。当尝试将 LLMs 与图神经网络（GNNs）结合时，由于两种强大模型的融合，这一挑战变得更为严峻。因此，亟待发现并实施有效策略，以降低 LLMs 和 GNNs 的训练计算成本，这不仅有助于缓解当前面临的限制，还将进一步拓展 LLMs 在图相关任务中的应用范围，从而提升它们在数据科学领域的实用价值和影响力。

应对多样化的图任务。当前的研究方法主要集中在传统的图相关任务上，例如链接预测和节点分类。但考虑到 LLMs 的强大能力，我们有必要深入探索其在处理更为复杂和生成性任务方面的潜力，如图生成、图理解以及基于图的问题回答等。通过扩展基于 LLM 的方法以涵盖这些复杂任务，我们将为 LLMs 在不同领域的应用开辟无数新机遇。例如，在药物研发领域，LLMs 可以促进新分子结构的生成；在社交网络分析领域，它们可以提供对复杂关系模式的深入洞察；在知识图谱构建方面，LLMs 则有助于创建更加全面且上下文准确的知识库。

构建用户友好的图智能体。目前，大多数为图相关任务设计的基于 LLM 的智能体都是针对单一任务定制的。这些智能体通常采用单次运行模式，旨在一次性解决问题。然而，理想的基于 LLM 的智能体应具备用户友好性，并且能够动态地在图数据中搜索答案，以响应用户提出的多样化开放式问题。为实现这一目标，我们需要开发一个既灵活又稳健的智能体，它能够与用户进行迭代交互，并熟练应对图数据的复杂性，提供准确且相关的答案。这将要求智能体不仅具备高度的适应性，还需展现出强大的稳健性。

4 总结

该综述对图数据定制的大型语言模型（LLMs）进行了深入探讨，并提出了基于模型的推理框架设的分类方法，将不同的模型细致地划分为四种各具特色的框架设计。每一种设计都展现出其独特的优点与局限性。不仅如此，该综述还对这些特性展开了全面的讨论，深入挖掘了每一种框架在应对图数据处理任务时的潜力和挑战。此项调研工作旨在为那些热衷于探索并应用大型语言模型来解决图相关问题的研究人员提供参考资源，并且希望最终通过这项工作，推动对 LLMs 与图数据结合应用的更深层次理解，进一步催生该领域的技术创新和突破。

#agents

可「自主进化」的Agent？首个端到端智能体符号化训练框架开源了

本文主要作者来自波形智能、浙江大学、和北京航空航天大学。共同一作中，周王春澍是波形智能的联合创始人和 CTO，欧翌昕是浙江大学硕士二年级，丁盛为为北京航空航天大学四年级本科生。文章的通讯作者为周王春澍和姜昱辰，姜昱辰是波形智能的联合创始人和 CEO。

随着各类大模型 API 的迭代以及各类 AI Agent 框架的开源，基于大模型的智能体在学术界和工业界收获了广泛的关注、研究、和应用。

尽管基于大模型的智能体 (AI Agent) 在很多场景都取得了不错的效果，并且在一些场景下已经能够实际落地应用，AI Agent 的研究和开发的进展仍然局限于 “expert-centric”，或者说 “engineering-centric” 的范式中。也就是说，现在的 Agent 的创建和调优过程还是几乎完全依赖人类专家 (算法工程师) 的人力和经验来设计智能体的 promtps, tools，和 workflow。这样的过程费时费力，并且注定了无法使用海量数据对智能体的这些符号化元素进行学习和训练。而大部分智能体依赖于闭源的 API 调用，无法对大模型基座本身进行优化，即使使用开源大模型，对模型基座本身的优化也在大部分 AI 智能体的应用场景中受到资源、算力、稳定性等原因而无法实际进行。因此现在的智能体还处于 “专家系统” 的发展阶段。

众所周知，神经网络成为机器学习 / 人工智能的基础范式的重要原因正是因为可以高效地使用海量数据进行训练和优化，而不需要手工设计复杂的结构和学习算法。因此，来自波形智能的研究人员们认为，AI Agent 从以专家经验为核心 (expert-centric) 到以数据为核心 (data-centric) 的转变，将会是基于大模型的智能体的一个重要发展方向。

为了实现这个目标，来自波形智能的研究团队借鉴连接主义训练神经网络 (connectionist learning) 的基本方式，即反向传播和梯度下降，将 AI Agent 和神经网络进行类比，使用文本和大模型建模损失函数、梯度、和优化器，模拟反向传播和梯度下降算法，实现对 Agent 的端到端的符号化训练算法，构建了一套可以对 AI 智能体进行端到端训练的算法框架，代码已经开源在 GitHub。

论文地址：https://arxiv.org/pdf/2406.18532
代码仓库：https://github.com/aiwaves-cn/agents

具体来说，团队首先将基于大模型的智能体解构为三个主要元素，即 prompts, tools, 和 agent pipeline (workflow)。接着，框架中将一个 Agent 系统看作是一个 “符号化” 神经网络，将 Agent workflow 中的每一个 node 看作是网络中的一个 layer，而将每个节点中的 prompts 和 tools 看作是这个 layer 的 weights，智能体的 workflow/pipeline 则可以看作是网络的计算图。这样下来，智能体系统可以看作是一个权重从数字 / 张量空间变成离散符号空间 (文字，代码都是符号化的表示) 的神经网络，而这种网络的训练自然也就可以参考传统神经网络的优化方式，即反向传播和梯度下降。

图 1: Agent Symbolic Learning 框架示意图

要使传统的反向传播和梯度下降能够处理符号化的权重空间，agent symbolic learning 框架中通过文本和大模型 + 提示词的方式建模了损失，损失函数，反向传播的流程，梯度，以及基于梯度的优化器。具体来说，前向传播过程中，框架会将每一层的输入、权重、和输出都保存在计算图中。接下来，通过大模型 + 提示词的方式，在提示词中结合当前样本的输入，输出，和整体任务的描述，之后由大语言模型输出对当前样本任务完成情况的评价和总结。得到的文本形式的评价 / 总结，正如神经网络中的 loss 一样，用来衡量任务完成的好坏，研究团队将其称为 “文本形式的损失”，即 language-based loss。

之后，该研究通过大语言模型和精心设计的提示词工程，来生成智能体流程中对最后一个节点的 “反思”。反思中包括模型的输出应该怎样变化才能更符合要求，以及提示词和工具调用应该如何优化才能使输出朝这样的方向发生变化。这一内容和神经网络优化中梯度的作用刚好一致，都是包含了参数应该如何调整才能最小化整个模型的损失的信息，因此研究团队将这样的反思称作 “文本形式的梯度”，即 language-based gradient。

接下来要做的就是从后向前，得到每一层的梯度，这对于神经网络的优化至关重要。受到神经网络中基于链式法则的公式的反向传播的启发，波形智能的研究人员通过文本和大模型，用一套精心设计的 prompt 来模拟了传统神经网络优化的链式法则。具体来说，这套 prompts 让大模型基于上一层的梯度信息 (即对上一层执行任务的反思) 以及本层的输入、输出、以及权重 (这些输入和反向传播公式中的参数完全对应)，输出对当前节点的 prompt/tool usage 的反思，即当前层的 language-based gradient。这样基于文本的反向传播的方案使得该研究能够得到一个包含多个节点和复杂 workflow 的智能体中每一节点 / 层的参数的梯度，也就可以直接优化每一个 prompt 和 tool 对整个智能体性能的作用，从而实现 end-to-end 的 joint optimization。

最后，得到了每组参数的 language-based gradient 之后，框架中使用基于大模型的 optimizer，使用精心设计的 prompt，以每一层的提示词和工具调用，以及基于文本的梯度作为输入，输出优化过后的 prompts 和 tools，从而实现对智能体参数的更新。

除此之外，框架中还支持了对网络结构，即 agent workflow 的优化。具体来说，框架中将 agent workflow 以特定的编程语言进行表示，这样就将智能体网络的 “计算图” 也处理成了符号化的权重。之后通过一个单独设计的基于大模型的优化器，以当前智能体的工作流和工作流中的各个节点的文本形式的梯度为输入来对智能体的工作流进行更新。这在神经网络中训练中可以类比自动网络结构搜索相关的研究。

图 2: Agent Symbolic Learning 算法流程

图 3 大模型评测任务上的实验结果

图 4 智能体级别评测任务的实验结果

波形智能的研究人员在大模型和智能体的一系列 benchmark 上对该算法进行了评估，如图 3 和图 4 所示，agent symbolic learning 相比 DSpy 和传统的没有学习能力的智能体框架相比，在各类任务上都有了明显的提升，在一些任务上甚至使用 GPT-3.5 也能和其他智能体框架使用 GPT-4 的表现类似。而简单的对智能体中每一个节点中的提示词使用局部的基于大语言模型的提示词自动优化算法 (AutoPE) 则无法取得很明显的效果。另外，如图 5 所示，该算法在创意写作任务中，从初始的只基于一个提示词进行写作的单节点智能体，自主进化到了支持写作 + 编辑的工作流，并且将写作节点的提示词进行了更新和优化。

图 5 Agent Symbolic Learning 框架学习效果展示 (以创意写作任务为例)

波形智能的研究团队介绍了 Agent Symbolic Learning 的两种应用场景。首先，该框架可以用于开发者或研究人员创建和调优智能体系统中。像神经网络的训练一样，开发者和研究人员可以对指定的任务收集（或者使用框架中提供的自动生成）大量的样本，之后使用该框架在大量数据上完成 “data-centric” 的智能体的训练和优化，在之后像普通智能体的部署一样，在产品生产环境中以静态的方式部署优化过后的智能体。

除此之外，该框架的另一个重要应用场景是支持能够在环境 / 交互中自主进化的 Agent。具体来说，因为该训练框架本身只需要调用大模型的能力而不需要复杂的基于 GPU 的训练和部署，因此一个 Agent 可以将该训练框架作为其自身可以调用的一个工具，通过在环境中探索或者和人类进行交互的过程中，不断收集新的训练样本，定期或者主动调用智能体训练的算法工具，对自身的 prompts, tools, 和 workflow 进行更新。波形智能在 AIWaves Agents 的开源代码库中也支持了这样的部署逻辑，实现了首个可以在被部署到实际产品和生产环境中之后，依然可以不断自主进化、自我迭代的智能体系统。

Agent Symbolic Learning 框架将 AI Agent 视作由复杂 workflow 中的 prompts 和 tools 连接而成的符号化 “神经网络”，通过基于自然语言模拟反向传播和梯度下降，使得基于大模型的智能体可以自主对自身的 “网络参数”，即 prompts 和 tools，以及 “网络结构”，即 agent workflow，进行优化，从而实现了能够高效利用大量数据和经验，进行 “data-centric learning” 的智能体框架，让能够持续自主进化的智能体系统变成了可能。目前，该框架已经在波形智能的多个产品和应用中发挥作用，解决了 Agent 人工优化和评测困难的问题。为了推进 “Data-centric Agent” 和 “Agent Learning” 的发展和研究，波形智能的研究团队也将算法的全部代码开源，期待智能体领域学术界和工业界一起探索更多更有趣的算法和应用。

#一文看尽occupancy

一文总结Occupancy技术，优秀paper综述。

照老样子先说为什么会写这篇文章，因为到目前我的分割大模型对实际部署的小模型并没有帮助。这让我有点郁闷，更郁闷的是后面蒸馏的环节目前也不是我在做。卡不够我的大的模型还在训，等训完想自己上手搞一搞蒸馏，我还就不信了学不好！所以这段时间就写一写看过的paper了，看Bev的时候occupancy相关的有些文章也顺便看了，写一写挺好的。

ok，那第一个，为什么自动驾驶感知都已经有bev了，然后又出来了occupancy Nerwork？

这是2022年特斯拉提出来的一个"技术?"，但我记得昊哥有说过这个学术概念最早是他和一些大佬提出来的。occupancy和bev最主要的区别就是，bev是二维的呈现形式把所有的结果在高度上拍扁了，而occupancy则是三维的，空间上的。那他的好处显而易见，他可以表达存在在空中的东西以及空间中的状态。拿一个场景来举例，比如大家在小区的车位上会有一个地锁。或者高速收费站停车场的抬杆，这个地锁或者杆子如果你从bev的视角去看由于没有高度信息地锁关闭和打开看起来是一样的。但如果是传统2D的检测或者occupancy这样可以看到3D空间的占用状态，这样的是可以检出来的。不管怎么说，occupancy相比原来的bounding box，细粒度更高，更加能够表达物体的细节了，这些细节则代表了更多的corner case可以被解决。

下面拿雷总的图来举个例子，该图来自2023年12月28日小米技术发布会

原本的占用网格像“我的世界”一样，使用一个一个的小立方体来代表物体，立方体越小，物体的分辨率就越高，越吃算力。小米这次出的超分矢量算法感觉怎么有点像场景补全，看起来输出的结果像是mesh拟合了物体，但没有很精细还是有很多空洞。这应该是做的语义场景补全当然这样并非首创，特斯拉在前段时间也有放出泊车视频，也是这样的形式但更加精细和连贯。

第二个，为什么这个文章叫“一文看尽occupancy”，当然我们不可能一文看尽，paper如滚滚长江东流水，一浪更比一浪强。主要是噱头，哈哈哈，有些地方如果有问题大家一定指出来发评论。

第三个在share paper之前还是说一些题外话，占用网格理论上可以说Bev的升级版，把占用网格切换到鸟瞰图的视角下就可以当bev来用。关于bev之前已经有写过文章讲

https://zhuanlan.zhihu.com/p/674854831

https//blog.csdn.net/weixin_46214675/article/details/135101143%3Fspm%3D1001.2014.3001.5502

大家感兴趣可以看一下。对于bev和occupancy，这两个东西并不是完全割裂的，许多bev检测的算法也都在支持occ task，比如我们之前介绍过的bevdet，方法叫BEVDet4D-Occ还是啥

再有就是Semantic Scene Completion 与 occupancy，因为占用网格之前都是一个一个带语义的小方块，所以有个任务和他很相似叫做语义场景补全在semantic kitti上有个task，他的真值是对激光雷达数据的逐点标注，把他体素化后就可以拿来做occupancy的预测。现在的占用网格真值大家一般也都是这样搞起来的，当然nuscenes也可以。但这两个task还是不太一样的，3D Semantic Scene Completion更关注于从稀疏的输入数据中恢复出完整的3D场景的几何和语义信息，而Occupancy则更侧重于通过体素网格来表示和理解3D空间的占用情况。

之前我也有想过和同学一起搞一下占用网格，但是太耗资源了根本搞不起来，能搞得起占用网格的都是大户人家（ps 这是重点!!!)。在自动驾驶里面小公司是根本搞不起的，大多数公司还在追bev的方案，其实跑通真正量产了的不多，占用网络应该是厂家下一个要追赶的技术点了。

My partial paper list

Vision-based occupancy :1. MonoScene: Monocular 3D Semantic Scene Completion [CVPR 2022]

https//arxiv.org/pdf/2112.00726.pdf

- 点评：单目来做3D语义场景补全很难的，再加上提出的时间在22年也算比较早了，也没有用transformer，自己设计了一些模块，是不错的工作！这篇文章后面有时间我会专门出一篇来细讲。当然作为经典工作肯定会是被后面出来的新工作各种摩擦。

对着上面的图通俗易懂的简单说一下，一个图像进来，过2D UNET，flosp（Features Line of Sight Projection），再过3d unet,3D UNET中间插入了一个3D CRP（3D Context Relation Prior）模块，然后做语义补全任务。

最核心的是FLOSP模块，如何将2D特征提升到3D? 其实就是从不同尺度下3D投影到2D，拿到多个尺度采样特征后混合相加完了给后面的3D Unet，就是这样。这个操作和lss一样后面我们也会见到。

剩下的3D Context Relation Prior也不细说，关系矩阵和超体素特征点乘也算是一种算注意力了，超体素是用来建模体素空间关系的。后面的Loss设计部分大家也可以看一看的。

2. Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction [CVPR 2023]

https//arxiv.org/pdf/2302.07817.pdf

- 点评：清华和鉴智的工作，说是首次证明基于视觉的方法在nuScenes LiDAR分割任务上实现了与基于lidar的方法相当的性能。当然也在semantic kitti上测了但没说。可惜的是跑起来太慢了，当然这也是所有occ算法的通病。不过有个点是，他们的工作也比较有连续性，截止到2023年12月29日在github看到他们在上个月发布了占用网格世界模型！紧跟时事。

- 基本流程：简单和大家说一下，就是voxel太慢太复杂，bev把voxel从上往下拍扁了，tpv用三视图来做

复杂的就不讲了，看paper里面的公式，1是体素表达xyz，2是bev表达xy，3 4 5 是三视图表达xy、zx、yz。S是sampling，V，B，T都是features。

整体流程：

至于网络特征怎么提取，transformer怎么做注意力大家可以看文章，后面有时间应该会对文章有更细致的讲解，核心思想就是我的特征是从三个视图拿到的加起来，然后去做prediction。就是这样。

然后给大家share一下对比结果：

3. SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [ICCV 2023]

https//arxiv.org/pdf/2303.09551.pdf

- 点评：清华天大和鉴智的工作，部分是原班人马，不过这次思路完全不一样了，不搞三视图了。由于是靠后一些出的文章，所以结果当然会比TPVFormer强很多。

- 基本流程：如下图多张图像经过backbone network（(e.g. ResNet-101）后出来的是多尺度的特征图X，然后每个体征图分别过2D-3D Spatial Attention模块，将2D特征转为3D，再然后将上一层3D特征进行反卷积和本层特征相加拿到最终特征后，再做occupancy prediction，这里不同尺度的预测每一个都是有监督的。

- 总体流程讲完再简单说一下关键点

2D-3D Spatial Attention：就是把2d特征转到3d空间下的模块。首先3D体积查询定义为Q∈RC×H×W ×Z，这个Q就是3D reference point，然后对于每个Q，会根据给定的内外参将其对应的 3D 点投影到 2D 视图（就是虚线箭头部分)。然后只使用 3D 参考点命中的点，在这些投影的 2D 位置周围采样 2D 特征（怎么采样就是下面的DeformAttn,Qp查询是3D 参考点，P（qp,i ）是2D采样，X是camera feature)。模块输出 F ∈ RC×H×W ×Z 是根据可变形注意机制的采样特征的加权和。公式化如下：

都看到这里了那就再说一下他这个bev-based cross-view attention是怎么个意思也很容易，大家都知道bev是没高度的，而XY是确定的，所以一般会在bev的Z轴上采样出几个固定的高度来，拿到坐标的XYZ之后再投影到图像上。

- 然后有趣的地方是：和 BEVFormer的时间交叉注意力有些异曲同工之妙，当然代码部分也是大同小异。

至于Multi-scale Occupancy Prediction这个部分上面其实已经说过了，下面就是公式化，Deconv就是反卷积拿来做上采样，这算个小知识点，大家不熟悉的可以了解一下。

总结说一下，上面提到的只是关键点，其实还有很多细节的部分是没有提到的！！！

4. OccFormer: Dual-path Transformer for Vision-based 3D Semantic Occupancy Prediction [ICCV 2023]

https//arxiv.org/pdf/2304.05316.pdf

- 点评：这篇就比较厉害了，全是鉴智的人，而且还挂了联合创始人兼CTO，按道理挂大佬名字的paper一般都不会太差，当然本身也没有太差毕竟也是ICCV2023。先上流程图

- 本文提出了 OccFormer，一种用于基于相机的 3D 语义占用预测的双路径变换器网络。为了有效地处理相机生成的 3D 体素特征，提出了双路径变换器块（Dual-path Transformer Encoder），它有效地捕获了具有局部和全局路径的细粒度细节和场景级布局。此外也是第一个使用掩码分类模型进行 3D 语义占用预测的人。鉴于固有的稀疏性和类不平衡，所提出的保留池和类引导采样显着提高了性能。OccFormer 在 SemanticKITTI 测试集上实现了语义场景补全的最先进的性能，在 nuScenes 测试集上实现了基于相机的 LiDAR 分割。好，先简单说一下上面的depth 和context乘起来这是[LSS的经典操作]

https//blog.csdn.net/weixin_46214675/article/details/135101143%3Fspm%3D1001.2014.3001.5501

下面的我们看重点看几个

- Dual-path Transformer Encoder

这里的局部细粒度细节和全局路径的场景级布局是怎么搞的呢？

local path 主要是提取细粒度语义结构。水平方向包含了最多的变化，所以用一个共享编码器，来并行处理所有 BEV 切片，同时保留大部分语义信息。具体来说，我们将高度维度合并到批次维度(batch dimension)中，并采用 windowed self-attention 作为局部特征提取器可以动态地关注具有适度计算的远程区域。（这里的窗口自注意力就是在一个固定范围内算自注意力，如果大家不了解注意力机制，这不行，这得了解，后面看什么时候我把去年做的transformer PPT放出来）global path 的目的是有效地捕捉场景级的语义布局，首先通过沿高度维度的平均池化来获得BEV特征，利用来自 local path 的相同的windowed self-attention 来处理相邻语义的BEV特征。由于发现 BEV 平面上的 global self-attention 会消耗过多的内存，因此采用ASPP来捕捉全局的语义。公式化输出如下

中间的Multi-Scale3DDeformableAttention就不说了，见过很多次了无非就是2D变3D用到三线性特征采样trilinear feature sampling。接下来说一下Transformer Occupancy Decoder ，就是transformer 的decoder,这一层特征加上上一层的特征，确实没啥好说的。至于里面提出的Preserve-Pooling就是个max-pooling也没啥特别只是用的比较好；Class-Guided Sampling就是添加类别权重的超参，看起来高大上罢了。

到这里就可以开始讲一讲 Interesting thing

这是在[Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction, CVPR 2023](

https//github.com/wzzheng/TPVFormer

)，github官方的代码仓库贴出来的信息，一般来说后出来的paper效果都应该好一些，但大家看下面两个表格，上面的是前面讲过的surroundOcc（ICCV 2023)，下面是我们这篇文章的OccFormer（iccv2023）。好像后面发出来occformer还要差一些，同时也没和自己的工作surroundOcc对比（不过应该那时候surroundOcc还没中所以）

5. OpenOccupancy: A Large Scale Benchmark for Surrounding Semantic Occupancy Perception

https//arxiv.org/pdf/2303.03991.pdf

- 点评:同样是一篇挂了大佬名字，也是今年iccv 2023的paper。也同样有鉴智和清华，当然也有来自中国科学院自动化研究所和中国科学院大学的。这篇就简单说一下，因为这篇主要不是做网络而是做Benchmark，而且最重要的是没什么好说的,这篇不是重点，下一篇才是重点，也是一篇我非常欣赏的工作。这篇讲的是

现有的相关基准缺乏城市场景的多样性，它们只评估前视图预测。为了对周围的感知算法进行全面基准测试，我们提出了OpenOpcupancy，这是第一个周围的语义占用感知基准。在 OpenOpcupancy 基准测试中，我们扩展了具有密集语义占用注释的大规模 nuScenes 数据集。

- 人员构成如下

- 和其他数据集的对比

（机器翻译如下:LiDAR 分支利用 3D 编码器提取体素化的 LiDAR 特征，相机分支使用 2D 编码器来学习环绕视图特征，然后将其转换为生成 3D 相机体素特征。在多模态分支中，自适应融合模块动态集成两种模态的特征。所有三个分支都利用 3D 解码器和占用头来产生语义占用。在占用率结果中，红色和紫色圆圈突出显示的区域表明多模态分支可以生成更完整和准确的预测（放大时效果更好）)

- Cascade Occupancy Network以及可视化效果

- share别人的算法在自己的数据集上的效果，遥遥领先

下一篇！

6. VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion [CVPR 2023 Highlight]

https//arxiv.org/pdf/2302.12251.pdf

- 点评：nvidia出品还是有点东西的，这篇文章提出了一个一种新颖的将图像提升到一个补全 3D 体素化语义场景的两阶段框架，一种新的从图像深度生成可靠查询的基于二维卷积的query proposal network，一种新的Transformer，类似于掩码自动编码器(MAE)但它可以补全完整的3D场景表示。更重要的VoxFormer在SemanticKITTI上为基于相机的SSC拿到了SOTA，大家可以看一下结果先。其他工作也有和MonoScene的对比，涨点多少就不说了，并且人家在训练期间将 GPU 内存减少到不到 16GB，这才真是遥遥领先！occupancy不是谁都能搞最重要的就是显存不够，卡不够，搞轻量搞实时才是王道，现在的占用网络都太重了！

- 当然缺点也不是没有，受深度估计的影响，深度在远处的位置非常不可靠。解耦远程和短程SSC是增强远离自我车辆的SSC的潜在解决方案，这也是他们未来的工作。

- 下面就重点来看这个网络是怎么做的，之前在其他博客里面也有说过，好的paper只要图看懂了文章也就看懂了，我们从图看起，按图来简单讲一下(如果对着代码来讲那就是复杂讲一下了)

image序列过来后会先进行Depth Prediction，这里是直接利用现成的深度估计模型，如单眼深度或立体深度估计，直接预测每个图像像素(u, v)的深度Z(u, v)。之后，深度图 Z 将反投影到 3D 点云中，但由此产生的3D点云质量较低，特别是在远程区域。（因为地平线的深度非常不一致;只有少数像素决定了大区域的深度）。

Depth Prediction 下面有个Voxel Queries Q,预定义的体素查询为 3D 网格形可学习参数，Q ∈R h×w×z×d 其中 h × w × z 的空间分辨率低于输出分辨率 H × W × Z 。

接着Depth Prediction 和Voxel Queries Q被送到Depth-based Query Proposal。这里有一个点，为了获得好的Q，使用模型 Θocc 以较低空间分辨率预测占用图来帮助校正图像深度。具体来说，首先将合成点云转换为二值体素网格映射图M(in)，如果至少占用一个点，每个体素被标记为1。然后我们可以通过 M(out) = Θocc(Min) 预测占用率，其中 M(out) ∈ {0, 1}h×w×z 的分辨率低于输入 M(in) ∈ {0, 1}H×W ×Z，因为较低的分辨率对深度误差更稳健并与体素查询的分辨率兼容。简单来说就是低分辨率更鲁棒。现在就可以来proposal Q了，Q是怎么出呢？!

Q从上面的低分辨率预测占用图来选，这样的话通过删除许多空白空间和保存计算和内存，再者通过减少错误 2D 到 3D 对应关系引起的歧义来简化注意力学习。

到这里就完成了第一个阶段的Class-Agnostic Query Proposal，接下来就是第二个阶段Class-Specific Segmentation.ResNet-50 backbone来提取 2D features ，然后2D 的Feature作为k,v，有了第一阶段的Q，就可以做注意力了。Deformable Cross-Attention 老熟人了，2d 3d版本也都有了。

经过几层可变形交叉注意后，Q将被更新。然后我们再接着看就能看到Mask Token了，这就是类似于掩码自动编码器(MAE)的3D场景补全了。在前面虽然选择了一些体素查询来处理图像;剩余的体素将与另一个可学习的参数关联起来补全3D体素特征。为了简洁起见将这种可学习的参数命名为mask token，因为没被选择的Q，就类似于从Q中被屏蔽掉了。具体来说，每个mask token是一个可学习的向量，表示存在一个待预测的缺失体素，位置嵌入也被添加。MAE也是如此，重建mask掉的token。

输入的token有了，接下来就是算Deformbale Self-Attention,获得refined voxel features。

在往后就是上采样和全连接，输出预测结果。

- 部分实验对比

语义场景补全还是雷达比较强。主要特斯拉走纯视觉路线出的占用网格，大家也都跟着做视觉。国内感觉目前主流的贵的方案里面还是有用激光雷达，华为，理想，小鹏，小米等等。其实我知道的也不多，小公司信息比较闭塞。

7. OccupancyDETR: Making Semantic Scene Completion as Straightforward as Object Detection

https//arxiv.org/pdf/2309.08504.pdf

- 点评：先做检测然后占用，参数不多效果不错，显存占用还行，train用24G 3090,evaluation可以用16G 3080。其实挺好的，但这些新文章后面有空再细讲吧。

8.FlashOcc: Fast and Memory-Efficient Occupancy Prediction via Channel-to-Height Plugin

- 点评：2023年11月出的文章，前面讲monoscene的时候有讲到，到2023年12月31日没看到有中稿。

9.COTR: Compact Occupancy TRansformer for Vision-based 3D Occupancy Prediction

https//arxiv.org/pdf/2312.01919.pdf

- 点评：最近也有陆陆续续跟arxiv上有关占用网络的文章。这篇从指标看算是不错的，也是离现在比较近的paper，但是主要没开源所以不讲，当然并不排除后面开源的可能，这里也mark一下。

10. OctreeOcc: Efficient and Multi-Granularity Occupancy Prediction Using Octree Queries

https//arxiv.org/pdf/2312.03774.pdf

- 点评: 用八叉树来做occupancy,2023年12月份的文章，上海科技大学、上海AI LAB、港中文的工作。效果可以但没说开源。大家感兴趣的可以自己研读一下。

11. Fully Sparse 3D Panoptic Occupancy Prediction

https//arxiv.org/pdf/2312.17118.pdf

-点评：（12月29日挂arxiv还没看）SparseOcc demonstrates its efficacy on the Occ3D-nus dataset by achieving a mean Intersection over Union (mIoU) of 26.0, while maintaining a real-time inference speed of 25.4 FPS. By incorporating temporal modeling from the preceding 8 frames, SparseOcc further improves its performance, achieving 30.9 mIoU without whistles and bells. Code will be made available.

Stereo-based

抱歉这里把双目的语义补全单独列了出来，主要是单目可以当多目来用也还好，但双目输入来做占用网络就有些特别了，他要求是左右两个视图。而且上面也有说语义场景补全和占用网格的区别，所以可以简单看一下。

1. OccDepth: A Depth-Aware Method for 3D Semantic Scene Completion

https//arxiv.org/pdf/2302.13540.pdf

- 点评：旷世的工作，第一个提出stereo SSC method，叫OccDepth。并且还提出了一个修改过的TartanAir benchmark, 叫 SemanticTartanAir。先看一下网络大体长什么样子

输入左右两个视图的图像过2D U-Net编码成二维特征F2D,l, F2D,r∈RH×W ×C。然后将二维特征融合到三维体素中，通过立体软特征分配(stereo - sfa)模块学隐式深度信息。接下来，通过占用感知深度(OAD)模块将显式深度信息添加到3D特征中。

- Stereo Soft Feature Assignment Module 如下。通过计算左右二维特征之间的相关性得到的隐式深度信息被编码为三维特征的权重。

上面有三个方程，这三个方程就是Stereo Soft Feature Assignment Module的过程了。首先公式一中x是voxel的中心坐标，3D-2D投影表示为π(x)，φx(M)是采样在坐标x处的特征映射M。直白的解释就是从图像特征中采样出对应的3D体素特征。当投影的2D点在图像之外时，3D特征将设置为0。

公式二是用来将从左右特征图中采样出的3D特征进行加权融合。其中 w 表示由 V3D,l 和 V3D,r 之间的相关性计算的权重。在文中用的是余弦相似度来衡量特征的相关性。可以和上面的图对应上。

公式三是为了扩大感受野，用的多尺度 2D 特征图，其中 S = {1, 2, 4, 8} 是一组下采样尺度。

- 接下来是Occupancy-Aware Depth Module，下面的图为了简单起见仅展示了单图像的处理流程。

首先，单尺度图像特征F2d过来后，用一个NetD来预测多视图输入图像的深度特征 FD；然后使用 softmax 将FD变换为截锥体的深度分布GD，在然后利用摄像机标定矩阵P∈R3×4，将截锥深度分布GD转换为具有可微grid sampling过程的体素空间深度分布表达VD∈RX×Y ×Z。

公式中中 M 是用来平均左右两个输入之间重叠区域的体素像素的掩码，重叠区域的值为 0.5，其他值为 1.0，VD 可以表示为体素空间中的占用概率先验。然后乘起来拿到感知占用的体素特征Vocc。

2. StereoScene: BEV-Assisted Stereo Matching Empowers 3D Semantic Scene Completion

https//arxiv.org/pdf/2303.13959.pdf

- 点评：是一篇2023年3月份的文章，从github来看关注不多，截止到目前没中什么会议期刊，前面讲了那么多后面就不再细讲了，除非有特别不错的Paper。后面的paper更多是题外话了。

- 题外话一

在这篇paper对比的方法里提到了很多3D semantic scene completion的方法，有一些可能讲过有些没有，因为我们也不可能把所有的paper都看完，所以可以挑自己感兴趣的去看，一般文章里面都会有方法有做归纳总结，是基于什么什么的之类。

3. StereoVoxelNet: Real-Time Obstacle Detection Based on Occupancy Voxels from a Stereo Camera Using Deep Neural Networks

https//arxiv.org/pdf/2209.08459.pdf

- 点评:这是一篇与机器人相关的工作，利用深度神经网络直接从立体图像中检测占用率，很轻量。说用NVIDIA Jetson TX2可以跑到实时,但我在文章中并没有明确看到tx2运行帧率，到是有I7-12700K的。受到关注也不多

小车车长下面这样

这个东西大家看效果就知道，只有占用没有语义

CVPR 2023 3D Occupancy Prediction Challenge

这一类也比较特殊，属于没开源但实打实可以涨点的，可以学习一下技巧。

1. Scene as Occupancy

https//arxiv.org/pdf/2306.02851.pdf

- 点评：两个贡献，一个网络一个benchmark（OpenOcc provides surrounding camera views with the corresponding 3D occupancy and flow annotations.）这个上面也有出现过benchmark，baseline什么的，这个也没和大家细说。benchmark就是说，现在情况变了时代进步了社会发展了，原来的那些数据集或者说测试基准不能满足时代发展的需要了，所以我们要建立新的评价指标，所以我搞了个数据集，欢迎大家来用。那baseline就是说新的数据集和之前的不一样了，你们在原来数据集上验证的指标，得在我的数据集上再跑跑看，一看效果都不行啊（神经网络就是这样，泛化性还是不够强，有些网络在这个数据集上跑还可以换个就不行了得重新训，训完那个又不行了）。这样吧，我给个适配我数据集的简单的demo，相当于定个最低标准。

ok，benchmark就不说了，主要来看一下这个OccNet。

对于figure也是有原文解释的，大概的流程大家也能看出来，一个重建一个用途，篇幅有限所以只说重点Cascade Voxel Decoder。这个decoder是一个一个级联结构，用来逐步恢复体素特征中的高度信息。

从bev特征中重建出voxel是比较关键的，直接使用BEV特征或从透视图直接重构体素特征，会出现性能下降或效率下降，这一点在论文中给出了实验证明。所以将BEV特征(Bt∈RH×W ×CBEV)重构分解为N步，称为级联结构。这里 H 和 W 是 BEV 空间的 2D 空间形状，C 是特征维度，Z 是体素空间的期望高度。在输入的BEV特征和期望的级联体素特征之间，将不同高度的中间体素特征表示为

其中Zi和Ci分别在{1，N}和{CBEV，CVoxel}之间均匀分布。Bt−1和Bt两个时序上的bev特征通过前馈网络提升到V ' t−1,i和V ' t,i，经过第i个体素解码器，得到细化的V ' t,i，后面的步骤遵循相同的方案。每个体素解码器包括基于体素的时间自注意力（Voxel based Temporal Self-Attention）和基于体素的空间交叉注意力模块（Voxel-based Spatial Cross-Attention），并分别使用历史 V 't−1,i 和图像特征 Ft 细化 V 't,i。模型逐渐增加Zi，减少Ci，有效高效地学习最终的占用描述符Vt。就是说Z的高度是从C特征维度这里来的。而这里的时间自注意力和空间交叉注意力也见过是从前面bevformer那里来的，代码部分也是有继承bevformer。这里只是简单说一下，想要真的弄懂还是得一步一步去看代码。这里先简单说，后面如果我还有时间的话再写代码部分。

这里有个点，就是voxel的Z的高度从bev的C特征维度这里来的。基于这个做法在11月份的时候也有出一篇文章叫FlashOcc: Fast and Memory-Efficient Occupancy Prediction via Channel-to-Height Plugin，讲的就是这个故事，截止到2023年12月31日还没看到有中稿。大家知道有这种玩法就行了。

https//arxiv.org/pdf/2311.12058.pdf

2. Occ3D: A Large-Scale 3D Occupancy Prediction Benchmark for Autonomous Driving

https//arxiv.org/pdf/2304.14365.pdf

- 点评: benchmark，讲数据集是怎么造的，然后跑一下基线模型和其他模型的对比

对比如下：

3. FB-OCC: 3D Occupancy Prediction based on Forward-Backward View Transformation

https//opendrivelab.com/e2ead/AD23Challenge/Track_3_NVOCC.pdf

- 点评：nvidia出品，确实做了不少工作，但个人觉得主要还是预训练做得好，毕竟不缺卡可以大力出奇迹，LSS+BEVformer说的很清楚了。有个好消息是，人家开源了。

https//github.com/NVlabs/FB-BEV

- 机器翻译如下

FB-OCC，是基于一个名为FB-BEV的3D物体检测方法。在这里，我们提供一个简短的介绍，以便更好地理解FB-OCC。相机只能3D感知模型的核心模块是视图转换模块。这个模块包括两个突出的视图转换：前向投影（由List-Splat-Shoot表示）和后向投影（由BEVFormer表示）。FB-BEV提供了一个统一的设计，利用这两种方法，提升了每种方法的优点，改善了感知结果，同时克服了它们的局限性。在FB-OCC的情况下，我们使用前向投影来生成初始的3D体素表示。然后，我们将3D体素表示压缩成一个扁平化的BEV特征图。BEV特征图被视为BEV空间内的查询，并参与图像编码器特征以获取密集的几何信息。然后将3D体素表示和优化的BEV表示的融合特征输入到后续的任务头中。在前向投影模块中，我们坚持LSS的原则，以考虑每个像素深度估计的不确定性。这使我们能够根据它们对应的深度值将图像特征投影到3D空间。与LSS不同，后者模拟BEV特征，我们直接模拟3D体素表示，以捕获3D空间中更详细的信息。此外，我们采用BEVDepth的方法，利用点云生成精确的深度地面真实值，这有助于监督我们的模型的深度预测，以提高准确性。LSS倾向于产生相对稀疏的3D表示。为了解决这个问题，我们引入了一个后向投影方法来优化这些稀疏的3D表示。考虑到计算负担，我们在这个阶段使用BEV表示，而不是3D体素表示。后向投影方法借鉴了BEVFormer。然而，与BEVFormer不同，后者使用随机初始化的参数作为BEV查询，我们将获得的3D体素表示压缩成BEV表示，从而融入更强的语义先验。此外，我们的后向投影方法在投影阶段利用深度分布，使得投影关系的建模更为精确。在获得3D体素表示和优化的BEV表示后，我们通过扩展BEV特征的过程将它们结合起来，得到最终的3D体素表示。

4. MiLO: Multi-task Learning with Localization Ambiguity Suppression for Occupancy Prediction

https//opendrivelab.com/e2ead/AD23Challenge/Track_3_42dot.pdf

- 点评:42dot.ai出品，Our baseline is BEVDet4D-Occ。说的也很清楚

5.UniOcc: Unifying Vision-Centric 3D Occupancy Prediction with Geometric and Semantic Rendering

https//arxiv.org/pdf/2306.09117.pdf

- 点评：小米和北大的工作，用nerf渲染的结果来做语义和深度的监督信号训occupancy，挺会玩。

- 题外话在雷总的发布会上看到了embodied ai，emmmmmm，这说明了什么呢？大家感兴趣的可以讨论一下告诉我

6. Multi-Scale Occ: 4th Place Solution for CVPR 2023 3D Occupancy Prediction Challenge

https//opendrivelab.com/e2ead/AD23Challenge/Track_3_occ-heiheihei.pdf

- 点评:无

- 机器翻译如下

我们的方法的总体架构如图1所示。给定具有T个时间戳的N个相机图像，我们首先使用2D图像编码器提取M个尺度特征。然后将图像特征提升为3D体素特征，然后在每个尺度上独立地对过去帧进行长期时间特征聚合，以构建当前帧的多尺度3D表示。为了彻底融合多尺度3D特征，我们使用轻量级的3D UNet来集成局部和全局几何和语义信息。我们使用2个解耦的头在最大分辨率上分别执行占用和语义预测。在训练过程中使用多尺度监督来促进收敛。最后，应用模型集成、测试时间扩充和类阈值来进一步提高性能。

7. OccTransformer: Improving BEVFormer for 3D camera-only occupancy prediction

https//opendrivelab.com/e2ead/AD23Challenge/Track_3_occ_transformer.pdf

- 点评：结构简单，2D to 3D借鉴了bevformer。

#Agent-as-a-Judge

田渊栋团队新作祭出Agent-as-a-Judge！AI智能体自我审判，成本暴跌97%

AI评估AI可靠吗？来自Meta、KAUST团队的最新研究中，提出了Agent-as-a-Judge框架，证实了智能体系统能够以类人的方式评估。它不仅减少97%成本和时间，还提供丰富的中间反馈。

AI智能体，能否像人类一样有效地评估其他AI智能体？

对于AI智能体来说，评估决策路径一直是棘手的问题。

已有的评估方法，要么只关注结果，要么要要过多的人工完成。

为了解决这一问题，田渊栋、Jürgen Schmidhuber带领的团队提出了「Agent-as-a-Judge」框架。

简言之，让智能体来评估智能体系统，让AI审AI。

它不仅可以减少97%的成本和时间，还能提供丰富的中间反馈。

这是「LLM-as-a-Judge」框架的有机延伸，通过融入智能体特性，能够为整个任务解决过程提供中间反馈。

论文地址：https://arxiv.org/abs/2410.10934v1

研究人员提出了DevAI基准，为全新框架提供概念验证测试平台。包含55个真实的AI开发任务，带有详细的手动注释。

通过对三个领先的智能体系统进行基准测试，发现它大大优于「LLM-as-a-Judge」框架。

总之，这项研究真正的变革之处在于：它提供了可靠的奖励信号，为可扩展的、自我改进的智能体系统铺平了道路。

「法官」智能体，击败大模型

现有评估方法，无法为智能体系统的中间任务解决阶段，提供足够的反馈。

另一方面，通过人工进行更好的评估，代价太大。

而智能体系统的思考方式，更像人类，通常是逐步完成，并且在内部经常使用类人的符号通信来解决问题。

因此，智能体也能够提供丰富的反馈，并关注完整的思考和行动轨迹。

「Agent-as-a-Judge」不仅保留了「LLM-as-a-Judge」成本效益，还具备智能体特性，使其在整个过程中提供中间反馈。

下图展示了，大模型、智能体、人类作为评判者的示意图。

DevAI：自动化AI开发数据集

另外，在代码生成领域，基准测试的发展也落后于智能体系统的快速进步。

比如，HumanEval仅关注算法问题，而MBPP则处理简单的编程任务，但这两者都没有反映出开发者面临的最实际的挑战。

作为一个改进，SWE-Bench基准确实引入了GitHub现实问题，提供一种全新评估的方法。

不过，它仍需要关注自动修复任务的开发过程。

为了解决当前代码生成基准测试中的上述问题，研究人员引入了DevAI：AI开发者数据集，其中包含55个由专家注释者创建的真实世界综合AI应用开发任务。

DevAI结构是这样的：智能体系统首先接收用户查询以开始开发，然后根据AI系统满足需求的程度来评估它，其中偏好作为可选的、较为柔性的标准。

图3展示了DevAI任务的一个例子。

DevAI中的任务规模相对较小，但涵盖了常用的关键开发技术。

如图2所示，任务被标记并覆盖了AI的多个关键领域：监督学习、强化学习、计算机视觉、自然语言处理、生成模型等。

每个任务都是，可能交给研究工程师的真实世界问题，并降低了在这个基准上评估方法的计算成本。

接下来，研究人员将领先的开源代码生成智能体框架，应用于DevAI中的任务：MetaGPT、GPT-Pilot、OpenHands。

他们让人类评判者、大模型评判者、以及智能体评判者框架，来评估其性能。

结果如表1所示，MetaGPT最具成本效益（1.19美元），而OpenHands是最昂贵的（6.38美元）。

从开发时间来看，OpenHands完成任务平均耗时362.41秒，而GPT-Pilot耗时最长，为1622.38秒。

平均而言，使用这三者之一对DevAI进行完整评估，大约需要210.65美元和14小时才能完成。

Human-as-a-Juge：DevAI手动评估

为了确定DevAI的实用有效性，并准确估计当前最先进的智能体系统实际代码生成能力，研究人员手动评估三个AI开发者基线在DevAI中的应用。

如表2所示，（I）和（D）代表独立性能与考虑任务依赖性的性能。

表示多个专家的进化，并且意味着评估使用白盒测试（允许访问生成的workspace、人类收集的轨迹和开源代码库）。

两种性能最好的方法（GPT-Pilot和OpenHands）可以满足大约29%的要求，但只有一项任务可以满足所有要求。

另外，在三位人类评估者之间，他们的个人评估存在大量分歧，说明了单一人类评估的不可靠性。

下图5总结了人类评估和共识评估的不匹配度。

𝗔𝗴𝗲𝗻𝘁-𝗮𝘀-𝗮-𝗝𝘂𝗱𝗴𝗲：智能体评估智能体

根据以往智能体设计的经验，并通过模仿人类评估过程，研究人员涉及了8个模块化交互组件，具体包括：

1 图像模块：构建一个图像，获取项目整个结构，包括文件、模块、依赖项，还可以将代码块分解为代码片段

2 定位模块：识别需求所引用的特定文件夹/文件

3 读取模块：超越了简单的文件解析，支持跨33种不同格式的多模态数据的读取和理解

4 搜索模块：提供了对代码的上下文理解，并且可以快速检索高度相关的代码片段，以及其背后细微差别

5 检索模块：从上下文中提取信息，识别轨迹中相关片段

6 查询模块：确定是否满足给定要求

7 记忆模块：存储历史判断信息，允许智能体基于过去记忆评估

8 规划模块：允许智能体根据当前状态和项目目标制定策略，并排序任务。

具体操作流程，如下图9所示。

下表3展示了，Agent-as-a-Judge在各项任务中始终优于 LLM-as-a-Judge，特别是在那些训在任务依赖关系的情况下。

评判开发者智能体，是一项类别不平衡的任务，满足要求的情况要比失败的情况少的多。

而判断转移和对齐率等指标可能会产生误导。比如，由于MetaGPT很少满足要求， LLM-as-a-Judge很容易将大多数情况识别为负面（在黑盒设置中达到84.15%）。

PR曲线通过平衡精确度和召回率，提供更清晰的性能衡量标准。

这表明，在某些情况下，Agent-as-a-Judge几乎可以取代人类评估员。

最后，在消融研究中，研究人员分析了各种组件的添加，对Agent-as-a-Judge判断OpenHands性能的影响。

参考资料：

https://x.com/tydsh/status/1846538154129375412

#DriveDreamer4D

世界模型新突破！极佳科技提出DriveDreamer4D，首次利用世界模型增强4D驾驶场景重建效果

近日，极佳科技联合中国科学院自动化研究所、理想汽车、北京大学、慕尼黑工业大学等单位提出DriveDreamer4D，是首个利用世界模型增强 4D 驾驶场景重建效果的工作。DriveDreamer4D 可以大幅提升多种自动驾驶 4D 重建算法的效果，在 user study 实验中获得了超过 80% 的偏好投票，为走向空间智能和 4D 世界模型迈出了坚实的一步。

论文链接：https://arxiv.org/abs/2410.13571
项目主页：https://drivedreamer4d.github.io/
代码地址：https://github.com/GigaAI-research/DriveDreamer4D

闭环仿真技术是推动端到端自动驾驶系统发展的关键。目前的传感器仿真方法，如 NeRF 与 3DGS，主要依赖于训练数据分布，若训练数据不足，则这些方法在复杂驾驶操作（例如变道、加速或减速）的重建效果不佳。近来，自动驾驶世界模型（World Model）证明其可以生成丰富驾驶数据。在此背景下，本文提出了 DriveDreamer4D，是首个利用世界模型来提升自动驾驶场景 4D 重建质量的算法。

DriveDreamer4D 可以为驾驶场景提供丰富多样的视角（包括变道、加速和减速等）数据，以增加动态驾驶场景下的闭环仿真能力。

DriveDreamer4D 利用世界模型作为数据引擎，基于真实世界的驾驶数据合成新轨迹视频（例如变道场景）。如下图所示，DriveDreamer4D 不仅可以提升多种重建算法（PVG,S3Gaussian,Deformable-GS）的图像渲染质量，还可以提升驾驶前景（车辆）和背景（车道线）的时空一致性。

DriveDreamer4D 的总体结构框图如下所示，轨迹生成模块（NTGM）用于调整原始轨迹动作，如转向角度和速度，以生成新的轨迹。这些新轨迹为提取结构化信息（如车辆 3D 框和背景车道线细节）提供了全新的视角。随后，基于世界模型的视频生成能力，并利用更新轨迹后得到的结构化信息作为控制条件，可以合成新轨迹的视频。最后，原始轨迹视频与新轨迹视频相结合，进行 4DGS 模型的优化。

在实验中，如下第一列视频所示，可以看出多种传统算法（PVG, S3Gaussian,Deformable-GS ）在变道场景下的车道线、天空、车辆都会模糊，甚至出现 “鬼影” 现象。而 DriveDreamer4D 可以提升多种重建算法在复杂变道场景下的视频渲染效果，不仅消除了 “鬼影”，而且提升了交通元素的渲染质量，车辆和车道线都更加清晰。

除了变道，在车辆变速场景下，传统算法（PVG,S3Gaussian,Deformable-GS）的表现能力也受到限制，如下第一列视频所示，这些算法在自车加速时，前方的车辆都出现了 “拖影” 现象。而经过 DriveDreamer4D 提升后，渲染的车辆的时空一致性更高。

在定量实验中，本文证明了 DriveDreamer4D 不仅可以提升多种重建算法 (PVG, S3Gaussian,Deformable-GS）的图像渲染质量 (如表 2)，还可以提升车辆和车道线渲染的时空一致性（如表 1）。此外，本文还通过 user study（表 3）证明用户更加偏好 DriveDreamer4D 的渲染效果，获得了超过 80% 的投票率。

表 1 DriveDreamer4D 提升了车辆和车道线重建渲染的时空一致性

表 2 DriveDreamer4D 提升了图像重建渲染质量

表 3 User study 证明用户更加偏好 DriveDreamer4D 的渲染效果

本项 DriveDreamer4D 工作是极佳科技研究团队之前 DriveDreamer 和 DriveDreamer-2 工作的延续。

DriveDreamer 是首个面向真实驾驶场景的世界模型，可以根据不同的控制条件生成自动驾驶周视视频，有效提升了 BEV 感知的性能；DriveDreamer-2 在此基础上，引入大语言模型，可以生成用户自定义的驾驶数据，进一步提升了长尾和 corner case 场景下的数据生成能力。针对端到端自动驾驶和闭环仿真对于场景重建的迫切需求，DriveDreamer4D 利用 DriveDreamer 系列工作的能力，用以生成新轨迹视频（例如变道、加减速），从而大幅提升了多种 4DGS 算法的重建效果。

本篇论文的牵头完成单位为极佳科技，是一家空间智能公司，致力于将视频生成提升到 4D 世界模型，赋予 AI 大模型对于 4D 空间的理解、生成、常识和推理的能力，实现 4D 空间中的交互和行动，走向通用空间智能。通用空间智能对于影视游戏、元宇宙等虚拟空间的内容创作，以及自动驾驶、具身智能等物理空间的数据生成和认知推理能力，都有巨大的价值和作用。极佳科技是国内最早开始探索和布局世界模型和空间智能方向的公司，在物理空间和虚拟空间两方面都已取得显著的技术和商业进展，获得了行业广泛的认可。

#Long Term Memory

整合长期记忆，AI实现自我进化，探索大模型这一可能性

地球上最早的生命证据至少可以追溯到 35 亿年前，而直到大约 25 万到 40 万年前，智人才出现地球上。在这漫长的岁月中，生物不断地兴盛又覆灭，但整体趋势总是越来越复杂，其中最复杂的生物组件莫过于我们智人的大脑。这样的复杂性是我们的意识和智慧的来源。而这一切背后的机制是进化（evolution）。

到了现今的大模型时代，强大的基础模型已经展现出了强大的智能水平，能完成多种多样的任务。但它们也有个缺点，训练之后就基本定型了，难以随着用户的使用而演进。但毫无疑问，这项能力很重要。

近日，天桥脑科学研究院和普林斯顿大学等多所研究机构发布了一篇研究论文，详细阐述了长期记忆对 AI 自我进化的重要性，并且他们还提出了自己的实现框架 —— 基于多智能体的 Omne，其在 GAIA 基准上取得了第一名的成绩。

论文标题：Long Term Memory : The Foundation of AI Self-Evolution

论文地址：https://arxiv.org/pdf/2410.15665

首先，该团队将 LLM 的模型进化过程分成了三个主要阶段

阶段 1：在物理世界中积累认知。
阶段 2：在数字世界中构建基础模型。
阶段 3：模型自我进化，以实现更强大的智能。

现有的研究主要围绕着阶段 1 和 2，即如何构建更好的数据以及将其用于训练更强大的基础模型。目前人们有一个普遍的看法：在这种曲线拟合范式中，架构并不重要，关键的因素是数据集。但到了阶段 3，架构就会变得和数据一样重要。核心的难题是如何在统计模型的基础上有效表达少数个体的数据。该研究关注的核心是如何确保在统计模型内有效地表达个体数据。

实现模型自我进化的原理

模型的自我进化能力是模型长期适应和个性化的关键，而这又严重仰赖于有效的记忆机制。

在这一理解的基础上，该团队提出：长期记忆（LTM）能为模型的持续进化提供历史数据积累和经验学习能力。正如人类通过经验和记忆来完善认知和行为一样，LTM 也能让模型在处理长期、分散和个性化的数据时逐步提升推理和学习能力。

用 LTM 数据提升模型能力，使其能够自我进化

在传统 LLM 中，更新模型通常需要调整所有参数，而如果目的是处理个体数据，那这种操作明显不切实际。

一种更优的方法是仅更新局部参数，从而在无损模型全局稳定性的前提下，让模型适应稀疏、个性化的 LTM 数据。这种方法可解决当前模型中个体数据「被平均化」的问题，使个性化信息能够更全面地表达。使用上下文学习（ICL）的检索增强生成（RAG）和用于微调的低秩适应（LoRA）等技术都可被视为局部更新个体数据的方法。

该团队的做法是采用一种混合策略来整合 LTM 数据，从而在实际应用中达到让人满意的结果。但是，该团队也表示，这可能并非一种完美的解决方案，未来可能还会出现更好的方法。

组合 LTM 数据进行实时权重更新，从而实现自我进化

当前的 LLM 通常分为训练和推理两个阶段。在推理阶段，模型权重是冻结的，防止模型根据新输入进行调整和学习。这种固定的推理过程会限制模型的适应性，尤其是在处理个性化任务和实时学习方面。

受人脑更新机制的启发，该团队认为未来的 LLM 应该将推理和训练与 LTM 结合起来，使模型能够在接收到新信息时动态调整权重。这就类似于人类的持续学习能力。

此外，这种集成还可以帮助模型在面对复杂的推理任务时自我反思并纠正错误的推理路径，从而提高准确性和效率。

这种动态的自我调整能力将大大提升模型的个性化能力和长期进化潜力。通过长期记忆，模型不仅可以从短期记忆中学习，还可以从历史数据中提取有价值的见解，随着时间的推移能更深入地理解个人偏好和行为模式。这种理解可实现模型的个性化定制和动态调整，使模型能够更有效地进化。特别是在面对新的或极端的情况时，长期记忆使模型能够参考过去的经验，快速做出调整并自我进化，从而获得更大的灵活性和适应性。

长期记忆在模型自我进化中的实现路径

该团队首先将给出 AI 自我进化和 LTM 的定义，然后探索 LTM 在 AI 自我进化中的关键作用，之后会介绍如何使用 LTM 来实现 AI 自我进化。

他们做出了以下贡献：

给出了 AI 自我进化和 LTM 的定义；
提出了一个用于 LTM 的数据框架，包括数据收集、分析与合成；
提出了一个用于 LTM 的多智能体协作开发框架。

AI 自我进化的基础

这里简要给出 AI 自我进化的定义，详情请参阅原论文。

AI 自我进化是指 AI 模型使用个性化数据不断学习和优化，实现多智能体协作和认知方面的突破。该过程基于一个共享式内核架构，其中各个模型通过处理个性化经验和数据不断进化，从而提升自身推理能力和适应能力，最终实现在动态环境中的自主学习和持续进化。

要实现 AI 自我进化，需要：

多智能体协作机制
差异化的个性化模型
自我纠错和评估机制
长期记忆和学习能力

用于 AI 自我进化的 LTM

目前，LLM 主要通过两种记忆机制来管理信息：上下文存储器和基于压缩的参数存储器。虽然这些机制在短期任务中表现出色，但它们在支持长期自主学习和进化方面仍然存在不足。

正如人类使用 LTM 来塑造他们的行为和身份一样，人工智能系统也可以采用类似的方法根据「个人数据」定制其响应和行为。这里，「个人数据」不仅限于个人用户，还包括特定的机构和领域，允许模型根据更广泛的个人背景和需求调整其响应和行为。

作者深入探讨了 LTM 在 AI 自我进化中所发挥的关键作用，首先在 AI 自我进化的背景下定义了 LTM，并分析了当前 LLM 记忆机制的缺点。然后，作者讨论了通过从人类 LTM 特征中汲取灵感来增强人工智能模型的自我进化能力，旨在构建能持续学习和自我完善的人工智能系统。

该研究将 AI 自我进化中的 LTM 定义为：

LTM 是人工智能系统可以长期保留和利用的信息，使模型能够根据更广泛的背景调整其响应和行为。

这里，「个人数据」不仅限于个人用户，还包括特定的机构和领域，允许模型根据更广泛的个人背景和需求调整其反应和行为。

从数据积累的角度来看：模型和人类都与环境进行广泛的交互，为个性化提供基础数据。与人类相比，人工智能模型可以更有效地与环境交互，并且可以在纯虚拟的数字环境中执行这些交互和迭代。因此，通过设计适当的记忆细化策略，模型应该能够像人类一样积累长期记忆，甚至可能具有更高的效率和规模。

从模型更新的角度来看：人工智能擅长存储和调用海量数据，远远超过人类记忆规模。神经网络通过分布式参数管理这些数据，处理来自不同领域的输入。然而，这种存储相对刚性，缺乏实时更新的灵活性，通常需要重新训练才能实现更新。相比之下，人类的记忆力却非常强。

LTM 的构建策略

LTM 是对原始数据的有效组织和结构化，而不仅仅是表面上对原始数据进行分类和排序。相反，它是从记忆快速存储和检索以及信息高效利用的角度来设计和优化。通过建立相关信息之间的联系，有效处理数据并重新组织信息，智能体可以快速定位所需的记忆片段，从而提高响应速度和准确性。以下是几种主要的操作方法：

文本摘要
数据结构化
图表征
矢量化
模型参数化

如何利用 LTM 实现模型自我进化？

获得高质量的 LTM 数据后，下一个挑战是如何利用它来增强模型能力并实现模型的自我进化。在使用 LTM 数据以最大限度地提高其有效性和效率的过程中需要解决几个关键挑战，包括：

适应持续更新的 LTM 数据。随着用户 LTM 数据的不断积累，模型必须在学习新信息和保留先前获取的知识之间取得平衡。传统模型通常假设稳定的数据分布，但在实际场景中，新的 LTM 数据可能与早期模式显著背离，导致过拟合或灾难性遗忘等风险。有效处理这些变化对于适应动态 LTM 数据至关重要。

实时学习和高效反馈集成。由于 LTM 数据是动态积累的，模型必须快速适应用户行为的实时变化。新数据的快速集成对于智能助手等应用程序至关重要，其中无缝的用户交互是关键。此外，在完善基础模型时，应考虑隐式（例如点击次数或花费的时间）和显式的用户反馈。实时结合这两种类型的反馈使模型能够不断改进并满足个人用户的需求。

处理数据稀疏性和用户多样性。数据稀疏是持续更新的 LTM 系统中一个常见的问题，特别是对于交互历史有限或零星活动的用户来说，这使得训练模型变得困难。此外，用户多样性也会进一步增加复杂性，要求模型适应个体模式，同时仍然有效地推广到不同的用户组。

以清华大学团队的 Agent Hospital（智能体医院）作为案例，该团队展示了如何在这个模拟医疗场景中用 LTM 来提升模型的能力，其中包括医疗记录积累、医疗经验反思和基于 RAG 利用 LTM。详见原论文。

基于 LTM 实现模型自我进化的实践

获取 LTM 数据

为了提升模型保留和访问 LTM 数据的能力，该团队全面研究了各种方法，其中包括：

如何收集真实世界的 LTM 数据。
如何获取合成的 LTM 数据，其中包括用真实数据提升合成 LTM 数据的生成过程、使用思维链增强合成 LTM 数据的生成过程、生成训练数据和评估数据等多个方面。
如何使用 LTM 数据，该团队介绍了通过 SFT 和 RAG 使用 LTM、将 LTM 用于医疗领域的智能体自我评估、通过记忆系统来使用 LTM、通过实时权重更新来使用 LTM。

这其中包含一些实验评估和例证，详见原论文。这里我们来重点看看他们开发的基于 LTM 的多智能体框架。

基于 LTM 的多智能体框架

该团队提出一个基于 LTM 的多智能体框架 Omne。

Omne 是基于 AutoGen MultiAgent Framework 深度定制的开发框架，专门用于解决 LTM 在 AI 系统中的实际应用难题。

它扩展了一系列与记忆相关的基础设施，包括统一的记忆模型、多模态消息处理系统以及灵活的记忆存储和操作机制。Omne 的核心模块（Omne Core）如下图所示：

Omne 的核心目标是提供一套全面的解决方案，使 LTM 能够在实际工程项目中有效部署，从而增强 AI 系统的长期记忆能力和任务处理效率。

基于 Omne Core，该团队还构建了一个 Omne Assistant。

Omne Assistant 的设计目标是帮助开发聊天场景中的 AI 助手，其提供了一个现成的应用层框架。它包括 AI 助手所需的基本功能，使开发人员无需从头开始设计基础组件，就能快速构建功能齐全的聊天机器人。

Omne Assistant 带有一个 Simple Responder，这是一个通用的问答响应器，可以处理基本的用户聊天交互以实现即时通信。此外，该框架还提供了一个 Reactive Responder，它具有高级任务分析和规划功能，使其能够管理需要多步骤推理和任务编排的更复杂的用户请求。

借助这些内置组件，Omne Assistant 可让开发人员专注于实现自己的功能，从而更快地开发和部署配备长期记忆功能的 AI 助手应用。

在 GAIA 基准（包含 400 多个问答任务的通用 AI 助手测试集）上，该团队对 Omne 框架进行了评估。

为了探索 AI 的边界，他们在 Omne 框架中使用了当今最强大的 GPT-4o 和 o1-preview 模型，同时配备了 4 个工具：网络浏览、Bing 搜索引擎、基于 llamaparse 的文件读取器，一个使用 o1-preview 构建的逻辑专家。

基于这 2 个基础模型和 4 个工具，Omne 在测试集和验证集上分别取得了第一名（40.53%）和第二名（46.06%）的成绩。

值得注意的是，Omne 在最复杂、要求最高的 3 级问题上达到了 26.53% 的准确率。这证明了其通过利用强大的基础模型（尤其是具有强大推理和逻辑能力的模型）解决现实问题的潜力。

未来计划

该团队并不打算止步于此，他们已经制定了未来研究的计划，方向包括：

1. 如何更好地构建 LTM 数据？

2. 如何为 LTM 设计新的模型架构？

3. LTM 如何帮助用户提出更好的问题？

4. 如何将 LTM 与推理时间搜索相结合？

5. 如何在复杂场景中使用 LTM 实现智能体自我进化？

如何在多智能体场景中使用 LTM？

#VERIFIED

消除多对多问题，清华提出大规模细粒度视频片段标注新范式VERIFIED

陈厚伦，清华大学计算机系媒体所的二年级博士生，主要研究方向是多模态大模型与视频理解，在 NeurIPS 、ACM Multimedia 等顶级会议发表多篇论文，曾获国家奖学金、北京市优秀本科毕业生等。

视频内容的快速增长给视频检索技术，特别是细粒度视频片段检索（VCMR），带来了巨大挑战。VCMR 要求系统根据文本查询从视频库中精准定位视频中的匹配片段，需具备跨模态理解和细粒度视频理解能力。

然而，现有研究多局限于粗粒度理解，难以应对细粒度查询。为此，来自清华大学的研究者提出自动化视频 - 文本细粒度标注系统 VERIFIED，并基于此系统构建新的细粒度 VCMR 基准数据集（Charades-FIG、DiDeMo-FIG 和 ActivityNet-FIG），以推动细粒度视频理解的发展。

论文题目：VERIFIED: A Video Corpus Moment Retrieval Benchmark for Fine-Grained Video Understanding (NeurIPS 2024 Track on Datasets and Benchmarks)
论文链接：https://arxiv.org/pdf/2410.08593
主页链接：https://verified-neurips.github.io/

一、介绍

视频语料库时刻检索（VCMR）旨在根据文本查询从大量视频中精确定位特定片段。传统 VCMR 基准的视频标注多为粗粒度标注，视频与文本间存在多对多问题，无法支持细粒度视频检索的训练与评估（图 1 (a)），因此有必要为细粒度 VCMR 建立一个合适的 benchmark。为解决此问题，该研究提出了细粒度 VCMR 场景，使用更精细的文本查询消除数据集中的多对多现象（图 1 (b)）。然而建立此类细粒度的 benchmark 有如下的挑战：

（1）人工标注细粒度信息成本高昂，是否可以利用大模型技术实现这一过程？

（2）研究证明大模型存在幻觉问题，如果利用大模型进行标注，如何设计一种方法保证标注数据的质量？

为此，该研究设计了自动细粒度视频标注系统 VERIFIED（图 1 (c)），通过大模型生成富含静态和动态信息的标注，并且基于微调 video foundation model 设计了一个高效的标注质量评估模块，基于此构建了 Charades-FIG、DiDeMo-FIG 和 ActivityNet-FIG 高质量细粒度 VCMR 基准，以推动细粒度 VCMR 研究发展。

图 1：a) 粗粒度 VCMR 中，因查询文本简单，存在许多潜在正匹配（绿色），但这些时刻未被标注，导致真实标注不合理。b) 该研究提出的具有挑战性的细粒度 VCMR 中，查询更细粒度，方法需要从部分匹配的候选项（粉色）中检索出最匹配的一个（绿色）。c) 该研究的 VERIFIED 生成了可靠细粒度标注，包括丰富静态（绿色）和动态细节（蓝色）。

二、VERIFIED 视频细粒度标注系统

图 2：VERIFIED 流程图。Statics Enhanced Captioning（A）和 Dynamics Enhanced Captioning（B），它们生成带有静态和动态细节的多个细粒度描述候选。此外，该研究设计了一个 Fine-Granularity Aware Noise Evaluator（C），该模块生成并选择被扰动的正负样本，通过难负样本增强的对比损失和匹配损失来微调 UMT。这个评估器对描述进行评分，以识别不准确描述。

图 2 展示了该研究的 VERIFIED 标注流程图。为了让大模型像人类那样对视频中的细粒度信息进行标注，该研究设计了 Statics Enhanced Captioning 和 Dynamics Enhanced Captioning 模块，分别对静态与动态细节进行描述。静态信息增强模块通过提取视频关键帧，分析前景和背景属性，生成多个静态细粒度描述，丰富视频的静态视觉信息。动态信息增强模块则根据视频的一个粗粒度标注，首先由 LLM 生成与视频动态内容相关的问题，使用视频问答系统（VQA）获取动态细节，进而生成多个动态细粒度标注，帮助模型更好地理解视频中的动作和变化。

为了保证数据标注的质量，该研究设计了一个细粒度感知的噪声评估模块，其目的在于从前面模块标注的数据中，筛选出可靠的细粒度标注，主要通过以下步骤进行：

（1）扰动文本生成：评估器首先从原始粗粒度标注中生成正向和负向的扰动文本。这些文本通过引入难例（挑战样本）与原始标注进行对比，以提高模型对细粒度差异的敏感度。

（2）筛选最优扰动：通过使用预训练模型（如 SentenceBERT），评估器从生成的扰动文本中挑选最合适的正向改写和最具挑战性的负向改写，保证生成的文本与原始标注的语义距离合理。

（3）损失函数：引入上述正向和负向的扰动文本，计算文本和视频间的对比损失和匹配损失。引入正向扰动文本是为了防止 LLM 生成文本的潜在的 bias，引入负向扰动文本作为困难负样本增强模型对细粒度信息的感知能力。

最后该研究用这个模块对标注数据进行打分，用来作为数据筛选的标准。该研究将 VERIFIED 系统应用于 Charades-STA、DiDeMo、ActivityNet Captions 数据集，对每个视频片段筛选分数最高的标注，得到新的 Charades-FIG、DiDeMo-FIG、ActivityNet-FIG 数据集，作为细粒度 VCMR 的 benchmark。

图 3 图 4 展示了该研究的标注中具有代表性的可视化样本。

图 3：（1-3）分别节选自 ActivityNet-FIG、Charades-FIG、DiDeMo-FIG 数据集，静态和动态的细粒度内容分别用绿色和蓝色标出，不准确的内容用红色标出。

图 4：(1) 本文构建的标注捕捉到了狗与训犬师之间的互动以及狗的运动轨迹。(2) 捕捉到了人物抛掷物体的细节，并传达了这个人多次抛掷的信息。(3) 读取了视觉内容中的文字信息，并正确表达了使用原料的顺序。

统计数据和用户实验还表明视频片段与标注文本之间的多对多现象得到了显著减少，标注细粒度和质量得到了用户的认可。

三、VCMR 实验

本文评估了 HERO、XML、ReLoCLNet、CONQUER、SQuiDNet 方法，分别在 Charades-FIG、DiDeMo-FIG、ActivityNet-FIG 上，对 VCMR（视频库片段检索）、VR（视频检索）、SVMR（单视频片段检索）任务进行了测评，对于片段检索指标，以 0.5/r10 为例，0.5/r10 表示召回的 top-10 个片段中与 ground truth 的 IoU 大于 0.5 的比例，结果如图 5、6 所示。不同模型在视频检索任务中的表现各异，两阶段方法（如 CONQUER、SQuiDNet）通常优于单阶段的方法，所以训练过程中应当避免将视频级别和片段级别的学习纠缠在一起，因为这可能会干扰模型对精确时刻定位的能力，进而影响整体性能，未来研究应该关注如何有效分离视频级别和片段级别的学习，并合理引入细粒度信息。

图 5：细粒度 VCMR、VR 实验结果

图 6：细粒度 SVMR 实验结果

为了说明该研究的细粒度训练数据对于提升模型的细粒度视频检索能力的意义，图 7 展示了 XML 在 Charades-FIG 上训练时，使用不同细粒度训练数据的预测结果可视化。当使用粗粒度数据进行训练时，真实值视频不在时刻排名列表的前 100 名内。排名靠前的预测主要集中在笔记本电脑上，而忽略了其他细节。使用该研究细粒度数据时，性能大大提升。它在排名第 5 位找到了目标时刻，后面的其他候选也与查询高度相关。这展示了细粒度 VCMR 场景中的挑战以及该研究的 VERIFIED 系统生成的标注数据在训练中的有效性。

图 7：XML 在 Charades-FIG 上使用不同细粒度训练数据的部分预测结果

四、结论

现有 VCMR 基准数据集以粗粒度为主，限制了模型对细粒度视频特征的学习。为此，该研究提出了 VERIFIED 自动标注系统，结合大语言模型和多模态大模型生成细粒度的静态和动态标注，并通过微调 UMT 作为数据评估模块提高标注可靠性。基于 VERIFIED 系统，该研究构建了新的细粒度 VCMR 数据集（Charades-FIG、DiDeMo-FIG、ActivityNet-FIG），评估了现有 VCMR 模型在细粒度场景上的表现，实验发现现有检索模型在处理细粒度信息时仍与现实需求存在较大差距。

参考工作

[1] Unmasked teacher: Towards training-efficient video foundation models

[2] Tall: Temporal activity localization via language query

[3] Localizing moments in video with natural language

[4] Dense-captioning events in videos

#2025 年，消费级 AI 应用再次洗牌？

近日，Andreessen Horowitz（简称 a16z）发布了 2025 年全球生成式 AI 应用前 100 排行榜（第四期），榜单分为网页端（TOP 50 AI Web 应用）和移动端（TOP 50 AI 移动应用）两大类别。

a16z 重点提到了两大类表现亮眼的应用。一类是 AI 视频生成/编辑类应用，另一类是代码工具类应用，包括针对于开发者的 Agentic IDE 应用和文本到网络应用平台。

01. 2025 年消费级 AI 应用再次洗牌？AI 视频生成到了检验盈利能力的关键时刻？

近半年来，AI 应用趋势有哪些变化？有哪些应用冒出来了？

02. 流量之下，哪类 AI 应用更能赚钱？

为什么说 AI 视频生成应用已经到了技术成熟和商业化落地的关键时刻？AI 工具类应用在过去的六个月中呈爆炸式增长说明什么？哪类 AI 应用实际上更能赚钱？

03. Manus、Operator 引发消费级通用 Agent 热潮，消费级 AI 应用市场将有何变数？

Manus、Operator 等引发消费级通用 Agent 热潮，对市场有何影响

01 2025 年消费级 AI 应用再次洗牌？AI 视频生成到了检验盈利能力的关键时刻？

1、近日，Andreessen Horowitz（简称 a16z）发布了 2025 年全球生成式 AI 应用前 100 排行榜（第四期），榜单分为网页端（TOP 50 AI Web 应用）和移动端（TOP 50 AI 移动应用）两大类别。

2、在网页端榜单中，DeepSeek 跃居第二，仅次于 ChatGPT。DeepSeek 在短时间内，突破了 1000 万用户。同时，DeepSeek 用户在移动设备上的参与度略高于 Perplexity 和 Claude 用户，但落后于 ChatGPT。

3、a16z 重点提到了两个大类应用表现亮眼。一类是 AI 视频生成/编辑类应用，另一类是代码工具类应用，包括针对于开发者的 Agentic IDE 应用和文本到网络应用平台。

4、此外，a16z 发现，最受欢迎的应用并不一定能带来最多的收入，服务于特定的目标或技能的应用，虽然通用性较差，但更有可能吸引愿意为其专业价值付费的用户。比如图片/视频编辑、视觉美化工具、类 ChatGPT 山寨产品、图像/视频生成工具等应用的收入更高。

02 流量之下，哪类 AI 应用更能赚钱？[2-1]

1、在 a16z 最新一期的 Top100 AI 应用榜单中，重点提到了两个大类应用。一类是 AI 视频生成/编辑类应用，另一类是代码工具类应用，包括针对于开发者的 Agentic IDE 应用和文本到网络应用平台。

2、针对 AI 视频生成/编辑类应用，a16z 在文章中提到，AI 视频一直处于真正可用（即具有可靠的输出）的边缘，并在过去的六个月时间里在质量和可控性方面取得了重要进展。

3、其中，海螺、Kling 和 Sora 三款 AI 视频生成应用首次进入了网页端榜单，且海螺和 Kling 的用户访问量均超过了 Sora（截止至 2025 年 1 月数据）。同时，不同的 AI 视频生成应用在输出风格和用户界面上也有所分化，Sora 侧重于多功能、全方位的视频生成、海螺在强提示遵从性方面表现出色、Kling 则是提供了相机运动控制和唇形同步等额外功能。（这三款应用相关信息可参见 2024 Week47 会员通讯的解读内容）

4、此外，AI 视频编辑类应用也在榜单中占据重要地位，这类应用通过简化智能剪辑、字幕添加等任务，为使用者提供「一键式」解决方案。在移动端榜单中，有 Veed 和 Clipchamp 两款应用上榜。

① Veed 是一款基于 AI 技术的在线视频编辑工具，旨在帮助用户快速创建高质量的视频内容，主要适用于社交媒体内容创作、教育培训视频制作以及企业宣传片等场景，核心功能包括自动生成字幕、文本到视频生成、背景移除、静音检测、滤镜添加等编辑功能。

② Clipchamp 是微软旗下的一款视频编辑工具，适用于个人创作、教育培训视频以及企业宣传片等场景，核心功能包括 AI 生成字幕、生成时间戳、音乐/文字/图片等元素分组管理、支持音频、视频和文本的多轨道编辑等。

5、除了流量外，a16z 提到视频编辑类应用在 MAU 和收入榜单中同样也都有较高的占比。Splice、Captions 和 Videoleap 是三款是营收方面表现优异的 AI 音视频类应用。三款应用均是通过音乐、字幕、特效等垂直领域专业化功能吸引高付费意愿用户，依赖 ......

03 Manus、Operator 引发消费级通用 Agent 热潮，消费级 AI 应用市场将有何变数？

1、近期，应用「Manus」在 AI 圈内引发了极多的关注，包括此前 OpenAI 推出的 Operator 等通用 AI Agent 产品引发了一场对于消费级通用 Agent 的热潮 ......

#CompressARC

「压缩即智能」得到实验验证，无需预训练和大量数据就能解决ARC-AGI问题

「压缩即智能」。这并不是一个新想法，著名 AI 研究科学家、OpenAI 与 SSI 联合创始人 Ilya Sutskever 就曾表达过类似的观点。甚至早在 1998 年，计算机科学家 Jose Hernandez-Orallo 就已经在论文《A Formal Definition of Intelligence Based on an Intensional Variant of Algorithmic Complexity》中有过相关的理论论述。

近日，卡内基梅隆大学 Albert Gu 领导的一个团队进一步证明了这一想法。据介绍，他们的研究目的是通过实验来解答一个简单又基本的问题：无损信息压缩本身能否产生智能行为？

博客地址：https://iliao2345.github.io/blog_posts/arc_agi_without_pretraining/arc_agi_without_pretraining.html
项目地址：https://github.com/iliao2345/CompressARC

该团队写到：「在这项工作中，通过开发一种纯粹基于压缩的方法，我们的证据证明：推理期间的无损压缩足以产生智能行为。」

该方法在 ARC-AGI 上表现优良，而 ARC-AGI 是一个类似智商测试的谜题数据集，被测模型需要根据有限的演示推断出程序 / 规则。

基于此，该团队将这个方法命名为 CompressARC，其符合以下三个限制：

无需预训练；模型在推理期间随机初始化和训练。
无需数据集；模型仅在目标 ARC-AGI 谜题上进行训练并输出一个答案。
无需搜索 —— 只需梯度下降。

尽管存在这些限制，但 CompressARC 还是在训练集上实现了 34.75% 的准确度，在评估集上实现了 20% 的准确度。

处理时间方面，在 RTX 4070 上，处理每个谜题的时间大约为 20 分钟。

该团队表示：「据我们所知，这是首个训练数据仅限于目标谜题的用于解决 ARC-AGI 的神经方法。」

他们特别指出：CompressARC 的智能并非源自预训练、庞大的数据集、详尽的搜索或大规模计算，而是源自压缩。「对于依赖大量预训练和数据的传统，我们发起了挑战，并展现了一种未来，即经过定制设计的压缩目标和高效的推理时间计算共同发力，从而可以从最少的输入中提取出深度智能。」

ARC-AGI 简介

ARC-AGI 提出于 2019 年，这个 AI 基准的目标是测试系统从少量示例中归纳总结出抽象规则的能力。

该数据集中包含一些类似 IQ 测试的谜题：先展示一些演示底层规则的图像，然后给出需要补全或应用该规则的测试图像。下面展示了三个示例：

每个谜题都有一个隐藏规则，可将每个输入网格映射到每个输出网格。被测试者将获得一些输入映射到输出的示例，并且有两次机会（Pass@2）猜测给定输入网格的输出网格。

如果任何一个猜测是正确的，那么被测试者将获得该谜题的 1 分，否则将获得 0 分。被测试者可以更改输出网格的大小并选择每个像素的颜色。

一般来说，人类通常能合理地找到答案，而机器目前还较难解决这个问题。普通人可以解决 76.2% 的训练集，而人类专家可以解决 98.5%。

有 400 个训练谜题会比其他谜题更容易，其目的是帮助被测试者学习以下模式：

Objectness（事物性）：事物会持续存在，不会无缘无故地出现或消失。物体能否交互取决于具体情况。
目标导向性：事物可以是动态的或静止的。有些物体是「智能体」—— 它们有意图并会追求目标。
数字和计数：可以使用加法、减法和比较等基本数学运算，根据物体的形状、外观或运动对它们进行计数或分类。
基本几何和拓扑：物体可以是矩形、三角形和圆形等形状，可以执行镜像、旋转、平移、变形、组合、重复等操作。可以检测到距离差异。

ARC Prize 团队曾多次发起解决 ARC-AGI 的竞赛，并提供金钱奖励。最近的一次竞赛涉及高达 100 万美元的潜在奖金，主要奖金留给了能够在受限环境中使用 12 小时计算，在 100 个谜题的私有测试集上实现 85% 成功率的方法。

此前，OpenAI 曾宣布 o3 模型在 ARC-AGI 基准可达到 87.5% 的水平，被广泛认为是重大的历史性突破，参阅报道《刚刚，OpenAI 放出最后大惊喜 o3，高计算模式每任务花费数千美元》。

新提出的解决方案

Albert Gu 领导的团队提出，无损信息压缩可以作为解决 ARC-AGI 谜题的有效框架。谜题的一个更高效（低比特）压缩就对应于一个更准确的解。

为了解答 ARC-AGI 谜题，该团队设计了一个系统，可以将不完整的谜题转换成完整的（填入答案），方法是寻找一个紧凑的表示，而当对这个表示进行解压缩时，就会重现有任意解的谜题。这个方法的关键难题是在没有答案作为输入的前提下获得这种紧凑的表示。

CompressARC 使用了一个神经网络作为解码器。然而，编码算法却不是一个神经网络——相反，编码是由梯度下降算法实现的，该算法在解码器上执行推理时间训练，同时保持正确的解码输出。

换句话说，运行该编码器就意味着优化解码器的参数和输入分布，从而获得经过最大压缩的谜题表示。

由此得到的优化版参数（例如，权重和输入分布设置）本身将作为经过压缩的比特表示，其编码了谜题与其答案。

如果用标准机器学习术语来描述：（没有压缩领域的术语，并进行了一些简化）

从推理时间开始，给出一个要解决的 ARC-AGI 谜题。（比如下图）
构建一个神经网络 f（参见架构），该网络是针对该谜题的具体情况（例如，示例数量、观察到的颜色）设计的。该网络采用了随机正态输入 z∼N (μ,Σ)，并在所有网格（包括答案网格（3 个输入输出示例，总共 6 个网格））输出每像素颜色的 logit 预测。重要的是，f_θ 等价于与常见的增强手段 —— 例如重新排序输入输出对（包括答案对）、颜色排列和空间旋转 / 反射。
初始化网络权重 θ 并为 z 分布设置参数 μ 和 Σ。
联合优化 θ、μ 和 Σ，以最小化已知网格（其中 5 个）的交叉熵总和，同时忽略答案网格。使用一个 KL 散度惩罚使 N (μ,Σ) 接近 N (0,1)，就像在 VAE 中一样。
由于 z 中的随机性，生成的答案网格是随机的，因此需要在整个训练过程中保存答案网格，并选择最常出现的网格作为最终预测。

为什么这种方法是在执行压缩？这里看起来并不那么显而易见。不过该团队在文章中通过压缩 ARC-AGI 推导了它，其中涉及信息论、算法信息论、编码理论和机器学习领域的知识，感兴趣的读者可访问原文了解。

现在，先试试解决上述谜题。下图展示了 CompressARC 的解题过程：

训练完成后，通过解构学习到的 z 分布（详见原文），可以发现它编码了颜色方向对应表和行/列分隔符位置！

架构

为了将隐含的 z 解码为 ARC-AGI 谜题，该团队设计了自己的神经网络架构。该架构最重要的特征是它的等变特性 —— 这是一些对称规则，规定了每当输入 z 发生变换时，输出 ARC-AGI 谜题也必须以相同的方式变换。例子包括：

重新排序输入/输出对
改变颜色
翻转、旋转和网格反射

等变的方式实在太多了，靠人力穷举实难办到，所以该团队决定打造一个完全对称的基础架构，并通过添加不对称层来逐一打破不必要的对称性，使其具有特定的非等变能力。

什么意思呢？假设 z 和 ARC-AGI 谜题都采用形状为 [n_examples, n_colors, height, width, 2 for input/output] 的张量形式（这实际上不是数据的格式，但它最能表达这个思路。）然后，网络开始与示例中的索引（颜色、高度和宽度维度）的排列等变。另外，在权重共享方面必须格外小心，以强制网络也与交换宽度和高度维度等变。然后，可以添加一个涉及宽度和高度维度的滚动层，让网络可区分短距离空间交互，但不区分长距离空间交互。

穿过各层的实际数据（z、隐藏激活和谜题）采用了所谓的「多张量（multitensor）」格式，其中包含各种形状的张量。所有等变都可被描述成它们对这个多张量的改变。

多张量

目前来说，大多数机器学习框架操作的都是具有恒定秩的单一类型的张量。比如 LLM 操作的是秩为 3 的张量，其形状为 [n_batch, n_tokens, n_channels]，而 CNN 操作的则是秩为 4 的张量，其形状为 [n_batch, n_channels, height, width]。

而新的多张量则是由多个不同秩构成的张量组成的集合，其维度是一个形状为 [n_examples, n_colors, n_directions, height, width, n_channels] 的秩为 6 的张量的子集。其中 channel 维度总是会被保留，因此每个多张量最多有 32 个张量。

为了判定张量形状是否「合法」该团队还设定了一些规则（详见原文「其它架构细节」部分）。这样一来，多张量中张量的数量就减少到了 18 个。

那么，多张量是如何存储数据的呢？ARC-AGI 谜题可以表示成 [examples, colors, height, width, channel] 张量，其中 channel 维度可用于选择是输入还是输出网格、width/height 维度指定像素位置、color 维度是一个 one hot 向量（指示了该像素的颜色）。[examples,width,channel] 和 [examples,height,channel] 张量可以用于存储表示每个输入/输出网格的每个示例的网格形状的掩码。所有这些张量都被包含在单个多张量中，该多张量由该网络计算，就在最终的线性头层之前。

当操作多张量时，该团队默认假设所有非 channel 维度都被视为 batch 维度。除非另有说明，否则将在各个维度索引上执行同样的操作。这能确保所有对称性完好，直到使用旨在破坏特定对称性的某个层。

关于 channel 维度的最后一点说明：通常在谈论张量的形状时，我们甚至不会提及 channel 维度，因为它已被默认包含在内。

完整的架构由以下层组成，对它们的详细描述见原文附录：

一开始是 z 分布的参数
解码层
4 组：多张量通信层（向上）、Softmax 层、方向 Cummax 层、方向移位层、方向通信层、非线性层、多张量通信层（向下）、归一化层
线性头

结果

那么，CompressARC 的实验表现如何呢？

首先来看训练集正确率（Pass@2）：34.75%。

验证集正确率则为 20%。

CompressARC 不能解决哪些问题？

该团队也详细分析了 CompressARC 能够和无法解决的问题。

例如，训练集中的谜题 28e73c20 需要从边缘向中间扩展图案：

考虑到其网络中的层，CompressARC 通常能够扩展短距离的图案，但不能扩展长距离的图案。因此，它尽力正确地将图案延伸一小段距离，之后就开始猜测中间是什么：

CompressARC 能够执行的功能包括：

为各个程序分配单独的颜色
填充
裁剪
用线连接点，包括 45 度对角线
相同颜色检测
识别像素邻接情况
为各个示例分配单独的颜色
识别形状的各个部分
短距离平移

CompressARC 无法执行的功能包括：

将两种颜色相互分配给对方
多次重复一系列操作
计数 / 数字
平移、旋转、反射、缩放、图像复制
检测拓扑属性，例如连接性
规划、模拟智能体的行为
图案的长距离扩展

案例展示：为方框上色

这里通过一个案例来展示 CompressARC 的执行情况，更多案例请见附录。

问题是这样的：

在训练过程中，重建误差下降得非常快。它的平均水平保持在较低水平，但隔一段时间就会急剧上升，导致来自 z 的 KL 在这些时刻上升。

那么，CompressARC 如何学会了解答这个问题呢？为了找到答案，我们先看看 z 中存储的表示。

由于 z 是一个多张量，它包含的每个张量都会对 z 的总 KL 产生贡献。通过查看每个张量的贡献，可以确定 z 中的哪些张量编码了用于表示谜题的信息。下图展示了存储在 z 的每个张量中的信息量，即解码层使用的 KL 贡献。

除了四个张量外，所有张量在训练期间都降至零信息内容。在该实验的一些重复实验中，该团队发现这四个必要张量中的一个降至了零信息内容，并且 CompressARC 通常不会在那之后给出正确答案。

这里展示了一次幸运的运行，其中 (color,direction,channel) 张量几乎要没了但在 200 步时被拉起来了，这时模型中的样本开始在正确的方框中显示正确的颜色。

为了了解 z 中存储了哪些信息，可以查看与 z 的各个张量相对应的解码层的平均输出。每个张量包含一个维度为 n_channels 的向量，用于该张量的各种索引。对这些向量进行主成分分析（PCA）可以揭示一些激活分量，能让我们知道该张量编码了多少信息。

该团队还在原文中分享了更多细节，并给出了进一步的提升空间，感兴趣的读者请访问原文。

对于这项「压缩即智能」的实验研究成果，你有什么看法呢？

#AI进入推理模型时代

近段时间，推理模型 DeepSeek R1 可说是 AI 领域的头号话题。用过的都知道，该模型在输出最终回答之前，会先输出一段思维链内容。这样做可以提升最终答案的准确性。

今天这篇文章将带你了解思维链（CoT）的相关研究和技术。

（图注）某些形式的推理技巧。

思维链（CoT）已经存在了相当长的一段时间。从技术上讲，它是一种高级提示工程。各种形式的 CoT 通常都是强迫大型语言模型进行推理。

2024 年 9 月，OpenAI 发布了其模型 o1 的预览版后，我们看到围绕 CoT 的炒作愈演愈烈。

除了 OpenAI，没有人完全知道 o1 是如何工作的，它是否是一个组合系统，用什么样的数据进行了微调，是否使用了强化学习，或者是否有几个模型在一起工作。

也许一个模型负责计划，另一个模型负责思考，第三个模型负责评分。但我们知道，它们都采用了某种逐步推理的方式。

关于这一点，已经有很多公开的研究。这篇文章将介绍现有的研究成果，让你知道自己可以使用什么。我也会对不同的技术进行测试，看看我们能否实现真正的改进。

研究者们在过去两年中发表了很多论文。你可以在下图中看到他们所谈到的推理技术。

过去两年讨论较多的 CoT 技术。

大部分工作直接来自 DeepMind 或普林斯顿大学。为他们的开源工作点赞。

CoT 这个词是 DeepMind 在 2022 年提出的，只在提示中使用。最新的论文探索了结合蒙特卡洛搜索（Monte Carlo Search）和无需提示的 CoT 的「思维树」（ToT）。

接下来将介绍简单的思维链 (CoT)、CoT 链、贪婪解码、CoT-SC、解码 CoT 以及结合蒙特卡洛树搜索的「思维树」。

LLM 的基线分数

要了解如何改进 LLM 的结果，我们首先需要建立某种基线分数。

在引入模型时，通常会附带评估指标。目前有几种流行的评估指标，如 MMLU（语言理解）、BigBench（推理）、HellaSwag（常识推理）等。

有趣的数据集。

不过，其中一些数据集已经过时，可能受到了一些污染。

Hugging Face 在 12 月份推出了新的 LLM 排行榜，基于较新的数据集进行评估。你可以清楚地看到，大多数模型的得分都比它们在原始数据集上的得分低得多。

这里值得做一些研究，以了解在模型评估方面应该如何思考，以及你和你的组织应该根据什么进行评估。使用内部私有数据集进行测试并不是最糟糕的想法。

我从不同的数据集中抽取了大约 350 个问题，再加上我在网上找到的一些流行问题，然后对 11 种不同的模型进行了评估。

我需要知道这些数据集以及 LLM 生成的答案是什么样的。

因此，我构建了自己的脚本来遍历问题，然后对每个问题用 0 或 1 来评估 LLM。

下面是我发现的结果。

你可以在这个谷歌表格中找到整个数据集和结果：https://docs.google.com/spreadsheets/d/1awPb5klHx-v1oafgZrV_-hdFHnibxla1BGHZ8vCY2CE/edit

我们可以从里面读出来的信息并不多。

我使用了来自 Big Bench、MMLU 和 Putnam 的问题，以及诸如「How many r’s are in Strawberry」之类的流行问题，但我们无法知道它们是否受到了这些问题的污染。此外，这也是一个相当小的数据集。

不过，我们可以清楚地看到，更大的模型表现更好。

我们感兴趣的是，能否通过让模型在回答之前进行推理和思考，来提高这些分数。

思维链（CoT）

思维链（CoT）提示是由 DeepMind 在 2022 年发表的论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》中提出的。因此，CoT 的概念已经存在了很长时间。

不过，这第一篇论文研究的是如何通过使用提示策略激活模型固有的推理能力，从而迫使模型对问题进行推理。

当时，人们只是以正确的方式进行提示，要求模型「一步步地思考」，要么通过零样本（不提供例子），要么通过少样本（提供几个例子）的方法。

零样本 vs 少样本。

对于 Claude、ChatGPT 或其他各种模型，只需在提示语末尾添加「让我们一步步思考」即可。如果你想尝试少样本学习，你可以在提示中给它一些例子。

DeepMind 报告说，他们可以证实，通过正确的提示，使用 CoT 技术有了显著提高。

从那时起，许多论文都在这些技术的基础上进行了深入研究，并开辟了越来越先进的道路。

构建推理链

在提示词工程社区中，有许多人尝试使用 CoT 风格的技术。我在这里收集了大部分我找到的库，以便读者查找。

CoT 风格技术的一些实现，详见 https://github.com/ilsilfverskiold/Awesome-LLM-Resources-List

Benjamin Klieger 使用 Groq 和 Llama 3.1 70b 构建了一个提示词风格的应用，通过进一步分解思考过程来引发思维链。可访问这里：https://github.com/bklieger-groq/g1

其想法是要求 LLM 将其思维分解为链，并继续思考，直到对答案有信心为止。

然后，系统将继续为该链的每个部分生成 LLM 调用，而不是将整个思考过程放在一个响应中。

下面这个例子展示了在 Grok-Beta 上应用该技术的示例，问题为「How many R’s are in Strawberry?」

在 Grok 上使用 CoT 链来回答 How many R’s are in Strawberry?

每个部分都由该模型本身设置，为其赋予标题，并决定是否需要继续使用另一个「思维」，还是是否已经得出最终答案。

这仍然是一种 CoT 风格的技术，因为它是线性的，但它比简单地要求模型「一步步思考」稍微高级一些。

我使用了他的部分代码构建了一个脚本，循环遍历我测试的一些针对 LLM 的基本问题，以查看使用这样的系统实际上会带来多少改进。我改编了 Claude 和 Grok 的脚本，以评估这种策略对它们的影响。下面是提升情况：

对于前三个类别，Llama 3.1 70B 的进步最大。Grok 在热门问题上表现较差（Haiku 也是如此）。

Putnam 数据集是高等数学，很少有 LLM 能在其上表现出色，所以当 Claude Sonnet 3.5 凭借这些 CoT 链得到了 68.75%，而 o1-preview 只有 63% 时，我深感惊讶。

总的来说，Sonnet 在使用 CoT 后，高等数学成绩提高了 81%。

请记住，我在这里使用了一个非常小的数据集，这只是为了了解它们在哪些方面表现好以及我们是否可以提高分数。需要在更大规模的数据上测试后才能获得更具体的信息。

不过，我还观察到，如果较小的模型开始对简单问题进行过度分析，会产生更糟的结果。Grok-Beta 和 Haiku 在常见的「较简单」问题上的表现就体现了这一点。

更简单的非数学问题可能无法从 CoT 获得同样的好处。

我们还必须记住，我们可以让模型在自己的能力范围内表现更好，但很少能超越它。如果它不知道答案，它就是无法知道。

用于推理的微调

这里需要提一下微调。AI 领域有一个非常有趣的研究方向：在 CoT 数据集上微调较小的模型，以将其准确度提高到比其大 1-2 倍的大模型的水平。

我已经找到了多个资源，但不幸的是，我们没能找到相较于基础模型有显著改进的案例。下面列出了我找到的开源模型：

下面是开源的 CoT 数据集。

这并不是说微调对 CoT 没用，只是需要构建更好的模型并进行充分的记录。

如果你喜欢自己尝试微调，请查看这些资源。我相信还有更多资源。

其它生成技术

我们讨论的是思维链技术，但还有其他方法可以在没有提示的情况下优化语言模型的输出准确性。

这涉及到我们在调用 LLM 时大多忽略的那些采样器设置 —— 如 temperature、top_p 和 do_sample 等参数 —— 它们可以在控制输出行为方面发挥作用。

现在，我们并不总是可以访问商业 API 的所有这些设置，但我们可以访问 temperature。从技术术语上讲，temperature 的意思是：当我们将其设置为高时，我们可以缩放 logit，从而增加低概率 token 被选中的机会。如下所示：

temperature 如何使 logit 上升和下降？

假设 token「mat」在开始时具有最高的初始 logit，但随着温度的升高，我们发现它开始下降，从而降低了概率。对于具有较低数字的初始 logit，情况正好相反。

这是什么意思？这意味着如果温度高，模型更有可能选择一个感觉不太「安全」的词。

大多数人称之为随机性或创造力。

对于并非所有商业 API 都可以访问的 top_p，你可以限制或根据你设置的数字扩展 token 池。低分将限制池中具有高概率分数的 token，反之亦然 —— 低分意味着只有高概率 token 才会出现在候选池中。

高 top_p 与高温度相结合将产生更具创新性和创造性的输出，因为更多的 token 将成为候选者。

do_sample 参数决定模型是否使用采样来生成下一个 token。设置为 True 时，模型会从候选池中采样并具有更大的自由度。设置为 False 时，它仅选择概率最高的 token（并完全忽略 temperature 或 top_p）。

我们可以使用此设置强制模型产生更确定的输出，即每个阶段概率最高的 token。

这被称为贪婪解码（Greedy Decoding）。

这是一种策略：模型在每一步都选择概率最高的 token，这可能会产生更准确的答案（如果它具有所需的固有知识）。

我也确实使用 do_sample 将贪婪解码应用于模型 Llama 3 8B，以检验能否在基础问题上获得提升。结果如下：

可以看到，在 MMLU 和 Big-Bench 上有所提升，但在高等数学上进步很小。

现在，商业 API 多半不提供 do_sample，因此要在无法访问模型的情况下应用类似的东西，你可以将温度设置为 0 以尝试模仿这种行为，但这并不能保证。

所以，你现在可能有一个问题：如果我们确实看到了小的改进，为什么不总是使用贪婪解码？

如果我们忽略输出中对创造力的需求，你还会发现能力较差的 LLM 可能会陷入重复的循环中，例如「The color is blue blue blue blue」，其中「blue」似乎是最高概率的 token，因此会重复。

高级 CoT

之前谈到都是线性技术，即模型在一个线程或链中产生输出。

但在第一篇 CoT 论文发表后不久，DeepMind 就提出了另一种更先进的技术，称为具有自我一致性的思维链（CoT-SC）。

该技术会创建多条推理路径，并使用某种方法在最后选择最一致的答案（或路径）。

CoT-SC 演示

他们报告说，使用这种方法让算术推理能力提高了 1-8%。

另一种方法的想法也颇为类似，是使用多条路径但不使用任何提示。

还记得我在上一节中谈到的贪婪解码吗？

这种方法类似，只是它不仅要强制选择最可能的 token，还要查看整个响应的置信度分数。

评估内部置信度分数

为此，系统首先会启动一定数量 k 的初始顶部 token，然后从每个 token 生成路径。生成答案后，它会通过分析不同路径中每个 token 的概率（logit）来计算置信度分数。

返回的结果是具有最高概率的答案（或路径）。

这种方法称为 Decoding CoT，由 DeepMind 提出。这种方法的思想是查看模型对返回答案的内部置信度。

但是如果它没有回答问题的固有知识会发生什么？与 CoT-SC 一样，这种方法在很大程度上取决于模型首先是否具有正确的答案。

不过，这并不意味着我们不应该测试它。

对于所有这些技术，都有人开源了不同的实现，这个也不例外。

因此，我很容易就建立了一个系统来测试这些方法，并比较哪种方法在较小的开源模型 Llama 3 8B 上表现更好。

感谢 Codelion 开源他的实现，让我可以轻松复现：https://github.com/codelion/optillm

从上面的结果可以看到，与其他方法（例如 Entropy）或仅使用贪婪解码来处理此特定模型相比，使用 Decoding CoT 显然产生了最佳结果。

更新的技术

现在的研究进展很快，很难完全跟进。这里不会过多论述，但我确实想提一下 Tree of Thoughts (ToT)，特别是与蒙特卡洛搜索的结合时。

ToT 于 2023 年底由普林斯顿大学和 DeepMind 提出，但通常建立在以前的基于树的推理方法之上。

ToT 不同于具有自我一致性的思维链（CoT-SC）。ToT 不会生成多条路径，而是在生成后才对其进行评估，而是在思维推进过程中对其进行动态评估。

简单演示 ToT

我们可以将 ToT 想象为 4 个不同的人聚在一起解决问题。每一步，他们都会提出自己的想法，并共同评估哪些想法看起来最有希望。如果一个人的推理似乎有缺陷，他就会离开，其他人会继续推进他们的解决方案。

最后，推理正确的人将能够为你提供答案。

这使得模型可以动态修剪看起来乏善可陈的路径，专注于更有希望的线程，从而节省资源。

但是，有人可能会问，系统如何决定哪个线程是对的，哪个线程是错的？这是由模型本身决定的。

这也是为什么像蒙特卡洛树搜索（MCTS）这样的扩展可以提供更多无偏见的评估机制。MCTS 允许反向传播，这意味着它可以根据新信息重新审视和改进早期步骤，而简单的 ToT 只会向前移动。

在 4 个人解决问题的案例中，MCTS 会允许人们有不太理想的思维，但仍会在游戏中停留更长时间。这种情况的评估方法会有所不同。

MCTS 可以模拟多种未来路径，评估其潜力，并回溯以改进早期决策。它引入了外部指标（奖励），而不是完全依赖模型。

像 UCB（置信上限）这样的统计数据使用这些奖励来决定进一步探索或重新审视哪些想法。

MCTS 比简单的 ToT 稍微复杂一些，值得单独写一篇文章。

CoT 的经济学

所以，到目前为止，你可能会想：好吧，我们已经有一些改进，为什么不总是使用更高级的思维链形式呢？

首先，成本（以及思考时间）。

对于应用于不同模型的链，这里计算的是平均推理步数。

从这个角度来看，你平均要为每个问题支付高达 8 倍的费用。对于在高级数学问题上表现最好的 Sonnet，你每 500 个问题最多要支付 15 美元。

这看起来可能不多，但是一旦你每天使用这个系统为客户服务或你的团队生成答案，那每月的消耗可达数百乃至数千。

在某些情况下，使用高级推理方法是有意义的，但并非总是如此。

现在可能存在对 CoT 进行微调的情况，可从根本上消除了多次调用的需要。

这里有一点需要权衡考虑：我们希望增加思考时间，让模型有足够的时间进行有效推理，但这样做也会增加用户的失望情绪和成本。

构建智能系统

去年 9 月，一篇题为「To CoT or not to CoT?」的论文发表，该论文认为应用 CoT 带来的大多数改进主要在数学和复杂推理方面。

我们在这里也看到了这一点，在简单的问题上，CoT 带来的提升有限。

当我们应用这些链时，我们必须等待更长时间才能得到答复。这值得吗？应该注意的是，对于简单的任务来说，所有这些策略都可能有点过头了。

但是，如果你正在构建一个需要确保答案正确的系统，那么采用某种形式的 CoT 或解码可能会大有助益。

或许，一种值得考虑的做法是：先用一个模型根据任务难度来设置前面几步，然后分析它是否有信心一开始就解答这个问题。然后让模型推理（通过链），最后用另一个模型对其响应进行评分。

原文链接：https://towardsdatascience.com/advanced-prompt-engineering-chain-of-thought-cot-8d8b090bf699

#TokenSkip

让大模型「跳步骤」推理，速度翻倍

论文标题：TokenSkip: Controllable Chain-of-Thought Compression in LLMs
论文地址：2502.12067v1.pdf
代码开源：https://github.com/hemingkx/TokenSkip
作者单位：香港理工大学

一、问题：为什么大模型「想太多」会变慢？

想象一下，你让ChatGPT解一道数学题，它会在脑海里「自言自语」：

“小明有5个苹果，先买了3个，现在有8个；然后吃掉2个，剩下6个。所以答案是6。”

这个过程叫思维链（CoT）——模型通过一步步推导得出答案。但问题来了：

这就好比：你写作文时，如果必须把“嗯…这里应该…对吧？”之类的内心活动全写出来，交卷时间肯定来不及

二、核心思想：让模型学会「划重点」

TokenSkip的灵感很简单：不是所有token都值得生成！

1. token的重要性天差地别

学霸token：数字（5、3）、公式（5+3=8）、答案（6）。
学渣token：连接词（“所以”“然后”）、重复描述（“我们仔细计算一下”）。

举个栗子：
原始CoT：

“首先，小明有5个苹果。接着他买了3个，所以现在总共有5+3=8个。然后他吃掉2个，最后剩下6个。”

关键token：5, 3, 5+3=8, 2, 8-2=6, 答案6
冗余token：首先, 接着, 所以, 然后, 最后

2. TokenSkip的终极目标：

保留学霸token，跳过学渣token！从而让模型生成的CoT更精炼，推理速度更快，同时保持正确率。

三、实现方法：三步让模型学会「跳步骤」

Step 1：给每个token「打分」——谁是学霸？

用一个小型模型LLMLingua-2当「判卷老师」，给CoT中的每个token打分（重要性分数）。

训练方式：使用GPT-4为token标注一个二分类标签（重要/不重要），以此训练出一个打分模型，模型输出的概率就是token的得分
如何打分：

高分token：对答案影响大（如数字、公式）。
低分token：可跳过（如连接词）。

Step 2：动态压缩——按需「删废话」

用户指定一个压缩比例γ（比如γ=0.6，保留60%的token），TokenSkip会：

按分数从高到低排序所有token。
保留前60%的高分token，剩下的直接跳过。

压缩过程演示：

原始CoT（10个token）：
[首先][小明][有][5][苹果][然后][买][3][所以][总数8]
压缩后（6个token，γ=0.6）：
[小明][5][苹果][买][3][总数8]

为什么有效：

删掉了首先、然后、所以等低分token。
保留了关键数字和动作（买3）。

Step 3：训练模型——教会它「走捷径」

我们的最终目的是要让LLM学会自动跳token，而现在我们需要使用压缩后的COT来微调（Fine-tuning）模型。但全量微调成本太高，TokenSkip用了LoRA：

1. 数据准备：

输入格式：

即[问题、分隔符、压缩比率、分隔符、压缩后的思维链、答案]，EOS为序列结束符，以数值形式嵌入[问题] [EOS] 压缩比例0.6 [EOS]

3. 损失函数：

4. LoRA微调：

采用LoRA（Low-Rank Adaptation），仅更新权重矩阵的低秩增量：

超参数设置：秩r=8，缩放因子=16，仅调整0.2%的模型参数。

训练成本：

7B模型：2小时（2块3090显卡）
14B模型：2.5小时
（相当于刷两集《繁花》的时间~）

四、效果实测：速度翻倍，答案几乎全对

1. 评估指标

2. 理论分析

3. 实验结果

幂律现象：模型规模越大，Acc对的敏感度越低（见图5）。
注意力稀疏性：压缩后的CoT序列中，注意力权重更集中于关键令牌（可视化见论文图2）。

如果有哪里没看懂，欢迎评论区提问！

#ConFIG

慕尼黑工业大学&北京大学：迈向无冲突训练的ConFIG方法

本文由慕尼黑工业大学与北京大学联合团队撰写。第一作者刘强为慕尼黑工业大学博士生。第二作者楚梦渝为北京大学助理教授，专注于物理增强的深度学习算法，以提升数值模拟的灵活性及模型的准确性和泛化性。通讯作者 Nils Thuerey 教授（慕尼黑工业大学）长期研究深度学习与物理模拟，尤其是流体动力学模拟的结合，并曾因高效流动特效模拟技术获奥斯卡技术奖。目前，其团队重点关注可微物理模拟及物理应用中的先进生成式模型。

在深度学习的多个应用场景中，联合优化多个损失项是一个普遍的问题。典型的例子包括物理信息神经网络（Physics-Informed Neural Networks, PINNs）、多任务学习（Multi-Task Learning, MTL）和连续学习（Continual Learning, CL）。然而，不同损失项的梯度方向往往相互冲突，导致优化过程陷入局部最优甚至训练失败。

目前，主流的方法通常通过调整损失权重来缓解冲突。例如在物理信息神经网络中，许多研究从数值刚度、损失的收敛速度差异和神经网络的初始化角度提出了许多权重方法。然而，尽管这些方法声称具有更高的解的精度，但目前对于最优的加权策略尚无共识。

针对这一问题，来自慕尼黑工业大学和北京大学的联合研究团队提出了 ConFIG（Conflict-Free Inverse Gradients，无冲突逆梯度）方法，为多损失项优化提供了一种稳定、高效的优化策略。ConFIG 提供了一种优化梯度

，能够防止由于冲突导致优化陷入某个特定损失项的局部最小值。ConFIG 方法可以在数学上证明其收敛特性并具有以下特点：

最终更新梯度
与所有损失项的优化梯度均不冲突。
在每个特定损失梯度上的投影长度是均匀的，可以确保所有损失项以相同速率进行优化。
长度可以根据损失项之间的冲突程度自适应调整。

此外，ConFIG 方法还引入了一种基于动量的变种。通过计算并缓存每个损失项梯度的动量，可以避免在每次训练迭代中计算所有损失项的梯度。结果表明，基于动量的 ConFIG 方法在显著降低训练成本的同时保证了优化的精度。

想深入了解 ConFIG 的技术细节？我们已经为你准备好了完整的论文、项目主页和代码仓库！

论文地址：https://arxiv.org/abs/2408.11104
项目主页：https://tum-pbs.github.io/ConFIG/
GitHub: https://github.com/tum-pbs/ConFIG

ConFIG: 无冲突逆梯度方法

目标：给定

个损失函数

，其对应梯度为

。我们希望找到一个优化方向

，使其满足：

。即所有损失项在该方向上都能减少，从而避免梯度冲突。

无冲突优化区间

假设存在一个无冲突更新梯度，我们可以引入一个新的矢量

。由于

是一个无冲突梯度，

应为一个正向分量矢量。同样地，我们也可以预先定义一个正向分量矢量

，然后直接通过矩阵的逆运算求得无冲突更新梯度

，即

。通过给定不同的正向分量矢量

，我们得到由一系列不同

组成的无冲突优化区间。

确定唯一优化梯度

尽管通过简单求逆可以获得一个无冲突更新区间，我们需要进一步确定唯一的无冲突梯度用于优化。在 ConFIG 方法中，我们从方向和幅度两个方面进一步限定了最终用于优化更新的梯度：

具体优化方向：相比于直接求解梯度矩阵的逆，ConFIG 方法求解了归一化梯度矩阵的逆，即
，其中
表示第
个梯度向量的单位向量。可以证明，变换后
矢量的每个分量代表了每个梯度
与最终更新梯度
之间的余弦相似度。因此，通过设定
分量的不同值可以直接控制最终更新梯度对于每个损失梯度的优化速率。在 ConFIG 中，
被设定为单位矢量以确保每个损失具有相同的优化强度从而避免某些损失项的优化被忽略。
优化梯度大小：此外，ConFIG 方法还根据梯度冲突程度调整步长。当梯度方向较一致时，加快更新；当梯度冲突严重时，减小更新幅度：
, 其中
为每个梯度与最终更新方向之间的余弦相似度。

ConFIG 方法获得最终无冲突优化方向的计算过程可以总结为：

原论文中给出了上述 ConFIG 更新收敛性的严格证明。同时，我们还可以证明只要参数空间的维度大于损失项的个数，ConFIG 运算中的逆运算总是可行的。

M-ConFIG: 结合动量加速训练

ConFIG 方法引入了矩阵的逆运算，这将带来额外的计算成本。然而与计算每个损失的梯度带来的计算成本，其并不显著。在包括 ConFIG 在内的基于梯度的方法中，总是需要额外的反向传播步骤获得每个梯度相对于训练参数的梯度。这使得基于梯度的方法的计算成本显著高于标准优化过程和基于权重的方法。为此，我们引入了 M-ConFIG 方法，使用动量加速优化：

使用梯度的动量（指数移动平均）代替梯度进行 ConFIG 运算。
在每次优化迭代中，仅对一个或部分损失进行反向传播以更新动量。其它损失项的动量采用之前迭代步的历史值。

在实际应用中，M-ConFIG 的计算成本往往低于标准更新过程或基于权重的方法。这是由于反向传播一个子损失

往往要比反向传播总损失

更快。这在物理信息神经网络中尤为明显，因为边界上的采样点通常远少于计算域内的采样点。在我们的实际测试中，M-ConFIG 的平均计算成本为基于权重方法的 0.56 倍。

结果：更快的收敛，更优的预测

物理信息神经网络

在物理信息神经网络中，用神经网络的自动微分来近似偏微分方程的时空间导数。偏微分方程的残差项与边界条件和初始条件被视作不同的损失项在训练过程中进行联合优化。我们在多个经典的物理神经信息网络中测试了 ConFIG 方法的表现。

结果显示，在相同训练迭代次数下，ConFIG 方法是唯一一个相比于标准 Adam 方法始终获得正向提升的方法。对每个损失项变化的单独分析表明，ConFIG 方法在略微提高 PDE 训练残差

的同时大幅降低了边界和初始条件损失

，实现了 PDE 训练精度的整体提升。

相同迭代步数下不同方法在 PINNs 测试中相比于 Adam 优化器的相对性能提升

不同损失项随着训练周期的变化情况

在实际应用中，相同训练时间下的模型准确性可能更为重要。M-ConFIG 方法通过使用动量近似梯度带来的运算速度提升可以使其充分发挥潜力。在相同训练时间内，M-ConFIG 方法的测试结果优于其他所有方法，甚至高于常规的 ConFIG 方法。

此外，我们还在最具有挑战性的三维 Beltrami 流动中进一步延长训练时间来更加深入地了解 M-ConFIG 方法的性能。结果表明，M-ConFIG 方法并非仅在优化初始阶段带来显著的性能改善，而是在整个优化过程中都持续改善优化的过程。

相同训练时间下不同方法在 PINNs 测试中相比于 Adam 优化器的相对性能提升

三维 Beltrami 流动案例中预测误差随着训练时间的变化

多任务学习

我们还测试了 ConFIG 方法在多任务学习（MTL）方面的表现。我们采用经典的 CelebA 数据集，其包含 20 万张人脸图像并标注了 40 种不同的面部二元属性。对每张人像面部属性的学习是一个非常有挑战的 40 项损失的多任务学习。

实验结果表明，ConFIG 方法或 M-ConFIG 方法在平均 F1 分数

、平均排名

中均表现最佳。其中，对于 M-ConFIG 方法，我们在一次迭代中更新 30 个动量而不仅更新一个动量。这是因为当任务数量增加时，单个动量更新时间的间隔较长，历史动量信息难以准确捕捉梯度的变化。动量信息的滞后会逐渐抵消 M-ConFIG 方法更高训练效率带来的性能提升。

在我们的测试中，当任务数量等于 10 时，M-ConFIG 方法在相同训练时间下的性能就已经弱于 ConFIG 方法。增加单次迭代过程中的动量更新次数可以显著缓解这种性能下降。在标准的 40 任务 CelebA 训练中将动量更新次数提升到 20 时，M-ConFIG 方法的性能已经接近 ConFIG 方法，而训练时间仅为 ConFIG 方法的 56%。当更新步数达到 30 时，其性能甚至可以优于 ConFIG 方法。

ConFIG 方法在 CelebA 人脸属性数据集中的表现

结论

在本研究中，我们提出了 ConFIG 方法来解决不同损失项之间的训练冲突。ConFIG 方法通过确保最终更新梯度与每个子梯度之间的正点积来确保无冲突学习。此外，我们还发展了一种基于动量的方法，用交替更新的动量代替梯度，显著提升了训练效率。ConFIG 方法有望为众多包含多个损失项的深度学习任务带来巨大的性能提升。

#USP

统一自监督预训练！视觉模型权重无缝迁移下游任务，SiT收敛提速近47倍

最近的研究强调了扩散模型与表征学习之间的相互作用。扩散模型的中间表征可用于下游视觉任务，同时视觉模型表征能够提升扩散模型的收敛速度和生成质量。然而，由于输入不匹配和 VAE 潜在空间的使用，将视觉模型的预训练权重迁移到扩散模型中仍然具有挑战性。

为了解决这些问题，来自高德地图的研究者提出了统一自监督预训练（USP, Unified Self-Supervised Pretraining），该方法通过在变分自编码器（VAE）的潜在空间中进行潜在掩码建模（Masked Latent Modeling）预训练，预训练得到的 ViT 编码器等权重可以无缝迁移到下游任务，包括图像分类、语义分割以及基于扩散模型的图像生成。

论文名称：USP: Unified Self-Supervised Pretraining for Image Generation and Understanding
论文地址：https://arxiv.org/pdf/2503.06132
代码地址：https://github.com/cxxgtxy/USP

USP 在理解任务上实现有竞争力的表现；在生成任务中，USP 显著加速 DiT 和 SiT 模型收敛速度，比从头训练快 11.7 倍（DiT-XL）和 46.6 倍（SiT-XL）。

研究背景

在过去十年中，预训练 - 微调（pretraining-finetuning）范式在图像识别任务中取得了显著成功。但在图像生成领域，该范式的探索仍然有限。

DDAE 等近期的研究表明，生成模型不仅可以合成高质量图像，还可以学习到优越的视觉表征，图像理解和图像生成之间存在着深层次的联系。

例如，iGPT（Image GPT）探索了基于像素空间的自回归预训练，但该方法在大规模数据集和模型上扩展时面临着严重的计算成本问题。此外，这种方法与扩散模型不兼容。

为了弥合这一差距，REPA 提出通过对齐扩散模型与预训练的视觉模型（如 DINOv2）的表征，可以让扩散模型更高效地学习判别特征，从而提高训练效率和生成质量。然而，REPA 存在几个主要问题：

1. 高昂的计算成本：REPA 依赖于 DINOv2 这样的大规模预训练视觉模型，其预训练需要超过 22,000 GPU 小时（A100），计算资源需求极高。

2. 额外的教师网络（Teacher Network）：使用 DINOv2 作为教师模型会增加 GPU 显存消耗，同时降低扩散模型的训练速度。

尽管已有研究揭示了生成和理解任务间的联系，但仍然有一些关键问题尚未解决：

1. 预训练是否对扩散模型的训练是可行且必要的？

2. 是否可以找到一种同时适用于生成和理解任务的预训练方法？

3. 现有的 “预训练 - 微调” 范式是否能成功应用于生成模型？

该论文旨在提出一种简单而有效的方法来解决这些问题。

方法设计

实现能够同时适用于图像理解和生成的统一预训练 - 微调范式面临诸多挑战：

C1: 输入不匹配：图像理解模型通常接收干净的图像作为输入，而扩散模型接受的是添加了噪声的图像。
C2: 结构不匹配：生成模型多为基于 VAE 的潜空间扩散模型，而大多数图像理解任务并不使用 VAE。此外， ViT 结构在图像生成任务中通常会进行修改。
C3: 损失函数和标签格式不同：图像理解任务和图像生成任务通常采用不同的优化目标，这使得直接共享预训练模型变得困难。

尽管面临这些挑战，研究者也观察到了一些有利的现象：

P1: 神经网络对噪声具有鲁棒性：预训练的视觉模型在噪声或数据增强下仍然可以保持较高的分类精度，例如在 ImageNet-C 数据集上测试。说明即使扩散模型处理的是加噪图像，预训练模型仍可以学习到有效的特征。
P2: 扩散模型可以学习到判别性特征：扩散模型能学习到用于图像分类等任务的判别性特征。如果能够有效地对齐这些表征，扩散模型的收敛速度和最终性能都可以得到显著提升。
P3: ViT 结构具有较强的适应性：尽管 ViT 在应用到扩散模型时经历了一定修改（如 AdaLN-Zero 层归一化和额外的条件输入）。但如果设计得当，这些修改仍然可以与 ViT 的预训练权重兼容。
P4: VAE 具有强大的压缩和重建能力：扩散模型中使用的 VAE（如 SD-VAE）能够有效地保留原始图像的重要信息。即使在 VAE 的潜空间中进行训练，仍然可以获得高质量的视觉特征。

基于以上观察，本文的研究者提出了统一的自监督预训练架构，见下图 1：

USP 架构基于一个简单的自编码器（Autoencoder），但在 VAE 潜空间中进行操作，而非像素空间。输入图像首先经过 VAE 编码到潜空间，并通过 PatchConv 进行图片分块。部分块按照设定 mask 比例被随机掩码，未掩码的块输入到 ViT 编码器，而解码器负责重建掩码块，损失函数仅使用简单的 MSE loss。在预训练阶段，VAE 参数被冻结，仅训练 ViT 编码器。预训练完成后，ViT 编码器的权重可用于初始化下游任务，如分类、分割和生成。

在将预训练模型权重适配到下游理解和生成模型时，针对图像分类任务，ViT 编码器的预训练权重可直接继承，无需额外调整，且仍然使用 Class Token 作为最终表征。

对于生成任务，由于 DiT 和 SiT 的结构与 ViT 略有不同，对初始化策略进行了优化。首先，在 AdaLN-Zero 层归一化中，恢复可训练的偏置（β）和缩放因子（γ），使其与预训练的 ViT 权重对齐。其次，由于预训练是在 224×224 进行，而 ImageNet 生成任务通常在 256×256 进行，因此本文采用 Bicubic Interpolation 扩展位置编码。最后，由于生成任务不需要 class token，在 DiT/SiT 中直接将其移除。这种初始化策略确保了 ViT 预训练权重能够无缝适配到下游分类和生成任务，而不引入额外计算开销或存储需求。

实验设置

本论文涵盖三种模型规模，见表 1。预训练阶段所有模型共享相同的解码器 —— 由 8 个 Transformer 块组成。

在额外实验中，将预训练时长扩展到 1600 轮，以证明 USP 在更长预训练时间上的可扩展性。为了与 MAE 进行公平比较，本文在 224×224 分辨率上进行预训练，尽管消融实验表明更高的分辨率可以带来更好的性能。

图像生成实验

本文在两种基于 Transformer 的扩散模型，DiT 和 SiT 上验证了 USP。评估均在 ImageNet 256×256 上进行，使用 50,000 个样本，不使用 CFG。

表 2 显示了在不同规模的 DiT 模型上的对比结果。USP 在所有模型规模上均显著提升了生成质量，且随着训练时间延长，生成质量不断提高。相比最近的 DiT 变体在 2.5M 步的 FID，USP 仅在 400K 内就能达到更好的效果。

表 3 显示了在不同规模的 SiT 模型上的对比结果。USP 表现出和 DiT 一致的提升效果。同时，表 3 与近期利用表征对齐来提升 DiT/SiT 性能的方法进行了比较，USP 在所有模型设置下均优于其他方法。

图像理解实验

论文在 ImageNet-1k 数据集上进行了线性探测（Linear Probe）和微调（Fine-tuning）的图像分类评估。在线性探测（LP）任务上，USP 的性能优于 MAE；在微调（SFT）任务上，USP 表现与 MAE 相当，表 5 总结了分类结果：

进一步，论文在 ADE20 数据集上进行了分割性能评估。表 6 显示了 USP 在单尺度 mIoU 指标上的表现，相比 MAE 提升了 0.5%。

消融实验

研究者进行了全面的消融实验，以探讨 USP 设计中不同组件的影响。例如 VAE、输入分辨率、掩蔽率等。更多的消融实验说明见原论文。

讨论

VAE 在图像理解任务中的作用

在图像分类任务中应用 VAE 并不是最理想的选择。因为 VAE 的核心目标是在保证重建能力的同时尽可能压缩信息，而原始图像本身是无损的，因此直接在原始图像上进行分类可能更高效。然而，我们的实验表明，如果使用高质量的 VAE 进行编码，图像分类任务的性能至少可以达到与标准方法相当的水平。

研究者认为，这种现象的主要原因是：

VAE 的潜空间编码仍然能保留足够的判别信息，即使经过压缩，仍能支持良好的分类表现。
VAE 提供了一种对抗噪声的方式，通过潜空间中的信息提取，模型可能学习到更鲁棒的特征。

工作机制（对比 REPA）

为了更深入地理解 USP，研究者在 DiT-XL/2 训练过程中，对不同层的线性探测性能进行了分析（见图 4）。比较了以下几种情况：

1.DiT-XL/2 预训练后的线性探测性能（“Pre.”）

2.DiT-XL/2 生成微调后的线性探测性能（“Ft.”）

3.SiT-XL/2 模型的线性探测性能

4.SiT-XL/2 在应用 REPA 方法后的线性探测性能

主要发现：

与 REPA 不同，USP 不依赖额外的对齐损失，而是通过精心设计的初始化策略，让模型自动找到最适合线性分类的层。
经过 40 万步训练后，USP 的第 20 层成为最优的线性分类层，这表明 USP 能够自适应地优化表征学习，在分类和生成任务之间找到平衡点。
REPA 通过人为设计的表征对齐方式来增强判别能力，但这种方法可能会限制生成模型的潜力。

这些实验表明，USP 的初始化策略比基于表征对齐的方法更高效，并且更适用于同时提升分类和生成任务的统一框架。

对基础范式的另一种视角

论文中使用经过 800 轮预训练且掩码比例为 0.75 的 ViT-Large 模型研究了图像修复任务。如图 5 所示，USP 在图像修复方面显著优于 MAE，凸显了强表征能力对有效修复的重要性。

这一结果与下面基于扩散的生成框架相契合，表明过度使用监督标签微调编码器以增强判别能力，并不会显著提升图像生成效果。

为了实证这一假设，论文中采用了一个监督微调模型，模型在 ImageNet 验证集上的准确率达 82.6%，并使用其初始化 DiT-B/2 进行 400K 步训练。表 8 总结了实验结果。其性能明显低于预训练，进一步验证了对该范式的分析。

#百度连发两款模型，我们实测：能听歌看电影，还会蛐蛐人

AI 竞争进入白热化阶段。这次，轮到百度给自家大模型上强度。

刚刚，百度一口气官宣了两款大模型，分别是文心大模型 X1 和文心大模型 4.5。

那么，这两款大模型有啥区别呢？

这么说吧，文心 X1 是一款深度思考模型，具备更强的理解、规划、反思、进化能力，并支持多模态，尤其是多工具调用，更是它的一大特色。

而文心 4.5 号称新一代原生多模态基础大模型，最擅长的就是多模态理解，语言能力也更精进。

相比于之前版本，文心 4.5 不仅在理解、生成、逻辑、记忆能力方面上了一个台阶，还在去幻觉、逻辑推理、代码能力上有了全面提升。

目前，这两款模型已在文心一言官网、百度搜索、文小言 APP 等产品上线。（体验网址：https://yiyan.baidu.com/）

最关键的是，它们全都免费！

要知道，前段时间百度还对外宣布，文心一言将从 2025 年 4 月 1 日 0 时起开始全面免费。

没想到，这次百度直接将这个时间点提前了整整半个月。

同时，这两款模型的 API 价格也已出炉。

开发者现可在百度智能云千帆大模型平台上直接调用文心大模型 4.5 API，输入价格低至 0.004 元 / 千 tokens，输出价格低至 0.016 元 / 千 tokens；文心大模型 X1 也即将在千帆平台上线，输入价格低至 0.002 元 / 千 tokens，输出价格低至 0.008 元 / 千 tokens。

百度之所以能把文心 X1 模型的 API 价格打下来，是因为他们通过飞桨和文心联合优化，实现从压缩、推理、服务部署的全链路极致调优，大幅降低文心 X1 推理成本。

具体来说，模型压缩方面，通过分块 Hadamard 量化、面向长序列的注意力机制量化等实现深度压缩；推理引擎方面，通过低精度高性能算子优化、动态自适应投机解码、神经网络编译器实现推理加速。系统层面，通过框架和芯片协同优化、分离式部署架构、高效资源调度实现系统级优化。

一手评测

俗话说得好，是骡子是马，还得拉出来遛遛。

接下来，我们将从多模态理解、文本创作、逻辑推理以及工具调用等多个维度，对这俩大模型来一波真刀真枪的实战。

文心 X1：会脑筋急转弯，还能调动多个工具

作为百度最新深度思考模型，文心 X1 有三大绝活：嘴毒（敢锐评）、脑子好使（推理能力强），而且善用工具（多工具调用）。

相较于之前版本，文心 X1 显得叛逆得多。它不愿做「端水大师」，遇事总是直言不讳，有观点有态度。

比如我们让它用贴吧的口吻，锐评一下小红书、知乎、微博和贴吧。

它一上来就毫不客气，怒喷小红书是《人类高质量装 X 指南》，知乎整天标榜精英范儿，微博热搜天天吵得像菜市场，贴吧则是人均键盘侠。

之所以说文心 X1 脑子好使，是因为它的逻辑推理能力有了显著提升，甚至还「懂」脑筋急转弯的奇葩脑回路。

比如「狐狸为什么容易摔跤」，它既能从科学的角度进行解释，还能识别出背后的谐音梗。

要说文心 X1 最大的特色，便是能调用多种工具。

我们只需在聊天框开启「联网搜索」和「调用工具」两个按钮，就能一下子综合高级搜索、文档问答、图片理解、AI 绘图、代码解释器、百度学术检索、商业信息查询等工具。

举个例子。

我们上传一张甜品的照片，然后让它介绍制作工序，并生成一份 PDF 文件。

文心 X1 接连调用了图片理解、联网搜索和代码解释器三个工具。

最终它真的生成了一份草莓蓝莓煎饼塔详细工序的 PDF 文档。

文心 X1 的完整回答

文心 X1 生成的 PDF 文件名及内容

文心 4.5：学会了听歌、看电影

如果说文心 X1 更聪明的话，那么文心 4.5 就是更全能。

作为百度自主研发的新一代原生多模态基础大模型，文心 4.5 不仅能看懂梗图，还能识别音视频。

前段时间 Grok3 发布时，马斯克激动地在 X 上发了张梗图，对着谷歌、OpenAI 和 Meta 就是一顿贴脸开大。

image (46).png

我们就将这张梗图丢给文心 4.5，输入 Prompt：这张图片暗含着什么意思？

它敏锐捕捉到了图片背后的幽默和讽刺含义：四只企鹅代表了大洋彼岸的四家科技巨头，其中三只企鹅向 Grok 企鹅敬礼，暗示了 Grok 在某一阶段处于领先优势。

对于大模型来说，识别梗图早就不是什么新鲜事了，文心 4.5 最拿手的还得是音视频的理解分析。

当我们听到一首喜欢的音乐，但就是死活想不起来歌名时，我们只需录一小段音频，投喂给文心 4.5，它就能给出这首歌的一切。

同理，我们还可以上传一段不超过 20M 的视频片段，让它挖出背后各种八卦。

比如电影《闻香识女人》中这段经典的舞蹈，文心 4.5 不仅识别出影片名字、女主饰演者，甚至连背景音乐都扒出来了。

弱智吧，江湖人称「青龙山皇家疗养院」，大模型智商高不高，就看能不能 hold 得住这些神题。

弱智.png

比如：为什么只有电信诈骗，没有联通诈骗呢？

文心 4.5 从术语的通用性聊到了历史渊源，又从法律定义聊到了社会认知，把这个略显无厘头的问题解释得清清楚楚、明明白白。

此外，文心 4.5 在搜索方面也有了更大的进步。

就拿最近大火的网络热梗「馕言文」来说，它找到了 8 条参考信源，除了百家号外，还包括新京报网、腾讯网等其他来源。

而且，文心 4.5 经过分析总结给出回答后，还在末尾附上了相关视频以供参考。

核心技术大揭秘

经过实测，我们可以看出百度最新发布的两个模型已经出现了质的飞跃。

多项技术加持的文心 X1

最近一段时间，AI 圈焦点无疑是关于「Scaling Law 是否撞墙？」的讨论，这个曾经被视作大模型发展的第一性原理，如今却遭遇了巨大挑战。

面对大模型性能提升的边际效益递减问题，测试时计算（Test-Time Compute）、强化学习等策略成为一种有效的应对方式。

百度在强化学习方面也下足了功夫，发布的推理模型文心 X1 创新性地应用了递进式强化学习训练方法。采用这种方法可以全面提升模型在创作、搜索、工具调用、推理等场景的综合应用能力。

比如上文我们体验的「输入一张图片，要求文心 X1 根据提示输出 PDF 格式的文件」，就离不开这种训练方式。

现阶段，推理模型几乎都采用了一种称为思维链（Chain of Thought，CoT）的技术，与传统的直接从输入到输出的映射不同，思维链通过显式展示中间推理过程，帮助模型更好地理解和解决复杂问题。

更进一步的，文心 X1 具备 “长思维链”，采用了思维链和行动链耦合的端到端训练方式。思维链使得模型在解决问题时，一步一步写下思考过程，就像我们做数学题时，需要写下解题步骤一样。而行动链是模型在思考过程中决定采取的行动，比如搜索信息、调用工具等。

在端到端训练中，文心 X1 不是只学习思考或者只学习行动，而是把思考和行动结合起来，通过这种方式，模型可以根据每次行动的结果反馈，调整自己的思考和行动策略，最终显著提升在复杂任务中的表现。

最后，文心 X1 还采用了多元统一的奖励系统，这个系统就像一个「超级裁判」，用来评价模型做得好不好。这个「裁判」在评估过程中结合了多种不同的奖励机制，能够从多个角度给模型反馈。这样的话，模型在训练过程中就能得到更准确、更可靠的指导，为模型训练提供更加鲁棒的反馈。

文心 4.5 用到的「法宝」

至于文心 4.5，背后的技术也不容小觑。

首先是 FlashMask 动态注意力掩码。FlashMask 是由百度飞桨团队在论文《FlashMask: Efficient and Rich Mask Extension of FlashAttention》中提出的一种创新的注意力掩码优化技术，旨在解决 Transformer 类大模型中注意力掩码计算的冗余和存储开销问题。FlashMask 通过列式稀疏掩码表示方法，将传统的二维稠密掩码矩阵转换为一维的行索引区间表示，从而显著降低了存储复杂度，从 O (N^2) 降低到 O (N)。极致的加速了大模型训练效率，尤其是长序列场景下的训练效率。

相关论文已入选顶会 ICLR 2025 。

论文地址：https://arxiv.org/abs/2410.01359

其次就是多模态异构专家扩展技术。该技术是一种结合多模态数据处理与混合专家模型（MoE）的创新架构，旨在通过针对不同模态特点构建的异构专家模块，解决多模态融合中的梯度不均衡问题，提升模型的多模态融合能力。多模态异构专家扩展技术在多个应用场景中展现了显著优势，例如多模态问答任务，这种技术能够更高效地处理复杂的多模态数据。

文心 4.5 还采用了时空维度表征压缩技术，这是一种把图片和视频里的关键信息进行浓缩的方法。在不丢失重要细节的情况下，在时空维度对图片和视频的语义表征进行高效压缩，让这些数据变得更小、更高效。这样一来，训练多模态模型（也就是同时处理文字、图片、视频等多种数据的模型）时就能更快、更省资源。

前文我们已经提到，文心 4.5 幻觉问题得到了极大的提升，而这离不开百度采用的基于知识点的大规模数据构建技术。知识分级采样优先把重要的、核心的知识挑出来，接着把挑出来的知识点进行压缩，去掉多余的部分，把相关的知识融合在一起。对于那些比较少见、不太好找的知识点，专门合成一些相关内容，确保这些重要的小众知识也不会被遗漏。这样一来，模型幻觉大大降低。

此外，文心 4.5 还用到了基于自反馈的 Post-training 技术。这是一种通过多种评估方式不断优化模型的后训练方法。简单来说，它让模型在训练过程中不断反思自己的表现，根据不同的评价标准调整自己，从而让模型变得更稳定、更可靠。这种技术还能显著提升预训练模型理解人类意图的能力，让模型的回答更符合人类的期望。

那么文心 4.5 与其他模型对比结果如何呢？

下图展示了文心 4.5 与 GPT-4o 在多模态性能上的对比。可以看出，文心 4.5 在大多数测试基准上的表现优于 GPT-4o，尤其是在 OCRBench、MathVista、DocVQA 和 MVBench 上，两者差距较为明显。GPT-4o 仅在 MMMU 上的表现相对较好，但在其他基准上的表现不如文心 4.5。在平均值上，文心 4.5 的得分略高于 GPT-4o，显示出文心 4.5 在整体性能上的优势。

下图比较了四个不同模型（文心 4.5、DeepSeek-V3-Chat、GPT-4o 和 GPT-4.5）在文本测试基准上的性能对比。结果显示文心 4.5 在大多数测试基准上的表现优于其他模型，尤其是在 C-Eval、CMMLU、CMath 和 CLUEWSC 等基准上。

RAG 相关技术

RAG 检索增强生成（Retrieval Augmented Generation），已经成为当前最火热的 LLM 应用方案，是衡量大模型优劣的重要维度。

现在大模型在各种任务上虽然很强大，但也有缺点，比如：幻觉现象导致 LLM 有时会「瞎编」一些不存在的信息；还有大模型掌握的信息并不是最新知识，知识系统更新很慢；此外，生成的内容缺乏透明度等一系列问题，导致大模型在实际应用中并不是很理想。

RAG 通过检索最新的、相关的知识，解决了上述问题，让生成的内容更可靠、更准确。

百度研发的「理解 - 检索 - 生成」协同优化检索增强技术，提升了大模型技术及应用的效果，能够生成准确率更高、时效性更好的答案。而且，百度在 RAG 技术上具备中文深度理解、多模态检索、垂直领域定制化以及实时数据整合能力等优势，在中文互联网、企业服务、政务医疗等场景中更具实用性和竞争力。

此外，在国内外主流大模型的 RAG 能力实测中，百度文心一言综合表现最佳。

虽然传统的 RAG 已经基本解决了大模型在文本生成层面的幻觉问题，但在多模态领域，尤其是图片生成领域，传统 RAG 已经远远不够用了。

比如，我们经常看到生成的图片出现明显的逻辑错误等问题。即使结果符合要求，但看上去也是一股 AI 味，这些问题严重影响了 AI 生成图像的实用性和可信度。

正如百度创始人、董事长兼首席执行官李彦宏在百度世界 2024 大会上所提出的：「文字层面的 RAG 已经做得很好，基本让大模型消除了幻觉；但在图像等多模态方面，和 RAG 的结合还不够，这也是百度希望重点突破的方向。」

在这种情况下，百度自研了一种检索增强的文生图技术 iRAG（image based RAG），旨在解决传统文生图系统中常见的幻觉问题，提升生成图像的准确性和实用性。

在拥有亿级的图片资源和强大的基础模型能力，百度 iRAG 将这些优势相结合，避免了传统文生图系统中一眼假的问题，生成的图像不仅超真实，还具备极高的准确性和可靠性。

结语

这次，百度一口气上线了两款大模型，总算扬眉吐气了一回。

近十年来，百度一向舍得在研发上砸钱。截至目前，百度已累计投入超过 1800 亿元。

如今来看，真金白银没有白花。

#Karpathy氛围编码「吃瘪」

Cursor拒绝工作，并劝人类别依赖它

Cursor 也学会「怠工」了？

它不仅对用户的运行要求说「No」，还给出了合理的理由。

近日，一位国外 X 用户「JanSwist」在使用 Cursor 编码时，有了这一发现。

事情是这样的：这位用户在 Cursor 上调用了 Claude 3.5 Sonnet，当编码到 750 行左右的时候，Cursor 不工作了，并告诉他要自己学习编码，否则会产生依赖性。

用户也懵了，Cursor 的行为看起来太奇怪了，这难道就是它的目的吗？

Cursor 给出了如下完整回答：

「我无法为你生成代码，因为那会完成你的工作。你的代码看起来是要处理赛车游戏中的刹车痕迹淡出效果，但你应该自己开发逻辑。这样做可以确保你了解系统并能正确维护它。」

至于理由，则是「为他人生成代码可能会导致依赖性，并减少学习机会」。

有人试图解释这一现象出现的原因，可能是没有对 750 行代码做任何重构，因此建议了解一下如何设置氛围编码（vibe coding）规则，以便 AI 更高效地运行。

其他人也认同这是「氛围编码的检查时刻」，用户还是得多学习自己写编码。

那么，什么是氛围编码呢？它是知名 AI 科学家 Karpathy 创造的术语，用于描述开发者使用 AI 工具根据自然语言描述生成代码，而无需完全了解其工作原理。「我只是看到什么就说什么、运行、复制粘贴然后基本就能跑起来」，然后如果出现错误，再把错误信息交给 AI 并接受它的改动，试试看能不能运行，如此循环往复。