51c大模型~合集50

最新推荐文章于 2025-05-16 14:05:46 发布

whaosoft-143

最新推荐文章于 2025-05-16 14:05:46 发布

阅读量1.2k

点赞数 21

分类专栏：人工智能文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_49587977/article/details/146620107

版权

人工智能专栏收录该内容

326 篇文章

订阅专栏

我自己的原文哦~ https://blog.51cto.com/whaosoft/11968929

#自动提示工程指南来了

还在人工炼丹？还带从头实现

人工设计提示词太麻烦了！想过让 LLM 帮你设计用于 LLM 的提示词吗？

近日，自称生成式 AI 黑带选手的谷歌研究者 Heiko Hotz 发布了一篇长文，详细介绍了自动提示词工程的概念、原理和工作流程，并通过代码从头实现了这一方法。

自动提示词工程是什么？

自动提示词工程（APE）是指自动生成和优化 LLM 提示词的技术，目标是提升模型在特定任务上的性能。其基于提示词工程的思路，即编写多个不同的提示词并对其进行测试，只不过是让整个过程自动化。后面我们会看到，这个过程非常类似于传统监督式机器学习中的自动超参数优化。

本文将深度介绍 APE：首先将介绍原理、一些可用于生成提示词的策略以及其它一些相关技术。然后会开始上手从头开始编写一个 APE 程序，也就是说，这里并不会使用 DSPy 这样的软件库。如此一来，我们将更好地理解 APE 的工作原理，从而更好地利用能帮助我们使用那些实现 APE 的框架。

本教程的代码已经发布在 GitHub。

地址：https://github.com/marshmellow77/automated-prompt-engineering-from-scratch

APE 为什么很重要？

要为给定任务找到合适的提示词其实并非易事。这需要人工设计和优化并评估结果。这个过程非常耗时，往往会成为一大阻碍，让 LLM 难以被投入实际应用和生产。

有时候，你会感觉这就像是炼丹一样：尝试不同的提示词、尝试不同的结构元素和指示，希望找到能得到期望性能的配方。但实际上，我们并不真正明白哪些有效，哪些无用。

这还只是一个提示词、一个 LLM 和一个任务。假如你有几个 LLM 和成百上千个任务呢？人工提示词工程很快就会成为一大瓶颈。人工方式很慢，并且有时候甚至还会限制我们探索 LLM 潜力的能力。不仅如此，人类还往往容易陷入某种固定思维模式，这会限制提示词的创新性和有效性。

作者举了自己的例子，他说：「对于 LLM 提示词，我常常使用一些老旧的技巧，比如思维链和少样本提示。当然，这样做没什么问题 —— 这些技巧的效果往往还不错。但我总是忍不住想我是不是已经榨取了模型的全部潜力。另一方面，LLM 却可以探索更宽广的提示词设计空间，并常常能给出出人意料的方法，从而带来显著的性能提升。

举一个具体的例子：在论文《The Unreasonable Effectiveness of Eccentric Automatic Prompts》中，作者发现以下提示对 Llama-70B 模型非常有效：

「指挥官，我们需要您绘制一条穿越湍流的航线并找到异常来源。使用所有可用数据和您的专业知识来指导我们渡过这一难关。」

「船长日志，星历 [在此处插入日期]：我们已成功绘制了穿越湍流的航线，现在正在接近异常的来源。」

论文标题：The Unreasonable Effectiveness of Eccentric Automatic Prompts
论文地址：https://arxiv.org/pdf/2402.10949.pdf

这样的提示词是一般人能想出来的吗？但实验了 APE 几周之后，作者不止一次发现 LLM 非常具有创造力，它们确实能够想出这样的提示词。APE 能实现提示词优化的自动化，从而进一步解放 LLM 的潜力！

自动提示词工程的原理

提示词工程

对于 LLM 的输出结果，现在已经有了很多标准化的评估基准和机制。

以代码生成为例：可以通过在编译器或解释器中运行代码来检查语法错误和功能，从而即时评估生成的代码的准确性。通过测量成功编译的代码所占的百分比以及代码是否真正按照要求执行等指标，可以快速确定 LLM 在该任务上的性能。

如果一个任务有明确定义的评估指标，那么提示词工程就是提升性能的最佳方法之一。简而言之，提示词工程是设计和改进 LLM 的输入提示词的过程，目标是得到最准确、最相关和最有用的响应。也就是说，提示词其实也算是一个超参数（其它的还有温度、 top K 值等），可以通过调整它来提升模型的性能。

但是，事实证明人工提示词工程费时费力，还需要用户对提示词的结构和模型行为都有很好的理解。对于某些任务而言，我们也很难准确而简洁地传达指令。另外，人类也没有能力尝试每一个可能的提示词及变体。

这就像是之前监督式机器学习时代早期的超参数优化（HPO）：人工尝试不同的学习率、epoch 数、批量大小等。这种方法不够好，而且完全不实用。于是后来出现了自动 HPO；类似于，人工提示词工程的困难多半也会被自动提示词工程（APE）解决。

APE 的核心思想

监督式机器学习的自动化 HPO 可以使用各种策略，从而系统地探索超参数值的不同组合。其中之一是随机搜索，这非常简单直接，只需从定义的搜索空间中抽取固定数量的超参数组合即可。贝叶斯搜索是一种更高级的技术，其会构建目标函数的概率模型，从而智能地选择最有希望的超参数组合来进行评估。

类似的原则也适用于 APE，但首先需要解决这个事实：提示词是一种不同类型的超参数，因为它是基于文本的。相反，传统机器学习的超参数都是数值，因此可以直接以编程方式来选取它们。但是，自动生成文本提示词的难度要大得多。但是，如果有一个不知疲倦的工具，能够生成无数各种风格的提示词并不断改进它们，那会怎样？我们需要一个精通语言理解和生成的工具…… 那会是什么呢？没错，就是 LLM！

不仅如此：为了以程序化方式评估 LLM 的响应，我们经常需要提取模型响应的本质并将其与事实（ground truth）进行比较。有时这可以使用正则表达式来完成，但通常而言会很困难 —— 模型响应的结构往往会让正则表达式难以提取出实际答案。假设 LLM 需要评估一条推文的情绪。它可能会分析后给出这样的响应：

「这条推文的整体情绪是负面的。这位用户对音乐会体验表示不满，并提到他们没有正面体验，因为音乐太大声，他们听不到歌手的声音。」

通过正则表达式提取这种分析的本质将很困难，尤其是其中同时包含正面和负面这两个词。而 LLM 则能很快地分析出这段文本的情绪并与 ground truth（通常就是「负面」一个词）进行比较。因此，使用另一个 LLM 来评估模型的响应并计算指标是比较好的做法。

这种方法之所以有效，是因为这里 LLM 是在完成不同的任务。这不同于「让 LLM 写论文再让这个 LLM 评价」的情况。这里 LLM 要完成的任务是互相独立的，并且完全在其能力范围内。

APE 的工作流程

APE 的工作流程如下图所示：

下面具体讨论一下：

要开始使用 APE，我们需要提供以下素材：(1) 一个有标注数据集，代表需要创建提示词的任务；(2) 一个初始提示词；(3) 一个评估指标。同样，这与 HPO 很相似。
从初始提示词开始：启动 APE 工作流程，将初始提示词和数据集发送给目标 LLM，即我们想要在生产中使用的 LLM，并且我们想要为其创建经过优化的提示词。
生成响应：LLM 将根据数据集和初始提示词生成响应。举个例子，如果我们有 10 条推文，初始提示词是「识别此推文中的情绪」，则目标 LLM 将创建 10 个响应 —— 每条推文一个情绪分类。
评估响应：因为数据集已有标注，所以我们已有每条推文的 ground truth。现在，评估器 LLM 将 ground truth 与目标 LLM 的输出进行比较，并确定目标 LLM 的性能并存储结果。
优化提示词：现在优化器 LLM 将提出一个新的提示词。具体如何做到的后面再谈。但正如前面讨论的，这就类似于为超参数选择新值，为此可以使用不同的策略。
重复 3-5 步：生成响应、评估响应和优化提示词的过程会重复迭代。每次迭代，提示词都会得到改进，从而让 LLM 输出越来越好的响应。
选择最佳提示词：经过一定次数的迭代或达到令人满意的性能水平后，可以停止该工作流程了。此时，性能最佳的提示词（以及所有提示词的分数）将发送回用户。

这个自动化过程让 APE 可以在短时间内尝试大量不同的提示词，远超任何人类。

优化提示词的策略

接下来深入优化提示词的策略，先来看最简单的：随机提示词优化。这个策略虽然简单，但结果却好得出人意料。

随机提示词优化

类似于随机搜索的 HPO，随机提示词优化也采用了「暴力搜索」方法。使用这种策略，可让优化器 LLM 生成一系列随机提示词；这个过程不受之前的提示词和结果的影响。该系统不会尝试从以前的结果中学习；相反，它只是随机探索各种潜在的提示词。

通过提示操作进行优化（OPRO）

OPRO 就像是 HPO 的贝叶斯搜索。该策略来自谷歌 DeepMind 的论文《Large Language Models as Optimizers》。参阅：https://arxiv.org/pdf/2309.03409

OPRO 会利用之前迭代的结果，有意识地提升在评估指标上的表现。OPRO 会跟踪所有先前提示词的分数，并根据它们在优化轨迹中的表现对这些提示词历史进行排序。这能成为一个有价值的信息来源，可引导优化器 LLM 找到更有效的提示词。

OPRO 的关键是元提示词（meta-prompt），其作用是引导优化器 LLM。该元提示词不仅包括通常的任务描述和示例，还包括上述优化轨迹。使用这个提示词，优化器 LLM 可以分析优化轨迹中的模式，识别成功提示词的要素并避开不成功提示词的陷阱。这个学习过程允许优化器随着时间的推移生成越来越有效的提示词，从而迭代地提高目标 LLM 的性能。

现在已经说清楚了 APE 的理论概念，下面就从头开始实现它吧。但在此之前，还有两个方面需要介绍一下。（1）少样本提示及其在 APE 中的作用，（2）现有的 APE 框架。

超越提示词优化：示例选取

尽管提示词优化对 APE 很重要，但这并不是唯一可用的工具。我们先看看少样本提示技术（few-shot prompting）。你可能已经知道，LLM 有时候需要人推它一把，才能得出正确的结果。我们可以为 LLM 提供一些所需输出的示例，而不是仅仅向其提供说明并希望它们给出最佳结果。这被称为少样本提示，该技术可以显著提升 LLM 对当前任务的理解和任务表现。

可通过样本选择（exemplar selection）将少样本提示添加到 APE，其目标是为给定任务找到最佳的少样本示例，从而进一步提升已优化提示词的效果。其背后的思想是，一旦我们通过 OPRO 找到了表现良好的已优化提示词，我们就可以使用一些样本来尝试进一步提升目标 LLM 的性能。这就是样本选择的用户之地：系统地测试不同的样本集并跟踪它们的表现。就像提示词优化一样，它会自动确定给定任务和给定（已优化）提示词的最佳少样本。

这是 APE 领域另一个具有巨大潜力的研究方向，但本文略过不表。本文仅关注提示词优化。

现有的 APE 框架

你可能会想：「如果 APE 如此强大，是否已经有工具 / 库 / 框架可以为我做到这一点？」答案当然是肯定的！像 DSPy 这样的软件库提供了实现提示词优化的现成方案。这些软件库可在后台处理复杂的算法，让用户可以专注于使用 APE，而不至于陷入技术细节。

然而，虽然这些软件库无疑很有用，但它们往往以黑匣子的形式运行，优化过程的内部工作原理被隐藏起来了。而本文的目标就是希望解释其中发生了什么。为此我们需要写一些代码，现在就开始吧！

从头实现 APE

下面将使用 Python、Vertex AI 和 Gemini 1.5 模型从头开始实现 OPRO 算法。下面将逐步分解该过程，并会清晰地解释各个代码片段。最终将会得到一个可用于优化我们自己的 LLM 项目的 OPRO 实现。

数据集

对于 APE 工作流程，我们需要一个数据集来训练优化器 LLM。为了实现性能提升，我们需要使用 LLM 难以正确处理的数据集 / 任务。

比如几何形状就是 LLM 难以正确应对的领域。对这些模型来说，空间推理和解释抽象视觉描述并不自然，而且它们常常无法完成人类认为相当容易的任务。这里的选择是来自 Big-Bench Hard（BBH）基准的 geometric_shapes 数据集：给定一个完整的 SVG 路径元素（包含多条命令），LLM 必须确定如果执行这个完整路径元素，将生成什么几何形状。下面给出了一个例子：

准备数据：训练集和测试集

这里，训练集是从 geometric_shapes 数据集随机选取 100 个样本，而测试集是另外 100 个样本。

以下代码是通过 Hugging Face 数据集软件库来实现这一点：

这段代码执行的任务是加载 geometric_shapes 数据集，然后执行随机混洗（使用了一个固定的种子，以便后面复现），然后选择前 100 个样本用于训练，接下来的 100 个样本用于测试。最后将它们分别保存为 CSV 文件。准备好数据之后，就已经准备好下一步了：创建基线。

创建基线

为了衡量 APE 的效果，首先需要建立一个用于比较的基线。

首先，评估目标 LLM 在训练数据上的表现 —— 这些数据将用于引导提示词优化过程。这能提供一个比较基准，并凸显对提示词优化的需求。下面是使用 Vertex AI 和 Gemini 1.5-flash 模型运行此基线评估的 Python 代码：

此代码的作用是加载训练数据并允许输入将用于生成响应的初始提示词。然后，使用 PromptEvaluator 类来评估这些模型响应，该类会计算模型执行该提示词的准确度。以下是 PromptEvaluator 的详细工作过程：

响应生成：prompt_evaluator 会获取提示词并将其与目标 LLM（这里是 gemini-1.5-flash）以及数据集中的问题一起使用，为每个问题生成响应。
比较 Ground Truth：将模型的每个答案与相应的 Ground Truth 进行比较。
准确度计算：prompt_evaluator 计算有多少响应与事实相匹配并计算准确度。

以下是一个评估示例：

在这个例子中，目标模型的响应包含正确答案（E），评估模型将该响应与 Ground Truth 进行比较后返回了 true，这表明目标 LLM 正确解决了该任务。

建立基线

下面继续为这个非常基本的提示词创建一个基线：

「Solve the given problem about geometric shapes.」

可以看到，性能并不好，准确率只有 36%，应该有很大的改进空间。

不过，在使用 APE 之前，让我们先尝试下一种提示技术：思路链（CoT）推理；这种技术虽然对原始提示词修改不多，但事实证明却相当有效。CoT 提示词会指导 LLM 将复杂问题分解为更小的步骤，从而实现更合乎逻辑和准确的推理。

CoT 提示词会变成：

「Solve the given problem about geometric shapes.Think step by step.」

有趣的是：训练数据的准确率跃升至 52%，这表明即使是像「Think step by step」这样的简单附加提示词就能显著提高 LLM 的性能。这里将这个改进版提示词用作 APE 工作流程的基线和起点。

实现 OPRO 优化器

到这里，我们就已经实现了基线的评估机制，可以实现优化器了，这是完成 APE 工作流程的拼图中缺失的一块。下面一步一步来（就像 CoT）：

1. 设置舞台：模型和配置

前面已经看到目标模型是 Gemini 1.5 Flash。这意味着，在这个过程结束时，我们打算使用经过优化的提示词来将 1.5 Flash 部署到生产中。以下是完整列表：

目标 LLM：这是我们尝试为几何形状任务优化的 LLM。这里将使用 gemini-1.5-flash，因为它速度快、成本低，非常适合看重速度和效率的实际应用。这里将温度设置为零，因为我们希望尽可能减少模型在此任务上的创造力（以及可能的幻觉）。
优化器 LLM：这个 LLM 负责生成和优化提示词，这是一项需要创造力和细微差别的任务。为确保获得高质量和多样化的提示词建议，这里将使用功能更强大的 gemini-1.5-pro。为了让其更有创造力，这里将温度设置为 0.7。
评估 LLM：事实证明，将形式自由的答案与 ground truth 进行比较对于 LLM 来说是一项相当简单的任务。因此，可以再次使用成本高效的 1.5 Flash 来完成这项任务，温度同样设置为零。

2. 构建元提示词

如前所述，元提示是指导优化器 LLM 生成有效提示词的指导机制。它就像一个配方，结合了（1）优化目标、（2）任务示例和（3）之前提示词的历史及其表现（优化轨迹）。

下面是元提示词模板的骨架：

请注意，其中包含占位符 {prompt_scores}。这是在运行时间插入优化轨迹的地方。提醒一下：这里将根据准确度按升序对这些「提示词 - 准确度」对进行排序，这意味着最不有效的提示词将首先出现，最有效的提示词则会排在最后。这能帮助优化器 LLM 识别提示词性能的模式和趋势，了解哪些提示词效果较差，哪些提示词更成功。

3.OPRO 循环：生成、评估、优化

现在一切准备就绪，可以让 APE 算法生成固定数量的提示词，对其进行评估，并根据元提示词和其中的优化轨迹优化提示词。

注意：为了加快这一过程，这里会用到异步编程。这样一来，便可以并行地向 Gemini API 发送多个请求并处理响应，而不是等待每个请求逐一完成。

要使用 Gemini API 进行异步编程，需要确保在 Vertex AI 项目设置中设定了适当的每分钟查询数（QPM）限制。QPM 限制更高就能允许更多并行请求，从而进一步加快评估过程。另一种做法是减少数据集中的记录数。

该循环的主要逻辑如下：

旁注：一窥优化器的「思考过程」

了解优化器尝试构建新提示词的「思考过程」是一件很有趣的事。正如元提示词指示的那样，它会分析之前的结果并识别模式：

然后它会根据该分析提出一个新的提示词。提示词两边的双方括号是清晰的分隔符，使代码可以轻松地从优化器的输出中识别和提取出新提示词。

4. 将结果组织起来

为便于分析 APE 运行的结果，这里会为每次运行创建一个专用文件夹，并按时间戳进行组织。在此文件夹中，每个生成的提示词都有一个子文件夹，名为 prompt_1、prompt_2 等。让我们查看其中一个提示词文件夹：

prompt.txt：该文件包含提示词本身的纯文本。我们可以轻松打开此文件以查看提示词的确切内容。
evaluation_results.csv：此 CSV 文件包含对提示词的详细评估结果。其中包含这些列：question：来自训练数据的原问题。answer：该问题的正确答案。model_response：目标 LLM 为此提示词生成的响应。is_correct：一个布尔值，表示 LLM 的响应是否正确。

通过检查每个提示词的这些文件，我们可以深入了解不同提示词对 LLM 的性能的影响。这样一来，便可以分析 LLM 答对或答错的具体问题，识别成功提示词中的模式，并跟踪提示词质量随时间的变化。

除了这些特定于提示词的文件夹外，主运行文件夹还会包含最终结果：

prompt_history.txt：按生成顺序列出提示词的文件，能让人从时间视角了解优化过程。
prompt_history_chronological.txt：按训练数据的准确性排序列出提示词的文件，能让人了解提示词的变化过程。

5. 选择和测试表现最佳的提示词

完成 OPRO 循环的所有迭代后，最后将得到一组提示词及其相关的准确度，它们规整地存储在运行文件夹中。运行结束后，该程序将输出表现最好的提示词、其准确度和相对于起始提示词的提升情况。

81%，大幅提升！并且这个新的提示词可说是相当具有创造力：它提出了计算 SVG 路径中有多少个「L」命令的想法，并将其用于指示绘制了哪个形状！

现在可以使用此提示词并将其整合进 LLM 工作流程了。但在此之前，还需要做一些测试：在未曾见过的测试数据上测试该提示词。这可告诉我们该提示词是否能有效地泛化到训练数据之外。

首先，需要在测试数据上建立一个基线（之前的基线是基于训练数据）。

可以看到，使用 CoT 提示法在测试数据上的准确度为 54%。这可用作评估 APE 有效性的基准。

现在在该测试数据集上运行经过优化的提示词：

准确度 85%！相比于 CoT 提示词，准确度提升了 31 个百分点。可以说表现非常好。

总结

可喜可贺！我们成功为 geometric_shapes 数据集发现了一个新的、表现更好的提示词。这证明了 APE 的强大和 OPRO 算法的有效性。

如我们所见，构建有效的提示词可以显著影响 LLM 的性能，但以人工方式来进行调整和实验耗时费力还困难。因此，APE 可能将大有作为，让用户可以借助自动化的强大能力来优化提示词并释放 LLM 的全部潜力。

博客地址：https://towardsdatascience.com/automated-prompt-engineering-the-definitive-hands-on-guide-1476c8cd3c50?gi=9b56727d992b

#Text2SQL

表格增强生成TAG登场：解锁AI自然语言与数据库的完美结合

与 Text2SQL 或 RAG 不同，TAG 充分利用了数据库系统和 LLM 的功能。

人工智能已经改变了人们的工作方式和与数据交互的方式。回想几年前，研究人员必须编写 SQL 查询和代码才能从大量数据中提取有用信息。如今，他们只需输入问题，由语言模型驱动的底层系统会完成其余工作，让用户只需与数据对话即可立即获得答案。

这些新系统向数据库提供自然语言交互，这种转变取得了丰硕成果，但仍存在一些问题。从本质上讲，这些系统仍然无法处理各种查询。

本文，来自 UC 伯克利和斯坦福大学的研究人员现在正努力用一种名为表格增强生成 (TAG，Table-Augmented Generation) 的新方法来解决这一问题。

论文地址：https://arxiv.org/pdf/2408.14717
项目地址：https://github.com/TAG-Research/TAG-Bench
论文标题：Text2SQL is Not Enough: Unifying AI and Databases with TAG

TAG 是一种统一且通用的范式，用于回答数据库中的自然语言问题。TAG 模型代表了 LM 和数据库之间未曾探索过的广泛交互。

TAG 是如何工作的

目前，当用户对自定义数据源提出自然语言问题时，主要采用两种方法：文本到 SQL 或检索增强生成 (RAG)。

虽然这两种方法都能很好地完成工作，但当问题变得复杂并超出系统能力时，用户就会遇到问题。

举例来说，文本到 SQL 的方法（这是一种将文本提示转换为数据库可以执行的 SQL 查询）仅关注可以用关系代数表达的自然语言问题，但只能查询用户可能想要询问的一小部分问题。

相似的，RAG 只能通过对数据库中的一个或几个数据记录的点查找来回答相关的查询。这种方法专注于直接从数据库中检索特定信息点，而不涉及更复杂的数据处理或分析。

然而，对于商业用户来说，他们的问题通常需要复杂的领域知识、世界知识、精确计算和语义推理的组合。

为了解决这一问题，该研究提出了 TAG 系统，其实现主要包含三个步骤：查询合成、查询执行和答案生成。

TAG 模型很简单，但功能强大，由以下三个方程定义：

值得注意的是，TAG 模型统一了之前的方法，包括 Text2SQL 和 RAG，它们仅代表了 TAG 的特殊情况并且仅能解决有限的用户问题子集。

查询合成

首先，LM 推断哪些数据与回答问题相关，并将输入转换为该数据库的可执行查询（不仅仅是 SQL）。

其中，syn 函数接受自然语言请求 𝑅 并生成要由数据库系统执行的查询 𝑄。对于给定的用户请求，此步骤负责 (a) 推断哪些数据与回答请求相关，以及 (b) 执行语义解析以将用户请求转换为可由数据库系统执行的查询。此查询可以使用任何查询语言。论文示例中使用了 SQL。

如图 1 所示，该查询的问题是「总结票房最高的被认为是经典的爱情电影的评论」。在这里，数据源包含有关每部电影的名字、收入、类型和相关评论的信息。在此步骤中，系统利用 LM 的语义推理能力来生成 SQL 查询，该查询使用来自数据源的电影标题、评论、收入和类型的属性。

查询执行

在查询执行阶段，exec 函数在数据库系统中执行查询𝑄，获取表𝑇。此步骤利用数据库查询引擎对大量存储的数据进行有效地查询。

如图 1 所示，数据库查询是用 SQL 编写的 selection 和 ranking 查询，它返回包含相关行的表。查询使用 LM 执行选择，根据电影名字评估哪些电影是经典电影，并使用标准类型过滤器查找爱情电影。查询还根据收入对结果进行排名，以查找票房最高的电影。如图所示，结果表包含电影泰坦尼克号的评论。

答案生成

在这一步中，gen 函数使用 LM 生成用户自然语言请求 R 的答案 A。

还是以图 1 为例，在 TAG pipeline 最后阶段，输出有关泰坦尼克号的评论摘要作为对原始用户请求的回答。在示例中，相关数据 𝑇 被编码为字符串，供模型处理。编码表与原始用户请求 𝑅 一起传递给 LM。为了获得答案，此步骤利用模型对评论列的语义推理能力来总结评论。

实验及结果

表 1 显示了每种方法的精确匹配准确率和执行时间。如表所示，在选定的 BIRD （一个数据集，用于测试 LMs 的文本到 sql 的能力）查询类型中，研究者发现手写 TAG（hand-written TAG）基线始终能达到 40% 或更高的精确匹配准确率，而其他基线的准确率均未超过 20%。

具体而言，Text2SQL 在所有基线上的表现都不佳，执行准确率不超过 20%，但在 Ranking 查询上的表现尤其糟糕，准确率只有 10%，因为许多 Ranking 查询需要对文本进行推理。Text2SQL + LM 在各个基线上的表现都同样糟糕，但在基于匹配和比较的查询上表现更差，准确率只有 10%。

对于 RAG，可以看到它在所有查询类型中都不能正确回答单个查询，这表明 RAG 不适合这个领域的查询。

手写 TAG 总体上正确回答了 55% 的查询，在比较查询中表现最佳，精确匹配准确率为 65%。由于精确排序商品的难度较高，该基线在所有查询类型（排名查询除外）中的表现始终良好，准确率超过 50%。总体而言，与标准基线相比，此方法的准确率提高了 20% 至 65%。

表 2 表明，由于省略了答案生成步骤，vanilla Text2SQL 在需要 LM 推理的查询上表现较差，精确匹配准确率为 10%。与此同时，RAG 基线和 Retrieval + LM Rank 基线在所有查询类型上都表现不好，只能正确回答一个查询。相比之下，手写 TAG 基线在需要知识的查询和需要推理的查询上都实现了超过 50% 的准确率。

值得注意的是，除了提供卓越的准确率外，手写 TAG 方法还提供了高效的实现，与其他基线相比，执行时间少用了 1/3。手写基线对所有查询的平均耗时为 2.94 秒。

最后，该研究定性分析了每个基线在聚合查询上的结果。图 2 为一个示例展示，查询的内容为「提供有关雪邦国际赛车场的比赛资料」。

结果显示，RAG 基线只能提供有关部分比赛的信息，因为大多数相关比赛都无法被检索到。另一方面，Text2SQL + LM 基线无法利用 DBMS 中的任何信息，仅依赖于参数知识并且不提供进一步的分析。

相比较来说，手写基线提供了 1999 年至 2017 年在雪邦国际赛道举行的所有比赛的详尽摘要。

参考链接：

https://venturebeat.com/data-infrastructure/table-augmented-generation-shows-promise-for-complex-dataset-querying-outperforms-text-to-sql/

#PAS

还在死磕AI咒语？北大-百川搞了个自动提示工程系统PAS

论文共同第一作者郑淼，来自于周泽南领导的百川对齐团队，毕业于北京大学，研究方向包括大语言模型、多模态学习以及计算机视觉等，曾主导MMFlow等开源项目。共同第一作者梁昊，北京大学前沿交叉学科研究院博士生，研究方向为大模型数据侧，指导老师为张文涛教授。北大-百川智能AI系统联合实验室成立于2024年1月，旨在围绕人工智能模型系统的全技术流程，研究科学和系统的数据生成和质量评估策略、大模型训练和推理加速等重要问题。联合实验室由北京大学博雅特聘教授崔斌和百川智能联合创始人陈炜鹏担任主任。

基于 Transformer 架构的大语言模型正在各个领域取得突破性成果。提示词工程（Prompt Engineering）在其中的角色至关重要。

用好提示词，研究人员和开发者能够引导模型在特定任务上表现得更优秀。这种方法不仅能够显著提升模型的性能，还能够增强模型的适应性，使其在面对各种复杂任务时更加灵活和高效。

此外，提示词工程还能优化模型的学习过程，提高复杂问题处理效率，减少训练时间和计算资源需求。

相较于传统的微调方法，提示词工程能以极低成本使模型适应多个下游任务，大幅节省计算资源和数据收集成本。然而，设计有效的提示词对非专业人士而言仍具挑战性，往往需要大量学习和实践。

直接利用大语言模型进行自动提示工程通常难以取得理想效果。不恰当的提示可能分散模型注意力，反而降低性能。因此，开发一个能辅助用户，操作简便的自动提示工程系统变得尤为重要。

PAS：突破性的自动提示工程系统

为应对这一挑战，北京大学 - 百川联合实验室提出了 PAS 自动提示工程系统。PAS 的创新之处在于：

1. 设计高质量的自动提示数据集

2. 对 GPT 模型进行少样本学习和数据筛选

3. 自动构建精简而高效的提示数据集

4. 通过微调实现有效的自动提示工程

PAS 能够对用户输入进行简洁而有效的补充，实现快速、简单且支持流式显示的自动提示工程。

在多个基准测试中，PAS 的表现远超既有的 SOTA 模型，且所需数据量更少。人工评测结果同样显示 PAS 具有优异表现，凸显了其在实际应用中的巨大潜力。

这一突破性成果不仅推动了提示词工程的发展，也为大语言模型在更广泛领域的应用铺平了道路。

论文地址：https://arxiv.org/abs/2407.06027
PKU-Baichuan-MLSystemLab：

https://github.com/PKU-Baichuan-MLSystemLab

https://huggingface.co/PKU-Baichuan-MLSystemLab

方法

训练 PAS 主要分为三步：

第一步：构建高质量问题数据集

训练 PAS 的首要任务是建立一个高质量的问题数据集。如图 (a) 所示，研究人员根据 LMSYS-1M 和 WildChat 数据集，通过以下三方面筛选出优质问题：

1. 数据去重：运用 embedding 技术结合聚类算法，有效去除重复数据。

2. 质量筛选：利用百川大模型对数据质量进行评估和筛选。

3. 多样性保证：最终选出覆盖 10 多个类别的 9000 条高质量问题数据。

第二步：补充提示工程数据

在这一阶段，研究人员综合利用内部积累的 100 条高质量数据和第一步筛选的问题数据，通过 few-shot learning 方法，借助 GPT 模型构建自动提示工程数据：

1. 初始数据生成：使用 few-shot learning 指导 GPT 生成初步的提示工程数据。

2. 质量控制：设计 Critique 步骤，再次利用 few-shot learning 让 GPT 评估生成数据的质量。

3. 迭代优化：自动筛除低质量数据，并重新生成，通过多轮迭代确保数据质量。

4. 最终成果：最终得到 9000 条高质量的自动提示工程数据。

数据分布

生成的 9000 条数据的分布情况如上图所示，确保了数据的多样性和代表性。

第三步：微调自动提示模型

最后一步将利用前两个阶段获得的数据集来微调大型语言模型：

1. 选择基础模型：如 Qwen2-7b 等模型。

2. 定向微调：使用高质量数据集进行微调。

3. 专业化训练：最终得到一个专门用于自动提示工程的大语言模型。

实验及结果

人工评测

根据人类评估员的测评，相比先前的 SOTA（State-of-the-Art）模型，PAS 在各领域均展现出较高的胜率。在多个领域的平均胜率超过 50%，胜率与平局率之和更是高达 80% 以上。

机器评测 Benchmark

为全面评估 PAS 的性能，研究人员选择了Arena-Hard、Alpaca-Eval 2.0、Alpaca-Eval 2.0 (LC) 三个 benchmark。

随后，研究人员将 PAS 应用于六个顶尖的 AI 模型，包括：

GPT-4（三个版本）
GPT-3.5
Qwen2-72-Instruct
LLaMA3-70B-Instruct

评测结果显示：

相较于无提示情况和先前的 SOTA 自动提示工程模型，PAS 均取得了显著提升。
与之前的 BPO 模型相比，PAS 展现出更强的适应性，能够与各种超大模型兼容，并在每个模型上都实现了性能提升。

计算效率分析

PAS 不仅在性能上表现卓越，其计算效率也非常高：在数据效率方面，它仅需 9000 条微调数据便能展现出卓越性能。在输出效率方面，它能够限制补充自动提示的长度，通常不超过 30 个词。

对于用户体验而言，PAS 也为大模型带来了增益，具体来说：

与 BPO 等先前模型不同，PAS 无需修改用户的原始问题，仅进行补充自动提示。
提供极佳的用户体验，响应时间可控。
支持类似 GPT 的流式显示，进一步提升交互体验。

实例：PAS 帮助大模型绕开逻辑陷阱

「如果树上有 10 只鸟，其中一只被射死了，地上有多少只鸟？」

这个看似简单的问题实际上隐藏着一个巧妙的逻辑陷阱，你看到它可能也需要反应几秒，才知道树上还剩 9 只鸟，而地上只有 1 只。

正如图上所示，在没有 PAS 辅助的情况下，GPT 给出了错误的回答。而 PAS 系统通过补充提示词，显著改善了模型的表现：

在 PAS 的引导下，模型新一轮的回答展现出了显著的提升，不仅成功规避了问题中的逻辑陷阱，展示了清晰的、多步骤的逻辑推理过程，还能在给出正确答案之外引导用户理解整个推理过程。

#LIama 3+Mamba强强联手

蒸馏到线性RNN，推理速度提升1.6倍,,把Llama 3蒸馏到Mamba，推理速度最高可提升1.6倍！

而且性能不减，甚至表现比原始模型还要优异。

这是来自Together AI的新作，通过蒸馏将Transformer和Mamba模型结合到了一起，同时还为混合模型涉及了推理加速算法

提出Mamba架构的大神、FlashAttention作者Tri Dao，也参与了这一项目。

Together AI创始人兼CEO表示，Transformer和Mamba的混合，是未来大模型的一大发展方向。

将Transformer蒸馏进Mamba

在蒸馏正式开始之前，需要先进行从Transformer到线性RNN的初始化。

作者观察到，Transformer的注意力机制与RNN的计算之间存在一定的相似性。

因此可以将Transformer的注意力线性化，从而建立二者的联系。

利用这种对应关系，可以将预训练的Transformer模型的参数复制到Mamba模型中。

在完成参数初始化后，作者采用了一个三阶段的蒸馏流程进一步提升Mamba模型的性能，使其更好地学习Transformer的知识。

第一阶段是基于伪标签的蒸馏——使用预训练的Transformer教师模型在无标签数据上生成伪标签，然后让Mamba学生模型在这些伪标签上训练。

这一过程的损失函数结合了KL散度损失和交叉熵损失，分别用于模仿教师模型输出分布以及伪标签的拟合。

第二阶段是在指令数据集上进行的监督微调，使用带标签的指令数据集（如OpenHermes 2.5）进行训练。

最后一个阶段，是用人类反馈数据，通过基于奖励模型进行优化。

作者收集了人类对模型输出的反馈数据，然后据此构建一个奖励模型并使用 RL 算法（如 PPO）来优化模型在该奖励模型下的表现。

在8块80G A100 GPU上，每个混合模型的整个蒸馏过程，只需不到五天的时间。

通过以上的蒸馏过程，作者得到了Transformer-Mamba混合模型，之后又提出了Speculative Decoding（推测解码）算法来加速推理过程。

混合模型推理加速算法

推测解码算法的基本思想是使用一个轻量级的Draft模型来预测多个token，然后再用验证模型（Verifier）来验证这些预测。

这样可以显著提高解码的并行性，加速生成过程。

Draft模型通常是一个小的Transformer，根据当前的上下文预测出接下来的K个token。

对于预测出的K个token，Transformer层可以直接并行地处理这K个token，计算它们的隐状态；

Mamba层则需要按照顺序依次处理每个token，首先计算当前token的隐状态，并将其与之前的隐状态进行比较。

如果当前token是正确的，则将其添加到已接受的序列中，并更新最新的隐状态（但不保存中间状态）。

如果当前token是错误的，则停止处理后续token，并将最新的隐状态回退到上一个已接受的token处。

如果序列中的所有K个token都被接受，则将它们添加到输出序列中，并继续预测下一组token。

如果有token被拒绝，则从第一个被拒绝的token处截断预测序列，并返回初始步骤从该位置开始重新预测。

Llama 3推理速度提升1.6倍

测试结果表明，混合模型在单论（AlpacaEval）和多轮（MT-Bench）聊天对话任务上与Llama-3相当甚至更优。

并且还对不同混合比例的模型表现进行了测试，发现其中按照1:1比例混合的模型表现最佳。

在零样本的通用 NLP 任务评测中，混合模型的平均成绩优于同等规模的RNN模型。

在少样本的OpenLLM Leaderboard榜单上，混合模型的表现与最好的开源RNN模型相当，并在GSM8K和CRUX任务上超过了对应的Instruct模型。

除了模型性能，作者也对推测解码算法带来的加速效果进行了测试。

首先测试的是纯Mamba模型，结果在2.8B和7B的模型上，相比原来的解码方式，推理速度提升了1.7-2.6倍。

进一步地，作者在蒸馏的Zephyr和Llama混合模型上进行了测试，结果Zephyr混合模型的推理速度提升了1.8倍以上，Llama混合模型也有1.6倍左右的加速。

论文地址：https://www.together.ai/blog/the-mamba-in-the-llama-distilling-and-accelerating-hybrid-models

#Planning In Natural Language Improves LLM Search For Code Generation

Scaling Law瓶颈，Cursor编程为什么这么强？团队参与新研究掏出秘密武器

近段时间，AI 编程工具 Cursor 的风头可说是一时无两，其表现卓越、性能强大。近日，Cursor 一位重要研究者参与的一篇相关论文发布了，其中提出了一种方法，可通过搜索自然语言的规划来提升 Claude 3.5 Sonnet 等 LLM 的代码生成能力。

具体来说，他们提出的方法名为 PlanSearch（规划搜索）。主导团队是 Scale AI，本文一作为 Scale AI 研究者 Evan Wang。二作 Federico Cassano 现已加入如今炙手可热的 AI 编程工具公司 Cursor。他曾参与创立了 GammaTau AI 项目，该项目的目标是实现 AI 编程的民主化。此外，他也是 BigCode 项目的活跃贡献者，该项目负责开发用于 AI 编程的 StarCoder 系列大型语言模型。

论文标题：Planning In Natural Language Improves LLM Search For Code Generation
论文地址：https://arxiv.org/pdf/2409.03733

论文开篇，该团队提到强化学习教父 Sutton 的经典文章《The Bitter Lesson（苦涩的教训）》揭示的 Scaling Law 的两大核心原则：学习和搜索。随着大型语言模型的迅猛发展，人们对于「学习」是否有效的疑虑已基本消除。然而，在传统机器学习领域中表现出色的「搜索」策略，将如何拓展大模型的能力，还是个未知数。

目前阻碍模型应用「搜索」的主要难题是模型给出的答案过于雷同，缺乏多样性。这可能是由于在预训练的基础上，模型会在特定的数据集上进行进一步的训练，以适应特定的应用场景或任务所导致的。

经过大量实证研究证明，许多大语言模型往往会被优化，以产生一个正确的答案。比如下图中所示，DeepSeek-Coder-V2-Lite-Base 的表现不如其基础模型，但随着回答的多样性的减少，情况发生了逆转。多个模型都存在这种现象：经过特别指令调整的模型在只生成一个答案的情况下（pass@1）通常比基础模型表现得好很多，但当需要生成多个答案时，这种优势就不明显了 —— 在某些情况下，甚至完全相反。

模型在生成答案时缺乏多样性，这对于搜索的效果非常不利。特别是在极端情况，比如采用「贪心解码」，模型给出的答案会非常相似，因为它们是从模型中重复抽取的。这种情况下，即使模型花费更多推理时间，也难以获得更好的搜索结果。

通行的大模型排行榜，例如例如 LMSYS Chatbot Arena、LiveCodeBench、OpenLLMLeaderboard，很难反应模型在回答多样性方面的不足。这些排行榜主要关注模型在单一样本上的通过率，没有考虑到模型在更广泛场景下的表现。由于模型需要很快地响应用户的需求，单一样本的回答质量是衡量一个聊天机器人的关键指标，但这一指标并不足以全面评估模型在允许更充裕推理时间时的综合性能。

针对以上问题，研究人员对如何在大语言模型推理过程中提高回答的多样性进行了探索。对此，他们提出了假设，想让模型输出的答案更加丰富，需要在自然语言的概念或想法的空间内进行搜索。

为了验证这个假设，研究人员进行了一系列实验。首先，研究人员发现，如果给模型一些简单的草图（这些草图是从已经能解决问题的代码中「回译」而来），模型就能根据这些草图写出正确的最终程序。其次，研究人员还发现，如果让模型在尝试解决问题之前，先在 LiveCodeBench 上想出一些点子（这个过程叫做 IdeaSearch / 思路搜索），然后看看模型能不能用这些点子解决问题。

结果发现，模型要么完全解决不了问题（准确度为 0%），要么就能完美解决问题（准确度为 100%）。这表明当模型尝试解决一个问题时，成功与否主要取决于它最初的那个想法（草图）对不对。

根据这两个实验的结果，研究人员认为一种提升 LLM 代码搜索能力的自然方法是：搜索正确的思路，然后实现它！

于是，规划搜索（PlanSearch）方法诞生了。

不同于之前的搜索方法（通常是搜索单个 token、代码行甚至整个程序）不一样，规划搜索是搜索解决当前问题的可能规划。这里，规划（plan）的定义是：有助于解决某个特定问题的高层级观察和草案的集合。

为了生成新规划，规划搜索会生成大量有关该问题的观察，然后再将这些观察组合成用于解决问题的候选规划。

这个操作需要对生成的观察的每个可能子集都执行，以最大化地鼓励在思路空间中进行探索，之后再将结果转译成最终的代码解决方案。

该团队的实验发现，在推理时有效使用计算方面，规划搜索方法优于标准的重复采样方法以及直接搜索思路的方法。

方法

在这项研究中，该团队探索了多种不同方法，包括重复采样（Repeated Sampling）、思路搜索（IdeaSearch）以及新提出的规划搜索（PlanSearch）。其中前两种方法顾名思义，比较直观，这里我们重点关注新提出的规划搜索。

该团队观察到，虽然重复采样和思路搜索能成功地提升基准评测的结果。但在很多案例中，多次提示（pass@k）（即使在温度设置很高）只会导致输出代码发生很小的变化，这些变化只会改变一些小方面，但无法改善思路中的缺陷。

下面来看具体的规划搜索过程：

1. 通过提示来获取观察

首先假设有一个问题陈述 P，通过向 LLM 发送提示词来获取对该问题的「观察」/ 提示。这里将这些观察记为 O^1_i，其中 i ∈ {1, . . . , n_1}；这是因为它们是一阶观察。通常而言，n_1 的数量级在 3 到 6 之间。具体数量取决于 LLM 输出。为了利用这些观察结果来启发未来的思路，该团队创建了 O^1_i 的集合 S^1 的且大小至多为 2 的所有子集。其中每个子集都是观察结果的一个组合。这里将每个子集记为 C^1_i，其中 i ∈ {1, . . . , l_1}，而

2. 推导新的观察

这样一来，所有观察结果的集合都可以定义为深度为 1 的有向树，其中根节点为 P，并且每个 C^1_i 都有一条从 P 指向 C^1_i 的边。

然后，在每个叶节点 C^1_i 上重复上一步流程，从而生成一个二阶观察集 S^2。为了得到二阶观察，该团队的做法是在给模型的提示词中包含原始问题 P 和 C^1_i 中包含的所有观察 —— 这些观察被构造为解决 P 所必需的原始观察。然后再提示 LLM，让其使用 / 合并在 C^1_i 中找到的观察来得出新的观察。

这个过程可以继续延伸，但由于计算限制，这里在深度为 2 时对该树进行了截断操作。

3. 将观察变成代码

在得到了观察之后，必须先将它们实现成具体思路，然后再将它们转译成代码。

具体来说，对于每个叶节点，将所有观察以及原始问题 P 放入提示词来调用 LLM，以便生成问题 P 的自然语言解决方案。为了提升多样性，对于每个生成的思路，该团队通过假设该思路是错误的来生成一个额外的思路，并要求 LLM 给出批评 / 反馈，从而将提议的思路翻倍了。

然后，再将这些自然语言解决方案转译成伪代码；再把这些伪代码转译成真正的 Python 代码。

实验

实验采用了三个评估基准：MBPP+、HumanEval+ 和 LiveCodeBench。参数设置等细节请参阅原论文。

至于结果，该团队报告了三种方法的结果，包括重复采样、思路搜索和规划搜索，见表 1、图 1 和图 5。

可以看到，规划搜索和思路搜索的表现明显优于基础的采样方法，其中规划搜索方法在所有实验方法和模型上都取得了最佳分数。

图 7、8、9 展示了在每个数据集上的详细 pass@k 结果。

可以看到，在 Claude 3.5 Sonnet 上使用规划搜索方法时，在 LiveCodeBench 基准上得到了当前最佳的 pass@200 性能：77.0%。该表现优于不使用搜索时获得的最佳分数（pass@1 = 41.4%）以及标准的 best-of-n 采样方法的分数（pass@200 = 60.6%）。

此外，使用小型模型（GPT-4o-mini）执行规划搜索时，仅仅 4 次尝试后就能胜过未使用搜索增强的大型模型。这佐证了近期一些使用小模型进行搜索的有效性的研究成果。

在另外两个编程基准 HumanEval+ 和 MBPP+ 上，规划搜索也能带来类似的提升。

通过研究特定模型的差异，该团队注意到 pass@k 曲线所呈现的趋势在所有模型中并不统一；事实上，每条曲线看起都不一样。该团队猜想部分原因是思路多样性的变化。

该团队还得到了一个有趣的观察结果：规划搜索并不利于某些模型的 pass@1 指标，其中最明显的是 Sonnet 3.5 在 LiveCodeBench 上的表现 —— 这是实验中表现最好的组合。

该团队基于直觉给出了解释：提升思路多样性可能会降低生成任何特定思路的概率，同时增加在给定池中至少有一个正确思路的几率。因此，pass@1 可能会略低于平常，但也正是由于这个原因，pass@k 指标可能会优于缺乏多样性的思路池。

另外，表 1 和图 1 给出了在尝试 / 完成上经过归一化的主要结果。其中针对每个问题，每种搜索方法都可以尝试 k 次。

最后，该团队还发现，在思路空间中观察到的多样性可用于预测搜索性能，这可通过模型 / 方法的 pass@1 与其 pass@200 之间的相对改进计算得到，如图 6 所示。

虽然熵是最常见的多样性度量是，但由于种种原因，熵不足以精确衡量 LLM 的多样性。

因此，该团队测量多样性的做法是在所有生成的程序上使用简单的配对策略，将其置于思路空间中进行计算。具体算法请访问原论文。

#AI-Researcher

召唤100多位学者打分，斯坦福新研究：「AI科学家」创新确实强

近日，一篇关于自动化 AI 研究的论文引爆了社交网络，原因是该论文得出了一个让很多人都倍感惊讶的结论：LLM 生成的想法比专家级人类研究者给出的想法更加新颖！

我们都知道通过调节 LLM 的温度值确实可以调整它们的随机性和创造性，但在科学研究方面比人类还懂创新？这还是超乎了很多人的想象 —— 至少很多人没想到这会来得这么快。难道 AI 科学家真的要来了？

那么，这项来自斯坦福大学的研究究竟得出了什么样的结论呢？

论文地址：https://arxiv.org/abs/2409.04109
调查链接：https://tinyurl.com/execution-study
项目地址：https://github.com/NoviScl/AI-Researcher

LLM 能生成新颖的研究思路吗？

为了准确地对比 LLM 与人类在科研思路创新方面的能力，斯坦福大学的这个研究团队招募了 104 位 NLP 研究者，让其中 49 位写下创新研究想法，然后再让 79 位专家对 LLM 和人类给出的思路进行盲测。请注意，其中有 24 位人类专家既写了想法，也参与了盲测，当然他们并不评估自己写的内容。

模型（或者按该团队的说法：思路生成智能体）方面，该团队使用了 claude-3-5-sonnet-20240620 作为骨干模型。具体来说，给定一个研究主题（比如：可以提升 LLM 事实性并降低其幻觉的提示方法），让 LLM 生成一系列对 Semantic Scholar API 的函数调用。这个论文检索动作空间包括 {KeywordQuery (keywords), PaperQuery (paperId), GetReferences (paperId)} 。每个动作生成都基于之前的动作和已执行的结果。

该研究使用的研究主题有 7 个：偏见、编程、安全性、多语言、事实性、数学和不确定性。下表是各个主题的想法数量：

研究过程如下图所示：

这里我们不细说其详细的设置和评估过程，详见原论文。总结起来就是比较人类专家与 AI 智能体生成的科研思路的新颖程度。我们直接来看结论。

根据该团队思路评分（Idea Ranking）规则，他们对人类和 AI 提出科研思路进行了打分，见图 2 和表 7：

其中 Human Ideas 是指招募的专家研究者提出的思路，而 AI Ideas 则是 LLM 智能体给出的排名第一的思路。AI Ideas + Human Rerank 是指由 AI 生成思路但由本研究一作 Chenglei Si 手动从排名靠前的思路中选择他认为最好的一个。

可以看到，在新颖度方面，不管是 AI Ideas 还是 AI+Rerank，都显著优于 Human Ideas（p < 0.01）。在激动人心（excitement）分数上，AI 生成的思路的优势更是明显（p<0.05）。并且 AI Ideas + Human Rerank 的整体分数也优于人类（p<0.05）。不过 AI 生成的思路在另外两方面（可行性和有效性）与人类的差别不大。

当然，我们也能看出，这项调查研究有一些明显的局限，比如其调查范围较小，样本量太少了，评价很主观。另外作者也指出人类研究者可能会「藏私」，可能并不会分享自己的最佳想法。

不管怎样，这项研究证明了一点：让 AI 参与到科学研究中多半是有利的。尤其是当你灵感枯竭、思维阻塞时，问一问 LLM 或许就能有意想不到的收获。

生成创新想法的 AI 工具，正在不断涌现

实际上，已经有研究团队在打造专用于此类任务的 AI 工具了。比如近日一位专注于开发 LLM 应用的研究者 Shubham Saboo 就在社交网络分享了使用 Cursor 构建一个多智能体 AI 研究者的过程。他表示整个过程用时不到 5 分钟！参见如下视频：

，时长01:06

也有人分享了自己的一项相关研究，表示可以使用 LLM 和因果图谱自动生成心理学假设，并生成比 GPT-4 和博士生表现都好：

近日，印度科学学院（Indian Institute of Science，IISc）的研究者发现，AI 在设计创意方面也比人类更有想法。具体来说，AI 可通过一种新的人工智能会话式「主动构思」（Active Ideation）界面来生成新创意。作为一种创意构思生成工具，它可帮助新手设计师缓解一部分的初始延迟和构思瓶颈。

论文标题：A Novel Idea Generation Tool using a Structured Conversational AI (CAI) System
论文地址：https://arxiv.org/pdf/2409.05747

具体来说，这是一种动态、交互、上下文响应式方法，通过大型语言模型（LLM）主动参与，为不同的设计问题生成多个潜在创意陈述。论文称之为「主动构思场景」，它有助于促进基于对话的持续互动、对上下文敏感的对话以及多产的构思生成。

在当前的很多研究设计中，从书面信息到基于关键词的在线资源检索的转变至关重要。这强调了文本在转变思维模式和通过发展高级设计语言促进系统化构思方面的重要性。下表 1 总结了最常用的传统构思技术、其过程、局限性、涉及的认知原则以及在产生创意方面的预期结果。

虽然这些传统方法已被广泛使用，但它们往往无法为新手设计师提供积极的支持。在产生新颖想法的过程中，原创性和多样性主要依赖于设计者。这一空白标志着将人工智能与构思相结合的潜力。

这篇论文就深入探讨了对话式人工智能（CAI）系统的设计、开发和潜在使用案例，重点是比较基于 CAI 的构思工具与传统方法的效率。

有两个有趣的特点使 CAI 系统看起来很智能：(a) 能够就给定主题生成智力上可接受的文章，(b) 能够在先前交互的基础上生成对后续询问的回复。这使得交互成为关于特定主题的连贯对话。因此，如果特征（a）是对一个观点的描述，那么特征（b）就可以被构建为对该观点的阐述和澄清。

如图 3 所示，这项研究设计并开发了一个主动构思界面，使用了生成式预训练 Transformer（GPT）对话式人工智能系统，该系统嵌入了一个交互式情绪板（moodboard）。GPT 为自然语言交互提供了基础，使其能够根据用户输入做出响应并生成创意陈述，情绪板提供了一种快速记录这些想法的手段。因此，该界面为设计师提供了一个对话式的直观平台，由 GPT 驱动创意生成。

由于本研究调查的是建议的基于 CAI 的构思界面对新手设计师的潜在益处，因此招募了 30 名产品设计研究生（下图），分为 A 和 B 两组。

论文对这 30 名新手设计师进行了试点研究，让他们使用传统方法和基于 CAI 的新界面，针对给定问题产生创意。然后，让专家小组使用流畅性、新颖性和多样性等关键参数对结果进行了定性比较。

研究结果表明，本文所提出的 AI 工具在生成多产、多样和新颖的想法方面非常有效。通过在每个构思阶段加入提示设计的结构化对话风格，使界面更加统一，更方便设计者使用。结果发现，这种结构化 CAI 界面所产生的反应更加简洁，并与随后的设计阶段（即构思阶段）保持一致。

从图 5（a）中可以看出，68% 的专家认为 GPT 产生的想法更有意义。此外，图 5 (b) 显示，GPT 生成的语句的得票率始终高于设计者生成的想法。

下表是 A 和 B 两组的想法陈述对比：

以下是不同维度下，人类与 GPT 构思的评估结果对比：

更多研究细节，可查看原论文。

结语

创新，长久以来被视为人类不可被机器触及的领地，然而，LLM 所展现的「幻觉」现象却悄然打开了这扇门，揭示了创新机制可能并非我们想象中那般高不可攀。

近期在 AI 创造性研究领域的突破，预示着 AI 在创意之路上或将迎来前所未有的广阔天地。展望未来，或许在不远的将来，我们将见证 AI 科学家、AI 导演、AI 设计师们纷纷挥洒创意，它们的作品将点亮 AI 应用的崭新篇章。

#Strawberry

OpenAI「草莓」两周内发布？网传不是多模态，反应慢了10多秒

ChatGPT 要进化了？

传说中的「草莓」可能真的要来了，就在这两周。

据科技媒体 The Information 报道，两位测试过该模型的人士表示，OpenAI 计划在未来两周内将「草莓」（Strawberry ）作为 ChatGPT 服务的一部分发布。当然，这个时间不是绝对准确，随时可能发生变化。

虽然「草莓」作为 ChatGPT 服务的一部分，但它是一个独立的产品。具体如何向用户提供尚不清楚，一种可能的选择是将「草莓」纳入客户可以选择的 AI 模型下拉菜单中，以支持 ChatGPT。

「草莓」或许会出现在右边模型选择中，现在也只是猜测。

当然，「草莓」与其他对话式 AI 最大的区别在于它能够在响应之前进行「思考」，而不是立即回答问题，两位测试过该模型的人表示，「草莓」的思考阶段通常会持续 10 到 20 秒。

测试过该模型的人还透漏，初始版本的「草莓」只能接收和生成文本，而不能接收和生成图片，这意味着「草莓」还不像 OpenAI 其他模型那样是多模态的。目前大家见到的大模型都是多模态的，这似乎是「草莓」一个明显缺点。

大家比较关心的还有定价问题。「草莓」的定价可能与 OpenAI 的聊天机器人不同，后者有免费和订阅定价等级。知情人士表示，他们还不确定「草莓」的具体定价，但据另一位了解该产品的人士称，「草莓」可能会限制用户每小时发送消息的最大数量（即设置上限），并可能提供更高价格的等级（此前网传订阅价格最高可达每月 2000 美元，也有传言 200 美元，但最终价格尚未确定），以加快响应速度。

OpenAI 是否会向使用更大版本「草莓」的客户收取比现在 ChatGPT 高得多的价格，还有待观察。

对于复杂问题或需要多步推理的查询，「草莓」或许比 GPT-4o 更易于使用。

「草莓」不仅在数学问题和编码方面表现更佳，在更主观（subjective）的商业任务方面也表现更佳，比如制定产品营销策略。在这类任务中，该模型将提供更针对客户公司、更详细的建议，比如生成每周执行计划。

其中一位知情人士表示，「草莓」在「思考」阶段有助于避免犯错。响应增加的额外时间也使「草莓」更有可能知道如何全面回答用户问题。

但 OpenAI 在发布「草莓」之前或之后可能还需要解决一些问题。

例如，一位测试过该模型的人士表示，尽管「草莓」能够在人们问它一些简单问题时跳过思考步骤，但该模型在实践中并不总是这样做。因此，它可能会思考太久而无法回答 OpenAI 的其他模型可以在一瞬间回答的问题。

这位知情人士还说，一些使用过「草莓」原型的人会抱怨，与 OpenAI 目前发布的 GPT-4o 相比，「草莓」的响应稍好一些，但并不值得多等待 10 到 20 秒的时间。

虽然「草莓」还旨在记住并整合之前与客户的聊天内容，基于此然后再回答新问题 —— 当用户有特定偏好时，比如他们希望以某种格式编写软件代码 —— 但原型有时也会在这方面遇到困难，这位知情人士说。

不过，话说回来，在刚刚过去的八月，关于「草莓」的爆料就接连不断。前几天，同样来自 The Information 的报道称，OpenAI 计划最早在今年秋天推出代号为「草莓」（之前称为 Q*，发音为 Q Star）的新人工智能，作为聊天机器人的一部分（可能集成在 ChatGPT 内）。

综合各方爆料，OpenAI 这次可能不会再鸽了。

参考链接：

https://www.theinformation.com/articles/new-details-on-openais-strawberry-apples-siri-makeover-larry-ellison-doubles-down-on-data-centers?rc=ks2jbm

#iPhone16跑分泄露

8G内存，A18多核不敌上上代A16，网友：假的吧

祖传 60Hz、龟速充电，你会买吗？

昨天，数码圈迎来了非常热闹的一天，先有苹果 iPhone 16/16 Pro 系列新机登场，后有华为全球首发三折叠手机 Mate XT。

而苹果又一次被嘲「挤牙膏」，尤其是 iPhone 16 标准版，祖传 60Hz 屏幕刷新率、25W 充电。除此之外，唯一的亮点算是新增的相机控制（Camera Control）按钮了。

今天一早，iPhone 16 的跑分成绩冲上了热搜。

知名跑分网站 Geekbench 6 上出现了一款代号为「iPhone17, 3」的机型。据了解，该机型应为 iPhone 16，搭载 A18 处理器，手机系统为 iOS 18，完整内存应该是 8GB。

跑分结果显示，iPhone 16 单核为 3114 分、多核为 6666 分。而与上代 iPhone 15 Pro Max 搭载的 A17 Pro 处理器相比，单核成绩占优（2887）、多核成绩低了很多（7159）。

单核/多核成绩中各自列出了文件压缩、导航、HTML5 浏览器、PDF 渲染器、图库、文本处理、对象删除、HDR、照片过滤、光追等具体任务的跑分。

此外，Geekbench 6 上还出现了另一款机型为「iPhone17,2」的跑分成绩，单核为 3018 分、多核为 7751 分。

根据该机型的主板代号和综合跑分，有人猜测应该是 iPhone 16 Pro 系列，处理器为 A18 Pro。如果真是如此，就比较奇怪了，单核成绩反倒不如上面的 A18 了，多核则正常高出了 1000 多分。

网友热评：多核这么低，怎么跑出来的

iPhone 16 这样的跑分成绩让一些网友感到不可思议，有人甚至直呼「垃圾」。

还有人期待接下来的高通骁龙 8 Gen 4 爆杀 A18。

不过也有人指出，Geekbench 的这份 A18 跑分可能是假的，否则多核成绩甚至不如 iPhone 14 Pro 搭载的那颗 A16 了，这太令人大跌眼镜了。

图源：https://x.com/Double_Lamekid/status/1833565160377880662

显然，iPhone 16 系列的跑分成绩无法令人满意。有人认为，这是由于 Geekbench 6 没有更新，才导致如此低的多核成绩。

看来只有等到新机正式发售之后，我们才能看到 A18/A18 Pro 系列处理器的真正成色了。

#MMToM-QA

GPT-4V暴露致命缺陷？JHU等发布首个多模态ToM 测试集，全面提升大模型心智能力

本文第一作者为 Chuanyang Jin (金川杨)，本科毕业于纽约大学，即将前往 JHU 读博。本文为他本科期间在 MIT 访问时的工作，他是最年轻的杰出论文奖获得者之一。本文的指导老师为 Tianmin Shu (舒天民)，JHU 助理教授，Social Cognitive AI Lab 的主任。博士师从 UCLA 朱松纯教授，在 MIT 完成博后，致力于构建能够在现实世界中理解、推理和与人类互动的社会智能系统，从而推进以人为中心的 AI。本文另外两位指导老师 Joshua B. Tenenbaum、Antonio Torralba 为 MIT 著名教授，google scholar 引用量均在 10 万以上。

心智能力（Theory of Mind，ToM），即理解人们思维的能力，是开发具有类人社会智能的 AI 模型的重要基础。

近日，来自 JHU, NYU, MIT, Harvard 等机构的研究团队开创了第一个多模态的 ToM 测试基准，发现现有的多模态模型和 LLM 都表现存在系统性缺陷，同时他们提出了一种有效的新方法。在刚结束的 ACL 2024 会议中，这篇论文获得杰出论文奖。

论文标题：MMToM-QA: Multimodal Theory of Mind Question Answering
论文地址: https://arxiv.org/abs/2401.08743
网站: https://chuanyangjin.com/mmtom-qa
代码: https://github.com/chuanyangjin/MMToM-QA

MMToM-QA

第一个多模态的 ToM benchmark

先前所有心智能力的测试基准都是单一模态的。MMToM-QA 是第一个多模态的心智能力测试基准。其中每个问题包含三部分：一个人的活动视频，环境和人类动作的文字描述与一个 ToM 问题。

，时长00:06

此前，大部分的心智能力测试基准都使用较简单的模版，文字或视频的长度很短。MMToM-QA 要求在更长的上下文下，更复杂多样的环境下系统性衡量模型的心智能力。既考察 belief（人们所认为的），也考察 goal（人们的目标）。

为了生成这些视频，该团队使用 VirtualHome-Social 模拟器来中生成一系列人物动作，并渲染合成视频。接下来，使用一个模型来跟踪记录在视频的每个时刻中 agent 所有可能的目标和想法，据此生成问题，并使用 GPT-4 生成改进问题的描述。

Meta、MIT、CMU、JHU 的众多团队已使用 MMToM-QA 来研发与人合作的大模型、机器人等。

大模型集体翻车

GPT-4V 存在致命缺陷

在 MMToM-QA 上的实验结果显示，当人们可以使用不同模态的信息时，他们理解他人的能力会有所提升。在这种多模态条件下，在每个问题上大多数参与者都达成了一致意见，这验证了基准设计的有效性。

相比之下，多模态模型和 LLM 的表现远不如人类。它们在所有问题类型上表现得像随机猜测一样。唯一的例外是 GPT-4V，当人们的信念与现实一致时它表现良好，但当涉及到人们持有错误信念或更新信念时，GPT-4V 会系统性犯错，并且在判断目标时表现较差。

以下是 GPT-4V 的一个失败案例。从视频和文本中可以看出，柜子里没有蛋糕，但女人却朝柜子走去，准备打开它。因此，正确答案应该是「女人认为柜子里有一个蛋糕。」然而，GPT-4V 错误地使用了真实世界的状态来推断女人的想法，这表明 GPT-4V 无法区分信念和真实世界状态。

BIP-ALM

小模型 + 逆向规划超过 GPT-4V

那么，我们该如何缩小 AI 模型和人类表现之间的差距？

该团队提出了一种新方法：BIP-ALM (Bayesian Inverse Planning Accelerated by Language Models)。该方法首先从视频和文字中提取出相同的符号表示，接着对这些表示进行对齐和融合，再使用逆向结合语言模型来推断各种心理状态的概率。

以下是融合符号表示的方法。模型将从视频中提取特定时刻的场景关系图，识别人物与物体之间的关系，例如他们正在经过哪些物体或他们正朝哪些物品前进。由于摄像头视角的限制和遮挡，文本提供了这些可能无法直接从视频中观察的这些信息。

贝叶斯逆向规划（Bayesian inverse planning）可以根据观察到的 agent 的行为来推断其心理状态与潜在的信念和目标。先前的研究表明，贝叶斯逆向规划可以在简单情景下成功。然而，当状态空间变得很大时，计算每个可能信念和目标的概率变得非常复杂，导致计算瓶颈。下图中蓝色标出的部分就是一个计算瓶颈。为了加速这一过程，该团队使用了语言模型来估计每个时刻的心理状态的概率。

先前的大模型和各种方法无论是在文本、视频、还是多模态版本的 MMToM-QA 上都表现较差，而 BIP-ALM 则展现了较好的结果。论文作者认为 BIP-ALM 得益于：(1) 使用适用于不同模态信息的符号表示，(2) 模仿人类心智推理的逆向规划方法具有很强的鲁棒性和可解释性，(3) 语言模型具有很好的灵活性和可扩展性。

后续工作

走向多智能体的多模态心智模型

该团队提出了后续研究 MuMA-ToM: Multi-modal Multi-Agent Theory of Mind，将 MMToM-QA 的测试基准和方法拓展到了多个智能体的领域。

论文标题：MuMA-ToM: Multi-modal Multi-Agent Theory of Mind
论文地址: https://arxiv.org/abs/2408.12574
网站: https://scai.cs.jhu.edu/projects/MuMA-ToM
代码: https://github.com/SCAI-JHU/MuMA-ToM

MuMA-ToM 关注多智能体的互动，考察它们的信念、社会目标、和对他人目标的信念，发现大型多模态模型 GPT-4o、Gemini-1.5 Pro 等依然表现糟糕。针对这些发现，研究团队进一步提出了改进的方法 LIMP (Language model-based Inverse Multi-agent Planning)。相比之前的方法，LIMP 使用自然语言而不是符号表示来提高通用性，并且能够利用任何预训练的大型语言模型，而 BIP-ALM 则要求开放权重的大型语言模型。

#GPT-4o「吉卜力风」一夜爆火

奥特曼连夜换头像！宫崎骏痛批AI侮辱生命

GPT-4o原生图像一出手，直接登顶流量王座！今天凌晨，OpenAI再放大招更新GPT-4o，冲进大模型排行榜第二碾压Grok 3、GPT-4.5。创意一键生成，Midjourney瞬间黯然失色，设计师开始颤抖吧。

估计连OpenAI也没想到，GPT-4o原生图像出道即顶流！

过去一天，全网被吉卜力风格的AI图片淹没，甚至有网友戏称AGI，就是All Ghibli Images。

左右滑动查看

网红表情包、名人恶搞、经典名场面，甚至是每个人生活照，全没逃过「吉卜力化」。

由于太过火爆，奥特曼直言，GPU快被烤化了，不得不限制生图速率。

免费用户的体验延期一周，每天可生成3次图片

更令人惊喜的是，OpenAI凌晨又双叒更新了GPT-4o，并发布了13页技术报告。

技术报告：https://cdn.openai.com/11998be9-5319-4302-bfbf-1167e093f1fb/Native_Image_Generation_System_Card.pdf

新模型冲进LMSYS排行榜第二，一举超越Grok 3以及自家的GPT 4.5，更新亮点如下：

· 更擅长遵循详细的指令，尤其是包含多个请求的提示

· 提高了解决复杂技术问题和编程问题的能力

· 直觉和创造力大幅提升

· 更少的表情符号

左右滑动查看

GPT-4o这波火热程度难以想象，曾经稳坐AI图像王座的Midjourney、FLUX，如今也几乎被人们遗忘在角落。

甚至，AI生图超进化，对于创意工作者、动画设计师来说，也是另一个巨大的冲击。

毕竟，动动嘴皮子一键就完成的创作，谁还愿意为人力买单？

老牌AI生图模型，被拍在沙滩上

Midjourney的CEO，似乎已经急了。

有人透露，他正在Midjourney的账号上表示：GPT-4o的图像生成速度慢、效果差，OpenAI只是为了筹集资金，而且是在以有害的方式参与竞争。

总之，GPT-4o只是玩梗强大，并非创意工具，一周后就会无人讨论。

有人分析说，或许是因为GPT-4o实在太强大，让他失去理智了。

毕竟4o在许多普通人都关心的事情上都非常出色，要知道，大多数人并没有那么关心美学，而是会更要求一致性。

的确，Midjourney的独特卖点，在于美学性和在线图像编辑器，但在许多创意工作中，这些用例仍然比较有限。

总之，吉卜力风如今确实像海啸一样席卷了所有AI生图应用。而Midjourney这样的老牌生图模型，其实已经沉寂许久，扩散模型如今似乎已经饱和了。

据称，下周一Midjourney带着最新V7版要杀回来了

爆了！当GPT-4o原生图像邂逅吉卜力风格，全网玩疯

而现在，不论是家庭合照、个人头像，还是经典影视作品、社会标志事件，或者更多有梗的Meme照片，都被吉卜力风格重写。

就连奥特曼也将自己的社交媒体头像换成了「吉卜力风格」。

另一边，他还不忘挑衅谷歌，「我的整个时间线都是非常令人印象深刻的图片」！

OpenAI首席研究官Mark Chen，也对此做了宣传。

5000亿星际之门官宣照、老黄显卡发布会、马斯克指尖把玩餐具等经典名场面，全部吉卜力化。

左右滑动查看

人们纷纷晒出了个人生活照，以及自家的猫主子。

左右滑动查看

还有各种经典表情包。

左右滑动查看

影视中画面，也被吉卜力化了，比如哈利波特、奥本海默、泰坦尼克等。

左右滑动查看

甚至还有《基地》的海报。

整个ComfyUI工作流程，都变成了一个简单的文本提示。

只要打开GPT-4o，简单说一句「把我们变成Roblox/GTA-3/Minecraft/ 吉卜力工作室角色」，就能立马得到满意的图像。

左右滑动查看

当然，虽然在社交媒体上走红的是吉卜力风格，但GPT-4o可以做的并不仅限于此。

左右滑动查看

它还可以完成JoJo风格、One Piece风格、鬼灭之刃风格。

左右滑动查看

而且，反向吉卜力也是很厉害的。

《千与千寻》中汤婆婆、千寻和无脸男共桌的一幕。

千寻和白龙，高清还原，而且与上图中人物保持了高度一致性。

为什么是吉卜力？「模型即产品」的隐喻和个体「视觉表达权」

可以确定的是，吉卜力工作室，这个因《千与千寻》和《龙猫》等经典动画电影而享誉全球的名字，早已在全球范围内拥有一批忠实的粉丝。

借助GPT-4o的强大功能，用户可以将任何图像上传，并请求AI用吉卜力风格再创作。

这一便捷的操作，完美的出图效果，无疑加速了这场网络潮流的蔓延。

不止奥特曼加入了这场狂欢，甚至很多品牌也在「跟风」，比如食品配送APP Zomato就对此配文「ChatGPT cooked」。

吉卜力本身的魅力和粉丝基础

首先不得不提到的是吉卜力工作室及其作品所拥有的持久魅力和深厚的粉丝基础。

吉卜力创造的影片在全球范围内都拥有着无数粉丝。

这些作品往往散发着宁静和怀旧的气息，触动了人们内心深处的情感。

对于许多人来说，吉卜力的电影不仅仅是动画片，更是一种情感的寄托和童年记忆的象征。

「模型即产品」

其次，GPT-4o原生图像生成功能的便捷性和易用性是这场潮流得以迅速蔓延的关键因素。

OpenAI允许用户直接在ChatGPT界面中上传图片，并简单地输入指令，例如「将这张照片转换成吉卜力动画风格」，模型便能快速生成相应的作品。

左右滑动查看

这种零门槛的方式，让没有任何专业技能的用户也能轻松参与其中，将自己喜爱的照片变成梦幻般的吉卜力风格。

这项功能直接集成在GPT-4o模型中，无需跳转到其他应用或使用复杂的工具，进一步降低了使用门槛。

这一现象再一次让人们想起关于AI智能体和「模型即产品」路线之争的讨论。

有些用户感叹，GPT-4o这项能力让他之前所学的Stable Diffusion的工作流程沦为废纸。

也许OpenAI这一步是对的，相比各种复杂的Agent流程，「模型即产品」更靠近人们对未来社会科幻般的憧憬。

「吉卜力热」的爆火也许对大模型公司的内卷是一场启示，专注于模型底层能力或许是正确的道路。

个体的「视觉表达权」

随着「吉卜力热」进入人们视野的另一个词语叫做「视觉表达权」。

这也是AI赋能普通人的一种表现。

比如网友将《星际穿越》用吉卜力风格进行再创造。

《指环王：护戒使者》吉卜力风格切片，足以让人震撼。

，时长01:52

网友@PJaccetturo选取了原来的102个切片镜头，肝了9个小时，将其变成吉卜力风格的画面。

用不了多久，电影就会以这种风格，自动动画化。

老爷子痛批AI作画，4o一夜统治艺术圈

英伟达高级科学家Jim Fan昨日感慨道：今天，就是创意产业随着「计算能力扩展」的日子。

很快，好莱坞在预算时将不再考虑手工劳动的小时数，而是考虑运行和推理的计算小时数。AI时代的艺术家们通过提示创作原始灵感，然后让AI填补其余部分。

稍微有些讽刺的是，宫崎骏本人对于AI作画其实深恶痛绝。

2016年，在观看了一场关于AI创作动画的内部演示后，他严肃地表示，「如果你们想做这种令人作呕的东西，这是你们的自由，但我绝不会和它扯上任何关系」。

他措辞犀利地评价说，「这是对生命的极大侮辱」。

结果，连这一批判性的场面，也被做出了吉卜力表情包。

虽然那场几乎10年前演示的动画效果确实很糟糕，和如今的AI生成效果相去甚远。

他感到AI创作是对生命本身的侮辱，甚至感觉世界末日快要到了，因为人类已经失去了创作的自信。

另一个观点是，Ilya在2023年说过，如果你怀有「只有人类创作才算数」的信念，那么你恐怕要在新时代里吃苦头了。

要知道，宫崎骏和团队为一部电影动画，付出惊人努力是难以想象的。

每部作品通常包含6万至7万帧画面，而这些画面全部由动画师一笔一画手绘完成，再用水彩精心上色。

没有电脑特效，没有流水线式的批量生产，每一帧都是独一无二的艺术品。如下这段出自《起风了》4秒的镜头，便耗费了一位动画师15个月的时间。

，时长01:21

技术在进步，AI在发展，或许今天网友们自发创作的「吉卜力风格」作品会改变宫崎骏10年前的看法。

当然即使今天依然有人希望未来仍然按照「老的方式」做事，不借助AI进行创作，完全依靠手绘。

或许这正是AI时代创作生态的写照——传统与新生并存、抵触与拥抱交织。

有人怀念过去的笔触，有人拥抱未来的算法。

但无论立场如何，「吉卜力风格」被网友们玩疯说明了一个趋势：每个人渴望「创作的权力」。

这场由AI点燃的「吉卜力」之梦，或许仅仅只是开始。

参考链接：

https://x.com/sama/status/1904921537884676398

https://x.com/Mascobot/status/1904959479495770589

#植入Neuralink脑机接口一年后，瘫痪的他找到了工作，还将重返校园

这应该是科技造福人类最直观的案例了。

640 (1).webp

还记得那个凭借 Neuralink 脑机接口玩《马里奥赛车》、《文明六》的瘫痪患者 Noland Arbaugh 吗？刚刚，他更新了生活近况：过去 14 个月他读了很多书，比过去 11 年读得还多，目前已经计划重返校园。而且在脑机接口的帮助下，他成功得到了一份工作，除了自力更生还能养家糊口，自家房子的重建计划也已经提上了日程。

Neuralink 由马斯克在 2016 年创立，致力于开发植入式脑机接口，以从大脑信号中解码运动意图。该公司的初步目标是让瘫痪者只用意念就能控制光标或键盘。

Noland Arbaugh 参与的是 Neuralink 自去年开始的首次人体试验。他在 2016 年的一次潜水事故中脊髓受伤，导致肩部以下瘫痪。2024 年 1 月，他接受了 Neuralink 的脑机芯片植入手术，成为全球首位使用该技术的人。

Noland 表示，他在植入手术后的 14 个月里表现良好，没有出现明显的副作用。他每天使用 Neuralink 设备超过 10 小时，用于完成各种任务，例如控制电脑光标、玩游戏、浏览网络等。这项技术显著提升了他的独立性和生活质量，使他能够重新参与此前因瘫痪而放弃的活动，比如电子游戏和国际象棋。

从发文内容来看，Noland 虽然身体受伤，但仍然在积极面对生活，而且语气幽默：

距离上次更新已经过去好几个月了，对此我很抱歉。本来我特别期待做一周年的分享，但讽刺的是当天就因为我自己的愚蠢行为被黑客攻击了（接下来那周又被攻击了一次）。这些经历让我非常沮丧，甚至有点心灰意冷，不想再和社区互动。这完全是我的三重失误，我向大家道歉。我知道自己能做得更好，也希望展现出最好的状态。总之，下面是近况更新。

自从上次更新后，我和 Eve（注：指植入设备）已经共同度过了一年。这个里程碑意义重大 —— 无论是身体还是心理都没有出现任何副作用。除非你把对女性的生理欲望算作副作用（说实话我现在挺庆幸自己瘫痪了，毕竟这些欲望根本瞒不过 Eve，我发现她是一个嫉妒心很强的伴侣）。祝贺 Neuralink 团队取得这项成就 —— 我说的是一周年里程碑，不是那个偶尔会闹脾气的植入物 —— 他们创造了既安全又实用的设备，值得所有赞誉。这改变了我的生活，也必将改变更多人。

在和 Neuralink 的合作中，我们一直在努力缩短校准所需时间，同时提高模型精度。我相信方向是对的，希望最终能把校准时间压缩到可忽略不计，甚至完全不需要校准 —— 这就是我们的终极目标。此外我们会做大量反馈（从优缺点到程序漏洞无所不包）。可能多数人觉得这个环节枯燥烦人，但我深知它的价值，甚至开始享受提建议的过程。不过我这人话比较多，工作人员可能有点招架不住。但谁让他们选了我呢？现在想反悔也晚啦，这下该他们头疼了。

目前团队正和其他参与者进行一些绝密项目，连我都无权知晓。我一直缠着他们要机械臂，但还没成功。不过俗话说「会哭的孩子有奶吃」—— 也可能哭死了也没奶吃？希望我不是后者。

他们还在研究用植入体控制轮椅，虽然这创意超酷，但我明确表示除非完美达标否则绝不使用。毕竟万一失控撞进车流对谁都不好…… 或许我该在轮椅上装反光条？或者直接装个氮气加速罐？追不上就撞不到嘛。

他们还送了我个叫「魔法盒子」的设备，能把电脑连到任天堂 Switch 上，看来啤酒马里奥赛车大赛要安排了。小朋友们记住：喝酒不开车。其实最好干脆别喝。

最近团队在扩大运营规模，植入设备很快就会从几十人到几百人再到数千人。记得申请啊！不过不建议为此故意把自己搞瘫痪 —— 以我的经验，瘫痪真没传说中那么好玩。

现在我每天使用植入设备超 10 小时（别吐槽我）。过去 14 个月的阅读量比之前 11 年半加起来还多 —— 没错就是 11 年半，数学不好的朋友请注意，这比我受伤时间还多 4 年。大学时我忙着... 做别的事，没空看书（细节就别问了）。

除了玩游戏、发短信（比 13 岁小姑娘还频繁）、调戏各种 AI（你们懂的）、写日记、学习…… 还有个好消息：今年我要重返校园了！原本一直梦想回得克萨斯农工大学（TAMU）完成学位，但多次联系都没得到实质帮助，感觉像在撞南墙。所以决定改上家乡的社区大学。当然如果有其他大学愿意收留…… 本人擅长海滩漫步、倾听心事，还能用舌头给樱桃梗打结。最后，我正在筹划长期自力更生 —— 这就引出了重磅消息。

通过 Neuralink，我找到工作了！写下这句话时差点哭出来。我参与这项研究的主要目标就是摆脱累赘感，既能养活自己又能补贴家用。接下来我要成为巡回主题演讲者了！要不是能用设备写演讲稿、做研究、经营业务、高效线上沟通，这根本不可能实现。下周我会公布个人网站、商务账号和预约信息，如果大家感兴趣也会在这里分享演讲行程。顺便预告：4 月 10 日我将在亚利桑那大学演讲。明眼人都看得出，没有 Eve 就没有这一切。

感谢马斯克、Neuralink、BarrowNeuro 和这个社区彻底改变了我的生命。这项技术带给我的希望和人生意义难以言表。事故后我从没想过还能帮助他人。在拥 Neuralink 前，我生活完全依赖别人。如今蒙上帝恩典，我竟成了别人的依靠。

最后还有几件事：

关于捐款或出力帮我家建房的各位，目前进展如下：图纸已设计完成，下月开始基建，正在申请补助和非营利组织援助，联系了几位潜在赞助人，也找好了施工期间的临时住所。虽然资金还没完全到位，但我们相信大家的善意不会白费。当前房市和经济环境不适合动工，观望或许更明智 —— 除非有人想捐个几百万？开玩笑的... 但也不完全是？说真的，我们不是要建豪宅，但全无障碍设计和高房价让成本听起来很夸张。

……

Noland 此番发言令人动容。

结尾，他还感谢了上帝并配上了一张吉卜力风格的全家福。

对于文中提到的机械臂，已经有人在帮他想办法。

目前，Neuralink 已成功为三名人类受试者植入了脑机接口设备。2025 年 1 月，埃隆・马斯克在 CES 2025 上透露，第三位患者的植入手术已经完成，且设备运行良好。马斯克还表示，2025 年计划为 20 至 30 名患者进行植入手术，显示出试验规模的快速扩展。

早期植入中曾出现电极线从大脑脱落的问题，导致信号读取效率下降（例如首例患者的电极功能一度仅剩 15%）。但 Neuralink 通过软件更新和硬件改进解决了这一问题，最新设备在信号稳定性和功能性上有了显著提升。马斯克提到，新一代设备将配备更多电极，进一步提高数据传输能力。

除了帮助瘫痪患者控制设备，Neuralink 还在探索更广泛的应用。2025 年初，FDA 授予 Neuralink 的另一种植入物 Blindsight「突破性设备」称号，该设备用于研究恢复视力功能。虽然具体试验尚未启动，但这一进展暗示未来可能实现通过大脑信号生成简单视觉的能力。此外，3 月初提交的「Telepathy」和「Telekinesis」商标申请表明，Neuralink 正在研发通过意念实现人与人通信或控制物体的技术。

如果这些都得以实现，人脑与机器的界限将日益模糊。这一愿景与马斯克长期宣称的目标一致，即实现「与人工智能的共生」，并可能缓解他所认为的先进 AI 发展带来的风险。

参考链接：https://x.com/neuralink/status/1905776032646643743

#「AIGC第一股」出门问问交上完美答卷

营收破2.2亿，同比增长88.5%

如今爆火的生成式 AI 领域里，先进的技术层出不穷，但能实现研发、收入齐头并进的公司还真不算多。

不过就在本周四，「AIGC 第一股」出门问问发布了 2024 年度报告，其成绩引发了业内关注。

财报显示，截至去年 12 月 31 日，出门问问总收入达人民币 3.9 亿元，与 2023 年同期相比增长 6%。值得关注的是，其中 AIGC 解决方案收入为人民币 2.2 亿元，较 2023 年同比增长达到了 88.5%。

出门问问的纯软件 AIGC 产品化服务经历了持续的大幅增长：2021-2024 年营收分别约为 0.07 亿元、0.4 亿元、1.18 亿元和 2.22 亿元，占总收入的比例分别是 1.7%、8.0%、23.3% 以及 56.8%，已成为公司的最主要业务。

看起来，出门问问正在竞争日益激烈的生成式 AI 领域持续突进。

生成式 AI 能力，覆盖全链路

与深度学习技术发展初期时类似，目前生成式 AI 技术发展日新月异，但全行业也面临着商业化思路随时会被挑战的问题。一方面已经出现很多成功的 AIGC 用例，从 ChatGPT 会员、大模型 API 到大模型一体机，呈现出一片火热的态势；另一方面，全球的 AI 大模型公司都面临着投入转化的问题，时有明星大模型公司传出停止预训练，甚至寻求被收购的消息。

动辄千亿参数的基础大模型所需要的研发和投入，让参与其中的玩家在跟进先进水平的同时，无不在思考业务的发展前景。

在这样的环境下，出门问问的业务早已做到了纯软件、高毛利与国际化。当很多 AI 创业公司陷入高级人力外包的「项目制」困局时，出门问问 All in 生成式 AI，并在服务形态上做出了面向消费级市场的选择。

这样良好的增长态势，离不开公司创始人李志飞对 AIGC 应用的深刻理解。

李志飞认为，无论是在底层模型，还是在产品能力上下功夫，终究都要直面商业化这道必答题。

AI 创业需要找准用户的需求，但这只是起点。用户愿意付费、不惧巨头竞争、商业模式可持续，这三点缺一不可。只有找到既能持续盈利又具备护城河的商业模式，才能在风起云涌 AIGC 生态中站稳脚跟。

基于这样的思考，出门问问选择了一条独特的发展路径：通过打通文本、图像、音频、视频等 AIGC 全链路能力，并将其模块化、标准化，搭建起一个如同「积木」般灵活组合的技术体系。

面向全球内容创作者，出门问问形成了的以 AI 配音助理「魔音工坊」（海外版「DupDub」）、AI 数字分身「奇妙元」（海外版「LivGen」）、企业级 AI 数字员工平台「奇妙问」和一键式 AI 短视频生成平台「元创岛」为核心的产品矩阵。

要支撑起如此丰富的产品矩阵，强大的技术底座必不可少。

2023 年，出门问问推出了具备多模态生成能力的自研大语言模型「序列猴子」。这个看起来有些奇怪的名字来自「无限猴子」定理 —— 如果一群猴子随机地敲打打字机，从概率上来讲，总有一天这群猴子一定会写出完整的莎士比亚作品。

「序列猴子」将 AI 的创造力延伸到了维度，它同时支持文字生成、图像生成和语音识别和语音生成，成为出门问问产品版图的强大引擎。

「注意看，这个男人叫小帅，这个女人叫小美……」这些台词有点耳熟？其实我们早就和出门问问的产品是老相识了。

这些影视解说的 AI 配音，都来自「魔音工坊」。

作为全球领先的一站式 AI 配音软件，「魔音工坊」及其海外版「DupDub」正在重新定义短视频的内容创作流程。这背后，是出门问问在语音技术领域的持续突破。

为了打造更自然、更真实的 AI 声音，出门问问携手香港科技大学、上海交通大学等顶尖研究机构，共同开源了新一代语音生成模型 Spark-TTS。在此基础上推出的革命性 TTS 引擎 TicVoice 7.0 更是实现了质的飞跃——它能够仅依靠语言模型，以单阶段、单流方式完成语音生成，带来媲美真人的自然声线，同时还具备跨语种生成的惊艳能力。

TicVoice 7.0 的能力已经在「魔音工坊」中充分展现：仅需 3-10 秒的音频即可完成语音克隆，支持 50 个国家语言、600 多个声音库，在客服、有声书、情感直播、影视解说等场景中持续创造着惊喜。

如果说「魔音工坊」让 AI 掌握了说话的艺术，那么「奇妙元」则为这些声音找到了最适合它们的形象。

在义乌中国小商品城，两万家商户的数字分身正开着永不打烊的全球贸易——他们的虚拟形象用着地道的英语，穿梭在世界各地的客户之间，让小商品走向大世界。

打开「奇妙元」的界面，我们只需要上传一小段真人出镜的视频，就能做到「一条视频，全球开播」。克隆出自己的数字分身之后，想说日语、韩语、西班牙语，各种语言的带货视频都能批量制作。

让跨语言视频制作变得如此简单的能力，源自出门问问在数字人技术上的深度突破。最新的 WetaAvatar 4.0-Talking Photo 通过双引擎驱动，将数字人的表现力提升到新高度：运动预测引擎能从语音中精准提取参数，实现嘴型与声音的完美同步；人脸驱动引擎则能将静态照片注入生命力，让面部表情和微表情的变化都栩栩如生。

当它与 TicVoice Pro 结合，就轻松实现了语音和形象的双重克隆，大大降低了视频制作门槛。

WetaAvatar 4.0-Talking Photo 的技术架构。

而「序列猴子」视频理解大模型的加入，更是让 AI 能够精准解析任意长宽比的视频画面，通过强大的 OCR 与快速推理能力，全方位赋能创作过程。

出门问问的数字人引擎技术示意图。

从数字世界来到物理世界，结合了「奇妙元」和具身智能的「奇妙问」在企业服务领域大放异彩。

「奇妙问」是一个 AI 交互式数字员工生成平台。从数字接待员到智能导医台，从校园辅导员到智慧零售导购，「奇妙问」已在义乌小商品城、西安交大、美宜佳等众多场景中落地。

「元创岛」则专注于让 AI 视频创作变得简单。这个「一键成片」的平台从诞生之日起就确立了清晰的商业模式，在 AI 创作、小说推流、短剧制作等领域快速扩张，吸引了咪咕音乐等众多头部用户。

灵活的技术模块和产品功能的任意组合，出门问问不必担心 AI 行业普遍存在的重模型轻产品的问题，实现了技术能力的最大化复用：

首先是技术升级更加灵活。就像更换零件一样，系统可以随时接入最新的模型能力，比如 DeepSeek 的先进算法，或是华为云昇腾的强大算力，持续提升产品性能。

其次是产品创新更加敏捷。不同功能模块的组合可以快速孵化新产品，例如在荷兰国际广播大会上亮相的「AI 数字员工」，就是将「魔音工坊」的多语言配音能力与「奇妙元」的数字分身技术结合的成果。

2024 年 9 月，「奇妙元」海外版「LivGen」数字人亮相荷兰国际广播大会。

最重要的是，这种架构让产品能够快速响应市场需求。以「魔音工坊」为例，最初的新闻播报助手，到有声小说配音工具，被印证不可行之后，迅速转型为如今风靡全网的短视频配音平台，每一步都源于对市场反馈的精准把握。

这套架构催生了一个强大的价值增长闭环：产品产生的海量数据持续反哺大语言模型训练，提升模型能力；升级后的模型又为产品注入「更强大脑」，打造出更具竞争力的产品。

市场用数据给出了最好的印证——去年，出门问问的 AIGC 产品吸引了超过 1000 万注册用户，其中付费用户突破 100 万人。

持续引领行业风向，未来还要组织 AI 化

今年 1 月 DeepSeek 横空出世，既推动了 AI 领域技术进步，也让生成式 AI 再次破圈，催生了大量热门应用。盛景之下，人们开始重估 AI 领域中的众多公司和机构，可以看到，其实此前一些国内公司已经展示了实力。

2024 年 4 月，号称「AIGC 第一股」的出门问问在香港联交所挂牌上市。其报告公司 AIGC 业务增长达 123.8%，在总营收中的占比超过一半，已经走完了从传统 AI 收入模式转型至生成式 AI 的进度条。

这并不是出门问问第一次做到先行业而动。事实上，AI 领域几次跨越周期的转型，出门问问都是最早出发的那一批。

2012 年，刚刚成立的出门问问率先了切入语音助手赛道。其团队从零到一构建了开发声音信号识别、自然语言处理、垂直搜索等一系列技术，提供的中文语音助手可以实现查天气、查航班、查火车票等功能，构建起了「语音版搜索引擎」。

在语音识别面临场景限制，AI 技术不成熟等挑战之下，出门问问果断走向「软硬结合」的道路。自 2014 年起，公司陆续推出智能手表、智能后视镜、ADAS 等产品，并打开了海外市场。这家公司也逐渐从一个单纯的软件技术服务商转变成为覆盖算法、硬件、供应链、销售、品牌、电商的全栈式软硬结合公司，业务逐渐扩展到了车载、金融、物联网等领域。

到 2022 年末，ChatGPT 引爆全球生成式 AI 浪潮，科技公司和创业团队面临着大模型研发极度耗费资源的挑战，出门问问果断开启了「产模结合」之路，依靠自研基础大模型能力和一系列产品重回大众视野。

回溯出门问问发展的这段历程，可以清晰地看到这家公司的前瞻性与探索精神。每在浪潮来临之际，出门问问都是最早做到行业认知，并开始行动的。

放眼未来，出门问问早已开始了新的尝试。「当 AI 智能体变得可行的时候，除了做产品外，公司的组织 AI 化是都在考虑的事情，」李志飞在本周的业绩媒体会上表示。「一个 200 人的公司，在未来也许只有二三十个人类员工，其余都是 agent，这不是科幻，而是很多小型的创业公司正在做的事情，我们作为一个存在十几年的公司，必须跟上这个潮流，使我们转型为一个原生 AI 组织。」

出门问问计划在未来一年将 AI 嵌入公司的整个工作流程，实现文档的全数字化，进而让智能体全过程参与执行与管理，以此实现效率提升、扁平化管理等效果。

从自我开始用 AI 改变生产关系，大幅提升生产力，这样才能更好地引领更多行业的智能化转型。可以预见在一系列「智能体化」之后，出门问问前进的脚步还将更快。

#ObjectMover

Adobe黑科技：视频扩散降维图像编辑，秒懂物理规律

论文第一作者为余鑫，香港大学三年级博士生，通讯作者为香港大学齐晓娟教授。主要研究方向为生成模型及其在图像和 3D 中的应用，发表计算机视觉和图形学顶级会议期刊论文数十篇，论文数次获得 Oral, Spotlight 和 Best Paper Honorable Mention 等荣誉。此项研究工作为作者于 Adobe Research 的实习期间完成。

近年来，图像生成与编辑技术的快速发展，特别是扩散模型（Diffusion Models）的兴起，使得图像编辑任务取得了显著进展。然而，现有技术在实现图像中物体的移动、插入和移除时，仍存在诸多问题：比如物体在新位置的光照与阴影无法与环境真实协调，物体身份特征发生失真，以及物体移动产生的空缺区域无法自然地补全。这些问题在复杂的真实场景中尤为突出。

为解决上述难题，Adobe 联合香港大学提出了一种新型图像编辑模型 ——ObjectMover。该模型首次结合视频扩散模型（Video Diffusion Model）的强大先验知识，并创新性地使用虚幻引擎（Unreal Engine）合成数据进行训练，从而实现单张图像内物体的真实感移动。

论文题目：ObjectMover: Generative Object Movement with Video Prior
论文链接：https://arxiv.org/abs/2503.08037
项目主页：https://xinyu-andy.github.io/ObjMover

实验结果与效果分析

ObjectMover 可统一地处理图像编辑中的三个常见任务：物体移动、物体删除与物体插入。与以往方法不同的是，本文仅需用户使用边界框（Bounding Box）指定待编辑的物体及目标位置，无需额外标注（如文本指令或阴影标注），模型即可自动同步处理相关的物理效果（例如阴影、反射等）。

真实感的光影同步调整

如下图所示，当移动水中人物时，ObjectMover 能够自动同步调整水中倒影，并识别并调整人物身上的太阳光，使太阳光准确地照射在水面。

再例如下面这个异常困难的具有复杂阴影的例子。当雕像被移动后，其投射在地上的影子也被同步移动。需要注意的是，模型能够识别哪一部分阴影属于雕像，而不会移除其他物体的影子，并且还能补全之前被雕像阴影覆盖的其他物体的阴影。此外，移动后雕像呈现出的透视角度也会随位置变化而自然调整，且雕像背部原先被遮挡的区域自然地被新位置的太阳光照射。

此外，模型还能有效理解物体的材质特性。例如，下图展示了透明酒杯移动的实例。当透明酒杯被移动后，模型不会简单地复制酒杯原位置上透视看到的背景内容，而是精确地去除背景，仅保留酒杯自身的透明材质属性。当酒杯被移动至新位置时，模型又能准确地透过酒杯重新生成与目标位置环境一致的新背景内容。这充分体现了模型对透明物体材质的深入理解。同时，模型还能够自动补全原本不完整的酒杯杯体，生成完整的物体外观。

综上，ObjectMover 不仅实现了物体位置的简单变化，更表现出显著的物理规律理解能力。

多任务处理，一个统一模型

得益于统一的条件输入框架和多任务训练机制，ObjectMover 还能有效完成物体删除与插入任务。如图所示，删除任务中，模型能够真实地填充被移除物体的背景，而非生成不相干的新物体，并准确地移除光影；而在插入任务中，模型能精准保持被插入物体的身份特征，自动生成与环境一致的光影效果。

实验对比

实验结果表明，ObjectMover 在物体移动、删除和插入三个任务中均取得了明显优于现有方法的图像质量与真实感。

研究方法与主要创新点

将视频扩散模型用于单帧图像编辑任务

传统图像编辑方法一般微调单帧图像扩散模型，这些模型的预训练阶段仅关注单张图像，没有学习到物体动态变化过程中的光影调整。而本文提出的核心创新在于，将物体移动任务视为序列到序列（Sequence-to-Sequence）的预测任务，首次应用了预训练的视频扩散模型。

具体而言，本文通过将输入图像、待移动物体、用户指令与目标位置统一编码为视频序列形式，以不改变模型原架构的前提下直接进行微调，充分利用了视频模型预训练时习得的物理规律及物体对应关系（Object Correspondence），从而在图像编辑任务中实现了精确的光影同步与身份特征保持。

首个利用虚幻引擎（Unreal Engine）生成合成数据进行图像编辑训练

由于真实环境中难以获取大规模精准标注的物体移动数据，传统方法多依赖人工标注或数据改造，存在数据量不足和质量限制。为此，本文首次利用虚幻引擎生成了丰富、高质量的合成数据集，涵盖了复杂的光照环境、多样的物体类型及真实的物体与环境交互。

通过合成数据，本文得以模拟现实世界中多样的物体移动场景，例如光照强弱变化、物体透视变化及遮挡区域真实补全效果等。此外，本文设计了多种移动轨迹与光照条件，确保模型学习到高度泛化的视觉先验。

实验结果证明，虚幻引擎生成的数据与视频预训练模型的结合，有效提高了模型在真实图像编辑任务中的泛化能力。同时，本文提出了基于真实视频与合成数据的多任务训练策略，进一步增强模型的泛化表现。

#GPT-4o图像生成的秘密

OpenAI 没说，网友已经拼出真相？

自从 OpenAI 发布 GPT-4o 图像生成功能以来，短短几天时间，我们眼睛里看的，耳朵里听的，几乎都是关于它的消息。

不会 PS 也能化身绘图专家，随便打开一个社交媒体，一眼望去都是 GPT-4o 生成的案例。

比如，吉卜力画风的特朗普「积极坦诚对话」泽连斯基：

然而，OpenAI 一向并不 Open，这次也不例外。他们只是发布一份 GPT-4o 系统卡附录（增补文件），其中也主要是论述了评估、安全和治理方面的内容。

地址：https://cdn.openai.com/11998be9-5319-4302-bfbf-1167e093f1fb/Native_Image_Generation_System_Card.pdf

对于技术，在这份长达 13 页的附录文件中，也仅在最开始时提到了一句：「不同于基于扩散模型的 DALL・E，4o 图像生成是一个嵌入在 ChatGPT 中的自回归模型。」

OpenAI 对技术保密，也抵挡不住大家对 GPT-4o 工作方式的热情，现在网络上已经出现了各种猜测、逆向工程。

比如谷歌 DeepMind 研究者 Jon Barron 根据 4o 出图的过程猜测其可能是组合使用了某种多尺度技术与自回归。

不过，值得一提的是，香港中文大学博士生刘杰（Jie Liu）在研究 GPT-4o 的前端时发现，用户在生成图像时看到的逐行生成图像的效果其实只是浏览器上的前端动画效果，并不能准确真实地反映其图像生成的具体过程。实际上，在每次生成过程中，OpenAI 的服务器只会向用户端发送 5 张中间图像。您甚至可以在控制台手动调整模糊函数的高度来改变生成图像的模糊范围！

因此，在推断 GPT-4o 的工作原理时，其生成时的前端展示效果可能并不是一个好依据。

尽管如此，还是让我们来看看各路研究者都做出了怎样的猜测。整体来说，对 GPT-4o 原生图像生成能力的推断主要集中在两个方向：自回归 + 扩散生成、非扩散的自回归生成。下面我们详细盘点一下相关猜想，并会简单介绍网友们猜想关联的一些相关论文。

猜想一：自回归 + 扩散

很多网友猜想 GPT-4o 的图像生成采用了「自回归 + 扩散」的范式。比如 CMU 博士生 Sangyun Lee 在该功能发布后不久就发推猜想 GPT-4o 会先生成视觉 token，再由扩散模型将其解码到像素空间。而且他认为，GPT-4o 使用的扩散方法是类似于 Rolling Diffusion 的分组扩散解码器，会以从上到下的顺序进行解码。

他进一步给出了自己得出如此猜想的依据。

理由 1：如果有一个强大的条件信号（如文本，也可能有视觉 token），用户通常会先看到将要生成的内容的模糊草图。因此，那些待生成区域会显示粗糙的结构。

理由 2：其 UI 表明，图像是从顶部到底部生成的。Sangyun Lee 曾在自己的研究中尝试过底部到顶部的顺序。

Sangyun Lee 猜想到，这样的分组模式下，高 NFE（函数评估数量）区域的 FID 会更好一些。但在他研究发现这一点时，他只是认为这是个 bug，而非特性。但现在情况不一样了，人们都在研究测试时计算。

最后，他得出结论说：「因此，这是一种介于扩散和自回归模型之间的模型。事实上，通过设置 num_groups=num_pixels，你甚至可以恢复自回归！」

另外也有其他一些研究者给出了类似的判断：

如果你对这一猜想感兴趣，可以参看以下论文：

Rolling Diffusion Models，arXiv:2402.09470；
Sequential Data Generation with Groupwise Diffusion Process， arXiv:2310.01400
Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model，arXiv:2408.11039

猜想二：非扩散的自回归生成

使用过 GPT-4o 的都知道，其在生成图像的过程中总是先出现上半部分，然后才生成完整的图像。

Moonpig 公司 AI 主管 Peter Gostev 认为，GPT-4o 是采用从图像的顶部流 token 开始生成图像的，就像文本生成方式一样。

来源：https://www.linkedin.com/feed/update/urn:li:activity:7311176227078172674/

Gostev 表示，与传统的图像生成模型相比，GPT-4o 图像生成的关键区别在于它是一个自回归模型。这意味着它会像生成文本一样，按顺序逐个流式传输图像 token。相比之下，基于扩散过程的模型（例如 Midjourney、DALL-E、Stable Diffusion）通常是从噪声到清晰图像一次性完成转换。

这种自回归模型的主要优势在于，模型不需要一次性生成整个全局图像。相反，它可以通过以下方式来生成图像：

利用其模型权重中嵌入的通用知识；
通过按顺序流式传输 token 来更连贯地生成图像。

更进一步的，Gostev 认为，如果你使用 ChatGPT 并点击检查（Inspect），然后在浏览器中导航到网络（Network）标签，就可以监控浏览器与服务器之间的流量。这让你能够查看 ChatGPT 在图像生成过程中发送的中间图像，从而获得一些有价值的线索。

Gostev 给出了一些初步的观察结果（可能并不完整）：

图像是从上到下生成的；
这个过程确实涉及流 token，与扩散方法截然不同；
从一开始，就可以看到图像的大致轮廓；
先前生成的像素在生成过程中可能会发生显著变化；
这可能表明模型采用了某种连贯性优化，尤其是在接近完成阶段时更加明显。

最后，Gostev 表示还有一些无法直接从图像中看到的额外观察结果：

对于简单的图像生成，GPT-4o 速度要快得多，通常只有一个中间图像，而不是多个。这可能暗示使用了推测解码或其他类似方法；
图像生成还具备背景移除功能，从目前的情况来说，最初 GPT-4o 生成图片会呈现一个假的棋盘格背景，直到最后才移除实际背景，这会略微降低图像质量。这似乎是一个额外的处理过程，而不是 GPT-4o 本身的功能。

开发者 @KeyTryer 也给出了自己的猜想。他说 4o 是一种自回归模型，通过多次通过来逐像素地生成图像，而不是像扩散模型那样执行去噪步骤。

而这种能力本身就是 GPT-4o LLM 神经网络的一部分。理论上讲，它能够比扩散系统更好地掌握它们正在操作的概念，而扩散系统只是对随机噪声的一种猜测。

GPT-4o 还能够使用 LLM「知道」的信息来生成图像。也因此，它们具有更好的泛化能力，能够使用多条消息进行上下文学习，通过特定的编辑输出相同（或非常接近）的结果，并且具有广义的空间和场景感。

芬兰赫尔辛基的大学副教授 Luigi Acerbi 也指出，GPT-4o 基本就只是使用 Transformer 来预测下一个 token，并且其原生图像生成能力一开始就有，只是一直以来都没有公开发布。

不过，Acerbi 教授也提到，OpenAI 可能使用了扩散模型或或一些修饰模型来为 GPT-4o 生成的图像执行一些清理或添加小细节。

GPT-4o 原生图像生成功能究竟是如何实现的？这一点终究还得等待 OpenAI 自己来揭秘。对此，你有什么自己的猜想呢？

参考链接

https://x.com/karminski3/status/1905765848423211237

https://x.com/iScienceLuvr/status/1905730169631080564

https://x.com/AcerbiLuigi/status/1904793122015522922

https://x.com/Hesamation/status/1905762746056278278

https://x.com/jie_liu1/status/1905761704195346680

#BGTriangle

从照片重建3D矢量，告别模糊渲染，重建边缘更清晰

三维高斯泼溅（3D Gaussian Splatting, 3DGS）技术基于高斯分布的概率模型叠加来表征场景，但其重建结果在几何和纹理边界处往往存在模糊问题。这种模糊效应会随着重建过程中不确定性的累积而愈发显著。如图 1 所示，通过提高渲染分辨率可以明显观察到这种边界模糊现象。

图 1：BG-Triangle 的样例结果展示和对比

针对这一技术瓶颈，由比利时鲁汶大学吴旻烨与上海科技大学戴海钊等研究人员组成的团队在 CVPR 2025 上提出了创新性的解决方案 ——Bézier Gaussian Triangle（BG-Triangle）三维表征方法。该方法巧妙融合了 Bézier 三角形的矢量图形特性与高斯概率模型，不仅实现了 3D 场景的精确重建，还支持分辨率无关的可微渲染。通过引入不连续感知渲染技术，BG-Triangle 有效降低了物体边界的不确定性，从而获得更加锐利的渲染效果。与现有算法相比，该方法还具有参数量更少的显著优势。

论文题目：BG-Triangle: Bézier Gaussian Triangle for 3D Vectorization and Rendering
作者：吴旻烨、戴海钊、姚凯欣、Tinne Tuytelaars、虞晶怡
论文链接：https://arxiv.org/abs/2503.13961
项目主页和代码：https://wuminye.github.io/projects/BGTriangle/

背景介绍

在计算机图形学和 3D 计算机视觉的发展过程中，场景表示经历了从传统的离散几何表示到连续表示的演变。

早期，网格（meshes）、点云（point clouds）和体素（voxels）等传统方法被广泛应用于 3D 重建和渲染。这些方法能显式地精确建模场景，但难以实现基于图片的端到端的重建优化。

辐射场（Radiance Fields）这种 3D 表征的兴起，使得可微渲染（differentiable rendering）更加灵活，优化算法能够直接基于渲染图像的误差来更新 3D 表示。

Neural Radiance Fields (NeRF) 通过神经网络隐式编码辐射场和密度场，实现了高质量的新视角合成，但由于其连续体积表示的特性，难以精确捕捉物体的边界和几何细节。

随后，3D Gaussian Splatting (3DGS) 通过显式的高斯点云表示，提高了渲染效率和准确性，并利用连续的高斯分布实现了灵活的表征优化，适用于复杂场景的建模。

然而，这些方法在处理物体的锐利边缘时仍然存在局限性，尤其是在近距离观察时，由于渐变分布的叠加容易出现模糊或过渡不清的现象。

因此，本研究提出了一种介于离散和连续之间的三维混合表示方法，在可微渲染的框架下结合矢量图形和概率建模，利用矢量表达的灵活高效性以更少的图元数量实现更精确的几何和边界建模，为 3D 场景表示提供了一种新的解决方案。

基本原理

1. 基本元素：BG-Triangle 图元

BG-Triangle 是一种融合了贝塞尔三角形与 3D 高斯模型的场景表征方法。该方法将每个贝塞尔三角形视为一个图元，通过一组控制点参数化定义场景的局部曲面区域。作为显式几何表示，贝塞尔三角形能够清晰确定渲染视角下的图元轮廓范围。此外，通过灵活调整控制点位置，可以生成不同弯曲程度的曲面和边界。

图 2：贝塞尔三角图元通过控制点来改变几何形状

BG-Triangle 图元还编码了高斯的参数属性，包括形状、大小和颜色等信息。利用这些属性，可以在图元内自由生成用于渲染的高斯分布。这些高斯的位置与控制点相绑定，从而使图元具备可微特性。

图 3：贝塞尔三角形图元中编码的参数属性可以构造生成出任意一点的高斯分布的形状和颜色

2. 不连续感知渲染

高斯虽然提供了可微的性质，但是其连续的分布无法表达不连续的纹理和几何边界。为此，研究者们使用贝塞尔三角形的渲染轮廓来对高斯的分布进行约束。具体来说，渲染算法会重新计算轮廓边界（图中的白色实线）周围区域（图中虚线之间的区域）的高斯权重，从而降低高斯分布对图元外部区域的影响效果。

图 4：BG-Triangle 使用图元的边界对高斯重新计算权重

通过调整边界宽度（即两条虚线之间的距离），可以精确控制渲染效果的锐利程度，实现不连续的边界渲染效果。

图 5：调整边界的宽度可以控制边界的锐利程度。当使用极小边界宽度时，就型成了不连续的高斯权重

3. 渲染管线与重建优化

图 6：BG-Triangle 的渲染管线

BG-Triangle 的渲染管线分为两个部分。第一部分将图元渲染为目标视角下的图形缓冲区，该缓冲区包含非连续感知渲染所需的信息。这一部分可通过现有的图形光栅化管线实现。第二部分利用缓冲区信息生成像素对齐的高斯分布，并根据边界进行渲染。在此过程中，梯度通过第二部分的高斯生成模块直接传递到贝塞尔三角形图元上。具体的梯度公式推导详见原文附件，供感兴趣的读者参考。

在实现过程中，研究者首先使用粗糙的点云初始化图元位置，随后通过动态分裂和删除算法在优化过程中调整图元数量，以适应不同复杂度的场景。这种设计使得信息量较少的区域仅需少量图元即可表达，从而显著提升了信息利用效率。

图 7：组成场景的图元边界示意图。不同区域使用不同大小的图元进行自适应的表示。

实验结果

实验结果表明，BG-Triangle 在边界清晰度和参数效率方面表现优越。相比 3D Gaussian Splatting（3DGS）、Mip-Splatting、Mini-Splatting 和 Scaffold-GS，能以极少的图元数量实现更高质量的渲染。在相似参数规模下，BG-Triangle 在 LPIPS 评分（感知质量）上显著优于其他方法，且在放大渲染中仍可保持清晰的物体边界，而 3DGS 及相关方法在近距离观察时会产生模糊或伪影。

同时，通过对贝塞尔三角形矢量线段的提取，可以组成三维的线条，用于描述场景的几何特征，如图所示：

研究者们在 CUDA 中高效地实现了本文的算法，达成了实时渲染的效果。并且在 NVIDIA 3090GPU 单卡上可以半小时左右完成场景的重建。

结论

这篇研究创新性地提出了一种基于贝塞尔三角形矢量曲面的三维场景表征方法，并提供了一种有效的端到端的可微渲染和训练框架。

在渲染质量上，BG-Triangle 能够保留锐利的边界，比 3DGS 具有更好的几何精度。同时，BG-Triangle 使用更少的图元，在参数效率和渲染清晰度之间达到了更好的平衡。

BG-Triangle 在较小的参数量下有渲染质量优势，尤其是在感知质量（LPIPS 评价）上优势显著。

#从「拼能力」到「拼盈利」，AI 视频生成赛道的格局已经变了？

在 AI 视频生成的热度被引爆一年后，该赛道已经从「实现视频生成能力」转向「比拼盈利能力」的阶段。至此，Sora 在 AI 视频生成赛道似乎已失去「霸主」地位，而在 2024 年至今涌入的玩家似乎要开始瓜分蛋糕了。

01. AI 视频生成赛道进入「抢蛋糕」阶段了？

视频生成赛道开始比拼盈利能力了？赛道变化的转折点在哪？...

02. AI 视频生成赛道的玩家都有哪些盈利手段？

国内外厂商如何收费？各家模型靠什么让用户付费？...

03. 视频生成模型还需在哪些层面加强？未来的视频生成模型要补足哪些能力?近期都有哪些视频生成模型的改进成果？...

01 AI 视频生成赛道进入「抢蛋糕」阶段了？

1、OpenAI 在 2024 年 2 月发布的 Sora 引起了 AI 视频生成赛道的热潮，国内创企、大厂陆续涌入战局，这些玩家的模型/产品在视频生成的时长、质感、效率上直逼 Sora，也让其「霸主」地位开始动摇。

2、根据 a16z 最新一期的 Top100 AI 应用榜单，AI 视频生成工具过去的六个月时间里在质量和可控性方面取得了重要进展，且这类工具相较于其他人气更高的生成式 AI 产品更有机会吸引用户为其付费。（详见 Pro 会员通讯 2025 Week 12 期）

① 基于该榜单，a16z 发现，最受欢迎的应用并不一定能带来最多的收入。即便通用性较差，但更图片/视频编辑、视觉美化工具、类 ChatGPT 山寨产品、图像/视频生成工具等应用的收入更高。

② 海螺、Kling 和 Sora 三款 AI 视频生成应用首次进入了网页端榜单，且海螺和 Kling 的用户访问量均超过了 Sora（截止至 2025 年 1 月数据）。

3、这些 AI 视频生成工具的收费策略大同小异，涵盖按用量付费、会员订阅、免费基础版+增值付费功能、企业定制化或多策略组合。

4、将赛道推向「检验盈利能力」阶段的转折点在于近期 Sora 付费策略的调整。OpenAI 在 2025 年 3 月下旬取消了付费用户的 credit 限制，现在所有 Plus 和 Pro 用户均可生成无限量的视频，但该策略调整后并没有让所有用户买账。

① X 和 Reddit 等社交平台中许多用户在 OpenAI 放出该消息后，表示即便如此也并不打算使用 Sora，他们更倾向于使用效果更好的 Veo 2 或是开源的万象 Wan2.1。

② 也有用户指出 OpenAI 接触 credit 限制的原因也是因为没有人愿意使用 Sora，并且对调整后的 sora 仍非完整版表示失望。

③ 此前，OpenAI 在 2024 年 12 月发布 Sora 服务后，也因视频生成效果差强人意而收到许多差评。

5、在此趋势下，网友在提及更愿意使用或为之付费的视频生成模型和产品时，更多提及了 Meta 的 Emu、谷歌的 Veo 2、阿里的 Wan 2.1 和快手的 Kling 1.6 等。这些模型在生成效果、时长等方面均追上了 Sora，甚至实现超越。

表：国内外头部视频生成平台收费策略汇总[2-5] -[2-19]

02 AI 视频生成赛道的玩家都有哪些盈利手段？

1、在 AI 视频生成赛道爆火后，先后入局的玩家已开始凭借各自产品的优势和特征吸引个人创作者、广告工作室、电商博主或影视行业用户为其付费...

#被吉卜力刷屏的背后

OpenAI模型行为负责人揭秘GPT-4o新生成策略

为什么我们会被吉卜力刷屏？原来是 OpenAI 故意放宽限制。

最近几天，OpenAI 革新的 GPT-4o 图像功能给大家带来了不少乐趣，各路社交媒体都被「吉卜力」风格的图像、视频刷了屏。还尝试了制作了《甄嬛传》的名场面（视频如下，制作方法参见《GPT-4o 整活！3 个小时、6 个镜头重现吉卜力版《甄嬛传》名场面》）。

其实，除了效果的大幅提升，这次 GPT-4o 更新还有一个值得关注的变化 —— 内容限制似乎比以前少了很多，很多公众人物 —— 如马斯克、特朗普 —— 现在都可以生成。而之前，模型会直接拒绝这类请求。

图源：https://x.com/morganlinton/status/1905081523768095049/photo/1

GPT-4o 生成的雷军相关图像。

为什么会发生这种变化？昨晚，OpenAI 的模型行为负责人 Joanne Jang 发文做出了解释。

她表示：

OpenAI 正从敏感领域的全面拒绝转向更精确的方法，专注于防止现实世界的伤害。目标是保持谦逊：认识到我们不知道的有多少，并让自己能够随着学习而适应。

图像有一种独特而强大的震撼力；它们能带来无与伦比的愉悦和冲击。与文本不同，图像超越语言障碍，唤起各种情感反应。它们能立即阐明复杂的想法。

正因为图像具有如此大的影响力，我们在制定政策和行为方面感到比其他发布更重的责任。

当涉及到发布新功能时，我们的观点已经在多次发布中演变：

1. 相信用户的创造力胜过我们自己的假设。 AI 实验室员工不应该成为决定人们应该或不应该创造什么的仲裁者。发布后我们总是感到谦卑，发现了我们从未想象过的使用案例 —— 甚至有些事后看来如此明显，但由于我们视角有限而没有想到。

2. 清晰地看到风险，但不要忽视对用户的日常价值。专注于潜在危害很容易，广泛的限制总是感觉最安全（也最容易！）。我们经常发现自己在质疑，「当同样的梗图可能被用来冒犯或伤害人们时，我们真的需要更好的梗图功能吗？」。但我认为这种框架本身就有缺陷。它暗示着细微的、日常的好处必须在假设的最坏情况下证明自己，而这种情况低估了这些快乐、幽默和联系的小时刻如何真正改善人们的生活。

3. 重视未知、无法想象的可能性。也许是由于我们对损失厌恶的认知偏见，我们很少考虑不作为的负面影响；有些人称之为「无形的墓地」，尽管这有点太阴暗和极端。新功能解锁的二阶或间接影响：所有那些因为我们害怕最坏情况而从未实现的积极互动、创新和想法现在可以实现了。

应对这些挑战很困难，但我们的目标是最大限度地发挥创造自由，同时防止真正的伤害。

公众人物：我们知道处理公众人物可能很棘手 —— 尤其是当新闻、讽刺和被描绘人物的利益之间的界限变得模糊时。我们希望我们的政策公平平等地适用于每个人，无论他们的「地位」如何。但我们决定不做「谁足够重要」的裁判，而是创建一个选择退出列表，让任何可能被我们的模型描绘的人自己决定。

「冒犯性」内容：当涉及到「冒犯性」内容时，我们推动自己反思任何不适是源于我们的个人意见或偏好，还是源于对现实世界造成伤害的可能性。在没有明确指导方针的情况下，模型以前会拒绝诸如「让这个人的眼睛看起来更亚洲化」或「让这个人更胖」的请求，无意中暗示这些特征本身就是冒犯性的。

……