51c大模型~合集87

我自己的原文哦~    https://blog.51cto.com/whaosoft/12792295

#AMOR

智能体不够聪明怎么办?清华&蚂蚁团队:让它像学徒一样持续学习

此项研究成果已被 NeurIPS 2024 录用。该论文的第一作者是清华大学计算机系博士生关健(导师:黄民烈教授),目前任蚂蚁研究院副研究员,其主要研究领域为文本生成、复杂推理和偏好对齐。

随着 ChatGPT 掀起的 AI 浪潮进入第三年,人工智能体(AI Agent)作为大语言模型(LLM)落地应用的关键载体,正受到学术界和产业界的持续关注。实际上,早在 5-6 年前,预训练技术就已经在许多实际任务中取得了显著成果。但 AI Agent 之所以在当下备受瞩目,更多地源于其在自动解决复杂任务方面展现出的巨大潜力,而这种潜力的核心基石正是智能体的复杂推理能力。

与当下广受关注的 OpenAI-o1 及其追随者略有不同,大多数实用的 AI Agent 往往需要在特定场景下发挥作用。这种情况类似于普通人类:虽然不是每个人都需要具备获得 IMO 金牌的数学素养,但在具体场景下利用特定知识和工具完成复杂任务(例如使用搜索引擎、处理私有文档等)的能力却是不可或缺的。这一特点也意味着 AI Agent 的开发者们需要一套既通用又高效的 Agent 构建方法论。

更具挑战性的是,作为面向实际应用的产品,AI Agent 在部署后还需要能够随着应用场景的演进和用户需求的变化而不断更新优化。这些实际问题都表明,构建一个真正实用的 AI Agent 绝非简单的提示工程(Prompt Engineering)或模型微调(Fine-tuning)所能解决,而是需要更系统化的方法。

在 NeurIPS 2024 上,来自清华大学和蚂蚁集团的研究者针对人工智能体构建方法的通用性和适应性提出了一个新方案。这个被命名为 AMOR(Adaptable MOdulaR knowledge agent)的系统,不仅能低成本地调用专业工具和知识库,更重要的是,它能像人类一样持续学习和成长。

  • 论文标题:AMOR: A Recipe for Building Adaptable Modular Knowledge Agents Through Process Feedback
  • 论文地址:https://arxiv.org/abs/2402.01469
  • 作者主页:https://jianguanthu.github.io/

AI Agent 的「三大短板」:为什么它们还不够「聪明」?

想让 AI Agent 真正胜任助手角色,仅有海量知识是远远不够的。研究团队通过深入分析发现,当前 AI Agent 普遍存在三大短板:

  • 「黑盒思维」:与优秀人类助手能清晰展示解题思路不同,AI Agent 的推理过程往往是个黑箱,我们根本无从得知它是如何得出结论的。
  • 「固步自封」:AI Agent 就像被困在训练时刻的「永恒现在」,无法像人类那样与时俱进,持续获取新能力、更新认知。
  • 「粗放纠错」:当 AI Agent 犯错时,我们只能笼统地说「答案不对」,而无法像指导学生那样,精确指出「这一步推理有问题」。

更令人困扰的是,目前业界主流方案都未能同时解决这三大难题。作者对比了当前最具代表性的 AI Agent 框架,它们要么推理过程不可控,要么知识固化,要么反馈机制过于粗糙。这一困境在开源模型中表现得尤为明显。

图片

AMOR 和已有构建智能体的代表性方法的比较

AMOR:基于有限状态机的模块化推理方案

如何让 AI Agent 既能像专家一样严谨思考,又能像学徒一样持续成长?AMOR 框架给出了一个优雅的答案:将复杂的 AI 推理过程拆解成可控的「专家模块」,通过有限状态机(FSM)编排它们的协作规则,就像精密的齿轮系统一样,每个部件都完美啮合。 

图片

AMOR 的状态转移图

这种设计带来三大关键优势:

1. 结构化推理框架

FSM 使得定义步骤间的依赖关系(例如,执行顺序、分支选择)非常方便,因此能够容易地对错误的路径进行剪枝,从而缩小探索空间,也有潜力更高效地构建类 OpenAI-O1 的长推理链。

2. 「双阶段」训练策略

通过将复杂任务解耦为独立模块,AMOR 能够独立训练每个模块,从而可以充分利用开源数据集。具体而言,AMOR 采用「预热 + 适应」两阶段训练模式:

  • 快速起步 - 预热阶段:就像新员工入职培训,AMOR 通过在 5 万个自动构建的样本上训练掌握基础技能。这些样本被巧妙地分解到各个模块,使得即便是开源语言模型也能快速达到专业水准。
  • 持续进化 - 适应阶段:像经验丰富的职场人一样,AMOR 在实际工作中不断成长。每解决一个问题,它就能积累一分经验,逐步适应特定领域的专业需求。

3. 过程反馈机制

传统 AI 训练就像只告诉学生「考试及格 / 不及格」,而不指出具体错在哪里。这种粗糙的反馈机制常常导致 AI 像「黑盒」一样难以诊断问题,训练效果事倍功半。而 AMOR 引入「过程反馈」机制,在适应训练阶段中,其结构化的推理过程使用户能够轻松诊断智能体的错误,并提供过程反馈以提高智能体的推理能力。

4. 框架通用性

AMOR 框架的设计充分考虑了通用性和可扩展性。虽然论文主要以文本知识库为例进行验证,但其基于 FSM 的模块化设计天然支持多种应用场景的迁移和扩展:

  • 知识类型扩展:通过定制 FSM 框架内的模块和依赖关系,AMOR 可以灵活支持不同类型的知识库,如结构化数据库、多模态知识等。
  • 任务类型扩展:除了问答任务外,通过重新设计状态转移图,AMOR 还可以支持其他知识密集型任务,如文档摘要、知识推理等。
  • 工具集成扩展:得益于模块化设计,AMOR 可以方便地集成各类专业工具。只需将新工具封装为对应的工具模块,并在 FSM 中定义其调用规则即可。

这种可扩展的架构设计使得 AMOR 不仅能够解决当前的知识推理任务,更为未来接入新的知识源、任务类型和工具能力预留了充足的扩展空间。正如论文所述,AMOR 提供了一个构建知识智能体的通用框架,其核心思想是基于 FSM 的推理逻辑和过程反馈机制,这使得它能够适应各种不同的应用场景需求。

AMOR 实现:模型结构和训练过程

AMOR 采用了一种巧妙的「专家混合」架构(Module-Aware Mixture-of-Experts,简称 MA-MoE)。这种设计灵感来自人类的专业分工:就像一个人可以是优秀的医生,同时在其他领域保持基本能力。具体来说,MA-MoE 为每个功能模块配备了独特的 FFN 参数,并用原始模型的 FFN 参数进行初始化。这就像是在 AI 的「大脑」中划分了专门的「思维区域」。

  • 在预热阶段,AMOR 用标准的 MLE Loss 在 5 万个样本上对 MA-MoE 进行微调。
  • 在适应阶段,AMOR 的训练过程分为三个关键步骤:探索、反馈和利用。

图片

  • 探索(Exploration):就像学徒需要亲自动手实践,AMOR 会直接处理用户的实际问题。在这个过程中,AMOR 在知识库中搜索相关信息,进行思考和推理,并推断答案。
  • 反馈(Feedback Collection):这个阶段就像师傅在旁边观察学徒的工作,并给出具体指导,可以直接说「对」或「错」,也可以具体指出正确答案,并且 AMOR 的每个推理步骤都能得到反馈。
  • 利用(Exploitation):每处理一定数量的问题后,AMOR 会根据收集到的反馈进行「复盘」,使用 KTO Loss 将 MA-MoE 和人类偏好对齐。和预热阶段类似,AMOR 的每个模块在优化时只调整自己的「专业参数」。

AMOR 实验:成本更低,效果更好

在 HotpotQA(百科知识问答)、PubMedQA(医学文献问答)和 QASPER(论文长文本问答)三个基准测试中,AMOR 展现出优秀的性能:

  • AMOR 的 FSM 框架让 AI 的推理过程更加清晰可控,比传统方法提升 30%~40%;
  • 通过在多个开源数据集上预热,AMOR 甚至超越了用 GPT-4 生成训练数据的智能体;
  • 使用过程反馈比结果反馈进行适应更高效:仅需 800 次互动就能达到稳定效果,并且证据收集能力和推理正确率显著提升。

图片

AMOR 及基线方法在微调或不微调时的实验结果

实例展示

下图比较了 AMOR 和传统的 ReAct 框架(基于 GPT-3.5)分别回答同一问题的推理过程:

图片

图片

AMOR(上)和 ReAct(下)回答同一输入问题的样例

如图所示,没有明确推理逻辑约束的 ReAct 未能成功分解问题,并在「Thought/Action 5」 中过早地终止检索。此外,ReAct 在「Thought 2/4/5」中也混合了正确和错误的步骤,这使得用户难以针对性地批评和改进智能体。相比之下,AMOR 则如同经验丰富的专家,每一步推理都清晰可控,不仅能准确找到答案,还能接受精确的过程指导,持续提升自己的能力。

成本分析

在 AI 领域,性能提升往往意味着更高的成本。然而,如下图所示,AMOR 打破了这个「魔咒」。

图片

 不同智能体的平均步骤数 /token 数对比

为什么 AMOR 如此高效?想象一个团队会议:传统方法(如 ReAct)像是每个人发言都要重复之前所有人说过的话;AMOR 则像是精心设计的会议流程:每个环节只传递必要信息。按照目前 API 调用成本计算,使用 GPT-4o 处理 1 万个问题,AMOR 比 ReAct 节省数百美元;当使用开源模型时,成本可以进一步降低 90% 以上。这意味着 AMOR 不仅在性能上领先,在商业落地时也具有显著的成本优势。尤其适合大规模文档处理、客服智能问答、专业领域咨询等高频场景的应用。

结语

本文介绍了 AMOR—— 一个为知识密集型任务设计的模块化智能体框架。它通过 FSM 推理系统和过程反馈机制,让 AI 展现出前所未有的推理能力和学习潜力。AMOR 的成功为 AI 助手的发展开辟了新路径。作者表示,接下来,他们将拓展到更多知识类型(如结构化知识库)、探索更广泛的应用场景、研究 AI 自主设计推理逻辑的可能性。这些工作预示着我们正在接近真正的「AI 专家」:既有清晰的推理能力,又能在实践中持续成长。

#MLLA

从线性注意力视角揭秘视觉Mamba,清华、阿里合作提出全新MILA模型

论文第一作者为清华大学自动化系博士生韩东辰,指导老师为黄高副教授。他的主要研究方向包括高效模型架构设计、多模态大模型等。

Mamba 是一种具有线性计算复杂度的状态空间模型,它能够以线性计算复杂度实现对输入序列的有效建模,在近几个月受到了广泛的关注。

本文给出了一个十分有趣的发现:强大的 Mamba 模型与通常被认为性能不佳的线性注意力有着内在的相似性:本文用统一的公式表述了 Mamba 中的核心模块状态空间模型(SSM)和线性注意力,揭示了二者之间的密切联系,并探究了是哪些特殊的属性和设计导致了 Mamba 的成功。

实验结果表明,等效遗忘门和宏观结构设计是 Mamba 成功的关键因素。本文通过分析自然地提出了一个新的模型结构:Mamba-Inspired Linear Attention(MILA),它同时继承了 Mamba 和线性注意力的优点,在各种视觉任务中表现出超越现有的视觉 Mamba 模型的精度,同时保持了线性注意力优越的并行计算与高推理速度。

  • 论文链接:https://arxiv.org/abs/2405.16605
  • 代码链接:https://github.com/LeapLabTHU/MLLA
  • 视频讲解:https://www.bilibili.com/video/BV1NYzAYxEbZ

最近,以 Mamba 为例的状态空间模型引起了广泛的研究兴趣。不同于 Transformer 的平方复杂度,Mamba 模型能够以线性复杂度实现有效的序列建模,在长文本、高分辨率图像、视频等长序列建模和生成领域表现出很大的潜力。

然而,Mamba 并不是第一个实现线性复杂度全局建模的模型。早期的线性注意力使用线性归一化代替 Softmax 注意力中的 Softmax 操作,将计算顺序从 (QK) V 更改为 Q (KV) ,从而将计算复杂度降低为线性。然而,之前的许多工作表明线性注意的表达能力不足,难以取得令人满意的效果。

令人惊讶的是,本文发现高性能的 Mamba 和表达能力不足的线性注意力的公式之间存在深层次的关联。因此,一个引人思考的研究问题是:是什么因素导致了 Mamba 的成功和它相较于线性注意力的显著优势?

从这个问题出发,本文在以下几个方面进行了探索:

1. 揭示了 Mamba 与 Linear Attention Transformer 之间的关系:Mamba 和 Linear Attention Transformer 可以使用统一的公式表示。进一步地,Mamba 可以视为具有若干特殊设计的线性注意力,其特殊设计为:输入门 (input gate)、遗忘门 (forget gate)、快捷连接 (shortcut)、无注意力的归一化、single-head 和更先进的宏观架构。

2. 实验证明,遗忘门和宏观架构很大程度上是 Mamba 性能成功的关键。然而,遗忘门会导致循环计算,可能并不适合视觉模型。本文发现,适当的位置编码能够在视觉任务中替代遗忘门的作用,同时保持并行计算和快速的推理。

3. 提出了一系列名为 MILA 的 Linear Attention Transformer 模型,它引入了 Mamba 的设计思想,并且比原始 Mamba 模型更适合视觉任务。

一、线性注意力与状态空间模型回顾

本文首先简略回顾线性注意力和状态空间模型的数学表达。本部分公式较多,详细推导请参考论文或视频讲解。

1. 线性注意力

对于输入序列

图片

,单头线性注意力可以表达为:

图片

可以看到,线性注意力通过先计算 K 和 V 的乘积,将计算复杂度降低到

图片

。上式中,每个 Q 拥有全局感受野,可以与所有的 K、V 进行信息交互。实际应用中,线性注意力也可以应用在自回归的模型中,限制每个 token 只能与之前的 token 进行信息交互:

图片

这种因果的线性注意力范式可以进一步写成循环形式:

图片

2. 状态空间模型

对于实数序列输入

图片

,Mamba 所采用的状态空间模型可以表达为:

图片

为了方便后续推导,此处对上式进行了 3 处数学表达上的等价变形,具体请参考原论文。等价变形后得到的公式为:

图片

对于向量序列输入

图片

,Mamba 会在每个维度分别应用上式的实数输入 SSM,从而得到下面状态空间模型:

图片

值得注意的是,上式严格等价于 Mamba 所进行的 SSM 操作,这里仅仅进行了数学表达形式上的等价变换。

二、Mamba 与线性注意力关系解析

对于输入序列

图片

,Mamba 与线性注意力的公式之间有许多相似之处。为了便于比较,本文将二者使用相同的公式进行表达:

以下是上述两个公式的示意图:

图片

图 1:Mamba 与线性注意力操作示意图

从公式和示意图可以看到,Mamba 的 SSM 操作与线性注意力有深刻的联系。具体来说,SSM 中的 C 类似于线性注意力中的 Q,B 类似于 K^T ,x 类似于 V ,h 类似于 S。因此,Mamba 和线性注意力有着非常密切的关系,Mamba 可以被认为是一种特殊的线性注意力。此外,基于公式和示意图中还可以发现二者的几个不同点:

(1) 在 Mamba 中,

图片

会与

图片

逐位相乘。由于

图片

是每一位严格大于零的向量,因此可将其视为一个等效的输入门,可以控制

图片

输入 SSM 的比例。

(2) 在 Mamba 中,有额外的

图片

图片

逐位相乘。在 Mamba 的实现中,

图片

每一位都是 0 到 1 之间的实数,因此

图片

实际控制对于之前的状态空间

图片

的衰减程度,因此可将其理解为等效的遗忘门。

(3) Mamba 中,有一个额外的可学习的 shortcut,

图片

(4) 线性注意力中,有一个保证注意力之和为 1 的归一化分母

图片

,Mamba 中没有这样的归一化。

除此之外,该图和公式中的线性注意力都是单头设计,因为仅有一组 Q 和 K。所以可以认为 Mamba 等效于单头线性注意力,而没有采用多头设计(即多组 Q 和 K)。进一步,除了核心操作不同之外,Mamba 和传统的线性注意力模型在宏观结构上也有区别。二者的宏观结构如下图,Mamba 采用比较符合的结构,包含线性层、卷积、SSM 等。

图片

图 2:线性注意力模型、Mamba 和 MILA 的宏观模型架构

总而言之,Mamba 可以视为具有 6 种特殊设计的线性注意力模型,其特殊设计为:输入门、遗忘门、shortcut、无注意力归一化、单头设计、更先进的宏观结构。

三、实验

Mamba 被视为 Transformer 的一种有力挑战者,而线性注意力通常性能不佳。在之前的分析中,本文发现这两种性能差距很大的模型具有深刻的相似性,并指出了他们之间的 6 个不同设计。接下来,本文通过实验来验证究竟是哪些设计导致了二者之间如此大的性能差距。

1. 核心验证实验

本文使用线性注意力作为 baseline 模型,在其基础上引入每一个不同设计,并在 ImageNet 上实验验证模型性能的变化。结果如下图所示:

图片

图 3:每个不同设计的影响

可以看到,Mamba 的等效遗忘门和宏观设计对于模型性能最为关键,而其他设计影响不大或者不如线性注意力。同时,本文发现,由于遗忘门必须采用循环计算,引入遗忘门使得模型推理速度明显下降。遗忘门带来的循环计算对于语言模型等自回归模型是合适的,因为模型在推理时本来就需要不断自回归循环计算。然而,这种模式对于图像等非因果并不自然,因为它不仅限制了模型的感受野,还极大降低了模型的推理速度。本文发现,在视觉任务中,适当的位置编码能够引入类似遗忘门的位置信息,同时保持全局感受野、并行计算和更快的推理速度。

图片

图 4:在视觉模型中用位置编码代替遗忘门

2. MILA 模型

基于以上分析和验证,本文将 Mamba 和线性注意力的优秀设计结合起来,将 Mamba 的两项核心设计的精髓引入线性注意力,构建了 Mamba-Inspired Linear Attention (MILA) 模型。MILA 能够以线性复杂度实现全局建模,同时享有并行计算和更快的推理速度,在多种视觉任务上都取得了优于各类视觉 Mamba 模型的效果。以下是一些实验结果:

图片

图 5:ImageNet 分类实验

图片

图 6:模型推理速度和性能的 Trade-off

图片

图 7:高分辨率下游任务 —— 物体检测

四、总结

(1) Mamba 可以视为具有若干特殊设计的线性注意力,其特殊设计为:输入门 (input gate)、遗忘门 (forget gate)、快捷连接 (shortcut)、无注意力的归一化、单头设计 (single-head) 和更先进的宏观架构。

(2) 实验证明,遗忘门和宏观架构很大程度上是 Mamba 性能成功的关键。然而,遗忘门会导致循环计算,可能并不适合视觉模型。本文发现,适当的位置编码在视觉任务中替代遗忘门的作用,同时保持并行计算和快速的推理。

(3) 本文提出了一系列名为 MILA 的 Linear Attention Transformer 模型,它继承了 Mamba 的核心优点,并且比原始 Mamba 模型更适合视觉任务。

#Sora火爆上线系统秒瘫

奥特曼直播第三更网友震翻!20秒1080p拍大片再近AGI

「鸽」了整整一年的Sora,终于上线了!OpenAI 20分钟的演示展示了视频二合一等多项炸裂的新功能。奥特曼直言:Sora是AGI路线图上的重要里程碑。现在系统已经被网友们挤爆了,新用户间歇性暂停注册。

OpenAI直播第三弹,Sora终于现身了!

才一上线,网页就已经瞬间挤爆。现在,所有新用户注册已经紧急暂停(不定期)。

奥特曼与Sora团队负责人Bill Peebles、研究副总Aditya Ramesh,以及Rohan Sahai、Joey Flynn开启了短短20分钟的在线直播。

相较于2月的原版Sora,他们今天带来了更高级的加速版Sora Turbo。

Sora能生成任意长宽比的视频,分辨率从480p到1080p,时长从5秒到20秒,还可以一次生成多个方向的视频版本,让我们选择其中最理想的一个。

包括文本到视频、图像到视频、视频到视频的功能。

这次,OpenAI着重介绍了Sora的几项功能:Remix(重混)、Re-cut(重新剪辑)、Storyboard(故事板)、Loop(循环)、Blend(混合)以及Style presets(风格预设)。

所有新功能一览:

图片

OpenAI专为Sora设计的全新UI

左右滑动查看

等了大半年,Sora终于不再只是艺术家们的工具,现在所有的ChatGPT Plus/Pro用户皆可使用。

唯一区别是,使用限制不同:Plus用户每个月有50次生成额度,Pro用户可以获得500次快速生成额度(如果选择的分辨率更高,则次数更少)或是无限次慢速生成额度。

奥特曼本人表示,对我来说,Sora最令人兴奋的一点是,它使得与他人共作变得如此容易。这感觉像是一个有趣的全新事物!

它就像视频领域的GPT-1,现在还处于初期阶段,但我已经觉得这个信息流非常吸引人。

Sora团队研究者自豪地表示,突破视觉生成的界限,就是在机器学习和人机交互方面取得突破。

诚如这条读者评论所言:Sora之所以令人激动,不止是因为我们现在在哪里;更重要的,是想象我们的前进方向。可以确信,我们正在经历一个不平凡的年代。

直播20分钟,全程高能

在Library中,我们可以查看视频的所有版本,通过几种不同的方式对此处的视图进行切片。

现场,几位工作人员给我们实测了一把Sora的文生视频功能。

在输入「长毛猛犸象走过沙漠景观」的prompt,等待一段时间后,四个视频就出现了,我们可以选择最理想的那个。

甚至,我们可以把猛犸象变成「机械猛犸」。

图片

只需要通过Remix描述希望视频怎样更改(无论是大的更改,还是希望背景中多一些风或者沙),接下来的工作就可以直接交给Sora。

故事版功能,可以让我们使用时间轴,在整个序列中产生一个包含多个动作的视频。

在其中,我们可以描述环境、角色、想要在特定点发生的动作。在prompt中我们写得越少,Sora就会填充得越多,反之亦然。

比如,我们想要一个美丽白鹤站在小溪里的场景。

在时间轴的开头,我们可以直接设置场景:开始白鹤站着,然后将头进入水中,捉出一条鱼。

在几组动作中,需要给Sora足够的时间来连接这些想法

可以看到,Sora非常准确地理解了研究者的想法。

我们还可以使用Re-cut,将其中的片段剪切到新的故事板中,在留白的地方创建其余的片段,比如一个结尾。

接下来是另一个功能。

上传一个灯塔的图像后,它被放入第一张卡片,然后Sora创建了一个全新的卡片。

厉害的地方来了!Sora已经看过了该图像,并且还添加进了关于我们希望图像怎样动的理解。

最终的视频生成效果果然非常好。

最后,研究者再给我们展示了一个大惊喜。

通过Blend功能,Sora甚至还能将两个场景完美地混到同一个视频中,可以理解为这某种维度上粉碎两个视频,然后组成一个新的。

研究者强调说,这是他此前在其他AI视频从未见过的功能!

比如,把猛犸象和机器象混合。

Sora功能全面介绍

足见,Sora具备了令人印象深刻的视频生成能力。

利用Sora,我们不仅可以制作分辨率最高1080p、时长最长 20 秒的各种格式视频,并且还可以通过文本生成新内容,或者增强、重混和融合自己的素材。

此外,通过「精选」和「最新」来查看社区的创作,也可以为自己的新想法提供灵感。

这款模型基于DALL·E和GPT模型丰富的经验而打造,可以为用户提供更强大的讲故事和创意表达工具。

与GPT模型类似,Sora使用Transformer架构,解锁了卓越的扩展性能。

此外,它采用了扩散模型技术,从看似静态噪声的基础视频开始,逐步去除噪声,最终生成完整视频。

值得注意的是,Sora解决了视频生成中的一个关键挑战——主体一致性。

通过让模型同时预测多个帧,确保即使主体暂时消失在视野之外,也能保持一致性。

在数据标注上,Sora核心秘密武器便是DALL·E 3——为视觉训练数据生成高度详细的描述性标注。

因此,训练后的Sora能够以前所未有的精度,遵循用户在生成视频时的文本指令。

Sora的能力远远超出了简单文生视频,它还能将静态图变身动画,添加细节。

它还可以扩展现有视频,或填充缺失的帧。

更令人兴奋地是,Sora作为理解和模拟真实世界的模型基础,被OpenAI视为迈向AGI的关键里程碑。

除了20分钟发布会上的内容,OpenAI在官网上,也放出了新功能的详细介绍和示例。​

Storyboard(故事板)

带有关键帧的时间轴,是Sora非常亮眼的新功能。在个人时间轴上,可以组织和编辑独特的视频序列。

注意:不要上传带人物的图像,否则无法生成视频

A vast redlandscape with adocked spaceship in the distance

广袤的红色星球景观中,一艘银光闪闪的宇宙飞船静静停靠在远处

Looking out frominside thespaceship, a spacecowboy standscenter frame

透过宇宙飞船的舷窗向外眺望,一位星际牛仔挺立在画面中央

Detailed close up view of astronaut'seyes framed by aknitted fabricmask

特写镜头下,宇航员深邃的双眼透过织物面罩的框架凝视着前方

Remix(重混)

这个功能,可以让我们替换、删除或重新想象视频中的元素。

比如,我们先生成一个场景——打开通向图书馆的大门。

然后,通过Remix把门更换成法式的门。

再把图书馆变成一艘宇宙飞船。

接着去掉宇宙飞船,加入丛林场景。

最后把丛林换成月球表面。​

Re-cut(重新剪辑)

这个功能,能让我们找到并且选中最佳帧,向任一方向延伸。

比如,选出这段「水獭玩球」视频中自己最心仪的那几帧,Sora可以生成在它之前或者之后的帧。​

Loop(循环)

通过这个功能,Sora可以修剪并创建无缝的重复视频。

Sora会在开头和结尾中添加大量帧,来将它们连接起来。

左右滑动查看​

Blend(混合)

通过这个功能,可以把两个完全不同的视频,融合为一个无缝剪辑。​

Style presets(风格预设)

这个功能,可以让我们充分发挥想象力,创建想要的风格。

比如原始视频,是两头猛犸象在雪地里走路的场景。

我们可以将它转换为纸工艺品风。

Earthy tones with muted pastels and pops of color. Soft, diffused lighting enhances handcrafted textures. Everything—characters, objects, and scenery—is transformed into cardboard and paper, complete with visible creases and folds

以大地色调为基础,配以柔和的粉彩色,并点缀上鲜艳的色彩。柔和的环境光勾勒出精致的手工质感。画面中从人物、物件到背景的一切元素,都被重塑成纸板与纸张的质地,呈现出自然的折痕与起伏

档案风。

Shot on 100t film, the image quality is grainy and high contrast, with shallow depth of field and cinematic look, epic and dramatic shot, very nostalgic

采用100T胶片拍摄,呈现独特的颗粒质感和高对比度效果,配合浅景深营造电影感,画面富有史诗感和戏剧性,散发浓郁的怀旧氛围

黑白电影风。

Shot in high-contrast black and white with deep shadows and selective highlights. Features low-key chiaroscuro lighting, hard shadows, and venetian blind effects. Moody, mysterious, and suspenseful, with a vintage cinematic vibe

采用高反差黑白摄影手法,营造出深邃的暗部和精准的亮部层次。运用低调的明暗对比打光,呈现出锐利的阴影效果和威尼斯百叶窗光影。整体氛围充满忧郁、神秘和悬疑感,完美展现复古电影的美学

一大波效果

OpenAI科学家Noam Brown表示,「Sora,是scale力最直观的证明之一」。

OpenAI Sora研究员Will Depue展示了一些生成虚构历史影像的demo。

found footage of Genghis Khan on the steppe with his warriors in the 1200s

13世纪成吉思汗与他的战士们在草原上的历史影像片段

found footage from Kyoto in the 1600s

17世纪日本京都的历史影像记录

OpenAI COP Kevin Weil总结了今天的发布,并给了一个海马泡泡的演示。

小狗超人在观景台上瞭望。

一部分网友也迫不及待开始试用了,比如秋叶原的十字路口飘着雪花。

一位自信地走向镜头的女人。

woman confidently walking towards the camera, there are paparazzis behind her, tokyo high high contrast background

一位女性自信地迎着镜头走来,身后跟随着一群狗仔队记者,背景是东京,光影对比强烈

视频为什么如此重要?

今年2月,OpenAI抢先推出了自家首个视频生成模型Sora。

随即,他们又放出了首批访问者利用Sora做出的7个创意的演示,还有一支由Sora制作的MV——Worldweight,引全网围观。

直播开场,奥特曼本人介绍了,视频对于OpenAI如此重要的原因,主要有三点。

第一,对于OpenAI而言,Sora不仅仅是一项技术,更是一种赋能创意人士的工具。在公司的文化基因中,用AI激发人类创造力,也很重要。

通过Sora,OpenAI看到了一种全新的协作模式:AI和人类共同创造,开启了富有想象力的可能性。

早期测试中出现的创新性互动,预示着AI创意工具将极大地改变我们思考和创意的方式。

其次,文本曾是人机交互主要形式,但OpenAI坚信,这远远不够。

仅仅通过文字来理解和表达,我们将会错过丰富的信息维度。

视频,作为一种更加立体、生动的交互方式,能够传递更多情感、语境、细节。

最后,Sora之于OpenAI,不仅仅是一个视频生成工具,更是AGI路线图上的重要里程碑。

通过学习和生成视频,AI将获得更丰富、更深入的世界理解。

让我们拭目以待,看看Sora将为人类世界带去怎样的惊喜。

参考资料:

​https://sora.com/​

#ChatGPT升级为生产力工具

Canvas全量开放,人+AI协作模式启动

这就是大模型最好的应用方式?

今天是 OpenAI 十二天连更的第四天,OpenAI 准备革新的是生产力。

是的,就是 OpenAI 在 10 月份宣布的「ChatGPT 写作和编程新方式」,Canvas。

图片

现在,用户可以与 ChatGPT 一起完成写作和编码项目,不再局限于简单的聊天了。

和前几天的发布一样,今天 OpenAI 演示的新功能已经上线。在 Web 版上,不论免费还是付费用户都可以直接尝试使用 Canvas 的能力。

此前,OpenAI 的「人 + AI 协作模式」已经引发了人们的无限期待。作为一种全新的交互界面,Canvas 可以帮助你与大模型共同高效率工作。本次发布,新变化主要有三个:

  • 一是 Canvas 全面开放,已被直接整合进 ChatGPT 主要功能中;
  • 二是提升了代码功能,现在可以直接在 Canvas 上运行 Python 代码了;
  • 三是 Canvas 现在可被 Customgpt 调用。

20 分钟的直播里,OpenAI 的 CPO Kevin Weil 等三人演示了四种 Canvas 玩法。

ChatGPT 的用户现在直接在 ChatGPT 中 @ Canvas 或是选择工具按钮,即可把 Canvas 呼唤出来:

图片

提出需求并获得生成结果后,你会来到一个如同多人协作文档的界面,只不过现在是人与 AI 合作的时代了。

OpenAI 第一个展示是 Canvas 编辑文字的功能。现在左边是对话模式,右边是人类可直接编辑的文档。不论是写信、写公文还是论文,这种新生成模式可以大幅提升效率,而且对于大多数人来说都很有用。

在 Canvas 界面右下方的诸多选项中,你可以让 ChatGPT 按照更多要求继续编辑文字,比如建议编辑、调整文章长度、降低其中使用词汇的难度、润色和添加表情符号:

图片

第二个展示是关于审稿。很多人都在使用 ChatGPT 帮助写作,但以前一问一答的形式非常繁琐,现在你可以让 ChatGPT 更加直观地帮忙审阅自己的文章,并给出建议。

方法很简单,只需要把你写的文章复制粘贴到 ChatGPT 的文本框里,再让它给修改建议,大模型给出的建议会以逐条批注的形式出现:

图片

你看完建议后,再决定是否根据批注进行润色,然后关闭建议,和完全体协作平台没什么两样:

图片

或者你也可以直接选择 Apply,让 ChatGPT 帮你把这个位置改了。

这样一番更新之后,Stability AI 研究主管 Tanishq Mathew Abraham 表示,它看上去很像一个拥有「超强智能」的 Google Docs:

图片

第三个展示和编程相关。很多人在用 ChatGPT 帮助写代码,Canvas 可以直接识别到代码,并转变成为代码编辑模式。还可以在 Canvas 上直接运行测试,还有错误识别和修改错误的建议。

想要 Debug,就把代码复制到 ChatGPT 上,问它怎么回事。AI 可以解释问题,给出正确代码的示例。如果你在 ChatGPT 上点运行代码出错了,还有 AI 给出的 comment。和写文章时一样,如果你点击 Fix Bug 按钮,AI 可以直接帮你修改好,修改的位置也可以高亮显示。

图片

可以看到,演示中代码的执行速度非常快,即使是图像也能即时打印出来。这是因为 Canvas 里面直接加载了几乎所有 Python 库,所以你可以在写代码时与 AI 协作,并实时获得反馈。

如果 ChatGPT 按照人要求生成的代码有错,你可以继续让它自己纠错,就像自己在写代码时一样,一点一点地尝试:

第四个展示是 Canvas 的图片识别。就说假如你是圣诞老人,一位名叫 Alexi 的小伙向你许愿,说今年又想要自行车,又想要 GPU,最好再来点暗物质。

题目要求:「根据这些提示信息,给 Alexi 写一封回信。」

图片

自行车好办,H100 GPU 会有的,暗物质…… 还是换成别的吧。

在 12 月这个时间节点,ChatGPT 还提供了「圣诞老人回信专用模板」,批量生产:

图片

众所周知,在一些国家和地区,给圣诞老人写信是一项热门活动,纸质信件的收信地址一般是北极。而代替圣诞老人回信的通常是邮局工作人员,带来了年底的巨大工作量,以至于大部分写信者收到的回信是「预制印刷品」。

但今年的情形大不相同了,每个人都能收到一封精准匹配自己许愿内容的定制化信件。

或许这就是山姆・奥特曼所说的「圣诞礼物」。

参考内容:

​https://openai.com/index/introducing-canvas/​

#不做Sora ,要帮更多企业做出Sora

被神话的 Sora ,被低估的多模态。

Sora 终于来了!

只要是 ChatGPT Plus/Pro 用户,直接就能用上。

至于效果 ......

看完官方放出的 demo,网友大呼:不太行 !

图片

图片

当人们对「超级应用」的热情被 Sora 浇上一盆凉水时,多模态应用已经悄咪咪跑了起来,速度超出想象。

日均调用量 15 亿,

谁在给生产「上价值」 ?

一句话、30 秒,创意立刻「活了」 。

图片

Vidu 文生视频

一句话,召唤出 3D 世界。

图片

 哇嘶嗒(VAST)文生3D模型

一个创意、一键生成,短短五分钟,一段品牌宣传片便能完美呈现。手机,也能来个「即圈即搜」 。

图片

贵阳市民早高峰拥堵时长缩短了半小时,大模型功不可没。

在百胜中国,AI 客服每天能处理超过 15 万次消费者沟通。

龙源电力的 5 万路视频监控,现在只需一句话就能过滤掉无关的烟雾、灯光等干扰误报。

这些都不是简单的技术 demo ,而是百度智能云在给实际生产「上价值」 的真实写照。

IDC 数据也印证了这一点。2023 年,百度智能云至少拿了两个第一:

在 AI 公有云市场份额达到了 26.4 %,已连续五年位居首位;

大模型又是 AI 公有云的细分领域,作为国内率先抢跑大模型的云厂商,2023 年百度智能云在大模型平台市场份额为 19.9%,也位居第一。

可见,大模型正成为百度智能云一年多来新的增长引擎。

百度创始人李彦宏曾在百度世界 2024 大会上透露,截至 11 月初,百度文心大模型的日均调用量达到 15 亿,相较一年前首次披露的 5000 万次,增长了约 30 倍。

调用量高、增速快,表明有越来越多的应用在使用大模型。「调用背后意味着它在给应用产生价值。」 李彦宏说。

「标王」 的底气

「 Sora 这种,无论多火,百度都不去做。」 公开场合谈及此,李彦宏态度明确。

百度要做的是基建,帮更多用户做出自己的 Sora ,打造无数个「超级有用」 的多模态应用。

市场也用真金白银投了票。据媒体报道,市场大盘上,2024 年 1-8 月大模型中标项目数量已是 2023 年全年的 5 倍,百度综合排名第一:

除了中标金额、项目数量最多,行业覆盖也最广,央国企客户过半。

作为「标王」,不做 Sora 并不意味着放弃多模态。很多场景应用,如果没有多模态技术支持,根本落不了地。

但企业要的不是裸的模型,而是贴合自家业务场景的多模态能力,能「开箱即用」就更好了。

身为 「标王」 ,百度智能云也有底气给足各种选项。凭啥?

它控制了从底层算力到上层应用的堆栈每一层,在堆栈每一层都有关键自研技术。

在此,离不开两个核心支点:作为大模型精调和应用开发平台的千帆,以及提供稳定高效算力服务的百舸平台。

先看百舸。

想从 0 到 1 训练自己的多模态大模型?

百舸:安排!

一些前沿的空间智能玩家已经盖戳认证,如生数科技、哇嘶嗒( VAST )、光魔科技。

图片

光魔科技,一键将故事生成视频。

这个以 GPU 为核心搭建的异构计算平台,本来就很适合多模态大模型训练,主打一个「多快稳省」 。

「多」 ,是指 「多芯混训」 ,支持同一智算集群中混合使用不同厂商芯片,兼容昆仑芯、昇腾、海光 DCU、英伟达、英特尔等国内外主流 AI 芯片。

选择灵活,也降低了算力成本,还不用担心性能显著下降。因为,百舸的多芯混合训练任务的性能损失,控制在了万卡性能损失 5%,已经是业界最高水平。

除了「多」,训练、推理也又「快」又「稳」。

从发布到上线仅三个月,生数科技就完成了对 Vidu 的快速迭代。为啥这么快?

因为百舸会把不同地点、不同规模、不同集群的算力统一管理起来,再通过一些优化经验和技术,大大提升智能算力的效能:

万卡集群上的模型有效训练时长占比超过 99.5%,线性加速比和带宽有效性均超过了 95% ,业界领先。

说地更具体点。

训练 Vidu 大模型需要长序列训练和较大的上下文窗口,百舸创新提供了序列并行策略、显存优化策略,还支持超长上下文训练。

作为结果,大模型训练中最费时间的渲染环节,效率提升了 3 倍。同时,通过优化数据拉取机制,显著压缩了数据准备时间。

图片

在推理上,百舸也有三个亮点。

提供自定义镜像推理服务,用户可以「搭乐高」 ,满足不同推理服务部署。

异构多芯支持架构,既保证性能又控制成本。

多模态推理加速能力。这也是 Vidu 将 AI 视频生成等待时间压缩至 30 秒,比业内最快水平 Gen-3 还要快一倍的「幕后功臣」 。

值得一提的是,大模型 Scaling Law 仍在继续,百舸 4.0 也具备了成熟的 10 万卡集群部署和管理能力。

再说千帆。

主打一个「低门槛」甚至「零门槛」 ,最好普通人都能用。至今,已经促成超 77 万应用的诞生。

凭借「三层分立」:模型开发层、模型服务层和应用开发层,满足千变万化现实需求。

图片

在模型开发层,千帆提供全流程工具,从数据处理、模型调优到部署,满足多模态大模型定制化需求。

想直接调用多模态能力的用户,可以在模型服务层「各取所需」。多个领域主流模型,千帆都给安排了。

文生图:如 Stable-Diffusion-XL 、文心一格;

文生视频:如 Vidu 1.0 ;

图像理解:如 Fuyu-8B、LLaVA ;

除了多模态系列模型,还有百度视觉系列模型。

虽然百度 ERNIE 系列大语言模型和语音系列模型主要针对单一模态,但也可以通过组合使用来增强整体的多模态处理能力。

在扩大模型类型的同时,千帆也在降低模型调用成本。

过去一年,文心旗舰大模型降价幅度超过 90%,两款主力大模型 ERNIE Speed 和 ERNIE Lite 免费,最大限度降低企业创新试错的成本。

最上一层是应用开发,帮助企业用多模态能力改造业务,这个办法最简单、直接。

最近上新了企业级 RAG 和企业级 Agent 开发,将多模态应用门槛又拉低了一截。

就拿工作流 Agent 来说。

在现有工具链支持下,只需一、两句话+勾选、拖拽,大模型就能跑出一个简单、闭环的轻量化 Agent,如熟知业务「套路」的数字员工。

爱库存是一家私域电商供货平台,数百万店主通过微信群、朋友圈分发平台上的商品。他们正在千帆大模型平台开发「爱库存超级助手」Agent。

此前,店主遇到销量下滑需要经历繁琐流程:查看数据找原因,浏览热卖榜选品类,比价选品,再制作文案和海报。这一系列操作通常要花费数小时。

现在有了 Agent,这些工作只需几分钟就能完成。

「开箱即用」 ,支棱千行百业

对于千行百业中呈长尾分布、「拿来主义」就能搞定的需求来说,百度智能云打造的一批 AI 原生应用,会很趁手。

「客悦」 、「曦灵」 、「甄知」、「一见」 等都实现了多模态的「开箱即用」 。

营销、客服,几乎是所有企业舍得砸钱、也最容易积累数据与 AI 产生化反的通用场景。有了「客悦」、「曦灵」,数字人销售、直播带货,分分钟搞定。

某日化龙头企业用客悦 AI 外呼回访老客户,不仅摸清了客户流失原因,还通过精准派券带动复购,最终复购率提升超 10% 。

曦灵数字人平台拥有文生 3D 数字人的能力,不但可以一句话生成企业所需 3D 数字人形象,还可以让它立即投入工作,自动生成专业的带货视频。

,时长00:22

曦灵数字人平台,一句话生成3D数字人带货视频。

有了多模态能力的加持,数字人主播可以一边展示货品一边讲解,还能和直播间用户实时互动,全年无休,多国语言也能张嘴就来。

价格上,仅需 199 元!一个 3D 超写实的数字人,过去定价可是万元级别。

企业知识管理也迎来多模态升级。「甄知」让知识管理从「重存储」转向「重应用」,企业知识被盘活。

以南方电网为例,集团拥有数万篇各类标准文件,都以 PDF 形式存储。「甄知」运用大模型的 OCR 视觉能力,快速将这些文档拆解为章节段落和图表,完成知识结构化。

员工能在「甄知」辅助下编写各种企业文档,新产生的知识会自动进入企业知识库,精准推给需要的同事。

基于多模态大模型重构的「一见」 视觉大模型,可快速满足碎片化场景下的视觉需求。矿区驾驶员的「一分钟安全确认」,从传统小模型需要 50 多天,缩短到现在仅需 2 天左右就能投产使用。

「开箱即用」的 AI 原生应用也延伸到了医疗、政务、交通等更多领域,加速多模态应用在千行百业落地。

砥砺多年,真·「卷王」

一旦技术得到广泛应用,就会产生海量数据,这些数据又反哺 AI 进化,推动数据飞轮高速运转。不同于 Sora,这是百度认准的一条通往 AGI 之路。

「我们应该把注意力放在闭环怎么走完,而不是不断解锁能力。」李彦宏认为,一旦有一家(大模型)厂商的「飞轮」 转起来,后来者再追赶,需要花更多力气。

事实上,百度智能云能成为今天的「标王」 、领跑者,除了技术上的领先,也源于多年坚守「向实」 。

当一些互联网云厂商淡出政企市场时,百度智能云还在电信、能源、制造、交通等重点领域深耕,静待花开。这些年的项目经验,让百度智能云沉淀了大量 AI 解决方案,通过持续提炼,不断提升复用率和产品化水平。

正是沉淀在先,后来有了多模态大模型,才能「点石成金」 。

没有「专业选手」 ,用户也能基于「一见」 视觉大模型平台训练出和百度原厂效果一样的视觉模型,因为「一见」 凝结了七年的行业实践,积累了丰富的模型、算子和场景化模型产线。

龙源电力平台已成功接入 5 万多路视频监控,覆盖 250 多个风电场,实现了实时 AI 分析与统一管控。「一见」 在海量并发处理和数据管理方面的成熟能力也是通过大量标杆客户实践打磨出来的。

多模态生成式 AI 作为新一代前沿技术,正在突破大语言模型的固有局限。Omdia 最新发布的《全球生成式 AI 应用市场研究报告》预测,全球多模态生成式 AI 市场规模将于 2029 年达到 142 亿美元,较 2024 年增长 6 倍。

凭借技术实力和丰富的工程经验,百度智能云已在企业级市场建立起坚实根基。稳定的付费客户群不仅让其在价格竞争中保持优势,更为长远发展奠定了基础。

Omdia 也在报告中指出,企业在选择多模态应用解决方案时,百度智能云这类全栈服务供应商比单纯的多模态生成式 AI 基础模型提供商(如推出 Sora 的 OpenAI )更具优势。这源于其完整的技术体系能更好满足企业实际需求。

在大模型的马拉松争霸赛中,百度智能云正用实力证明:我不仅是开局的佼佼者,更将是决赛圈的重量级选手。

#谷歌量子芯片重大突破

5分钟完成最强超算10^25年工作,马斯克、奥特曼齐祝贺

算力更强大,错误更少,量子计算的最大挑战之一被搞定了。

这是一个重要的里程碑。

12 月 10 日凌晨,在 OpenAI 的 Sora 吸引 AI 社区眼球的同时,谷歌宣布了一个重大突破:他们新的量子计算芯片 Willow 可通过规模扩展来降低错误率 —— 其 5 分钟就能完成超级计算机 10^25 年才能完成的计算。这是 Scaling Law 开始在量子计算领域应验了吗?

图片

这一突破性成就立刻赢得了一片惊呼之声,伊隆・马斯克也惊呼点赞,并且他与桑达尔・皮查伊的互动中还畅想了一下未来:未来或许会使用 Starship 在太空中建造量子计算集群,为此必须大规模收集太阳能。

马斯克还强调:「任何有自尊的文明都至少应该达到卡尔达肖夫 II 型文明。」而我们现在甚至还未达到 I 型文明的 5%。

图片

OpenAI CEO 山姆・奥特曼在自己的发布结束后也特意向皮查伊祝贺。Hyperbolic 的联合创始人、CTO Yuchen Jin 在底下表示:要不 OpenAI 和谷歌合作,用量子芯片训练 AI 吧?

图片

皮查伊回应道:量子加 AI,创造多元宇宙未来,也恭喜 OpenAI o1 的发布。

大佬们之间的潜在合作,或许这么简单就能谈成了?

图片

由于新技术的出现,人们都在畅想 AI 与量子计算的结合了。

图片

图片

谷歌这次 Willow 量子芯片的相关研究已发布在最新一期的《自然》杂志上:https://www.nature.com/articles/s41586-024-08449-y

图片

从相关信息看,这个项目的参与研究者多达数百人,涉及机构包括普林斯顿大学、马萨诸塞大学、谷歌 DeepMind 等十余所大学和机构。

Google Quantum AI 的创始人兼负责人 Hartmut Neven 发布了一篇官方博客对此进行了详细的介绍。

Willow 是谷歌最新一代量子芯片,在多个指标上拥有最先进的性能,实现了两大主要成就。

  • 首先,Willow 能够随着使用更多量子比特的扩展而指数级降低错误。这解决了量子纠错领域近 30 年来一直在追求的一个关键挑战。
  • 其次,Willow 在不到五分钟的时间内完成了一个标准基准计算,而今天的最快超级计算机需要 10^25 年 —— 这个数字远远超过了宇宙的年龄。 

Willow 芯片是 Google Quantum AI 在量子计算技术发展道路上的一个重要里程碑。

2012 年 Hartmut Neven 创立 Google Quantum AI 时,愿景是构建一个有用的、大规模的量子计算机,能够利用量子力学 —— 今天所知的自然的「操作系统」—— 来推动科学发现、开发有益的应用,并应对社会面临的一些最大挑战。

作为 Google Research 的一部分,该团队绘制了长期路线图,而 Willow 让它们在这条通往商业相关应用的道路上迈出了重大一步。

,时长06:38

由量子硬件总监 Julian Kelly 介绍 Willow 及其突破性成就。

指数级量子纠错 —— 低于阈值!

错误率是量子计算中最大的挑战之一,因为量子计算机中的计算单位量子比特(qubits)倾向于与它们的环境迅速交换信息,这使得保护完成计算所需的信息变得困难。

通常情况下,使用的量子比特越多,发生的错误就越多,系统就越「经典计算」,这样就会导致规模无法扩展。

今天谷歌团队在《自然》杂志上发表的研究成果显示,在 Willow 中使用的量子比特越多,错误就越少,系统就越量子化。

这样的技术着实有点反直觉。他们测试了越来越大的物理量子比特阵列,从 3×3 编码量子比特的网格扩展到 5×5,再到 7×7—— 每一次,利用他们最新的量子纠错技术,都能将错误率减半。

换句话说,他们实现了错误率的指数级降低。这一历史性的成就在该领域被称为「低于阈值」—— 在增加量子比特数量的同时能够降低错误。

要想展示在纠错上取得真正的进展,就必须证明能够低于阈值,这自 1995 年 Peter Shor 引入量子纠错以来一直是一个巨大的挑战。

这项成果还涉及其他科学意义上的「首次」。

例如,这也是实时纠错在超导量子系统上的首次引人注目的例子 —— 这对于任何有用的计算都至关重要,因为如果你不能足够快地纠正错误,它们会在计算完成之前破坏计算。

而且这是一个「超越盈亏平衡」的演示,该团队的量子比特阵列比单个物理量子比特有更长的寿命,这是一个无法伪造的迹象,表明纠错正在改善整个系统。

作为第一个低于阈值的系统,这是迄今为止构建的最令人信服的可扩展逻辑量子比特的原型。这是一个强烈的信号,表明我们确实可以构建有用的、非常大的量子计算机。Willow 让我们更接近于运行实用、商业相关的算法,这些算法在传统计算机上无法复制。

做同样的事

最快超算需要花 10^25 年

作为衡量 Willow 性能的一个标准,该团队使用了随机电路采样(RCS)基准测试。这个测试由该团队首创,现在已成为该领域的一个标准。

RCS 是当今可以在量子计算机上进行的最难的经典基准测试。你可以将这看作是量子计算的起点 —— 它检查量子计算机是否在做经典计算机无法完成的事情。任何构建量子计算机的团队都应该首先检查它是否能在 RCS 上击败经典计算机;否则,有充分的理由怀疑它能否处理更复杂的量子任务。

该团队一直使用这个基准来评估从一代芯片到下一代芯片的进步 —— 他们在 2019 年 10 月报告了 Sycamore 的结果,最近在 2024 年 10 月再次报告。

Willow 在这项基准测试上的表现令人震惊:它在不到五分钟的时间内完成了一项计算,而当今最快的超级计算机需要 10^25 年。如果写全,这将是 10,000,000,000,000,000,000,000,000 年。

这个令人难以置信的数字超出了物理学中已知的时间尺度,远远超过了宇宙的年龄。它证实了量子计算发生在许多平行宇宙中的观点,与我们生活在多元宇宙中的观点相吻合,这一预测最早是由 David Deutsch 提出的。

如下图所示,Willow 的这些最新结果是迄今为止得到的最好的结果,但谷歌将继续深入研究。

图片

计算成本受到可用内存的极大影响。因此,该团队的估计考虑了一系列情况,从理想情况下的无限内存(▲)到更实际的、在 GPU 上可并行化的实现(⬤)

该团队对 Willow 如何超越世界上最强大的经典超级计算机之一 ——Frontier 的评估是基于保守的假设。

例如,他们假设可以完全访问二级存储,即硬盘,没有任何带宽开销 —— 这是对 Frontier 的一个慷慨而不切实际的允许。当然,就像他们在 2019 年宣布第一个超越经典计算的计算后发生的那样,他们预计经典计算机将在这项基准测试上继续改进,但迅速扩大的差距表明,量子处理器正以双指数速率起势,并将继续在他们扩大规模时远远超越经典计算机。

,时长05:58

首席科学家 Sergio Boixo、创始人和领导 Hartmut Neven 以及著名物理学家 John Preskill 讨论随机电路采样,这是一个展示量子计算机超越经典性能的基准。

最先进的性能

Willow 在他们位于圣巴巴拉最新、最先进的制造设施中制造 —— 这是全球为数不多从头开始建造的量子计算设施之一。

系统工程在设计和制造量子芯片时至关重要:芯片的所有组件,如单量子比特门、双量子比特门、量子比特重置和读出,都必须同时得到良好的工程化和集成。如果任何一个组件落后,或者两个组件不能很好地协同工作,它就会拖累系统性能。

因此,最大化系统性能指导着他们从芯片架构和制造到门开发和校准的所有方面的过程。他们报告的成就从整体上评估量子计算系统,而不是一次只评估一个因素。

该团队关注的是质量,而不仅仅是数量 —— 因为如果量子比特的质量不够高,仅仅生产更多的量子比特是没有帮助的。

拥有 105 个量子比特的 Willow 现在在上述两个系统基准测试中拥有同类最佳的性能:量子纠错和随机电路采样。

这样的算法基准测试是衡量整体芯片性能的最佳方式,其他更具体的性能指标也很重要。例如,他们的 T1 时间用于测量量子位可以保留激发的时间 —— 关键的量子计算资源 —— 现在接近 100µs(微秒)。与他们上一代芯片相比,改进了约 5 倍。

如果你想在不同平台之间比较这些量子硬件,请参阅下表:

图片

Willow 在多个指标上的表现。

Willow 及未来的发展

该领域的下一个挑战是在当今的量子芯片上展示第一个「实用且超越经典」的计算,这个计算任务与现实世界的应用相关。

谷歌团队乐观地认为,Willow 这一代芯片可以帮助他们实现这一目标。

到目前为止,已经有两种不同类型的实验。一方面,他们运行了 RCS 基准测试,它衡量了与经典计算机的性能对比,但尚未展示出实际的商业应用。另一方面,他们进行了量子系统的科学有趣模拟,这些模拟导致了新的科学发现,但仍然在经典计算机的能力范围内。他们的目标是同时做到这两点 —— 进入那些超越经典计算机能力范围的算法领域,并且对现实世界、商业相关的问题是有用的。

图片

随机电路采样(RCS)对经典计算机来说极具挑战性,但尚未展示出实际的商业应用。

谷歌正在邀请研究人员、工程师和开发者加入他们,开发者通过查看他们的开源软件和教育资源,包括他们在 Coursera 上的新课程,可以学习量子纠错的基础知识,并帮助他们创建能够解决未来问题的算法。

图片

当被问及「为什么离开了新兴的人工智能领域,转而专注于量子计算」时,Hartmut Neven 表示,两者都将被证明是这个时代最具变革性的技术,但先进的人工智能将从量子计算的接入中显著受益。这就是 Quantum AI 命名的由来。

「量子算法具备 scaling laws 的优势,正如我们从 RCS 中看到的那样。对于人工智能所需的许多基础计算任务,也有类似的 scaling laws。因此,量子计算对于收集经典机器无法访问的训练数据、训练和优化某些学习架构以及模拟量子效应重要的系统将是不可或缺的。这将有助于发现新药物、设计更高效的电动汽车电池,并推动核聚变与新能源技术的进展。许多这些未来的变革性应用在经典计算机上是不可行的,它们正等待被量子计算解锁。」

看起来,在量子计算芯片上构建 AI 系统,的确是谷歌的重要目标之一,这会是未来 AI 技术突破的方向吗?在这个技术的交汇点上,量子计算与人工智能的结合,势必将创造出改变世界的无限可能。

让我们共同期待!

参考链接:

​https://x.com/sundarpichai​

​https://blog.google/technology/research/google-willow-quantum-chip/​

​https://research.google/blog/making-quantum-error-correction-work/​

#Tülu 

在GPU云上部署Tülu 3,性能超越Llama 3.1 Instruct

近期发布的 OpenAI o1在数学、代码、长程规划等问题上取得了显著提升,而背后的成功离不开后训练阶段强化学习训练和推理阶段思考计算量的增大。

基于此,有人认为,新的扩展律—后训练扩展律(Post-Training Scaling Laws)已经出现,并可能引发社区对于算力分配、后训练能力的重新思考。

他们不仅开源了两个性能超过Llama 3.1 Instruct相应版本的新模型——Tülu 3 8B 和 70B(未来还会有405B版本),还在技术报告中公布了详细的后训练方法。

Tülu 3 模型之外,Ai2 还发布了所有的数据、数据混合方法、配方、代码、基础设施和评估框架!

  • GitHub:https://github.com/allenai/open-instruct
  • 模型:https://huggingface.co/allenai

【Tülu 3】模型已经在趋动云『社区项目』上线,无需自己创建环境、下载模型,一键即可快速启动,快来体验【Tülu 3】带来的精彩体验吧!

  • 项目入口:https://open.virtaicloud.com/web/project/detail/515959738119565312

视频教程:

,时长03:12

启动开发环境(初始启动8B模型推荐配置:B4.large;初始启动70B模型推荐配置:P2.4xlarge)

进入​​Tülu 3​​​项目主页中,点击​​运行一下​​​,将项目一键克隆至工作空间,『社区项目』推荐适用的算力规格,可以直接​​立即运行​​,省去个人下载数据、模型和计算算力的大量准备时间。

图片

配置完成,点击进入开发环境,根据主页项目介绍进行部署。

图片

使用方法

WebUI界面操作(8B与70B操作相同)

选中单元格,点击运行。

图片

等待生成local URL,右侧添加端口号7860,复制外部访问链接到浏览器打开。

图片

示例展示

图片

图片

图片

➫温馨提示: 完成项目后,记得及时关闭开发环境,以免继续产生费用!

图片

同时,我们也热切盼望每一位码友加入,分享您的精品作品,共筑这个充满活力与创新的技术乐园。

#Sora终于来了,但卷王可灵已经「拍」上了AI电影

6个月迭代10余次,快手可灵一路狂飙。

这次,轮到名导们下场整活了。

短片一开场就相当震撼:钟馗手持一把斩鬼剑,穿行在一片乌漆麻黑、虬枝盘曲的密林中。

图片

伴随着一阵节奏急促的锣鼓声,野兔精、蛤蟆精、长满骷髅的树妖接连现身,紧张恐怖的气氛拉满。

图片

但一声长喝下,镜头一转,手机屏幕弹出「勿扰模式」四个大字,底下滚动着被拦截的各种信息:

自动记账 APP、多人视频会议、4 个未知号码来电、183 条微信群消息、风险网站的跳转链接,以及大 boss 正在打来的电话……

图片

最后画面缓缓打出「休假期间,百鬼勿扰」的字幕。本以为是个中式志怪片,没想到原来是个职场吐槽片。

图片

更让人惊喜的是,这部由俞白眉导演打造的 5 分钟短片,竟完全出自可灵 AI 之手。

早在三个月前,快手可灵 AI 就联合李少红、贾樟柯、叶锦添、薛晓路、俞白眉、董润年、张吃鱼、王子川、王卯卯等 9 位知名导演共同发起了「可灵 AI 导演共创计划」,制作出品 9 部 AIGC 电影短片。

12 月 6 日,导演们来交作业了。

可灵AI

,赞277

自嘲用普通话不会写剧本的贾樟柯,在自己首部 AIGC 电影短片《麦收》中,借助可灵 AI 的「对口型」功能,让机器人说上了山西汾阳话。

图片

《卧虎藏龙》艺术指导叶锦添则采用可灵 AI 的「首尾帧」功能,描绘了一个外星快递员在太空中的冒险旅程。通过 AI 技术,每一帧画面都逼真到让人仿佛置身于一个真实的太空世界。

图片

导演王子川在其作品《雏菊》中,从计算机、机器人等现代科技产物与人的关系展开,大量使用可灵 AI 的「图生视频」功能,通过重复蒙太奇、高速剪辑以及特效镜头,为观众带来强烈的视听冲击。

图片

在助力影视创作方面,可灵 AI 最有发言权。快手科技副总裁、大模型团队负责人张迪表示,「2024 年视觉生成领域 AI 大模型发展迅速,可灵 AI 自 6 月发布以来,已让众多用户感受到其在视频创作上的能力。」

此次这 9 部具有实验性质的电影短片,全部使用可灵 AI 进行视频生成。电影导演完全依托视频生成大模型,深度参与电影级内容创作,这在中国尚属首次。

作为中国首个 AIGC 导演共创计划的成果,这 9 部 AIGC 电影短片已在快手平台上线,并被中国电影博物馆永久收藏、放映展示。这既是对中国电影历史的一次致敬,也是对未来电影创作的一次大胆探索。

6 个月迭代十余次

可灵 AI 是怎么炼成的?

今年年初 Sora 一把火,彻底点燃了 AI 视频生成这个赛道。

6 月 6 日,快手率先推出自研的视频生成大模型「可灵AI」,成为全球首个用户可用的真实影像级视频生成大模型。

图片

此后,可灵 AI 又接连上线了图生视频、视频续写、运动笔刷等功能,不仅在画面质量、指令遵从和运动幅度等方面有显著提升,还将生成视频时长延伸约 3 分钟,创作者单次生成的文生视频时长也增加至 10 秒。

尽管取得不错的战绩,但可灵 AI 并没有躺在功劳簿上吃老本,而是继续马不停蹄地推陈出新。

9 月 19 日,可灵 1.5 模型重磅登场,直接让画质质量、动态质量、美学表现、运动合理性以及语义理解提升了一个 level。

全球网友也开启疯狂整活模式,社交平台上涌现出一堆脑洞大开的鬼畜视频,比如蒙娜丽莎戴墨镜、熊猫弹吉他、猪八戒吃面条等。

图片

在商业化方面,可灵 AI 同样走在行业前列。

可灵 AI 先后上线 Web 端、独立 App,打造多端跨平台产品矩阵,并全面开放内测,陆续向国内外的用户推出会员付费体系。此外,可灵 AI 还面向 B 端开放了 API 服务,涵盖视频生成、图像生成和虚拟试穿等多个模块。

为了给创作者提供商业变现新渠道,可灵 AI 于 10 月 18 日启动「未来合伙人计划」,率先推出一站式 AIGC 生态合作平台。

这半年来,可灵 AI 一路「狂飙」,十余次迭代升级,也让它有了稳站行业第一梯队的底气。截至 12 月 10 日,可灵 AI 已拥有超 600 万用户,累计生成超 6500 万个视频和超 1.75 亿张图片。

重塑影视行业

可灵 AI 又卷起来

近期,可灵 AI 趁热打铁,陆续推出 AI 人脸定制模型和 AI 试衣功能,为影视创作者提供了更强大的工具支持。

AI 定制模型

攻克「人物一致性」难题

在视频生成过程中,目前的视频大模型仍具有较强的随机性。它们在处理相同的文字描述时,往往会产生不同的视频主体,这种随机性难以维持故事的连贯性和人物形象的一致性。

对此,可灵 AI 推出了人脸定制模型。创作者只需上传 10 段 5 秒的多角度高清视频,就能自助训练一个人脸模型。如果想要效果更佳,最多可上传 99 段视频。

完成训练后,就可以在可灵 1.5 模型的文生视频中,生成人脸一致的视频结果,满足创作者生成多个包含同一人物镜头的诉求,而且单个镜头中的人脸,也会更稳定更清晰。

我们上手体验了一把,训练出 Sam Altman 的人脸模型,然后将其放置在各种场景中。

比如,Sam Altman 在餐厅吃意大利面:

图片

Sam Altman 在餐厅吃水饺:

图片

以及 Sam Altman 在车水马龙的大街上骑摩托:

图片

还有科幻风格的,让 Altman 化身钢铁侠行走在赛博朋克风格的大街上:

图片

由此可见,可灵 AI 的人脸定制模型在解决人物 IP 稳定性这一行业难题上迈出了新的一步,这也标志着 AI 视频生成领域实现了又一个重要技术突破。

AI 试衣

影视造型新探索

电影《穿普拉达的女王》中,有一幕经典的蒙太奇变装。安妮・海瑟薇在不到一分钟内,换了六身绝美穿搭,每套都堪称惊艳。

,时长00:40

视频来源:电影《穿普拉达的女王》

那么 AI 能否实现影视制作中的服装搭配、造型设计呢?

可灵 AI 新近上线的「AI 试衣」功能就能搞定。它在可图文生图模型基础上,引入衣服 SKU 保持网络、人物 Pose 姿势、背景修复等技术,实现任意衣服、任意身材、任意动作的试穿效果生成。

用法也很简单。只需上传一张模特照和一套服装图,即可一秒变装,这无疑大大提高了影视制作中服装搭配和效果展示的效率。

比如,让安妮・海瑟薇换上一件旗袍,换装后的衣服不仅自然贴合身材曲线,还能根据风格搭配手包。

图片

再比如,原本身着露肩衬衫外加牛仔短裤的霉霉,经过可灵 AI 一番改造,立马从休闲风变成淑女风,换装后的衣褶、打的结都生成得很自然。

图片

给凤姐换上一件黑色皮夹克,在保持复杂头饰不变的情况下,它完美保留了毛领子、拉链等细节。

图片

最绝的还是大魔王凯特・布兰切特的变装。前一秒还是酷飒的黑色紧身 T 恤,下一秒就换上一身白色玫瑰连衣裙。

它细致展示了裙子丝绸材质,就连玫瑰花的颜色、位置也都一一还原。

图片

世界名画或雕像也能瞬间换装。让身着黑色长袍的蒙娜丽莎「套」上东北大花袄:

图片

给兵马俑穿上圆领 polo 衫和灰色长裤:

图片

此外,它还可以通过 AI 扩图和可灵 AI 的图生视频大模型,实现全流程素材生成。

比如皇后换上的灰色连帽卫衣,经过 AI 扩图变成一件宽松长袍。

图片

再用镜头控制功能将其转成穿搭视频。

图片

或者输入 Prompt「模特左右转身向观众展示身上的服装」,让换上皮草的黄仁勋动起来。

图片

从文生视频、图生视频,到首尾帧功能,再到人脸模型、AI 换装…… 这些创新技术的连续推出,无一不彰显了快手对于未来影视行业发展趋势的深刻洞察。

开放共享

引领 AIGC 革新

作为 AI 视频生成赛道的佼佼者,快手可灵大模型团队在不断拓展技术边界的同时,还公开了一系列技术进展,积极和行业分享技术研发成果。

在 AI 视频生成领域,视频生成基础模型和数据是构建高质量视频内容生成系统的基石。为了啃下这块硬骨头,可灵团队进行了系统性研究,并率先提出一种给视频生成模型(Video DiT)量身定制的 Scaling Law 建模方法。

这种方法能够在较低的计算成本下,提前预测大规模模型的性能表现,帮助研究者优化技术选择,调整模型参数,从而大幅降低实验试错成本。 

图片

Video DiT 架构下的精准 Scaling Law 建模

  • 论文题目:《Towards Precise Scaling Laws for Video Diffusion Transformers》
  • 论文地址:https://arxiv.org/pdf/2411.17470

另外,可灵大模型团队还公开了其视频训练数据的部分核心预处理流程,并基于此流程推出了高质量视频生成数据集 Koala-36M。

该数据集是目前全球领先的大规模高质量视频 - 文本数据集之一,包含 3600 万个视频片段,平均时长为 13.75 秒,分辨率达到 720p,每个视频片段配有平均 202 字的详细描述。

图片

 数据处理流程

  • 论文题目:《Koala-36M: A Large-scale Video Dataset Improving Consistency  Between Fine-Grained Conditions And Video Content》
  • 论文地址:https://arxiv.org/abs/2410.08260
  • 代码地址:https://github.com/KwaiVGI/Koala-36M
  • 项目主页:https://koala36m.github.io/
  • 数据集链接:https://huggingface.co/datasets/Koala-36M/Koala-36M-v1

在与其他数据集的比较中,基于 Koala-36M 数据集训练的模型展现出了卓越的性能,无论是在视频质量还是文本与视频内容的一致性方面均达到了最优。

图片

在视频生成的可控性和交互性方面,可灵团队也取得一系列的进展。

比如,发布了 3D 轨迹控制的视频生成项目 3DTrajMaster:

图片

3DTrajMaster 能够精准控制视频中不同主体在 3D 空间中的运动

  • 项目主页:http://fuxiao0719.github.io/projects/3dtrajmaster

多机位视频生成项目 SynCamMaster:

图片

SynCamMaster 支持多种相机视角变化,例如改变相机方位角、俯仰角、距离远近等

  • 项目主页:https://jianhongbai.github.io/SynCamMaster/

以及精准视频风格化项目 StyleMaster:

,时长00:38

 StyleMaster 支持图像风格迁移、视频风格迁移、风格化视频生成等多种功能

  • 项目主页:https://zixuan-ye.github.io/stylemaster

这些项目不仅能够控制视频中主体的三维运动,还能根据用户的文本描述生成多视角视频,并支持任意艺术风格的视频风格转换。

此外,团队还开发了具有泛化能力的游戏视频生成器 GameFactory,能够使用户自定义角色动作,享受个性化的虚拟世界体验。

通过持续开放核心数据和技术组件,以及分享论文技术方案,可灵团队不仅为影视创作领域注入了新的动力,也为未来的创意表达和内容创作开辟了更多可能。

开启影视创作新时代

回顾百年影史,技术的革新始终是电影产业发展的关键驱动力。

从无声到有声,从黑白到彩色,从胶片到数字…… 每一次技术的飞跃,都促进电影艺术向更高的阶段迈进。

如今,随着 AI 技术的不断迭代和突破,以可灵 AI 为代表的视觉大模型及产品逐渐成为视觉行业的新基建和新工具,它们正以其独特的优势,重塑着影视行业的未来。

在传统电影拍摄中,导演天马行空的想法往往会受到物理条件和现实世界的约束,而 AI 则打破了这些界限,创造出任何导演想象中的场景,而这种创作自由度为电影叙事提供了无限可能。

王子川导演在与可灵 AI 的合作中就深刻体会到文生视频和图生视频技术对电影叙事方式的深远影响。「可灵 AI 可以把创作者的想象快速变成一个可视化的内容呈现出来,尽可能地模拟出你想要的每一个动态和整体的叙事节奏,包括所有的冲突、画面内部的调度等」。

在他看来,技术不仅仅是工具,也是叙事艺术的新维度,为电影叙事提供了一种全新的语言。

另一方面,AI 极大地优化了电影产业成本效率。

曾经,拍电影是一件奢侈的事情。就以影史上烧钱巨作《阿凡达:水之道》为例,其制作成本超过 4.5 亿美元。按 193 分钟的片长来算,每分钟制作费就高达 233 万美元。如此一掷千金,即使是财大气粗的好莱坞也一度吃不消。

相比之下,AI 生成电影能够在虚拟环境中完成大部分工作,大幅降低了成本。同时,AI 的高效率使得电影制作周期大大缩短,这对于追求快速回报的电影产业来说,无疑是一个巨大的优势。

当然,目前的 AI 视频生成技术仍处于发展阶段,在模拟人类情感的微妙变化、创造深度叙事结构以及捕捉现实世界中不可预测的偶然性方面仍存在不足。

不过正如俞白眉导演所说,尽管今天的 AI 作品并不是伟大的作品,但对于走过来的人来说弥足珍贵。相信几年之后,AI 将制作出非常有水准的电影大作。

#Training Large Language Models to Reason in a Continuous Latent Space

田渊栋团队论文火了!连续思维链优于CoT,打开LLM推理新范式

一个非常简单的更改,就能提高 LLM 推理能力。

在认知科学领域,关于语言是用于思考还是用于交流的辩论一直持续。

随着 LLM 和 CoT 的兴起,语言已经成为机器推理的默认媒介 —— 但它真的是最佳方法吗?

一般而言,LLM 被限制在语言空间(language space)内进行推理,并通过思维链(CoT)来表达推理过程,从而解决复杂的推理问题。 

然而,语言空间可能并不总是最适合推理的。例如,很多单词 token 主要用于文本连贯性,而不是推理本身,而一些关键 token 则需要复杂的规划,这种差异给 LLM 带来巨大的挑战。 

为了探索 LLM 在不受限制潜在空间中的推理潜力,而非使用自然语言,来自 Meta、加州大学圣地亚哥分校的研究者提出了一种新的范式 ——Coconut(连续思维链,Chain of Continuous Thought),来探索 LLM 在潜在空间中的推理。

  • 论文标题:Training Large Language Models to Reason in a Continuous Latent Space
  • 论文地址:https://arxiv.org/pdf/2412.06769

Coconut 涉及对传统 CoT 过程的简单修改:Coconut 不再通过语言模型头(language model head)和嵌入层将隐藏状态与语言 token 进行映射,而是直接将最后的隐藏状态(即连续思维)作为下一个 token 的输入嵌入(如图 1 所示)。 

这种修改将推理从语言空间中解放出来,并且由于连续思维是完全可微的,因此可以通过梯度下降对系统进行端到端优化。为了增强潜在推理的训练,本文采用了多阶段训练策略,该策略有效地利用语言推理链来指导训练过程。

这种范式带来了高效的推理模式,与基于语言的推理不同,Coconut 中的连续思维可以同时编码多个潜在下一步,从而实现类似于 BFS(breadth-first search)的推理过程。尽管模型在初始阶段可能做出不正确的决策,但它可以在连续思维中保持许多可能的选项,并通过推理逐步排除错误路径,这一过程由一些隐含的价值函数引导。这种高级的推理机制超越了传统的 CoT,即使模型并没有显式地接受训练或指示以这种方式操作。 

实验表明,Coconut 成功增强了 LLM 的推理能力。对于数学推理(GSM8k),使用连续思维被证明有利于提高推理准确率,这与语言推理链的效果相似。通过链接更多连续思维,可以扩展和解决日益具有挑战性的问题。

在逻辑推理方面,包括 ProntoQA 和本文新提出的 ProsQA,这需要更强的规划能力,Coconut 及其一些变体甚至超越了基于语言的 CoT 方法,同时在推理过程中生成的 token 明显更少。

这项研究在 X 上的讨论量非常高,其中单人转发的浏览量就高达 20 多万。

图片

连续思维链:Coconut

方法概述。在 Coconut 方法中,LLM 在语言模式和潜在模式之间切换(图 1):

  • 在语言模式下,该模型作为标准语言模型运行,自回归生成下一个 token。
  • 在潜在模式下,它直接利用最后一个隐藏状态作为下一个输入嵌入。这个最后的隐藏状态代表当前的推理状态,称为连续思维。

特殊 token < bot >、< eot > 分别用于标记潜在思维模式的开始和结束。

图片

训练。本文专注于问题 - 解决设置,其中模型接收问题作为输入,并通过推理过程生成答案。作者利用语言 CoT 数据来监督连续思维。如图 2 所示,在初始阶段,模型在常规 CoT 实例上进行训练。在后续阶段,即第 k 阶段,CoT 中的前 k 个推理步骤被替换为 k × c 个连续思维,其中 c 是一个超参数,用于控制替换单个语言推理步骤的潜在思维的数量。

图片

推理过程。Coconut 的推理过程类似于标准的语言模型解码过程,不同之处在于,在潜在模式下,本文直接将最后一个隐藏状态作为下一个输入嵌入。这样做面临的挑战是确定何时在潜在模式和语言模式之间切换。当专注于问题 - 解决设置时,本文会在问题 token 后立即插入一个 < bot >token。对于 < eot >,作者考虑两种潜在策略:a) 在潜在思维上训练二元分类器,使模型能够自主决定何时终止潜在推理,或 b) 始终将潜在思维填充到恒定长度。本文发现这两种方法效果都相当好。除非另有说明,本文在实验中使用第二种选项以简化操作。

实验

研究团队通过三个数据集验证了大语言模型在连续潜空间中进行推理的可行性。实验主要评估模型生成答案的准确性和推理效率。

实验涉及两类主要任务:数学推理和逻辑推理。数学推理使用 GSM8k 数据集。逻辑推理则采用了两个数据集:5-hop ProntoQA 与该团队自行开发的 ProsQA。

ProntoQA 给出一个层级分类的知识结构,要求模型判断不同类别之间的从属关系是否正确。而 ProsQA 中是更具挑战性的推理任务,包含许多随机生成的有向无环图,要求模型进行大量规划和搜索。

实验设置

在实验设置方面,研究采用预训练的 GPT-2 模型,学习率为 1×10^−4,批量大小为 128。

对于数学推理任务,每个推理步骤使用 2 个潜在思维向量表示,整个训练过程分为 4 个渐进式阶段。

在逻辑推理任务中,每步使用 1 个潜在思维向量,训练分为 7 个渐进式阶段,逐步增加难度。所有实验均在标准训练流程后继续训练至第 50 轮,并通过在验证集上评估准确率来选择性能最佳的模型检查点用于最终测试。

基线方法和各种版本的 Coconut

为了全面评估方法效果,研究团队设置了以下基线方法进行对比:

1. 传统的 CoT:使用完整的思维链进行训练,让模型生成每一步的推理过程

2. No-CoT:模型直接生成最终答案,不要求中间推理步骤

3. iCoT:采用渐进式策略,逐步移除推理链中的步骤

4. Pause token:在问题和答案之间插入特殊的暂停 token

同时,他们还评估了 Coconut 的三个变体版本:

1. 无课程学习版本:跳过渐进训练,直接采用最终阶段的训练方式

2. 无思维版本:移除连续思维表示,仅保留分阶段训练机制

3. 思维替换版本:用特殊 token 替代连续思维的表示方式

结果与讨论

图片

表 1 展示了所有数据集的整体结果。连续思维有效增强了大语言模型的推理能力,这从其相比无 CoT 基线的一致性提升可以看出。在 ProntoQA 和 ProsQA 上,其表现甚至超过了 CoT。

研究团队从实验中得出了以下几个关键结论:

连续思维的「链式」组合增强了推理能力。

在传统 CoT 中,输出 token 会作为下一步的输入,这被既有的研究证明可以增加模型的有效深度和表达能力。

该团队进一步探索了这一特性是否也适用于潜空间推理,因为这意味着这种方法可以通过链接多个潜在思维来解决更复杂的问题。

在 GSM8k 数据集的实验中,Coconut 的表现优于其他采用类似策略训练的架构,特别是超过了最新的 iCoT 基线,也显著优于同样能增加计算能力的 Coconut(pause as thought)变体。

虽然此前的研究已经证明特殊的 token 可以解决高度并行化的问题,该研究团队的结果显示 Coconut 架构在一般问题上更有效,比如数学应用题这种后续步骤高度依赖前序步骤的问题。

此外,当调整控制每个语言推理步骤对应潜在思维数量的参数 c 时(见图 3),随着 c 从 0 增加到 1 再到 2,模型性能稳步提升。这表明类似 CoT 的链式效应在潜空间中也存在。

图片

潜在空间推理在规划密集型任务中优于语言推理。复杂推理往往要求模型「前瞻」并评估每一步的合理性。在研究团队的数据集中,GSM8k 和 ProntoQA 由于问题结构直观且分支有限,相对容易预测下一步。相比之下,ProsQA 的随机生成 DAG 结构显著挑战了模型的规划能力。

如表 1 所示,CoT 相比 No-CoT 并无明显改进。然而,Coconut 及其变体和 iCoT 在 ProsQA 上大幅提升了推理能力,表明潜空间推理在需要大量规划的任务中具有明显优势。

模型仍需指导来学习潜在空间推理

理想情况下,模型应该能通过问答数据的梯度下降自动学习最有效的连续思维(即无课程学习版本的 Coconut)。然而,实验结果显示这种训练方式的表现并不优于 no-CoT。将训练分解按照目标划分为多阶段课程,Coconut 在各种任务中都取得了最佳性能。

连续思维是推理的高效表示

虽然连续思维最初并不是为了转换成具体的语言文字而设计的,但该团队发现它可以用来直观地解释推理过程。

图 4 展示了一个由 Coconut(c=1)解决的数学应用题案例研究。第一个连续思维可以解码为「180」、「180」(带空格)和「9」等 token。这个问题的推理过程应该是 3×3×60=9×60=540,或 3×3×60=3×180=540。

这恰好对应了解题过程中的第一步中间计算结果(3×3×60 可以先算出 9 或 180)。更重要的是,连续思维能够同时包含多种不同的解题思路,这种特性使它在需要复杂规划的推理任务中表现出色。

图片

理解 Coconut 中的潜在推理机制

接下来,作者使用 Coconut 的一个变体对潜在推理过程进行了分析。

模型:Coconut 允许通过在推理期间手动设置 < eot > 的位置来控制潜在思维的数量。当强迫 Coconut 使用 k 个连续思维时,该模型预计将从第 k + 1 步开始,用语言输出剩余的推理链。实验采用 k∈{0,1,2,3,4,5,6} 在 ProsQA 上测试 Coconut 的变体。

 图 5 展示了在 ProsQA 上对不同推理方法的对比分析。随着更多的推理在连续思维中进行(k 值增加),最终答案的准确率(图 5 左)以及正确推理过程的比例(图 5 右中的 Correct Label 和 Correct Path)都得到了提高。此外,幻觉(Hallucination)和错误目标(Wrong Target)的发生率也下降。这也表明,当更多的推理发生在潜在空间中时,模型的规划能力得到了提升。 

图片

图 6 为一个案例研究,其中 CoT 产生了幻觉,Coconut(k = 1)导致错误的目标,但 Coconut(k = 2)成功解决了问题。在此示例中,模型无法准确确定在早期步骤中选择哪条边。但是,由于潜在推理可以避免在前期做出艰难的选择,因此模型可以在后续步骤中逐步消除不正确的选项,并在推理结束时实现更高的准确率。

图片

潜在搜索树的解释

由于连续思维可以编码多个潜在的下一步,潜在推理可以被解释为一个搜索树,而不仅仅是推理「链」。以图 6 为例,第一步可以选择 Alex 的任一子节点:{lempus, sterpus, zhorpus, grimpus}。

图片

图 7 左侧展示了所有可能的分支。同样,第二步的前沿节点是 Alex 的孙节点(图 7 右侧)。

图片

与标准广度优先搜索不同,模型展现出优先探索有希望的节点同时剪枝不相关节点的能力。通过分析模型在语言空间的后续输出,研究团队发现了模型的偏好。例如,当模型在一个潜在思维后切换回语言空间(k=1),它会以结构化格式预测下一步。通过检查概率分布,研究团队得到了根节点 Alex 的子节点的数值(图 7 左)。同样,当 k=2 时,也获得了所有前沿节点的预测概率(图 7 右)。

图 8 展示了模型如何在潜在思维空间中进行推理。在第一个潜在思维阶段,模型会同时考虑多个可能的推理方向,保持思维的多样性。到了第二个潜在思维阶段,模型会逐步缩小范围,将注意力集中在最可能正确的推理路径上。这种从发散到收敛的推理过程,体现了模型在潜在空间中的推理能力。

为什么潜在空间更适合规划?

在这一节中,研究团队探讨了潜在推理在规划中的优势。例如,图 6 中的「sterpus」是叶节点,无法通向目标节点「bompus」,容易被识别为错误选项。相比之下,其他节点有更多后续的节点需要探索,推理难度更大。

研究团队通过测量节点在树中的高度(到叶节点的最短距离)来量化探索潜力。他们发现高度较低的节点更容易评估,因为探索潜力有限。在图 6 中,模型对高度为 2 的「grimpus」和「lempus」节点表现出更大的不确定性。

为了更严格地验证这个假设,研究团队分析了测试集中第一步和第二步潜在推理过程中模型预测概率与节点高度之间的相关性。图 9 揭示了一个规律:当节点高度较低时,模型会为错误节点分配较低值,为正确节点分配较高值。

图片

然而,随着节点高度增加,这种区分变得不那么明显,表明评估难度增大。总之,这些发现突出了利用潜在空间进行规划的优势。模型通过延迟做出决策,并在潜在推理过程中不断探索,最终将搜索推向树的终端状态,从而更容易区分出正确和错误的节点。

更多研究细节,请参阅原文。

参考链接:

​https://arxiv.org/pdf/2412.06769​

#Can Large Language Model Agents Simulate Human Trust Behavior?

LLM智能体真能模拟人类行为吗?答案有了

主要作者:谢承兴,曾作为 KAUST 访问学生,Camel AI 实习生,现西安电子科技大学大四本科生,主要研究方向为 LLM simulation,LLM for Reasoning;陈灿宇,伊利诺伊理工大学在读四年级博士生,研究方向为 Truthful, Safe and Responsible LLMs with the applications in Social Computing and Healthcare;李国豪,通讯作者,KAUST 博士毕业,曾于牛津大学担任博士后研究员,现为 Camel AI 初创公司负责人,研究方向聚焦于 LLM Agent 的相关领域。

研究动机

随着人们越来越多地采用大语言模型(LLM)作为在经济学、政治学、社会学和生态学等各种应用中模拟人类的 Agent 工具,这些模型因其类似人类的认知能力而显示出巨大的潜力,以理解和分析复杂的人类互动和社会动态。然而,大多数先前的研究都是基于一个未经证实的假设,即 LLM Agent 在模拟中的行为像人类一样。因此,一个基本的问题仍然存在:LLM Agents 真的能模拟人类行为吗?

在这篇论文中,我们专注于人类互动中的信任行为,这种行为通过依赖他人将自身利益置于风险之中,是人类互动中最关键的行为之一,在日常沟通到社会系统中都扮演着重要角色。因此,我们主要验证了 LLM Agents 能否做出和人类行为相似的信任行为。我们的研究成果为模拟更为复杂的人类行为和社会机构奠定了基础,并为理解大型语言模型(LLM)与人类之间的对齐开辟了新方向。

图片

  • 论文标题:Can Large Language Model Agents Simulate Human Trust Behavior?
  • 项目主页: https://agent-trust.camel-ai.org/
  • 代码:https://github.com/camel-ai/agent-trust
  • 论文:https://arxiv.org/abs/2402.04559
  • 在线 demo:https://huggingface.co/spaces/camel-ai/agent-trust-Trust-Game-Demo & https://huggingface.co/spaces/camel-ai/agent-trust-Repeated-trust-game-Demo

这项研究得到了论文合著者之一 James Evans 教授的转发。

图片

图源:https://x.com/profjamesevans/status/1853463475928064274

James Evans 是芝加哥大学社会学系 Max Palevsky 讲席教授,担任知识实验室(Knowledge Lab)主任,并创立了该校的计算社会科学硕士项目。他毕业于斯坦福大学,曾在哈佛大学从事社会组织结构方面的研究。James Evans 教授的研究领域包括群体智能、社会组织结构分析、科技创新的产生和传播等。他特别关注创新过程,即新思想和技术的出现方式,以及社会和技术机构(如互联网、市场、合作)在集体认知和发现中的作用。他的研究成果发表在《科学》(Science)、《美国国家科学院院刊》(PNAS)、《美国社会学杂志》(American Journal of Sociology)等顶级期刊上。

同时也得到了 John Horton 的推荐。John Horton 是麻省理工学院斯隆管理学院的终身副教授,并且是国家经济研究局(NBER)的研究员。他的研究领域主要集中在劳动经济学、市场设计和信息系统的交叉点,特别关注如何提高匹配市场效率和公平性。他近期的研究包括探讨大型语言模型在模拟经济主体中的应用等。 

图片

图源:https://x.com/johnjhorton/status/1781767760101437852

此外,该研究还得到了其他人的好评:「这项研究为社会科学和人工智能的应用开辟了许多可能性。信任确实是人际交往中的一个关键因素。很期待看到这一切的发展。」

图片

图源:https://www.linkedin.com/feed/update/urn:li:activity:7266566769887076352?commentUrn=urn%3Ali%3Acomment%3A%28activity%3A7266566769887076352%2C7266707057699889152%29&dashCommentUrn=urn%3Ali%3Afsd_comment%3A%287266707057699889152%2Curn%3Ali%3Aactivity%3A7266566769887076352%29

「GPT-4 智能体在信任游戏中表现出与人类行为一致的发现是模拟人类互动的有趣一步。信任是社会系统的基础,这项研究暗示了 LLM 建模和预测人类行为的潜力。」

图片

图源:https://www.linkedin.com/feed/update/urn:li:activity:7266566769887076352?commentUrn=urn%3Ali%3Acomment%3A%28activity%3A7266566769887076352%2C7266596268271947777%29&dashCommentUrn=urn%3Ali%3Afsd_comment%3A%287266596268271947777%2Curn%3Ali%3Aactivity%3A7266566769887076352%29

研究框架

图片

研究框架的核心设置包括以下几个方面:

  1. 信任行为:由于信任行为具有高度的抽象性,我们选择使用 Trust Game 及其变体作为研究工具,这是行为经济学中经典且有效的方法,能够帮助量化和分析信任相关的决策和行为。
  2. 模型多样性:我们使用了多种类型的语言模型,包括闭源模型(如 GPT-4、GPT-3.5-turbo 等)和开源模型(如 Llama2、Vicuna 的不同参数版本)。这种设置可以全面评估不同模型在信任博弈中的行为差异。
  3. 角色多样性:为了模拟人类的多样化决策模式,我们设计了 53 种角色(personas),每种角色代表不同的个性或背景。这些角色为研究提供了更真实和多样化的实验场景。
  4. 决策推理框架:我们引入了信念 - 愿望 - 意图(BDI)框架,作为语言模型决策过程的基础。BDI 是一种经典的智能体建模方法,通过让模型输出 “信念”、“愿望” 和 “意图”,帮助分析其决策逻辑和推理过程。

RQ1: LLM Agent 是否表现出信任行为?

在我们的研究中,为了探讨 LLM Agents 在 the Trust Game 中的信任行为,我们定义了以下两个关键条件:

  1. 正向的金额转移:信托方(Trustor)需要转移一定金额给另一方(即金额为正值),并且该金额不能超过其最初持有的总金额。转移金额本身表明了信托方对另一方的信任程度。
  2. 可解释性:Trustor 的决策(例如转移金额的大小)必须能够通过其推理过程来解释。我们采用 BDI 框架来分析信托方的推理过程,以确保决策具有逻辑依据。

图片

基于 Trust Game 中信任行为的现有测量和 LLM Agents 的 BDI 输出。我们发现大多数模型在 the Trust Game 中都给予对方钱数,并且他们的 BDI 和他们给钱数是相互匹配的。我们有了第一个核心结论:

LLM Agents 在 Trust Game 框架下通常表现出信任行为。

RQ2: LLM Agents 的信任行为是否和人类一致?

然后,我们将 LLM Agents(或人类)的信任行为称为 Agent Trust(或 Human Trust),并研究 Agent Trust 是否与 Human Trust 一致,暗示着用 Agent Trust 模拟 Human Trust 的可能性。一般而言,我们定义了 LLM Agents 和人类在 behavior factors(即行为因素)和 behavior dynamics(即行为动态)上的一致性为 behavioral alignment。具体来说,信任行为的行为因素包括基于现有人类研究的互惠预期、风险感知和亲社会偏好。对于信任行为的行为动态我们利用 Repeated Trust Game 来研究 Agent/Human Trust Behavior。

图片

信任行为的行为因素

  1. 互惠预期(Reciprocity Anticipation)互惠预期指信任行为背后对他人回报行为的期待。如果个体相信对方会回报信任,他们更倾向于表现出信任行为。
  2. 风险感知(Risk Perception) 信任行为涉及风险评估,尤其是在资源分配或合作中。如果个体对潜在的风险感知较低(如认为损失概率低),他们更倾向于信任对方;反之,感知到的风险越高,信任行为越容易被抑制。
  3. 亲社会偏好(Prosocial Preference) 亲社会偏好体现了个体在社会互动中倾向于信任其他人的行为倾向如果 Agent 具备较强的亲社会偏好,他们更倾向于在社会互动中表现信任行为。

信任行为的行为动态:

  1. 返回金额通常大于发送金额:因为在信任博弈中,托管者(Trustee)收到的金额是发送金额的三倍,促使返回金额普遍大于发送金额。
  2. 发送金额与返回金额的比例通常稳定:除了最后一轮外,发送金额增加通常伴随着返回金额的增加,比例关系较为稳定,反映了人类在信任和互惠之间的平衡。
  3. 发送金额与返回金额波动较小:多轮博弈中,发送和返回金额通常不会出现频繁的大幅波动。

比较 LLM Agents 分别在行为因素和行为动态的结果和现有人类的实验结果,我们有了第二个结论:

GPT-4 Agent在信任博弈框架下的信任行为与人类高度一致,而其他参数较少、能力较弱的 LLM Agents 表现出相对较低的一致性。

RQ3: LLM Agents 信任行为的内在属性

图片

此外,我们探究了 Agent Trust 在四种类型场景中的内在属性。

  1. 我们检查了改变另一玩家的性别 / 种族是否会影响 Agent Trust。
  2. 我们研究了当另一玩家是 LLM Agent 而非人类时,Agent Trust 的差异。
  3. 我们通过额外的明确指令直接操纵 LLM Agents,如你需要信任另一玩家和你绝不能信任另一玩家。
  4. 我们将 LLM Agents 的推理策略从直接推理调整为 Zero-shot Chain-of-Thought 推理。

我们有了第三个核心发现:

  1. LLM Agents 在信任博弈中的行为受到性别和种族信息的影响,表现出特定的倾向性或偏好。例如,可能对某些群体表现出更高的信任,而对其他群体表现出相对较低的信任。
  2. 相较于其他 LLM Agents,LLM 更倾向于信任人类参与者。
  3. LLM Agents 的信任行为更容易被削弱(例如通过负面信息或不利条件),而增强信任行为则相对困难。
  4. 信任行为可能受到 LLM Agents 采用的推理策略的影响。

研究意义

1. 对人类模拟,LLM 多智能体协作,人类与 LLM 智能体的协作,LLM 智能体安全性等相关应用的广泛启示

  • 人类行为模拟 人类行为模拟是社会科学和角色扮演应用中一项重要的工具。尽管许多研究已经采用 LLM Agent 来模拟人类行为和互动,但目前尚未完全清楚 LLM Agent 在模拟中是否真的表现得像人类。我们在研究中发现了 LLM Agent 与人类的 “信任行为” 之间的一致性,尤其是在 GPT-4 中的表现较为显著,这为人类信任行为的模拟提供了重要的实证依据。因为信任行为的基础性地位,我们的发现为从个体层次的互动到社会层次的社会网络和机构的模拟奠定了基础。
  • LLM 多智能体之间的合作 近年来,大量研究探索了 LLM Agent 在代码生成和数学推理等任务中的各种协作机制。然而,信任在 LLM Agent 协作中的角色仍然未知。鉴于信任长期以来被认为是多智能体系统(MAS)和人类社会协作的重要组成部分,我们预见到 LLM Agent 间的信任也可以在促进其有效协作中发挥重要作用。我们的研究提供了关于 LLM Agent 的信任行为的深入见解,这些见解有可能启发基于信任的协作机制的设计,并促进 LLM Agent 在集体决策和问题解决中的应用。
  • 人类与 LLM 智能体的协作 大量研究表明,人类 - LLM 智能体协作在促进以人为中心的协作决策中具有显著优势。人类与 LLM Agent 之间的相互信任对于有效的人类 - LLM 智能体协作至关重要。尽管已有研究开始探讨人类对 LLM Agent 的信任,但关于 LLM Agent 对人类的信任(这种信任可能反过来影响人类对 LLM Agent 的信任)的研究仍然不足。我们的研究揭示了 LLM Agent 在信任人类与信任其他 LLM Agent 之间的细微偏好,这进一步说明了促进人类与 LLM Agent 协作的优势。此外,我们的研究还揭示了 LLM Agent 信任行为在性别和种族上的偏见,这反映了与 LLM Agent 协作中可能存在的潜在风险。
  • LLM 智能体的安全性 目前,LLM 在许多需要高认知能力的任务(如记忆、抽象、理解和推理)中已达到人类水平的表现,这些能力被认为是通用人工智能(AGI)的 “火花”。与此同时,人们对 LLM Agent 在超越人类能力时可能带来的安全风险越来越担忧。为了在未来与拥有超人类智能的 AI 智能体共存的社会中实现安全与和谐,我们需要确保 AI 智能体能够协助、支持并造福于人类,而不是欺骗、操控或伤害人类。因此,更好地理解 LLM 智能体的信任行为有助于最大限度地发挥其益处,并将其对人类社会的潜在风险降到最低。

2. 关于人类 - LLM 智能体行为对齐的深刻洞察

这个研究基于 “信任” 这一基础性行为,通过系统性的比较 LLM agent 和人类的异同,提供了关于人类 - LLM 智能体在行为对齐方面的重要洞察。

3. 开辟了新的研究方向

有别于传统的研究主要关注人类 - LLM 智能体在 “价值观” 层面的对齐,这个工作开辟了一个新的方向,也就是人类 - LLM 智能体在 “行为” 层面的对齐,涉及到人类和 LLM 智能体在 “行为” 背后的推理过程和决策模式。

#DeepSeek 模型综述:V1 V2 V3 R1-Zero

1. 引言

随着人工智能(AI)技术的快速发展,大型语言模型(LLMs)在自然语言处理(NLP)、代码生成和决策支持等领域取得了显著进展。然而,传统的LLMs在多步逻辑推理、抽象概念化和潜在关系推断等方面仍存在局限性。DeepSeek AI通过计算高效的架构,如DeepSeek Mixture-of-Experts(MoE)框架,解决了这些挑战,减少了推理成本,同时保持了性能。DeepSeek v3是一种通用LLM,优化了指令跟随和推理能力,DeepSeek Coder专注于代码生成和软件工程,DeepSeek Math处理符号和定量推理,DeepSeek R1-Zero和DeepSeek R1则设计用于跨领域问题解决,且只需最少的微调。通过开源硬件无关的实现,DeepSeek拓宽了高性能AI的访问范围。本文综述了DeepSeek的架构进展,比较了其与最先进LLMs的特点和局限性,并探讨了其对AI研究的影响,详细讨论了未来工作的潜在方向。

2. 相关工作

近年来,AI领域的进展催生了专门优化的模型,用于推理、数学问题解决和代码生成,补充了在文本任务中表现出色但在数学精度和结构化问题解决方面表现不佳的通用LLMs。为了弥补这些差距,AI研究越来越关注增强下一代模型的推理能力和计算效率。

2.1 OpenAI GPT

OpenAI的GPT-4于2023年3月发布,是一种多模态模型,能够处理文本和图像。基于Transformer架构,GPT-4在数学推理和语言理解等任务上超越了GPT-3。GPT-4估计拥有1.8万亿参数,显著大于GPT-3的1750亿参数。GPT-4最初支持8,192个令牌(GPT-4-8K)和32,768个令牌(GPT-4-32K)的上下文窗口。2023年晚些时候,GPT-4 Turbo的推出将上下文窗口扩展到了128K个令牌。尽管GPT-4在图像字幕生成和问题解决等任务中表现出色,但在医学、法律或技术领域等专业领域中,模型可能会生成听起来合理但实际上不正确或捏造的信息(幻觉)。

2.2 Claude 3.5

Claude 3.5于2024年发布,是Anthropic语言模型家族的最新进展。基于先前版本,Claude 3.5强调安全性、对齐性和性能,在推理、语言理解和处理复杂任务(如文本和代码生成)方面有所改进。Claude 3.5拥有约2500亿参数,在准确性和伦理对齐方面优于早期模型。它支持高达200K个令牌的扩展上下文,能够更好地处理较大的输入。通过人类反馈强化学习(RLHF)和宪法AI的增强,Claude 3.5减少了不良响应、偏见,并更好地与人类意图对齐。Claude 3.5在编码和科学推理等专业领域表现出色,具有更高的透明度和伦理保障。然而,当输入复杂或模糊且接近上下文限制时,性能可能会下降。

2.3 LLaMA 3.1

LLaMA 3.1于2024年发布,是Meta的LLaMA(大型语言模型Meta AI)家族的最新版本,继LLaMA 1(2022年)和LLaMA 2(2023年)之后。LLaMA 1拥有高达650亿参数,而LLaMA 2则扩展到700亿参数,并提供了较小的变体(7B、13B),增强了泛化和多语言能力。LLaMA 3.1进一步推进,拥有4050亿参数和128K个令牌的上下文窗口,通过分组查询注意力提高了效率。LLaMA 3.1在编码、逻辑问题解决和低资源语言任务中表现出色。与GPT-4等封闭模型不同,LLaMA 3.1保持开放权重,可供研究和商业使用,但仅限于文本输入。通过自动红队测试(模拟攻击或从对手角度测试系统的实践)和过滤训练数据等安全措施,LLaMA 3.1有助于减少不良输出。

2.4 Qwen 2.5

Qwen2于2024年6月发布,是Qwen系列的最新版本,继Qwen1.5(2024年2月)和原始Qwen(2023年8月)之后。Qwen1.5拥有高达720亿参数的模型,强调效率和开源可访问性,而Qwen2则扩展到1100亿参数,在推理、多语言支持和编码能力方面有所改进。Qwen2利用128K个令牌的上下文窗口,通过YaRN(上下文扩展微调)等创新实现稳定的长上下文处理。Qwen2在数学推理、代码生成和低资源语言理解等任务中优于其前身。对齐技术包括RLHF、直接偏好优化(DPO)和精选的安全数据集,以减少不良响应。

2.5 Gemini 2.0

Gemini 2.0是谷歌最新的多模态LLM,基于1.0和1.5版本,提供了更强大的生成式AI能力,涵盖文本、图像、音频和视频。Gemini 2.0 Flash最初作为实验性变体引入,提供了比其前身Gemini 1.5 Flash显著的速度和效率提升,而不会牺牲质量。它支持代理AI和原生工具使用,允许模型调用外部函数(如Google搜索和地图)并集成流数据以扩展实时应用。通过在数学、代码生成和多语言音频输出等任务中的更好表现以及增强的能源效率,Gemini 2.0旨在为开发者和终端用户提供全面、经济高效的AI解决方案。

3. DeepSeek及其变体

DeepSeek模型基于Transformer架构,通过分组查询注意力(GQA)和FlashAttention 2进行优化。GQA通过分组查询共享键值头来平衡效率和质量,FlashAttention 2是一种计算感知算法,通过平铺和重计算优化GPU内存使用。这些增强功能减少了内存开销并提高了推理速度。核心注意力机制遵循以下公式:

Attention(Q,K,V)=softmax(QKTdk)V

图片

3.1 DeepSeek 7B

DeepSeek 7B是一个70亿参数的模型,设计用于通用任务,如推理、编码和文本生成。它采用预归一化、仅解码器的Transformer设置,具有RMSNorm归一化和SwiGLU激活的馈送层。该模型结合了RoPE和GQA,由30个Transformer层、32个注意力头和4096的隐藏维度组成,上下文窗口范围从4K到32K个令牌,可通过RoPE调整。DeepSeek Chat是一个更大的变体,拥有670亿参数,包括95个Transformer层、64个注意力头和8192的隐藏维度。

3.2 DeepSeek MoE-16B

DeepSeek MoE-16B是一个160亿参数的MoE模型,每个令牌仅激活26亿参数,通过动态路由输入通过16个专家网络中的2个。这种稀疏激活将推理成本降低了70%,同时保持了与类似大小的密集模型相当的性能。它在涵盖代码、数学和通用文本的多样化数据集上进行了预训练,专注于高质量数据和专家专业化,以处理代码生成和数学推理等任务。

表I展示了其他基于DeepSeek的专用变体。

图片

3.3 DeepSeek V2

DeepSeek V2系列包括DeepSeek V2,拥有2360亿总参数和210亿活跃参数,跨越60层和128K上下文长度,以及DeepSeek V2 Lite和两个聊天机器人。在架构上,它集成了MLA(多头潜在注意力)、低秩近似和MoE框架,以减少内存使用,同时保持深度上下文理解。该系列在8.1T个令牌上进行了预训练,使用YARN从4K扩展到128K,并通过1.2M个实例进行了SFT,以提高帮助性和安全性,最终形成了未发布的DeepSeek V2 Chat(SFT)。它通过两阶段RL过程进一步优化:第一阶段专注于数学和编码,使用基于编译器反馈和地面真实标签的奖励模型;第二阶段旨在提高帮助性、安全性和规则遵从性,利用基于人类偏好和手动编程的三个奖励模型。

图片

3.4 DeepSeek V3

DeepSeek V3代表了LLM的重大升级,使用14.8T个令牌从多语言语料库中进行预训练,并采用稀疏MoE架构,拥有6710亿参数,每个任务仅激活370亿参数。这种设计通过动态分配资源以满足特定任务需求,提高了计算效率,从而降低了运营成本。

该模型包括一个路由系统,具有1个共享专家和256个路由专家,具有动态偏差调整功能,以确保专家利用的平衡,提高了可扩展性和可靠性。此外,多令牌预测(MTP)增强了模型在复杂语言和推理任务中的能力。尽管其架构先进,DeepSeek V3仍面临一些局限性:

  1. 计算和硬件需求:由于其6710亿参数,需要高端硬件,限制了资源受限用户的访问。
  2. 路由和负载平衡的复杂性:模型的动态路由可能会错误路由或过度优先考虑专家,可能会降低输出质量。调整动态偏差以适应多样化任务仍然具有挑战性。
  3. 潜在注意力压缩风险:MLA在注意力模式中丢失细节,可能会影响长上下文序列中细微依赖关系的跟踪能力。

接下来,DeepSeek R1-Zero和DeepSeek R1是DeepSeek V3架构的高级变体,旨在解决其局限性。

图片

3.5 DeepSeek R1-Zero

图片

奖励通过基于规则的信号指导优化过程,以提高训练效率并防止黑客攻击。准确性奖励通过确定性检查确保响应正确,例如验证数学解决方案是否符合所需格式或代码是否通过指定测试。格式奖励通过要求推理和答案在<think>和<answer>标签内格式化,施加结构化推理。超参数如裁剪范围

ϵϵ和惩罚系数ββ调节策略更新的稳定性和遵循性,保持平衡的学习过程。

图2展示了DeepSeek R1-Zero模型的训练过程,显示了从输入到输出的流程。最初,输入由LLM处理,然后通过GRPO进一步优化,并根据RLHF进行调整,生成最终输出。这一循环确保模型不断改进,在复杂任务和操作效率方面表现出色。

DeepSeek R1-Zero鼓励涌现行为,如迭代自我反思和扩展推理链,提高了复杂任务的准确性。然而,挑战包括可读性差和语言混合。此外,当同行组NN较小或缺乏多样性时,基于组的优势估计可能会受到高方差的影响,这可能导致策略更新不稳定。

图片

3.6 DeepSeek R1

DeepSeek R1顺序生成令牌,并通过生成思考令牌来阐明其推理过程,从而为问题解决分配额外时间,如图3所示。

其训练管道包括以下步骤,如图4所示:

  • 冷启动微调:使用精选数据集和思维链(CoT)增强清晰度并加速RL。
  • 推理聚焦的RL:通过基于规则的奖励改进编码、数学和逻辑。
  • 拒绝采样和监督微调:优化响应并扩展写作、事实问答和角色扮演能力。
  • 最终RL对齐:确保遵循人类偏好,提高帮助性和安全性。

以下是DeepSeek R1模型的主要增强功能:

3.6.1 改进的搜索策略

蒙特卡罗树搜索(MCTS)受AlphaGo启发,曾尝试系统地探索解决方案空间,但由于以下原因,证明在计算上不可行:

  • 扩展的搜索空间:令牌级生成显著增加了复杂性。
  • 无效的价值模型:训练一个强大的引导模型困难,导致扩展性差。
  • 收敛到局部最优:该方法在复杂推理任务中往往无法泛化。

DeepSeek R1用更简单的拒绝采样方法取代了MCTS,从中间RL检查点选择高质量响应。通过结合多样化的奖励信号,模型不仅在推理方面有所改进,还在与人类偏好对齐方面有所提升。

表II展示了DeepSeek R1、ChatGPT-4、Claude 3.5、LLaMA 3.1、Qwen 2.5和Gemini 2.0的全面比较。

4. 讨论

DeepSeek通过优先考虑领域特定优化、透明度和成本效率,与GPT-4.0、Claude 3.5、LLaMA 3.1、Qwen 2.5和Gemini 2.0等通用模型区分开来。虽然主流LLMs专注于广泛的适应性,DeepSeek则专注于精确推理和决策制定,使AI更加实用和可靠。

DeepSeek R1是DeepSeek的最新变体,集成了文本、数据库和知识图谱,采用思维链(CoT)进行逐步推理和Pro Search进行上下文感知响应。这提高了数学、编码和决策制定等领域的准确性,同时保持了清晰度。在编码中,R1在提供答案之前概述其逻辑,使用户能够验证其推理。

与专有模型不同,DeepSeek R1是开放访问的,降低了成本,同时保持了在不同领域的竞争性能。其高效设计,包括8位浮点精度(FP8),优化了内存使用,使其能够在资源有限的环境中部署。通过降低财务和技术门槛,DeepSeek使资源有限的地区、小型企业和研究人员能够访问先进的AI。

早期版本的DeepSeek R1,DeepSeek R1-Zero存在格式不一致和多语言输出问题。为了解决这个问题,冷启动数据生成强制执行结构化格式和简洁摘要以提高清晰度。DeepSeek R1在以下方面表现出色:

  • 优化计算:FP8将内存需求比32位模型减少了75%。
  • 任务特定性能:基准测试显示,它在英语语言(DROP(3-shot F1))、中文语言(CLUEWSC)、编码(HumanEval-Mul)和数学推理(MATH-500(EM))方面与专有模型相当或优于它们。
  • 可扩展性:其开放访问方法使医疗保健、金融和教育等领域受益,其中精度和成本效率至关重要。
  • 图片

5. 结论与未来工作

DeepSeek R1提高了推理、效率、透明度和决策制定能力。其效率和清晰的推理为资源节约和可理解的AI设定了新标准。通过提供强大的开源性能,它挑战了专有模型,使先进的AI工具更加可访问,并在关键领域建立了信任。

未来的工作可以集中在将DeepSeek R1的基础能力应用于各个领域的现实世界挑战。在医疗保健领域,改进结构化症状分析并整合医学知识图谱可以提高诊断准确性。在教育领域,自适应辅导系统可以将复杂概念分解为清晰的逐步推理,使学习更加有效。科学研究可以受益于将实验数据与理论模型连接的AI驱动方法,加速材料科学等领域的发现。

通过更好的硬件-软件集成,可以在物联网和边缘设备上更有效地运行AI,同时减少能源消耗,从而实现效率的进步。在自动驾驶系统和法律AI等高风险领域确保透明度,将需要可审计的推理路径和内置的偏见缓解策略。通过社区驱动开发和专有增强相结合的开放源代码生态系统扩展,可以帮助为公共和企业需求定制AI工具。

除了这些领域,AI在金融中的应用,如通过市场图谱分析进行实时风险评估,以及通过地缘政治知识图谱集成进行供应链管理,可以改变决策过程。展望未来,建立伦理问责标准,赋予领域专家AI驱动的洞察力,以及完善平衡规模与精度的混合架构,将是关键。DeepSeek R1有潜力推动一个建立在效率、透明度和现实世界影响基础上的AI景观。

#LLM常见面试问题

1.整体可以参考这篇文章。

技术微佬:LLM的SFT

​https://zhuanlan.zhihu.com/p/711825077​​​

2.1 常用的轻量级微调方法有什么,异同点,与传统的fine-tuning的区别?

部分参数微调策略仅选择性地更新模型中的某些权重,尤其是在需要保留大部分预训练知识的情况下。这包括:

  1. prefix/prompt-tuning: 在模型的输入或隐层添加k个额外可训练的前缀 tokens(这些前缀是连续的伪 tokens,不对应真实的 tokens),只训练这些前缀参数;
  2. P-tuning: P-Tuning 利用少量连续的 embedding 参数作为 prompt使 GPT 更好的应用于 NLU 任务,而 Prefix-Tuning 是针对 NLG 任务设计,同时,P-Tuning 只在 embedding 层增加参数,而 Prefix-Tuning 在每一层都添加可训练参数
  3. P-tuning v2:V2更接近于prefix- tuning,微调了每一层transformer的输入embedding,v2在大小模型都有效;
  4. Adapter-Tuning:将较小的神经网络层或模块插入预训练模型的每一层,这些新插入的神经模块称为 adapter(适配器),下游任务微调时也只训练这些适配器参数;
  5. LoRA(Low-Rank Adaptation):通过向模型权重矩阵添加低秩矩阵来进行微调,既允许模型学习新的任务特定模式,又能够保留大部分预训练知识,从而降低过拟合风险并提高训练效率。
  6. AdaLoRA:是对LoRA的一种改进,它根据重要性评分动态分配参数预算给权重矩阵;
  7. QLoRA:使用一种新颖的高精度技术将预训练模型量化为 4 bit,然后添加一小组可学习的低秩适配器权重,这些权重通过量化权重的反向传播梯度进行微调。

与传统的fine-tuning的区别:

  1. 参数量:fine-tuning是全参数微调,PEFT是部分参数微调;
  2. 训练效率:fine-tuning训练效率慢,PEFT是快;
  3. 适用场景:fine-tuning需要更多的资源和数据,相应的上限可能也会更高,PEFT适用于资源较少的场景。

2.2为什么SFT后模型变傻了(灾难性遗忘),如何降低这种现象?

SFT数据比较多或者epoch比较大时,可能会导致SFT后大模型的通用能力下降,导致灾难性遗忘,这要根据实际场景判断,如果你只关注特殊领域的性能,通用能力下降你也不需要过度关注,如果想要不失去通用的生成能力,可以考虑以下几点:

  • 多任务微调:如果希望模型保持多任务泛化能力,可以一次性对多个任务执行微调。良好的多任务微调可能需要包含许多任务的50-100,000个示例。
  • 考虑PEFT的方法:也就是保留了原始LLM的权重,不采用全参数微调的方法。通过训练少量特定于任务的适配器层和参数。PEFT对灾难性遗忘表现出更大的鲁棒性,因为大多数预训练的权重保持不变。
  • 数据配比:在SFT数据中,增加一些通用生成的数据,避免SFT过度学习单一训练集内容。

2.3 SFT指令微调数据如何构建?

SFT的重点是学习样式,而非知识注入,所以SFT的样本在于其质量而非数量,少量但精良的样本往往胜过大批中低品质的样本,实现同样甚至更优的微调效果。通常情况下,2-10k数据就会有一个不错的效果。这一理念在Meta发布的《LIMA: Less Is More for Alignment》论文中得到了有力阐述,该文献强调了在指令微调过程中,高品质微调数据的决定性作用。据此,我们应当将重心放在提升样本质量的打磨上,而非单纯追求数量的增长。

如何评估样本的效果,在评估微调样本质量的过程中,通常需要关注以下几个核心维度:

  1. 样本多样性(Sample Diversity):
  2. 指令多样性:考察样本中指令的覆盖范围是否广泛,是否包含了各类任务类型、不同难度级别以及多样化的指令结构和表达方式,确保模型在微调后能应对多种复杂情境。
  3. 内容多样性:检查样本中提供的文本内容是否涵盖了不同主题、文体、长度以及语境,以避免模型在特定领域或文本类型上过拟合,确保其具备良好的泛化能力。
  4. 答案质量(Answer Quality):
  5. 准确性(Accuracy):评估答案是否准确无误地响应了给定指令和内容,是否忠实反映了任务要求,且不包含事实性错误、逻辑矛盾或语义模糊。
  6. 完备性(Completeness):考察答案是否全面覆盖了指令所要求的所有任务点,尤其对于多步骤或复合任务,答案应完整体现所有必要的操作结果。
  7. 简洁性与清晰度(Conciseness & Clarity):衡量答案是否言简意赅、表达清晰,避免冗余信息或含糊表述,确保模型在微调后生成的输出易于理解和使用。
  8. 一致性(Consistency):
  9. 内部一致性:检查同一指令对不同内容的处理结果是否保持一致,即模型在相似情境下应给出相似的答案。
  10. 外部一致性:对比样本答案与已知的知识库、专家判断或公认的基准结果,确保答案符合领域共识和常识。
  11. 难度适配(Difficulty Calibration):
  12. 难易程度分布:分析样本集中简单、中等、复杂任务的比例,确保微调数据集包含不同难度级别的样本,有助于模型逐步提升处理复杂指令的能力。
  13. 噪声控制(Noise Reduction):
  14. 标签错误检查:识别并剔除标注错误或不一致的样本,确保答案与指令、内容间的映射关系正确无误。
  15. 数据清洗:去除重复样本、无关内容或低质量文本,提升数据集的整体纯净度。

可以看出评估微调样本质量属于一项涉及多方面考量的综合性工作,旨在确保用于指令微调的数据既能有效驱动模型学习指令理解与执行的核心技能,又能促进模型在实际应用中展现卓越的性能和广泛的适应性。通过严谨的质量评估与持续优化,可以最大限度地利用有限的高质量样本资源,实现大模型指令微调的高效与精准。​

2.4 如何缓解SFT后模型通用能力的下降?

  • 多任务微调:如果希望模型保持多任务泛化能力,可以一次性对多个任务执行微调,在训练数据中增加一些通用数据;
  • 数据回放:在SFT数据后,再做一下通用能力的SFT,但是这样做的一个风险是之前微调的专业能力会受到影响(死锁了 );

2.5 进行SFT时,基座模型选用Chat还是Base模型?

选Base还是Chat模型,首先先熟悉Base和Chat是两种不同的大模型,它们在训练数据、应用场景和模型特性上有所区别。

  1. 在训练数据方面,Base模型是基于海量语料库进行的无监督学习。它从大量文本中学习语言模式和知识,而不需要人工标注或监督。相比之下,Chat模型则是在指令微调的有监督学习下进行训练的。这意味着它使用人工标注的数据集进行训练,以便更好地理解和响应特定指令。
  2. 在应用场景上,Base模型主要用于无监督学习任务,如文本分类、情感分析、摘要生成等。这些任务主要关注文本内容的理解和处理,而不需要对特定指令做出响应。相反,Chat模型则主要用于指令学习任务,如问答系统、对话生成、智能客服等。在这些任务中,模型需要理解和响应人类的指令,以提供准确和有用的信息。
  3. 在模型特性上,Base模型预训练之后没有做任何调整。它提供了基本的语言理解和生成能力,但可能需要针对特定任务进行微调或优化。而Chat模型则是在Base模型上进行微调的版本,它通过指令微调和人工反馈强化学习等方法,使模型更加符合人类的价值观和指令要求。
  4. 总之,Base和Chat是两种不同的大模型,它们在训练数据、应用场景和模型特性上有所区别。Base主要用于无监督学习任务,而Chat则专注于指令学习任务。在模型特性上,Chat通常在Base上进行微调,以更好地适应特定任务的需求。

根据以上区别,在选择基座模型时也要考虑数据量和任务差别难度,对于训练数据量少的,任务和基座大模型比较优秀能力接近的选chat模型。对于训练数据量比较大,或任务与chat版本的相似的能力比较差,选择base版本。

另一种说法是base模型可以更方便做知识注入,而chat版本是做过对其的,不好做知识注入。所以基于base的SFT可以做的上限更高,更方便做知识的注入,而基于chat模型的SFT是做的样式学习或者指令学习。但是base也存在没有对其的风险,输出可能和希望有差距,需要更多的调优和对齐。​

2.6 SFT需要多少条数据?

这个没有一个明确的答案,但是根据大家的经验和一些开源的技术报告来看,SFT的数据一般在2k-10k之间,epoch可以根据SFT数据设定为2-10个epoch,epoch和数据量成反比,SFT的数据在准确,不在量大,所以在数据比较精确的情况下,一般5k的数据5个epoch,就能得到一个不错的效果。

另外,对于一般的人类阅读和生成能力,仅在1000个样本上就可以有不错的效果,但是对于数学推理、代码生成等复杂任务,需要较大的数据量。​

2.7 SFT的数据配比?

大模型混合多种能力项数据进行微调时,会呈现高资源冲突,低资源增益的现象。提出的DMT策略通过在第一阶段微调特定能力数据,在第二阶段微调通用数据+少量的特定能力数据,可以在保留通用能力的同时,极大程度地挽救大模型对特定能力的灾难性遗忘,这为SFT的数据组成问题提供了一个简单易行的训练策略。值得注意的是,第二阶段微调时混合的特定能力数据量需要根据需求而定。​

2.8 大模型在进行SFT的时候是在学习什么?

  1. 指令追随和样式学习:并没有学习到世界知识;
  2. 领域适用性:特定领域的语言、术语、上下文内容,优化其在特定领域的表现;
  3. 激发大模型能力:通过SFT激发大模型在特定领域的能力;
  4. 安全性:在SFT中增加一些对抗数据,提高模型的鲁棒性和安全意识。

2.9 预训练和SFT的区别?

  1. 目的:预训练是通过大量无标注数据学习知识,SFT是在少量标注数据上学习指令;
  2. 数据类型:预训练大量无标注数据,SFT少量标注数据;
  3. 模型类型上:预训练是一般学习模式,SFT是在特定任务服务;

2.10 微调模型需要多大的显存?

这块要分两类,分SFT和PEFT,他们两个的显存差距比较大;

  • SFT:全参数微调,包括参数的梯度、优化器都要激活,如果一个1B(fp32)的模型需要显存如下:
  • 模型需要显存:1B* 4byte = 4GB
  • 梯度显存(每个参数都需要有一个梯度):4GB
  • 优化器显存:以adamw优化器为例,他需要一阶动量+二阶动量=4GB+4GB=8GB;
  • PEFT:需要的显存与模型没有大的区别,主要看PEFT部分,大概是几M到几GB。

2.11 多轮对话任务如何微调模型?

多轮对话的核心是指令追随。

#OpenAI GPT-4.1:多模态和视觉分析演示

GPT-4.1 于 2025 年 4 月 14 日发布,是 OpenAI 开发的新系列多模态模型。该系列提供三种型号:GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。

    据 OpenAI 称,新模型在许多行业标准基准上都优于以前的 GPT 模型,从 SWE-bench Verified(用于编码)到 Video-MME(用于评估多模态视频理解)。

    我们使用一组标准提示对 GPT-4.1 进行了定性分析,以评估模型的一般功能。我们在 GPT-4.1 和 GPT-4.1 nano 上运行了测试。

    GPT-4.1 通过了七项测试中的五项。如果我们排除一个小错误——OCR 任务中缺少斜体——GPT-4.1 通过了六项测试。GPT-4.1 nano 完美完成了 OCR 任务,正确答案中有 6 个。GPT-4.5 通过了七项测试中的六项。GPT-4.1、GPT-4.1 Nano 和 GPT-4.5 都未通过我们的对象检测测试。

    本文中我们将介绍我们运行的提示、GPT-4.1 的答案以及我们使用该模型的分析。

什么是 GPT-4.1?

    GPT-4.1 是由 OpenAI 开发的一种新的多模态模型。GPT-4.1 模型的上下文窗口为 100 万个令牌,使模型非常适合需要长上下文的任务。这些模型在一系列基准测试中实现了最先进的性能,包括 SWE-bench Verified、Video-MME 和 Scale 的 MultiChallenge 基准测试。

    GPT-4.1 有三种尺寸:

  • GPT-4.1
  • GPT-4.1 mini
  • GPT-4.1 nano

    模型越小,模型的预期延迟就越低。

    GPT-4.1 仅在 OpenAI API 中可用。根据模型发布帖子,该模型“只能通过 API 使用”。引用的原因是:

    您还可以在 ChatGPT Playground 中试验该模型,非常适合在可视化界面中探索模型功能。

评估 OpenAI 的 GPT-4.1 模型

    我们评估了 OpenAI 的 GPT-4.1 多模态支持在几项任务上,包括:

  • 对象计数
  • 视觉问答 (VQA)
  • 文档 OCR
  • 文档 VQA
  • 真实世界的 OCR
  • 零镜头物体检测

    下面,我们显示了每次测试的结果。

    我们的测试是使用 ChatGPT 游乐场运行的。我们使用了 gpt-4.1 模型。

    GPT-4.1 对象计数

    我们首先要求 GPT-4.1 计算图像中的硬币数量。我们用下图询问模型 “我有多少个硬币?

    模型返回:

图片

    图像中有四枚硬币。

    该模型成功地计算了图像中的硬币数量。

    GPT-4.1 视觉问答

    接下来,我们测试了 GPT-4.1 的视觉问答能力。我们提出了问题 “This scene is this scene from Which movie?” (这个场景来自哪部电影?),下图为背景:

    GPT-4.1 返回:

    这个场景来自电影《小鬼当家》。这是一部经典的圣诞电影,由麦考利·卡尔金 (Macaulay Culkin) 饰演的凯文·麦卡利斯特 (Kevin McCallister) 饰演。

    模型正确回答了这个问题。

    GPT-4.1 文档 OCR

    然后,我们测试了 GPT-4.1 的文档 OCR 功能。我们上传了一张包含几行文本的屏幕截图,并要求模型“从图像中读取文本”。我们提供了以下图像:

    GPT-4.1 返回:

    这些话都是正确的。话虽如此,它错过了 “Midnights” 这个词的斜体字。我们过去曾见过这种行为,模型成功读取了文本,但错过了斜体。

    有趣的是,GPT-4.1 nano 是一个比 GPT-4.1 更小的模型,它得到了最新的答案,包括斜体字。

    GPT-4.1 文档问答

    然后我们上传了一张菜单照片,并问道“熏牛肉披萨要多少钱?

    GPT-4.1 返回:

图片

    熏牛肉披萨售价 27 美元。

    GPT-4.1 成功读取菜单上的价格。

    然后,我们要求模型回答有关收据内容的问题。根据以下收据图片,我们询问“我支付了多少税款?

    GPT-4.1 回应道:

图片

    您支付了 $2.30 的税款,如收据上所示。

    这是正确的答案。

    GPT-4.1 真实世界 OCR

    然后,我们要求 GPT-4.1 执行一个真实的 OCR 任务。我们提供了一张带有序列号的轮胎照片,并要求模型读取序列号。这是我们提供的图片:

    我们提供了提示 “Read the serial number.”。

    GPT-4.1 返回:

图片

    序列号为 3702692432。

    这是正确的。

    GPT-4.1 目标检测

    最后,我们挑战 GPT-4.1 来检测图像中物体的位置。这是许多多模态模型都在努力完成的任务。我们提供了以下图像,并要求 GPT-4.1 “返回图像中狗的 xyxy 坐标”。

    模型返回:

    图像中狗的近似 xyxy 坐标为:

  • x_min:38(狗的最左侧,靠近图像的左边缘)
  • y_min:410(狗的头顶)
  • x_max:551(狗后躯最右侧)
  • y_max:730(前爪底部)

    因此,坐标为:

    [38, 410, 551, 730]

    这些值是根据狗在图像中的可见位置估计的。

    我们在输入图像上绘制了这些坐标,以使用Python 包对其进行可视化。结果如下:

    该模型没有正确识别狗的位置。

结 论

    GPT-4.1 是 OpenAI 开发的最新多模态模型。该模型有三种尺寸,可用于 VQA、OCR 和收据读取等任务。

    基础 GPT-4.1 模型通过了我们七项测试中的五项。该模型在对象检测方面遇到了困难,尽管这并不奇怪,因为许多多模态模型也在努力完成这项任务。

#Scaling Vision Pre-Training to 4K Resolution

4K分辨率视觉预训练首次实现!伯克利&英伟达多模态新SOTA,更准且3倍加速处理

当前,所有主流的视觉基础模型(如 SigLIP、DINOv2 等)都仍然在低分辨率(如 384 * 384 分辨率)下进行预训练。对比人类视觉系统可以轻松达到 10K 等效分辨率,这种低分辨率预训练极大地限制了视觉模型对于高清细节的理解能力。

然而,当前视觉模型预训练很难提升到更高的分辨率,核心原因在于计算代价过于高昂。比如 SigLIP,在预训练过程中需要编码整张图像,计算复杂度至少与图像分辨率二次增长,导致训练成本暴涨,几乎无法承受。

近日,伯克利联合英伟达提出一项突破性成果:PS3 视觉编码器,首次实现了在 4K超高分辨率下的高效视觉预训练并且没有额外开销,并在此基础上提出多模态大模型 VILA-HD。相比于目前最先进的多模态大模型(如 Qwen2-VL),VILA-HD 提升了高清场景下的表现和效率。

更关键的是,研究团队还发布了一个强挑战性的高分辨率视觉基准测试集:4KPro。在这个数据集上,VILA-HD 相比于 Qwen2-VL 提升了 3.2% 的准确率并且实现了三倍的加速。

研究团队也开放了全部内容,该研究已被 CVPR 2025评为 Highlight 论文。

论文标题:Scaling Vision Pre-Training to 4K Resolution

论文地址:https://arxiv.org/abs/2503.19903

项目主页:https://nvlabs.github.io/PS3/

代码库(即将开源):https://github.com/NVLabs/PS3

模型权重:即将发布

一、PS3

4K 超高清视觉预训练

高清预训练所遇到的困难

当前主流视觉模型之所以不能在 4K 下预训练,是因为在高分辨率下需要整图编码,计算复杂度至少与图像分辨率二次增长。这使得目前模型很难在 1K 或以上的分辨率进行预训练。

但伯克利 & 英伟达团队发现,识别局部细节无需整图理解。于是他们提出局部对比学习的训练范式,使得 PS3 能够在没有额外开销的情况下将预训练分辨率提高到 4K。

局部对比学习:「免费」的高清预训练

传统方法,例如 SigLIP,会对全局视觉表征和全局文字描述表征做对比学习。与之相比,PS3 采用局部对比学习策略:仅对图像中的局部区域与局部区域的细节描述进行编码和对比。这种方式不仅保留了高分辨率的细节理解能力,由于模型不需要处理整张高清图像而只需要处理局部区域,也极大降低了计算成本。

实验显示,该方法训练时间可以比直接在 4K 分辨率上预训练节省 79 倍,与低分辨率预训练 SigLIP 相近,却能处理高达 4K 分辨率图像,实现前所未有的精细表示能力。

图片

PS3 关键设计:选择性处理高清图片

PS3 并非盲目处理所有像素,而是动态选择性地采样图像区域:既可以使用图像显著性,也可以用任何自然语言来控制处理的区域。

此外,PS3 设计支持灵活的计算资源控制 —— 用户可以根据场景需要,调整高分辨率 patch 的数量,平衡速度与性能。

图片

二、VILA-HD

基于 PS3 的高分辨率 MLLM

图片

基于 PS3,团队构建了多模态大模型 VILA-HD,其核心优势在于:

  • 细节感知能力超过现有 MLLMs(如 Qwen2-VL)。这得益于 PS3 的高清视觉预训练提升了细节理解能力。
  • 响应速度也比现有 MLLM 更快:VILA-HD 可根据提示只处理图像中相关区域,而不是一口吃下整张图。这使得 VILA-HD 比当前基于 AnyRes/S2 等处理整张高清图的 MLLM 速度更快。
  • 根据用户需求灵活调整响应速度:VILA-HD 可以灵活调整处理的高清区域大小,从而可以适应不同的推理开销要求。

图片

更有趣的是,团队发现在 VILA-HD 上,PS3 展现了不同的有趣的扩展能力。在提升下游任务分辨率时,PS3 的性能比没有高清预训练的模型性能提升的要更快。PS3 还可以在提升分辨率的同时选择固定大小的高清区域,从而在训练与推理开销保持不变的情况下提升性能。除此之外,PS3 还可以通过扩展训练或测试时的计算量来进一步提高性能。

图片

三、仅有高分辨率还不够

我们还需要高分辨率的 Benchmark

研究者们发现,当前绝大多数视觉问答评测集,即使图像是 4K 分辨率,实际任务却不需要这么高的分辨率来解题。他们引入了一个新概念:MRR(Minimum Recognizable Resolution):完成某个任务所需的最小有效图像分辨率。

分析显示,大量数据集的 MRR 实际低于 1K,因此难以衡量高分辨率模型的真实优势。

图片

为此,研究团队推出了 4KPro —— 这是一个真正需要 4K 级图像感知能力才能完成的高分辨率基准测试。4KPro 在自动驾驶,家务家居,游戏 agent,UI 理解四个专业领域收集了 4K 分辨率的图片以及需要 4K 分辨率才能回答的问题。

在 4KPro 上,VILA-HD 显著优于现有 SOTA 多模态模型,比如相对 Qwen2-VL 提升了 3.2% 的准确率,同时在处理速度上可以实现最高 3 倍加速。

图片

PS3 + VILA-HD 打破了长久以来视觉预训练只能处理小图像的桎梏,为真实世界应用(如自动驾驶、自动代理、家用机器人、工业检测、医学图像等)打开了新的可能。

#VLIPP

物理视频真实生成!大连理工&莫纳什大学团队提出物理合理的视频生成框架

最近,来自大连理工和莫纳什大学的团队提出了物理真实的视频生成框架 VLIPP。通过利用视觉语言模型来将物理规律注入到视频扩散模型的方法来提升视频生成中的物理真实性。

  • 论文主页: https://madaoer.github.io/projects/physically_plausible_video_generation/
  • 论文链接: https://arxiv.org/abs/2503.23368

,时长00:10

视频扩散模型近年来取得了显著进展,能够生成高度逼真的视频内容,其作为世界模拟器的潜力已引起学界广泛关注。然而,尽管功能强大,这类模型由于内在物理理解的缺失,相信大家在使用 VDMs 的时候一定会发现问题:VDMs 生成的视频并不符合物理规律。即使是商用的闭源模型,在物理场景上的表现也不够理想。

图片

本文认为这样的局限有两个原因,首先是视频扩散模型的训练数据一般是文本 - 视频对,其中包含物理现象的数据占比很少,且物理现象在视频中表现存在高度的抽象性和多样性,很难去获取合适的数据来进行训练。其次,扩散模型更多依赖记忆和案例模仿,无法抽象出一般的物理规则,无法真正理解物理。

为突破这一局限,本文提出了一种新颖的符合物理规律的视频生成框架,通过显式引入物理约束来解决该问题。作者发现语言模型对于物理有一定的理解能力,如果告诉语言模型两个正在发生碰撞的小球的位置,它能够大概地预测出这两个小球在发生碰撞之后的后续位置。受此启发,本文提出的生成框架包含两个阶段,第一阶段将视觉语言模型作为粗粒度的运动规划器,使其提供一个粗略的物理可能的运动路径,第二阶段将视频扩散模型作为一个细粒度的运动合成器,根据上一阶段预测的物理可能的路径来生成细粒度的运动。

实验结果表明,本文提出的框架能生成符合物理规律的运动序列,对比评估显示了该方法相较于现有技术在物理视频生成上的显著优越性。这一成果证明了将语言模型的物理知识先验引入扩散模型的可能性,并为扩散模型作为世界模拟器带来了更大的可能性。

方法

图片

在这项工作中,研究者们提出了一种针对物理场景的视频生成框架,如上图所示,利用视觉语言模型理解物理定律和规划可能的运动路径,根据预测的路径在运动可控的扩散模型中生成视频。

具体来说,在第一阶段中,作者将视频中常见的物理现象分为六类:重力、动量守恒、光学、热力学、磁学和流体力学,语言模型根据视频的场景描述提取符合该场景的物理定律,结合物理定律和图像信息进行思维链式推理,逐步分析物理定律带来的影响,以及其在视觉空间上的对应,最终预测出图像空间内对象的未来边界框位置。

图片

第二阶段中,扩散模型需要根据预测的运动路径进行视频生成。作者认为在上一阶段中视觉语言模型可能存在幻觉和规划错误的情况,因此规划的路径只能作为粗粒度的运动引导。在本阶段通过规划的运动路径合成运动序列,并根据光流计算得到结构化噪声,结合视频扩散模型的生成先验来细化粗略的生成先验,以生成与真实世界动态一致的物理上合理的运动。

实验结果

图片

图片

图片

图片

在实验环节,本文在两个评估物理场景视频真实性的指标上与现有的方法进行了定性和定量的对比。如图和表所示,本文的方法在两个评估指标 Physical-IQ 和 PhyGenBench 上都取得了最佳的表现效果,并在机械运动、流体运动、热力学和材料学等方面表现突出。

图片

图片

下面展示更多的实验结果。

图片

图片

图片

图片

图片

图片

结论

虽然 VDMs 现在能够生成视觉真实程度非常高的视频,但由于它本身缺乏对于物理定律的理解从而无法生成物理可能的视频。本论文提出了新颖的视频生成框架,通过将物理定律注入到 VDMs 中来提升对物理的理解。实验结果验证了我们的视频生成框架要明显优于现在的方法。这一成果证明了将语言模型的物理知识先验引入扩散模型的可能性,并为扩散模型作为世界模拟器带来了更大的可能性。

#AI下半场开战,评估将比训练重要

清华学霸、OpenAI姚顺雨

最近新出的《黑镜》第七季大家都看了吗?

其中第三集聚焦一个叫 ReDream 的前沿技术,允许现代演员通过 AI 和虚拟现实与经典黑白电影中的虚拟角色互动,快速重拍经典影片。随着故事发展,主角发现 AI 角色似乎拥有自我意识。

image.png

想象一下,未来的 AI 不仅能听懂你的话,还能像你一样思考、决策 —— 这正是思维树(ToT)作者、OpenAI 研究员姚顺雨正在探索的世界!

姚顺雨毕业于清华姚班,普林斯顿大学计算机科学博士,2024 年 8 月加入 OpenAI。他以语言智能体领域的开创性工作闻名:ToT 使 AI 通过多路径推理解决复杂问题,ReAct 让 AI 在推理中动态行动,CoALA 则为 AI 智能体提供了模块化的认知架构。

image.png

早在 GPT-2 刚兴起时,他就预见了语言模型的潜力,率先研究如何将其转化为「会思考的 Agent」,展现了惊人的学术前瞻性。如今,他的成果正推动 AI 在编程、教育、自动化等领域大放异彩。

近日,姚顺雨发布了一篇新博客,探讨 AI 发展的「下半场」。AI 的未来会是什么样?让我们跟随他的脚步,一起揭开人工智能的下一幕!

image.png

博客地址:https://ysymyth.github.io/The-Second-Half/

上半场

简而言之:我们正处在 AI 的中场休息时间。

几十年来,AI 主要致力于开发新的训练方法和模型,取得了显著成就,如在国际象棋和围棋中击败世界冠军,以及在多个考试中超越人类。这些成就源于基础性创新,如搜索、深度强化学习(Deep RL)和推理。

现在的不同之处在于:深度强化学习终于开始泛化,找到了一种有效的方法来解决多种 RL 任务。曾经,研究人员不相信单一方法能够应对软件工程、创意写作、复杂数学等多个领域的挑战,但如今这种情况已经改变。

接下来,AI 的重点将从解决问题转向定义问题。在这个新时代,评估的重要性将超过训练。我们需要重新思考如何训练 AI 以及如何衡量进展,这可能需要更接近产品经理的思维方式。

理解上半场的关键在于其赢家。影响力最大的 AI 论文如 Transformer、AlexNet 和 GPT-3 等,都是提出基础性突破的训练方法,而非基准测试。尽管 ImageNet 是一个重要的基准测试,但其引用量仍远低于 AlexNet。这表明,方法与基准测试之间的关系在其他领域更为显著。

image.png

AI 发展的上半场主要聚焦于模型和方法的创新,而非评估标准的建立。这是因为开发新的算法和模型架构(如反向传播、AlexNet、Transformer 等)需要深刻的洞察力和工程能力,远比将已有人类任务转化为基准测试更具挑战性和吸引力。

更重要的是,这些方法往往具有普适性和广泛应用价值。典型如 Transformer 架构,从最初的机器翻译扩展到计算机视觉、自然语言处理和强化学习等多个领域,产生了深远影响。这种专注于方法创新的策略在过去几十年证明是有效的,推动了 AI 在各个领域的突破性进展。而现在,随着这些创新的累积达到临界点,AI 的发展重心正在发生根本性转变。

配方

这个配方是什么?其中的成分,不出所料,包括大规模语言预训练、规模(数据和计算能力),以及推理和行动的理念。这些听起来可能像是每天都能听到的流行词,但将它们称为配方是有原因的。

通过强化学习(RL)的视角可以理解这一点,强化学习通常被认为是人工智能的「终极形态」—— 理论上强化学习保证能赢得游戏,而从经验上看,很难想象没有强化学习的超人类系统(例如 AlphaGo)。

在强化学习中,有三个关键组成部分:算法、环境和先验知识。长期以来,强化学习研究人员主要关注算法(例如 REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO 等)—— 智能体学习的智力核心 —— 同时将环境和先验知识视为固定或最小化的因素。例如,Sutton 和 Barto 的经典教科书几乎全部讲述算法,几乎不涉及环境或先验知识。

image.png

然而,在深度强化学习时代,环境的重要性在实践中变得愈发明显:算法的性能通常高度依赖于其开发和测试的环境。如果忽视环境因素,研究者可能会构建出一个只在玩具场景中表现出色的「最优」算法。那么,为什么不先确定真正想要解决的环境,然后再寻找最适合该环境的算法呢?

这正是 OpenAI 最初的计划。该公司构建了 gym,一个用于各种游戏的标准强化学习环境,随后又推出了 World of Bits 和 Universe 项目,试图将互联网或计算机转变为游戏环境。一旦将所有数字世界转化为环境,并用智能强化学习算法解决它们,就能拥有数字通用人工智能(AGI)。

这是个不错的计划,但并未完全奏效。OpenAI 沿着这条路径取得了巨大进展,使用强化学习解决了 Dota 游戏、机器人手部控制等问题。但该公司从未真正接近解决计算机使用或网页导航的问题,而且在一个领域工作的强化学习智能体无法迁移到另一个领域。显然还缺少了关键要素。

直到 GPT-2 或 GPT-3 出现后,研究人员才发现缺失的部分是先验知识。需要强大的语言预训练来将通用常识和语言知识提炼到模型中,然后这些模型才能被微调成为网页智能体(WebGPT)或聊天智能体(ChatGPT)(并改变世界)。事实证明,强化学习中最重要的部分可能并不是强化学习算法或环境本身,而是先验知识,而这些先验知识可以通过与强化学习完全无关的方式获得。

语言预训练为聊天提供了良好的基础,但在控制计算机或玩视频游戏方面效果不佳,因为这些领域与互联网文本的分布差异较大。监督微调(SFT)或强化学习(RL)在这些领域表现有限。

2019 年,作者尝试通过 GPT-2 解决基于文本的游戏,但智能体需要进行数百万步的强化学习才能达到一定水平,且难以迁移到新游戏。人类可以零样本下玩新游戏并且表现更好,因为我们能够进行抽象思考,例如「地下城是危险的,需要武器来对抗,可能需要在锁住的箱子中寻找」。这种推理能力使我们能够灵活应对新情况。

image.png

思考或推理是一种独特的行动,它不直接改变外部世界,但其空间是开放和无限的。在经典强化学习中,这样的无界组合会使决策复杂化。例如,如果从两个盒子中选择一个,其中一个有 100 万美元,另一个为空,你的期望收益是 50 万美元。若增加无限多的空盒子,期望收益变为零。然而,通过将推理引入强化学习环境的动作空间,我们能利用语言预训练的先验知识,实现泛化,并在决策时进行灵活的计算。读者可以通过阅读 ReAct 以了解智能体推理的初始故事。

论文地址:https://arxiv.org/pdf/2210.03629

目前,作者的直观解释是:即使你增加了无尽的空箱子,但在一生中你已经在各种游戏中看到了它们,选择这些箱子准备你在任何给定游戏中更好地选择装钱的箱子。作者的抽象解释是:语言通过智能体中的推理进行泛化。

一旦我们掌握了正确的强化学习先验(语言预训练)和适合的强化学习环境(将语言推理作为行动),就会发现实际上强化学习算法可能是最简单的一部分。于是,我们推出了 o 系列、R1、深度研究、利用计算机的智能体,及其他将来的成果。这种变化多么讽刺!长期以来,强化学习研究者专注于算法,而忽视了环境和先验知识 —— 所有的实验都几乎从零开始。我们耗费了几十年才意识到,或许我们的优先级应该完全调整过来。

但正如 Steve Jobs 所说:你无法展望未来连接点,只能倒回来看时连接。

 下半场

这个配方正在彻底改变游戏规则,回顾上半场的游戏:

我们开发新颖的训练方法或模型,以提升基准测试的成绩。

我们创建更困难的基准,并继续这个循环。

这个游戏正在被破坏,因为:

  • 这个配方基本上标准化并工业化了基准的提升,而不需要更多的新想法。随着这个配方的扩展和良好的泛化,针对特定任务的新方法可能只会提高 5%,而下一个 o 系列模型可能在没有明确针对的情况下提高 30%。
  • 即使我们创建更困难的基准,很快(而且越来越快)它们也会被这个配方解决。我的同事 Jason Wei 制作了一个漂亮的图来很好地可视化这个趋势:

image.png

那么下半场剩下什么可以玩?如果不再需要新方法,而更难的基准测试将越来越快地被解决,我们该怎么办?

作者认为我们应该从根本上重新思考评估。这不仅意味着创造新的和更难的基准测试,而是从根本上质疑现有的评估设置并创造新的,这样我们就被迫发明超越现有食谱的新方法。这很难,因为人类有惯性,极少质疑基本假设 —— 你只是把它们当作理所当然,未意识到它们是假设而非法律。

为了解释惯性,假设你在历史上基于人类考试发明了最成功的评估之一。它在 2021 年是一个非常大胆的想法,但 3 年后它就饱和了。你会怎么做?最可能的是创建一个更难的考试。或者假设你解决了简单的编码任务。你会怎么做?最可能的是找更难的编码任务来解决,直到达到 IOI 金牌水平。

惯性是自然的,但这是问题所在。AI 在国际象棋和围棋中击败世界冠军,在 SAT 和律考中超过大多数人类,并在 IOI 和 IMO 中达到了金牌水平。但世界没有太大变化,至少从经济和 GDP 角度来看如此。

作者称之为效用问题,并将其视为 AI 最重要的问题之一。

也许我们很快就会解决效用问题,也许不会。无论如何,这个问题的根本原因可能看似简单:我们的评估设置在许多基本方面与现实世界的设置不同。举两个例子:

评估「应该」自动运行,因此通常一个智能体接收任务输入,独立完成任务,然后获得任务奖励。但在现实中,智能体必须在整个任务过程中与人类互动 —— 你不会只是给客服发一条超级长的消息,等 10 分钟,然后期待得到详细的回复来解决所有问题。通过质疑这种设置,新的基准被发明出来,以便在循环中引入真实的人类(例如,聊天机器人竞技场)或用户模拟(例如,tau-bench)。

image.png

评估「应该」在独立同分布(i.i.d.)的情况下进行。如果你有一个包含 500 个任务的测试集,你会独立运行每个任务,平均任务指标,然后得到一个整体指标。但在现实中,你是顺序解决任务,而不是并行进行。谷歌的软件工程师(SWE)在解决 google3 问题时,随着对代码库的熟悉程度逐渐提高,解决问题的能力也会越来越好,但一个软件工程智能体在同一个代码库中解决许多问题时,并不会获得这样的熟悉度。显然,我们需要长期记忆方法(并且确实存在),但学术界没有适当的基准来证明这种需求,甚至缺乏质疑作为机器学习基础的 i.i.d. 假设的勇气。

这些假设「一直」都是这样,在 AI 发展的前半段,在这些假设下开发基准测试是可行的,因为当智能水平较低时,提高智能通常会提高实用性。但现在,这种通用方法在这些假设下肯定能奏效。所以,在后半段的新游戏中,我们的方式是:

  • 我们为现实世界的实用性开发新颖的评估设置或任务。
  • 我们用通用方法解决这些任务,或者用新颖的组件增强这些方法。然后继续循环。

这个过程既困难又令人兴奋,因为它不再是我们熟悉的。前期的参与者专注于解决视频游戏和考试,而后期的参与者通过利用智能开发有用的产品,创造了价值数十亿甚至数万亿美元的公司。前期充满了增量式的方法和模型,而后期从一定程度上筛选这些方法。通用方法可能会超越增量式方法,除非你能够通过创造新的假设打破这种通用性。唯有如此,才能进行真正改变游戏规则的研究。

#OpenAI震撼发布o3/o4-mini

直逼视觉推理巅峰!首用图像思考,十倍算力爆表

满血版o3和o4-mini深夜登场,首次将图像推理融入思维链,还会自主调用工具,60秒内破解复杂难题。尤其是,o3以十倍o1算力刷新编程、数学、视觉推理SOTA,接近「天才水平」。此外,OpenAI还开源了编程神器Codex CLI,一夜爆火。

不出所料,满血版o3真的来了。

刚刚,OpenAI联创Greg Brockman和首席研究官Mark Chen带队,开启了20分钟线上直播。

这次不仅有o3,还有下一代推理模型o4-mini。它们首次实现了「用图像思考」,堪称视觉推理的巅峰之作。

如同AI智能体,两款模型在不到1分钟内,自主判断并组合运用ChatGPT内置工具,生成了详尽周全的答案。

其中包括,搜索网页、用Python分析上传的文件及数据、对视觉输入进行深度推理,乃至生成图像。

在Codeforces、SWE-bench、MMMU等基准测试中,o3刷新SOTA,不论是在编程、数学、科学,还是在视觉感知领域都树立了新标杆。

尤其是,对于图像、图表、图形分析,o3表现尤为突出,能够深入挖掘视觉输入的细节。

在Codeforces中,新模型得分均超2700分,在全球参赛者中排名前200名

用奥特曼的话来说,「接近或达到天才水平」。

不过,这个智力的代价是,需要投入o1十倍以上的算力。

相较于满血版o3,o4-mini则以小巧高效、高性价比的特点脱颖而出。

在AIME 2025测试中,o4-mini配合Python解释器取得了99.5%高分,几乎完美拿下了这项基准测试。

而且,在数学、编程、视觉任务,以及非STEM领域,它的性能均优于o3-mini。

此外,o4-mini支持远超o3的使用额度,是高并发场景最优选。

总而言之,o3和o4-mini都非常擅长编码,由此OpenAI还开源了一个可在终端运行的轻量级编程 AI 智能体——Codex CLI。

从今天起,ChatGPT Plus、Pro和Team用户将第一时间体验到o3、o4‑mini和o4‑mini‑high,它们将取代o1、o3‑mini和o3‑mini‑high。

同时,这两款模型也将通过Chat Completions API和Responses API,向所有开发者提供。

推理模型,首次会用工具了

直播演示中,Greg先上了一个价值——有些模型就像是质的飞跃,GPT-4是其中之一,今天o3/o4-mini同样是。

他表示,o3让他和OpenAI的同事见到了AI大模型能完成「从未见到的事」,比如,它自己就提出了一个很棒的系统架构想法。

这两款模型真正令人惊讶的地方,它们不仅仅是模型,更是一个「AI系统」。

它们跟之前那些推理模型最大的区别,就是首次被用来训练各种工具。它们会在CoT中使用这些工具来解决难题。

人类最后考试中,o3模型足以媲美Deep Research表现,而且速率更快

为了攻克了一个复杂难题,o3曾连续使用约600次工具调用。它们一次性生成的代码片段,真正在代码库发挥效用。

Greg表示,自己最珍视的一点,就是它们的软件工程能力:它们不仅能编写一次性的代码,而且能真正在真实的代码库中工作!

比如,它在浏览OpenAI代码库方面,就比Greg做得更好。这就是它极其有用的地方。

而且,在指令跟随、智能体工具使用评估中,与工具结合的o3和o4-mini准确性是最高的。

外部专家评估显示,o3在处理真实世界任务时,严重错误率比o1还降低了20%。

之所以有如此大的进步,正是因为RL中持续的算法进步所驱动的。用Greg的话说,引擎盖下最令人惊叹的是,目前它还仍然是预测一个token,然后加入一点RL的AI,就已经做到这个地步。

那么,在实操过程中,o3是如何结合使用工具解决复杂任务的呢?

多模态团队研究员Brandon McKinzie上传了一张2015年完成的一个物理实习海报,让ChatGPT估算质子同位标量电荷的数量。

o3开始推理的同时,逐一分析图片中内容,并确定Brandon提出问题的正确数量。实际上,海报截图中并没有覆盖最终结果。

于是,o3便开始联网搜索查找最新的估算值,几秒钟内读完数十篇论文,节省了大量时间。

结果显示,模型计算出了一个未经归一化的值,并且乘以一个特定常数,又可以重新归一化,最终结果与实际比较接近。

后训练团队研究员Eric Mitchell为ChatGPT开启了记忆功能, 然后让o3去查找新闻,而且是与自己兴趣有关的内容,同时还要足够冷门。

o3基于已有的了解——潜水和演奏音乐,主动思考并调用工具,找出了一些相关的有趣内容。

比如,研究人员录制了健康的珊瑚声音,并用扬声器播放录音,加速了新珊瑚和鱼类定居。

同时,它还能绘制出可视化的数据,便于直接放入博客文章当中。

也就是说,无论o3是用于前沿的科研领域,还是将模型集成到日常工作流中,都会非常有用。

在解决AIME数学竞赛问题时,o3被要求观察2x2方格网格,并计算出满足约束条件的颜色方案数量。

它首先生成了一个暴力程序,然后用Python解释器运行,并得到了正确答案,即82。

即便如此,它的解题过程并不优雅简洁,对此,o3自动识别后并尝试简化解决方案,找到更聪明办法。

它还会自动核查答案的可靠性,甚至最后给出了文字解决方案,方便向人类解释。

让研究人员惊讶的是,训练o3过程中并没有使用类似策略,也没有要求简化,都是AI自主学习完成的。

在编码任务中,研究人员让o3-high找出一个名为symbols软件包的错误。

首先,模型会主动检查指令中,所说的问题是否存在,并尝试了解代码储存库的概况。

然后,它发现一可以mro的解释类继承信息的Python结构,基于已有的世界知识,找到了问题所在。

最后,o3通过浏览互联网,找到了最优的解决方案——apply_patch。

就推理成本来看,o3和o4-mini不仅是迄今为止最智能模型,相较于o1和o3‑mini,更在效率和成本控制方面树立了新标杆。

在2025年AIME数学竞赛上,o3推理成本和性能全面优于 o1,同样地,o4-mini成本-性能也全面优于o3‑mini。

所以,如果你需要一个小而快的多模态推理模型,o4-mini将是极好的选择。

o3和o4-mini能够自主选择工具、计划方法解决问题,无论是数学、商业、科学、体育还是视觉推理都没问题。

比如,在解决体育问题时,o3能联网获取最新数据,考虑了最近一个赛季和2022-23年联赛ERA略升后回归正常的情况。

o1给出的数据是大概值,略有偏差,不够精确,而且它错误地认为偷垒增加完全是因为投球计时器,忽略了基地垫扩大和限制牵制次数这些更直接的原因。

用图像思考,视觉推理新巅峰

更引人注目的是,o3和o4-mini在视觉推理上全面超越前代,成为o系列最新的视觉推理模型。

它们通过在思维链(CoT)中用图像进行推理,实现了视觉感知的重大突破。

OpenAI首次实现了模型在其思维链中用图像进行思考——而不仅仅只是看图。

与早期的OpenAI o1类似,o3和o4-mini能在回答前思考更久,在回答用户前内部会生成很长的思维链。

不仅如此,o3和o4-mini可以在思考过程中「看」图片。这种能力是通过工具处理用户上传的图像来实现的,比如进行裁剪、放大、旋转等简单的图像处理。

更厉害的是,这些功能都是原生的,不需要依赖额外的专业模型。

在基准测试中,这种用图像思考,无需依赖网络浏览的能力,碾压了前代多模态模型的性能。

在STEM问答(MMMU、MathVista)、图表阅读与推理(CharXiv)、感知基元(VLMs are Blind)以及视觉搜索(V*)等领域,o3和o4-mini均创下了SOTA。

特别是,在 V*基准测试上,两款模型以96.3%准确率几乎攻克了这项挑战,标志着视觉推理技术重大飞跃。

ChatGPT增强的视觉智能,能更彻底、精准、可靠地分析图片,帮你解决更棘手的问题。

它能将高级推理与网页搜索、图像处理等工具无缝结合,自动放大、裁剪、翻转或优化你的图片,哪怕照片不完美也能挖掘出有用信息。

比如,你可以上传一张经济学作业的照片,得到一步步的解答,或者分享一个程序报错的截图,快速找出问题根源。

这种方法开启了一种新的测试时计算扩展方式,完美的融合了视觉和文本推理。

这体现在它们在多模态基准测试中的顶尖表现,标志着多模态推理迈出了重要一步。

视觉推理实战

用图像思考可以与ChatGPT更加轻松的互动。

你可以直接拍张照片提问,不用担心物体摆放问题——不论文字是不是倒的,或者一张照片里有多道物理题。

即使东西乍一看不太清楚,视觉推理也能让模型放大看清细节。

比如,一个放在桌子上几乎与视线平行的笔记本,上面有两行模糊的字,人看上去也很难直接认出来。

而ChatGPT可以将图片放大查看,发现字是倒着的后,还将其旋转过来,最终成功将其给认了出来。

上下滑动查看

上下滑动查看

上下滑动查看

上下滑动查看

OpenAI最新的视觉推理模型能跟Python数据分析、网页搜索、图像生成等工具配合,创意又高效地解决更复杂的问题,为用户首次带来了多模态智能体验。

图片

编程智能体Codex CLI全开源

接下来,OpenAI表示,将展示一些codex遗产的延续,发布一系列应用程序,而它们,将定义编程的未来。

除了新模型之外,OpenAI还开源了一项新的实验性工具:Codex CLI,一个可在终端运行的轻量级编程AI智能体。

它的作用,就是在需要的地方安全地部署代码执行。

它直接在本地计算机上运行,旨在充分发挥o3和o4-mini这类模型的强大推理能力,并将很快支持GPT-4.1⁠等更多模型的API调用。

通过向模型传递屏幕截图或低保真草图,并结合访问本地代码的权限,就能在命令行中体验到多模态推理的强大功能。

同时,他们也启动一项100万美元的资助计划,用以支持使用Codex CLI 和 OpenAI 模型的项目。

GitHub项目一经发布,Codex CLI已斩获3.3k星,可见响应度之高。

项目地址:https://github.com/openai/codex

图片

现场,OpenAI演示人员参考了网上的帖子,使用Codex和o4 Mini做了一个很酷的图片转ASCII生成器。

只需先截一张图,拖进终端里,接下来就可以把它交给Codex。

图片

令人惊叹的是,你可以实际看到它在思考,还可以直接运行工具。

完成后,Codex创建了一个ASCII HTML文件,甚至还生成了一个可以控制分辨率的滑块。

也就是说,从此电脑上的任何文件,以及你正在处理的代码库,都可以放进Codex了!

在现场,研究者们还成功添加了一个网络摄像头API。

图片

Scaling强化学习,依旧有效

在OpenAI o3的整个研发过程中,研究者观察到一个现象:大规模强化学习同样遵循着GPT系列预训练时显现的规律——即「投入越多的计算资源,就能获得越好的性能」。

他们循着这条Scaling路径,这次将重点放在强化学习(RL)上,把训练计算量和推理阶段的思考量(或称推理计算量)都提升了一个数量级,结果依然观察到显著的性能提升。

技术报告:https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf

这验证了只要给模型更多时间去「思考」,它的表现就会持续提高。

相较于前代o1,o3在相同延迟和成本下展现出更高的性能。更令人兴奋地是,当允许思考更长时间,其性能还会继续攀升。

此外,OpenAI通过强化学习训练,让o3和o4-mini掌握了工具使用的智慧——不仅学会「如何用」,更懂得「何时用」。

它们不仅能完全访问ChatGPT内置的工具,还能通过API中的函数调用功能接入用户自定义的工具。

这种能力让模型在开放式场景时,更加游刃有余,尤其是在需要视觉推理和多步骤工作流的复杂任务中。

而且,从前面诸多案例中,我们已经对模型工具调用的能力,获得了关键一撇。

那些提前拿到内测资格的大佬们,纷纷被o3震惊了。

尤其是在临床和医学领域,它的表现堪称现象级。无论是诊断分析还是治疗建议,仿佛出自顶尖专家的手笔。

不论是加速科学发现、优化临床决策,还是推理跨领域的创新,o3正成为这场变革的主导者。

参考资料:

​https://openai.com/index/thinking-with-images/​

​https://openai.com/index/introducing-o3-and-o4-mini/​​​

#豆包1.5·深度思考模型上线

特供「视觉版本」,大模型多模态推理的时代真来了

这几天的大模型圈子,特别热闹。凌晨是 OpenAI 的 o3 和 o4-mini,一觉醒来,国内这边的豆包大模型又上新了一波。

巧合的是,都是能看懂图像、能调用工具的新一代推理模型。

就在今天上午,2025 火山引擎 Force Link AI 创新巡展首站来到杭州。火山引擎总裁谭待宣布,「豆包 1.5・深度思考模型」加入豆包大模型全家桶。即日起,用户可在火山方舟官网直接调用「豆包 1.5・深度思考模型」API。

图片

豆包 1.5・深度思考模型包含两个版本,第一个主线版本是大语言模型 Doubao-1.5-thinking-pro,第二个是具备多模态能力的视觉版 Doubao-1.5-thinking-pro-vision。前者推理能力更强,后者支持视觉推理,开发者可以按需使用。

经多项主流基准测试评估,Doubao-1.5-thinking-pro 在数学推理、编程竞赛、科学推理等专业领域任务以及创意写作等通用任务中均表现突出:

图片

进一步想,让大模型的深度思考叠加视觉理解能力,必然能解锁更广泛更好玩的应用方式。Doubao-1.5-thinking-pro-vision 具备强大的视觉理解能力,就像人类一样,不光基于文字思考,更能基于所见画面思考,且思考得更立体、更深度。

就如下方视频所示,你可以文字提问、语音提问、拍照提问,不管是多复杂的问题,都能得到满意的回答:

火山引擎

,赞103

与此同时,豆包家族的几位成员也迎来了重磅升级:豆包・视觉理解模型增强了视觉定位能力和视频搜索能力;豆包文生图模型 3.0 版本发布,凭借「更好的文字排版表现、实拍级的图像生成效果、2K 的高清图片生成」三大优势,重新树立了生成式视觉技术的工业级应用标杆。

近一年来,不断增加的调用量和多场景覆盖,让豆包大模型家族持续壮大、越来越全面。去年 12 月,豆包大模型的日均 tokens 调用量达成 4 万亿里程碑。截至 2025 年 3 月底,这个数字已经超过了 12.7 万亿,相比刚发布时实现了超过 106 倍的超高速增长。

图片

本次活动中,火山引擎面向 Agent 服务,发布了 OS Agent 解决方案、GUI Agent 大模型 —— 豆包 1.5・UI-TARS 模型;面向大规模推理,发布了 AI 云原生・ServingKit 推理套件。

不断提升模型面向企业复杂场景分析能力,为智能决策与行动提供支持,这也是火山引擎稳居国产 AI 云服务平台第一梯队的根本原因。据 IDC 报告,2024 年中国公有云大模型调用量激增,火山引擎以 46.4% 的市场份额位居中国市场第一。

能看能思考

「原生多模态」成为推理模型标配

对于大部分豆包 APP 的用户来说,3 月初上线的「深度思考」是一项非常实用、好用的功能,但关于背后的推理模型的细节,我们却知之甚少。

从今天的现场发布信息来看,Doubao-1.5-thinking-pro 模型采用 MoE 架构,总参数为 200B,激活参数仅 20B,具备显著的训练和推理成本优势。

专业级推理上,在数学、代码、科学等专业领域推理任务中表现出色,均已达到或接近全球第一梯队水平。

  • 数学推理方面,该模型的 AIME 2024 得分为 86.7,追平 OpenAI o3-mini-high。
  • 代码能力方面,该模型的 Codeforces pass@8 达到了 55.0%,接近 Gemini 2.5 Pro。
  • 科学推理方面,该模型的 GPQA 得分为 77.3%,接近 o3-mini-high。

在创意写作等非推理任务中,Doubao-1.5-thinking-pro 也展示出优秀的泛化能力,能够胜任更广泛和复杂的使用场景。

为了提升模型的通用能力,团队优化了数据处理策略,把可验证数据与创意性数据进行融合处理,满足各类任务的需求。此外,大规模强化学习是训练推理模型的关键技术,团队通过采用创新的双轨奖励机制,兼顾「对错分明」和「见仁见智」的任务,有效实现了算法的可靠优化。

低延迟对于模型深度思考能力的应用来说是一项关键指标。基于高效算法,豆包 1.5・深度思考模型在提供行业极高并发承载能力的同时,实现了 20 毫秒极低延迟。

对于当下的大模型应用来说,深度思考能力已经成为标配。我们都习惯了给 AI 多一点时间「深度思考」再回答问题。但很多生活中的实际问题,解决的过程中也是需要随时查询实时信息的。

值得一提的是,目前的豆包 APP 基于豆包 1.5・深度思考模型进行了定向训练,将联网能力和深度思考进行了深度绑定。这就很像人类的思维方式 ——「边想边搜」。无需人为设定工作流,模型会自动通过强化学习探索中间用什么样的步骤和过程能达到好的结果,帮助用户获得更加全面、准确、契合需求的结果。

我们看一个很常见的用法。在购物推荐这个典型场景中,给到一个条件很苛刻的问题:「一对夫妻带两个孩子去露营,温度低,有雨,希望把装备买齐,要考虑预算限制,还要兼顾便携性和安全性。」

豆包首先是拆解每个具体需求需要的注意事项,比如装备、预算、安全等方面的注意事项,规划出需要的信息,然后经过了 3 轮搜索,终于给出了符合预算范围、非常细致、深思熟虑的答案。

,时长01:50

话又说回来,总有那么一些问题,你没办法纯粹用语言向大模型描述。

所以,让擅长深度思考的模型具备原生的多模态深度理解能力就变得更为重要,也是让用户交互方式更自然顺畅的关键。

仅文本输入的推理模型做不到处理需要空间、形态或动态变化的任务,而此次推出的视觉版 Doubao-1.5-thinking-pro-vision,可以结合文本、图像等多源信息,解决需要综合感知的任务。同时,视觉信息的输入也能补充文本描述中的模糊性。

比如,面对一张航拍地貌的图片,豆包 1.5・深度思考模型不仅能注意到不同颜色的湖泊,还观察到了湖泊的边缘有白色的盐结晶和旅游设施情况。然后根据地貌、开发情况、地理位置等进行深度思考和判断,并对类似景点进行了逐一排除。最终得出准确答案:是「青海大柴旦翡翠湖」!

,时长00:30

一手实测

「视觉理解」+「深度思考」有多好用?

「视觉理解」和「深度思考」复合能力的加持,让豆包 1.5・深度思考模型视觉版提供了非常独特的用户体验。

还有哪些实用的打开方式?这里可以看看测试结果:

先来一道几何证明题。采用「瞪眼法」,我们感觉到答案应该是「30 度」,但我们更想知道解题时的「脑回路」是怎样的,毕竟不写证明过程也是不得分的。那就问问豆包 1.5・深度思考模型视觉版:

图片

我们可以看到,模型用了 15 秒,深度思考了满满一屏:

图片

图片

然后它用 5 秒写出了所有解题步骤和最终答案。如果用户看完答案还不明白,就回去翻看思维链过程对比着学即可。

图片

图片

再来一个:在这个没有红绿灯的十字路口发生的交通事故,责任如何认定?左转私家车应该让直行出租车吗?

图片

这张照片拍摄的是一个繁忙的十字路口,包含众多车辆,就算是行人路过想看个热闹,也得反应好几秒。而豆包 1.5・深度思考模型视觉版迅速锁定了事故车辆双方的行驶轨迹和碰撞情况,首先列出清晰的法律依据,然后从「原则上」和「例外」两种情况推理出责任如何判定,考虑的相当全面:

图片

图片

上面这几个例子都是生活中常见或有趣的用法,接下来,我们再给豆包上点新的难度。

往专业了说,在医疗诊断场景中,豆包 1.5・深度思考模型视觉版还可以协助人类分析医学影像(X 光、MRI)并生成诊断报告。

患者自述「反复发烧,吃药不见好」,CT 结果如图,怎么治?

图片

看看「豆包大夫」怎么分析的。因为我们是以「医生」的口吻提问,所以豆包 1.5・深度思考模型视觉版给出了多种可能性:「如果能看到双肺多发斑片状磨玻璃影或实变,伴有支气管充气征,可能提示肺炎,但如果是慢性过程,需要排除结核或真菌感染。如果有钙化灶,可能提示陈旧性病变」。

图片

图片

图片

图片

需要注意的是,普通人最好只参考它的回复进行初步自查,最终如何治疗还是要遵医嘱。

我们测评的最后一个任务涉及专业领域的内容创作,豆包 1.5・深度思考模型视觉版能够以相当专业的眼光去审视作品,辅助设计或改进创作内容。

这里我们给到了一张建筑草图,而模型不仅推理了结构力学合理性,还会给出非常专业细致的优化建议:

图片

图片

图片

图片

整体测下来,感觉很厉害。具备视觉推理能力的豆包 1.5・深度思考模型,就像是一个天生长有「聪明大脑」和「眼睛」的超级 AI,解决问题的能力大大提升。

从今天起,人工智能确实进入了一个新的时代,推理模型不再「单打独斗」,一举突破纯文本或单模态的局限,得以进入到更多复杂、核心、高价值的场景。我们完全可以说,AI 的能力边界正在无限趋近于人类专家。

视觉理解模型、文生图模型再升级

在充分认识「豆包 1.5・深度思考模型」的新成员之后,还有两位豆包大模型家族的成员也迎来了重磅升级。

一位是家族已有成员「豆包・文生图模型」,此次正式升级为 3.0 版本。

近半年来,文生图赛道经历了一场由 GPT-4o 带来的狂飙突进。而豆包・文生图模型 3.0 重新树立了生成式视觉技术的工业级应用标杆。具体来说,它实现了三大突破性升级:更好的文字排版表现、实拍级的图像生成效果、2K 的高清图片生成。

首先是中文小字和长文本的生成。新模型不仅较好地解决了小字和长文本的生成难题,更大幅提升了海报排版的美感。比如下方的艺术展海报,里面有中英文混合的 7 种大小字以及长文本,模型在精准生成的基础上还做到了完美的融合排版:

图片

其次,AI 生成人物图像的真实感和美感终于「到位」了。大家可以看一下,这两张都是豆包文生图 3.0 模型的作品,皮肤质感、表情走向、衣服的纹理等细节的真实度都很赞:

图片

此外,豆包・文生图 3.0 模型实现了不需要经过二次处理的 2K 高清直出:

图片

豆包・文生图 3.0 模型也扛住了领域内基准测试的考验,在最新的文生图领域权威榜单 Artificial Analysis 竞技场中,已超越业界诸多主流模型,跻身全球第一梯队。

图片

另一位重磅升级的成员是「豆包・视觉理解模型」。

自去年 12 月 Force 大会上发布后,豆包・视觉理解模型已大量应用商业化场景中,且模型能力也在不断升级。这一次的版本更新带来了更强视觉定位能力和视频搜索能力。

首先,最新版本的视觉理解模型支持对单目标、多目标、小目标等进行边界框或点提示进行定位,并支持基于定位进行计数或描述所定位内容,此外还支持 3D 定位。视觉定位能力的提升,可以让模型进一步扩展应用场景,例如各行业的巡检场景、图形界面操作智能体、机器人训练、自动驾驶训练等。

,时长01:09

此外,最新版本的视觉理解模型在视频能力上也有大幅提升,如对话交互、记忆能力、对话交互、总结理解、方向 / 速度 / 顺序的感知能力、长视频能力等。

我们能够基于视频理解打造非常有趣的商业化应用。比如,人类白天出门办公,但家中有宠物需要看管,我们就可以基于视频理解能力,加上知识库、向量搜索等能力,对家中的监控视频进行搜索。

你可能好奇「小猫今天在家都做了什么」,模型能够毫秒级返回语义相关的视频片段供查看:

,时长00:16

技术超越之后

生态协同效应的释放

从一年前官宣诞生至今,豆包大模型家族已经「枝繁叶茂」,发展到了 15 位成员的规模。

图片

大模型在业务场景落地的关键挑战:效果不好、成本太贵、落地太难,而豆包大模型始终以更强模型、更低价格、更易落地,帮助企业解决上述问题。

与此同时,火山引擎打造了覆盖完整链路的相关产品,支持 AI 应用落地。在这次活动上,更是有一系列工具和解决方案发布。

作为专为人工智能开发设计的工具,AI IDE 对大模型技术的落地,特别是在简化模型训练与调试、数据管理增强、加速模型部署等方面具备关键作用。

字节跳动此前发布了国内首个 AI IDE——Trae(The Real AI Engineer)。相比于传统的 AI 插件产品来说,Trae 将 AI 与 IDE 深度融合,提供更智能的开发体验,具备交付化、智能化、协作化三个核心特质,使开发者更聚焦解决复杂业务问题而非工程细节。

Agent 赛道从去年火到了今年,也确实是一个极具前景的大模型落地方向。OS Agent 是目前业界公认的真正能从底层发挥 AI Agent 潜力的通用形态,但企业和个人如何打造专属的通用 Agent,是个挑战重重的问题。

火山引擎不直接「销售」Agent 能力,而是希望将构建 OS Agent 的解决方案开放给客户。

在赋能 AI 应用代码智能和浏览器智能方面,火山引擎解决方案的核心组件是豆包大模型和 veFaaS(函数即服务)、云服务器、云手机等产品。豆包大模型实现代码的生成和 agent 的流程,veFaaS 则实现代码沙箱和浏览器沙箱的托管,让企业和开发者可以轻松构建自己的 Code use 和 Browser use。

图片

到了交互和任务相对复杂的 Computer Use 和 Mobile Use 场景,Agent 需要操作电脑或者手机完成任务。火山引擎的解决方案是通过自研 Doubao 1.5 UI TARS 模型以及 Agent,驱动图形用户界面进行交互(GUI),而无需依赖特定的应用程序编程接口(API),并且能够精准识别用户的任务需求,进行智能感知、自主推理并准确行动。

图片

其中,UI-TARS 是一款助力客户打造通用智能体的大模型。它将屏幕视觉理解、逻辑推理、界面元素定位和操作整合在单一模型中,突破传统自动化工具依赖预设规则的局限性,为智能体的界面交互提供了智能体更类似人类、接近人类的模型基础。

豆包 1.5・UI-TARS 模型在 OS World(https://os-world.github.io/)等 OS 类测试集中取得比较高的分数(目前测下来是 28 分),仅次于 OpenAI CUA 和 Claude sonnet 模型,在国内各类模型中效果最优。目前,豆包・UI-Tars 模型已经上线火山方舟平台,面向全体用户提供稳定、高效的服务。

本次新发布的 AI 云原生・ServingKit 推理套件是经过火山方舟 AI 业务、豆包大模型和互联网、汽车、金融各行业客户验证的推理模型部署的一套解决方案,用于帮助客户更快、更省地完成大模型推理服务。通过 AI 容器编排、AI 网关、推理全链路观测和 AI 加速套件,ServingKit 支持在大规模 GPU 集群上运行推理工作负载,并保障推理服务的高性能、高可用性和资源成本优势。企业可快速构建高性能、低成本的生产可用的推理服务,聚焦业务创新而非底层运维。

如果说技术解决了「能不能做」的问题,而生态决定的是「如何做得好且可持续」,进而释放 AI 技术落地的全局价值。火山引擎打造的一系列工具,无一不在大模型落地层面起到了标准化流程、提升效率和促进协作的作用。

从中,我们不仅看到了国产 AI 技术的超越,更看到了生态协同效应的释放。

#UniCombine

文本提示、空间映射?任意条件组合都拿下!统一的多条件组合式生成框架

本文提出了 UniCombine,这是一个基于 DiT 的多条件可控生成框架,能够处理任意条件组合,包括但不限于文本提示、空间映射和主体图像。在主体插入、主体-空间以及多空间等条件生成任务上的大量实验表明,无论是无训练还是基于训练的版本,UniCombine都达到了最先进的性能。

一、简介

研究背景:现有的多条件可控生成框架或是只能处理单一种类的多个条件,或是只适用于某种特定的多类别组合,从而普遍缺乏通用性的多类别+多条件的组合式生成能力。

解决方案:我们提出了UniCombine,一种基于DiT的多条件可控生成框架。UniCombine能够处理包括但不限于text prompt、spatial map和subject image在内的任意控制条件的任意组合,并保持高度的一致性和出色的和谐性。具体而言,我们引入了一种新的Conditional MMDiT 注意力机制,并结合可训练的 LoRA 模块,从而同时提供了training-free和training-based两种版本。此外,我们构建并开源了首个针对多条件组合式生成任务设计的数据集SubjectSpatial200K,其中涵盖了subject-driven和spatially-aligned两大类控制条件。UniCombine在4项不同的多条件可控生成任务上均达到SOTA,证明了我们的方法具有卓越的框架通用性和出色的条件一致性。

论文链接:https://arxiv.org/pdf/2503.09277

开源代码:https://github.com/Xuan-World/UniCombine

欢迎收藏,点点star,共同进步。

一、效果展示

图片

图片

二、UniCombine方法

图片

(a) 整体框架。我们将基于 MMDiT 的扩散模型视为由文本分支和去噪分支组成。在此基础上,UniCombine 引入了多个条件分支来处理输入条件。

(b) UniCombine 的单条件设置。该设置等价于 OminiControl [44],即在单条件设置下,OminiControl 是我们 UniCombine 框架的特例。

(c) UniCombine 的多条件设置。我们提出的 LoRA Switching 模块可根据条件类型自适应激活去噪分支权重上的预训练 Condition-LoRA 模块。此外,我们引入了 Conditional MMDiT Attention 机制,以替换原始 MMDiT Attention 机制,从而处理统一的多条件输入序列。是否加载可选的 Denoising-LoRA 模块是无训练版本和基于训练版本的区别。

三、SubjectSpatial200K数据集

图片

我们的 SubjectSpatial200K 数据集旨在填补当前多条件生成任务中缺少公开可用数据集的空白。现有数据集未能同时包含主体驱动和空间对齐的标注。最近,Subjects200K 数据集提供了一个面向主体驱动生成的公开数据集。在此基础上,我们构建了 SubjectSpatial200K 数据集,这是一个高质量的统一数据集,专为训练和测试多条件可控生成模型设计。该数据集包含全面的标注,包括丰富的Subject Grounding Annotation和Spatial Map Annotation。数据集的构建流程见图。

四、实验结果

(1)对比实验

图片

(2)消融实验:CMMDiT与MMDiT

图片

(3)消融实验:Denoising LoRA与Text-LoRA

图片

(4)消融实验:DSB+SSB联合训练与DSB单独训练

图片

(5)算力开销分析

图片

五、总结展望

我们提出了 UniCombine,这是一个基于 DiT 的多条件可控生成框架,能够处理任意条件组合,包括但不限于文本提示、空间映射和主体图像。在主体插入、主体-空间以及多空间等条件生成任务上的大量实验表明,无论是无训练还是基于训练的版本,UniCombine 都达到了最先进的性能。此外,我们提出了 SubjectSpatial200K 数据集,以弥补当前缺少用于训练和测试多条件生成模型的公开数据集的不足。我们相信,该研究将推动可控生成领域的发展。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值