51c大模型~合集8_北大craftjarvis-CSDN博客

本文链接：https://blog.csdn.net/weixin_49587977/article/details/146244670

我自己的原文哦~ https://blog.51cto.com/whaosoft/13759964

#DetToolChain

提升GPT-4V、Gemini检测任务性能，你需要这种提示范式

本文作者来自浙江大学、上海人工智能实验室、香港中文大学、悉尼大学和牛津大学。作者列表：吴逸璇，王逸舟，唐诗翔，吴文灏，贺通，Wanli Ouyang，Philip Torr，Jian Wu。其中，共同第一作者吴逸璇是浙江大学博士生，王逸舟是上海人工智能实验室科研助理。通讯作者唐诗翔是香港中文大学博士后研究员。

多模态大模型（Multimodal Large Language Models，MLLMs）在不同的任务中表现出了令人印象深刻的能力，尽管如此，这些模型在检测任务中的潜力仍被低估。在复杂的目标检测任务中需要精确坐标时，MLLMs 带有的幻觉又让它常常错过目标物体或给出不准确的边界框。为了让 MLLMs 赋能检测，现有的工作不仅需要收集大量高质量的指令数据集，还需要对开源模型进行微调。费时费力的同时，也无法利用闭源模型更强大的视觉理解能力。为此，浙江大学联合上海人工智能实验室和牛津大学提出了 DetToolChain，一种释放多模态大语言模型检测能力的新提示范式。不需要训练就能让多模态大模型学会精确检测。相关研究已经被 ECCV 2024 收录。

为了解决 MLLM 在检测任务上的问题，DetToolChain 从三个点出发：（1）针对检测设计视觉提示（visual prompts），比传统的文字提示（textual prompts）更直接有效的让 MLLM 理解位置信息，（2）把精细的检测任务拆解成小而简单的任务，（3）利用 chain-of-thought 逐步优化检测结果，也尽可能的避免多模态大模型的幻觉。

与上述的 insights 对应，DetToolChain 包含两个关键设计：（1）一套全面的视觉处理提示（visual processing prompts），直接在图像中绘制，可以显著缩小视觉信息和文本信息之间的差距。（2）一套全面的检测推理提示 (detection reasoning prompts)，增强对检测目标的空间理解，并通过样本自适应的检测工具链逐步确定最终的目标精确位置。

通过将 DetToolChain 与 MLLM 结合，如 GPT-4V 和 Gemini，可以在无需指令调优的情况下支持各种检测任务，包括开放词汇检测、描述目标检测、指称表达理解和定向目标检测。

论文标题：DetToolChain: A New Prompting Paradigm to Unleash Detection Ability of MLLM
论文链接：https://arxiv.org/abs/2403.12488

什么是 DetToolChain？

图 1 DetToolChain 的整体框架

如图 1 所示，对于给定的查询图像，MLLM 被指示进行以下步骤：

I. Formatting：将任务的原始输入格式转化为适当的指令模板，作为 MLLM 的输入；

II. Think：将特定的复杂检测任务分解为更简单的子任务，并从检测提示工具包中选择有效的提示（prompts）；

III. Execute：按顺序迭代执行特定的提示（prompts）；

IV. Respond：运用 MLLM 其自身的推理能力来监督整个检测过程并返回最终响应（final answer）。

检测提示工具包：Visual Processing Prompts

图 2：visual processing prompts 的示意图。我们设计了 (1) Regional Amplifier, (2) Spatial Measurement Standard, (3) Scene Image Parser，从不同的角度来提升 MLLMs 的检测能力。

如图 2 所示，(1) Regional Amplifier 旨在增强 MLLMs 对感兴趣区域（ROI）的可见性，包括将原始图像裁剪成不同部分子区域，重点关注目标物体所在子区域；此外，放大功能则使得可以对图像中特定子区域进行细粒度观察。

(2) Spatial Measurement Standard 通过在原始图像上叠加带有线性刻度的尺子和指南针，为目标检测提供更明确的参考，如图 2 (2) 所示。辅助尺子和指南针使 MLLMs 能够利用叠加在图像上的平移和旋转参考输出准确的坐标和角度。本质上，这一辅助线简化了检测任务，使 MLLMs 能够读取物体的坐标，而不是直接预测它们。

(3) Scene Image Parser 标记预测的物体位置或关系，利用空间和上下文信息实现对图像的空间关系理解。Scene Image Parser 可以分为两类：首先，针对单个目标物体，我们用质心、凸包和带标签名称及框索引的边界框标记预测的物体。这些标记以不同格式表示物体位置信息，使 MLLM 能够检测不同形状和背景的多样物体，特别是形状不规则或被大量遮挡的物体。例如，凸包标记器标记物体的边界点并将其连接为凸包，以增强对形状非常不规则的物体的检测性能。其次，针对多目标，我们通过场景图标记器（scene graph marker）连接不同物体的中心，以突出图像中物体之间的关系。基于场景图，MLLM 可以利用其上下文推理能力来优化预测的边界框并避免幻觉。例如，如图 2 (3) 所示，Jerry 要吃奶酪，因此它们的 bounding box 应该非常接近。

检测提示工具包：Detection Reasoning Prompts

为了提高预测框的可靠性，我们进行了检测推理提示（如表 1 所示），以检查预测结果并诊断可能存在的潜在问题。首先，我们提出了 Problem Insight Guider，突出困难问题并为查询图像提供有效的检测建议和相似例子。例如，针对图 3，Problem Insight Guider 将该查询定义为小物体检测的问题，并建议通过放大冲浪板区域来解决它。其次，为了利用 MLLMs 固有的空间和上下文能力，我们设计了 Spatial Relationship Explorer 和 Contextual Object Predictor，以确保检测结果符合常识。如图 3 所示，冲浪板可能与海洋共现（上下文知识），而冲浪者的脚附近应该有一个冲浪板（空间知识）。此外，我们应用 Self-Verification Promoter 来增强多轮响应的一致性。为了进一步提升 MLLMs 的推理能力，我们采用了广泛应用的 prompting 方法，例如 debating 和 self-debugging 等。详细描述请见原文。

图 3 检测推理提示可以帮助 MLLMs 解决小物体检测问题，例如，利用常识定位人脚下的冲浪板，并鼓励模型在海洋中检测冲浪板。

图 4 一个 DetToolChain 应用于旋转目标检测的例子（HRSC2016 数据集）

实验：免训练也能超越微调方法

如表 2 所示，我们在 open vocabulary detection（OVD）上评估了我们的方法，测试了在 COCO OVD benchmark 中 17 个新类、48 个基础类和所有类的 AP50 结果。结果显示，使用我们的 DetToolChain，GPT-4V 和 Gemini 的性能均显著提升。

为了展示我们的方法在指称表达理解上的有效性，我们将我们的方法与其他零样本方法在 RefCOCO、RefCOCO + 和 RefCOCOg 数据集上进行了比较（表 5）。在 RefCOCO 上，DetToolChain 使得 GPT-4V 基线在 val、test-A 和 test-B 上的性能分别提升了 44.53%、46.11% 和 24.85%，展示了 DetToolChain 在 zero-shot 条件下优越的指称表达理解和定位性能。

#Entropy Law

中科大联合华为诺亚提出Entropy Law，揭秘大模型性能、数据压缩率以及训练损失关系

本工作由中科大认知智能全国重点实验室 IEEE Fellow 陈恩红团队与华为诺亚方舟实验室完成。陈恩红教授团队深耕数据挖掘、机器学习领域，在顶级期刊与会议上发表多篇论文，谷歌学术论文引用超两万次。诺亚方舟实验室是华为公司从事人工智能基础研究的实验室，秉持理论研究与应用创新并重的理念，致力于推动人工智能领域的技术创新和发展。

数据是大语言模型（LLMs）成功的基石，但并非所有数据都有益于模型学习。直觉上，高质量的样本在教授 LLM 上预期会有更好的效率。因此，现有方法通常专注于基于质量的数据选择。然而，这些方法中的大多数独立地评估不同的数据样本，忽略了样本之间复杂的组合效应。如图 1 所示，即使每个样本质量完美，由于它们的互信息冗余或不一致性，它们的组合可能仍然次优。尽管基于质量的子集由所有三个优质样本组成，但它们编码的知识实际上是冗余和冲突的。相比之下，另一个由几个相对较低质量但多样化的样本组成的数据子集在教授 LLM 方面可能传达更多信息。因此，基于质量的数据选择并未完全符合最大化 LLM 知识掌握的目标。

而本文旨在揭示 LLM 性能与数据选择之间的内在关系。受 LLM 信息压缩本质的启发，我们发现了一条 entropy law，它将 LLM 性能与数据压缩率和前几步模型训练的损失加以联系，分别反映了数据集的信息冗余程度和 LLM 对数据集中固有知识的掌握程度。通过理论推导和实证评估，我们发现模型性能与训练数据的压缩率呈负相关，而这通常会产生较低的训练损失。基于 entropy law 的发现，我们提出了一种非常高效且通用的数据选择方法用于训练 LLM，名为 ZIP，其旨在优先选择低压缩率的数据子集。ZIP 分多阶段、贪心地选择多样化的数据，最终获得一个具有良好多样性的数据子集。

团队：中科大认知智能全国重点实验室陈恩红团队，华为诺亚方舟实验室
论文链接: https://arxiv.org/pdf/2407.06645
代码链接: https://github.com/USTC-StarTeam/ZIP

图 1

Entropy law

我们对数据压缩与 LLM 性能之间的关系进行理论分析。直觉上，训练数据的正确性和多样性会影响最终模型的性能。同时，如果数据存在严重的内在冲突或模型对数据编码的信息掌握不佳，LLM 的性能可能会次优。基于这些假设，我们将 LLM 的性能表示为 Z ，其预期会受到以下因素的影响：

数据压缩率 R：直觉上，压缩率越低的数据集表明信息密度越高。
训练损失 L：表示数据对模型来说是否难以记忆。在相同的基础模型下，高训练损失通常是由于数据集中存在噪声或不一致的信息。
数据一致性 C：数据的一致性通过给定前文情况下下一个 token 的概率的熵来反映。更高的数据一致性通常会带来更低的训练损失。
平均数据质量 Q：反映了数据的平均样本级质量，可以通过各种客观和主观方面来衡量。

给定一定量的训练数据，模型性能可以通过上述因素来估计：

其中 f 是一个隐函数。给定一个特定的基础模型，L 的规模通常取决于 R 和 C，可以表示为：

由于具有更高同质性或更好数据一致性的数据集更容易被模型学习，L 预计在 R 和 C 上是单调的。因此，我们可以将上述公式重写为：

其中 g' 是一个反函数。通过结合上述三个方程，我们得到：

其中 h 是另一个隐函数。如果数据选择方法不会显著改变平均数据质量 Q，我们可以近似地将变量 Q 视为常数。因此，最终性能可以粗略地表示为：

这意味着模型性能与数据压缩率和训练损失相关。我们将这种关系称为 Entropy law。

基于 Entropy law，我们提出两个推论：

如果将 C 视为常数，训练损失直接受压缩率影响。因此，模型性能由压缩率控制：如果数据压缩率 R 较高，那么 Z 通常较差，这将在我们的实验中得到验证。
在相同的压缩率下，较高训练损失意味着较低的数据一致性。因此，模型学到的有效知识可能更有限。这可以用来预测 LLM 在具有相似压缩率和样本质量的不同数据上的性能。我们将在后续展示这一推论在实践中的应用。

ZIP：高度轻量化的数据选择算法

在 entropy law 的指导下，我们提出了 ZIP 这一数据选择方法，通过数据压缩率来选择数据样本，旨在在有限的训练数据预算下最大化有效信息量。出于效率考量，我们采用了一种迭代多阶段贪心范式，以高效地获得具有相对低压缩率的近似解。在每轮迭代中，我们首先使用全局选择阶段来选择一组具有低压缩率的候选样本池，找到信息密度高的样本。然后，我们采用粗粒度的局部选择阶段，选择一组与已选样本冗余度最低的较小样本集。最后，我们使用细粒度的局部选择阶段，最小化要添加样本之间的相似性。上述过程持续进行直到获得足够的数据，具体算法如下：

实验结果

1.ZIP 选择算法对于不同 LLM、在不同 LLM 对齐阶段的有效性

对比不同的 SFT 数据选择算法，基于 ZIP 选择数据所训练得到的模型性能上展现出优势，并且在效率上也占优。具体结果见下表：

得益于 ZIP 的模型无关、内容无感知的特性，其同样也可应用于偏好对齐阶段的数据选择。而 ZIP 所选择的数据同样展现出了较大的优势。具体结果见下表：

2.Entropy law 的实验验证

基于 SFT 数据选择实验，我们基于模型效果、数据压缩率以及模型在前几步训练的损失，分别拟合了多条关系曲线。结果见图 2 以及图 3，我们从图中可以观察到三个因素之间的紧密关联。首先，低压缩率数据通常会带来更好的模型效果，这是因为 LLMs 的学习过程与信息压缩高度相关，我们可以将 LLM 视为数据压缩器，那么压缩率较低的数据意味着更多的知识量，从而对压缩器更有价值。同时，可以观察到较低的压缩率通常伴随着更高的训练损失，这是因为难以压缩的数据携带了更多的知识，对 LLM 吸收其中蕴含的知识提出了更大的挑战。

图 2 Mistral-7B

图 3 Llama-3-8B

3.Entropy law 的实际应用

我们提供了一个 entropy law 在真实场景中指导 LLM 训练数据增量更新的应用。在该任务场景中，训练数据量保持相对稳定，只有一小部分数据会被修改。结果见图 4，其中

到

是逐渐增量更新的 5 个数据版本，出于保密要求，仅提供不同压缩率下模型效果的相对关系。根据 entropy law 预测，假设每次增量更新后数据质量没有显著下降，可以预期随着数据压缩率的降低，模型性能会有所提升。这一预测与图中数据版本

到

的结果一致。然而，数据版本

显示出损失和数据压缩率的异常增加，这预示了由于训练数据一致性下降导致的模型性能下降的潜在可能。这一预测通过随后的模型性能评估进一步得到证实。因此，entropy law 可以作为 LLM 训练的指导原则，无需在完整数据集上训练模型直到收敛，便可预测 LLM 训练失败的潜在风险。鉴于训练 LLM 的高昂成本，这一点尤其重要。

图 4

#深入理解深度学习

这可能是当今最全面、最新的深度学习概述之一。

爆火的深度学习领域，最近又有了热门学习资料。

近日，麻省理工出版社的新书《Understanding Deep Learning》（深入理解深度学习）迎来了中文版。

这本书一共分为 21 个章节，涵盖了深度学习领域的许多关键概念，包括基本构建、Transformer 架构、图神经网络 GNN、强化学习 RL、扩散模型等等。对于不论是初学者，还是已有工作经验的开发者来说都有极高的价值。

GitHub 链接：https://github.com/careywyr/UnderstandingDeepLearning-ZH-CN
书籍原链接：https://udlbook.github.io/udlbook/

目前，该书的英文电子版下载量已达到 34.4 万。

该书的实体版本在去年 12 月正式发布，全书共 541 页，不过它的电子版一直在继续更新。目前在网站上，作者还提供了 68 个 Python 笔记本练习，可以帮助读者通过编程实践加深理解。

本书希望以准确易懂的方式，向人们介绍深度学习的基础思想，旨在帮助刚入门的读者理解深度学习背后的原理。对于想要深入理解本书内容的读者来说，只需要本科水平的数学知识就能读懂。

具体来说，该书在前面的部分介绍了深度学习模型，并讨论了如何训练、评估这些模型，如何提高它们的性能的方法。在接下来的部分，作者会带领我们考察专门用于图像、文本和图数据的架构。后续的章节探讨了生成模型和强化学习。倒数第二章探讨了这些以及其他尚未完全理解的方面。最后一章讨论了 AI 伦理。

第一章 - Introduction 介绍

第二章 - Supervised learning 监督学习

第三章 - Shallow neural networks 浅层神经网络

第四章 - Deep neural networks 深度神经网络

第五章 - Loss functions 损失函数

第六章 - Fitting models 训练模型

第七章 - Gradients and initialization 梯度和初始化

第八章 - Measuring performance 性能评估

第九章 - Regularization 正则化

第十章 - Convolutional networks 卷积网络

第十一章 - Residual networks 残差网络

第十二章 - Transformers

第十三章 - Graph neural networks 图神经网络

第十四章 - Unsupervised learning 无监督学习

第十五章 - Generative adversarial networks 生成对抗网络

第十六章 - Normalizing flows 标准化流

第十七章 - Variational autoencoders 变分自编码器

第十八章 - Diffusion models 扩散模型

第十九章 - Deep reinforcement learning 深度强化学习

第二十章 - Why does deep learning work? 为什么深度学习有效？

第二十一章 - Deep learning and ethics 深度学习与伦理

参考链接：

https://x.com/tuturetom/status/1814689613304508777

#LLM范式的转变

盛名一时的BERT哪去了？这个问题的答案昭示了LLM范式的转变

编码器模型哪去了？如果 BERT 效果好，那为什么不扩展它？编码器 - 解码器或仅编码器模型怎么样了？

在大型语言模型（LLM）领域，现在是仅解码器模型（如 GPT 系列模型）独领风骚的时代。那编码器 - 解码器或仅编码器模型发展如何呢？为什么曾经盛名一时的 BERT 却渐渐少有人关注了？

近日，AI 创业公司 Reka 的首席科学家和联合创始人 Yi Tay 发布了一篇博客文章，分享了他的看法。Yi Tay 在参与创立 Reka 之前曾在 Google Research 和谷歌大脑工作过三年多时间，参与过 PaLM、UL2、Flan-2、Bard 等著名 LLM 以及 PaLI-X 和 ViT-22B 等多模态模型的研发工作。以下为他的博客文章内容。

基础简介

总体上看，过去这些年的 LLM 模型架构主要分为三大范式：仅编码器模型（如 BERT）、编码器 - 解码器模型（如 T5）、仅解码器模型（如 GPT 系列模型）。人们常常搞不清楚这些，并且对这些分类方法和架构有所误解。

首先要理解的一点是：编码器 - 解码器模型实际上也是自回归模型。在编码器 - 解码器模型中，解码器本质上依然是因果解码器。其无需预填充解码器模型，而是会将某些文本卸载到编码器，然后再通过交叉注意力发送给解码器。是的，T5 模型也是语言模型！

这类模型的一种变体是前缀语言模型（Prefix Language Model），简称 PrefixLM，其工作方式几乎一样，只是没有交叉注意力（以及其它一些小细节，比如编码器 / 解码器之间共享权重以及没有编码器瓶颈）。PrefixLM 有时也被称为非因果解码器。简单来说，编码器 - 解码器、仅解码器模型和 PrefixLM 整体上差别不大！

在 Hyung Won 近期的精彩讲座中，他娴熟地解释了这些模型之间的关系。

同时，BERT 这样的仅编码器模型的去噪方式不一样（即 in-place）；并且从某种程度上讲，仅编码器模型要在预训练之后真正发挥作用，需要依靠分类「任务」头。后来，T5 等模型采用了一种「修改版」的去噪目标，其使用了一种序列到序列的格式。

为此，需要指出：T5 中的去噪并非一种新的目标函数（在机器学习意义上），而是一种跨输入的数据变换，即你也可以使用一个因果解码器训练跨度损坏目标（span corruption objective ）。

人们总是假设编码器 - 解码器模型必定是去噪模型，部分原因是 T5 实在过于具有代表性。但事实并不总是如此。你可以使用常规的语言建模任务（比如因果语言建模）训练编码器 - 解码器。反过来，也可以使用跨度损坏任务训练因果解码器。正如我前面说的那样，这基本上就是一种数据变换。

还有一点值得注意：一般来说，有 2N 个参数的编码器 - 解码器的计算成本与有 N 个参数的仅解码器模型一样，这样一来，它们的 FLOP 和参数量之比就不一样了。这就像是在输入和目标之间分配「模型稀疏性」。

这不是什么新东西，也不是我自己想出来的。2019 年的 T5 论文中就有，并且 UL2 论文也再次强调了这一点。

目前来说，很高兴能把这一点说清楚。现在来说目标。

关于去噪目标（它没起作用吗？无法扩展吗？还是太容易了？）

这里的去噪目标是指「跨度损坏」任务的任意变体。这有时候被称为「填充」或「填空」。表达它的方式有很多，比如跨度长度、随机性、sentinel token 等。想必你已明白其中关键。

尽管 BERT 式模型的去噪目标基本是就地的（in-place，比如分类头位于掩码 token 上），但「T5 风格」要更现代一点，即通过编码器 - 解码器或仅解码器模型来处理数据变换。在这样的数据变换中，被掩蔽的 token 只是会被「移回去」以便模型给出预测。

预训练的主要目标是以尽可能最高效和有效的方式构建与下游任务对齐的内部表征。这种内部表征越好，就更容易将这些学习到的表征用于后续任务。我们都知道，简单的下一词预测「因果语言建模」目标表现出色，并且已成为 LLM 革命的核心。现在的问题是去噪目标是否同样出色。

根据公开信息，我们知道 T5-11B 的效果相当好，即使在对齐和经过监督式微调之后（Flan-T5 XXL 的 MMLU 分数是 55+，在当时来说，这个规模的模型已经相当好了）。因此，我们可以得出这样的结论：去噪目标的迁移过程（预训练→对齐）在这个规模上相对来说效果不错。

我的看法是，去噪目标的效果很好，但还不足以单独作为目标。一个巨大的缺点源自所谓的更少的「损失暴露（loss exposure）」。在去噪目标中，仅有少量 token 会被掩蔽和得到学习（即被考虑到损失中）。反过来，在常规的语言建模中，这接近于 100%。这使得每个 FLOP 的样本效率非常低，这使得在 flop 基础上的比较中，去噪目标的劣势很大。

去噪目标的另一个缺点是其比常规语言建模更不自然，因为它会以一种奇怪的方式重新设定输入 / 输出的格式，这使得它们不太适合少样本学习。（但在少样本任务上，仍可能通过调整这些模型让其表现得相当优良。）因此，我认为去噪目标应该只能用作常规语言建模的补充目标。

统一的早期以及 BERT 类模型消失的原因

类似 BERT 的模型逐渐消失，现在已经没多少人再谈它们了。这也能解释为什么我们现在看不到超大规模的 BERT 模型了。原因是什么？这很大程度上是因为任务 / 建模范式的统一和转变。BERT 式模型很繁琐，但 BERT 模型被弃用的真正原因是：人们希望一次性完成所有任务，因此采用了一种更好的去噪方法 —— 使用自回归模型。

在 2018-2021 年期间，出现了一种隐含的范式转变：从单任务微调转变成大规模多任务模型。这慢慢地将我们导向了统一的 SFT 模型，这就是我们如今看到的通用模型。使用 BERT 却很难做到这一点。我认为这与「去噪」关系不大。对于还想使用这样的模型（即 T5）的人，他们找到了一种重新表达去噪预训练任务的方法，这使得如今 BERT 式模型已经基本上被弃用了，因为我们已有更好的替代方案。

更确切地说，编码器 - 解码器和仅解码器模型无需特定于任务的分类头就能用于多种任务。对于编码器 - 解码器，研究者和工程师开始发现放弃编码器的效果就和 BERT 编码器差不多。此外，这还能保留双向注意力的优势 —— 该优势让 BERT 在小规模（往往是生产规模）上可与 GPT 竞争。

去噪目标的价值

去噪预训练目标也能以一种类似常规语言建模的方式学习预测下一个词。但是，不同于常规因果语言建模，这需要对序列使用一种数据变换，使得模型可以学习「填空」，而不是简单地预测从左到右的自然文本。

值得注意的是，去噪目标有时也称为「填充任务」，有时会与常规语言建模任务一起在预训练过程中混合使用。

虽然确切的配置和实现细节可能有所不同，但当今的现代 LLM 可能在某种程度上组合使用语言建模和填充。有趣的是，这种「语言模型 + 填充」的混合实际上也大概在同一时期四处传播（如 UL2、FIM、GLM、CM3），许多团队都带来了自己独具特色的混合方案。顺带一提，目前已知的以这种方式训练的最大模型很可能是 PaLM-2。

还需要说明一点，预训练任务混合也可以按顺序堆叠，不一定必须同时混合，比如 Flan-T5 起初是在 1T 跨度损坏 token 上训练的，然后换到前馈语言建模目标的 100B token，之后再进行 flan 指令微调。某种程度上讲，这适合混合去噪 / LM 目标模型。需要明确的是，前缀语言建模目标（不要与架构混淆）单纯只是因果语言建模，其有一个随机确定和发送到输入端的分割点（没有损失和非因果掩码）。

顺便一提，填充可能起源于代码 LLM 领域，其中「填空」更像是写代码所需的一个功能。同时，UL2 的动机更多是将去噪目标和双向 LLM 擅长的任务类别与固有的生成任务（例如总结或开放式生成）统一起来。这种自回归式的解码「向后移」的优点是：其不仅能让模型学习更长程的依赖关系，还能让其隐式地受益于非显式的双向注意力（因为为了填空，你已经看过了未来）。

有一个传说中的经验：去噪目标学习的表征在特定任务类别上表现更好，有时候还会有更高的样本效率。在 U-PaLM 论文中，我们展示了少量的跨度损坏 up-training 如何改变在一组 BIG-Bench 任务上的行为和涌现现象。在此基础上，对使用这一目标训练的模型进行微调通常可以得到更好的监督式微调模型，尤其是当规模较小时。

在单任务微调方面，可以看到 PaLM-1 62B 模型被小得多的 T5 模型击败。在相对较小的规模上，「双向注意力 + 去噪目标」是一记漂亮的组合拳！我相信很多实践者也注意到了这种情况，尤其是在生产应用中。

双向注意力如何呢？

对语言模型来说，双向注意力是一种有趣的「归纳偏置」—— 人们常常将其与目标和模型骨干混淆。在不同的计算领域，归纳偏置的用途也各不相同，并且也可能对扩展曲线造成不同的影响。话虽如此，相比于较小规模，双向注意力在规模较大时可能就没那么重要了，或者可能对不同的任务或模态有不同的影响。举个例子，PaliGemma 使用了 PrefixLM 架构。

Hyung Won 也在他的演讲中指出：PrefixLM 模型（使用双向注意力的仅解码器模型）也存在缓存问题，这是这类架构的一个固有缺陷。但是，我认为有很多方法可以解决这个缺陷，但这超出了本文的范围。

编码器 - 解码器架构的优缺点

相比于仅解码器模型，编码器 - 解码器架构有优势也有劣势。第一种情况是编码器端不受因果掩码的限制。在某种程度上，你可以在注意力层上放开手脚，激进地执行池化或任何形式的线性注意力，而不必担心自回归的设计限制。这是一种将不太重要的「上下文」卸载到编码器的好方法。你也能把编码器做小点，这也是个优势。

必需编码器 - 解码器架构的一个例子是 Charformer，其中大胆使用了编码器并缓解了字节层面的模型的速度劣势。在编码器方面进行创新可以快速获益，同时无需担心因果掩码的重大缺陷。

同时，相比于 PrefixLM，编码器 - 解码器的一个缺点是输入和目标必须分配固定的预算。举个例子，如果输入预算是 1024 token，那么编码器端就必须填充到这个值，而这可能会浪费大量计算。相反，在 PrefixLM 中，输入和目标可以直接连接起来，从而可以缓解这个问题。

与当今模型的相关性和关键要点

当今时代，要成为一位合格的 LLM 研究者和实践者，一项关键能力是能同时从架构方面和预训练方面推断归纳偏置。理解其中微妙的差异可帮助人们进行外推和持续创新。

以下是我的关键要点：

编码器 - 解码器和仅解码器模型都是自回归模型，它们在实现层面上有差异，也有各自的优缺点。它们是略有不同的归纳偏置。至于选用哪一种，这取决于下游用例和应用限制。与此同时，对于大多数 LLM 用例和利基用例而言，可以认为 BERT 式的编码器模型已经过时。
去噪目标主要能作为因果语言模型的补充。它们已经被成功用作训练阶段的「支持目标」。使用去噪目标训练因果语言模型通常能带来某种程度的帮助。尽管这在代码模型领域非常常见（即代码填充），但对于如今的通用模型，使用因果语言模型加某个去噪目标来进行预训练的做法也挺常见。
双向注意力能给较小规模模型带来很大助益，但对较大模型来说可有可无。这大都是传言。我认为双向注意力具有一种归纳偏置，就类似于对 Transformer 模型做的许多其它类型的修改。

最后，总结一下。目前已经没有大规模版本的 BERT 模型在运营了：BERT 模型已被弃用，取而代之的是更灵活的去噪（自回归）T5 模型。这主要是由于范式统一，即人们更喜欢使用一个通用模型去执行各种任务（而不是使用特定于某任务的模型）。与此同时，自回归去噪有时可作为因果语言模型的副目标。

原文链接：https://www.yitay.net/blog/model-architecture-blogpost-encoders-prefixlm-denoising

#Grok图像理解功能

Grok图像理解功能上线，单挑ChatGPT结果惊人！无地标照片秒定位，18世纪手稿一眼识别

能识别并转录18世纪手稿、还能推测无地标照片拍摄地……马斯克本人也出来官宣：Grok现在能够理解图像了！

就在刚刚，xAI为Grok增加了图像理解功能！

马斯克本人也出来官宣了，并称「Grok现在能够理解图像了，甚至还可以解释笑话」。

在马斯克举的例子中，Grok根据给出的这张meme图，从场景设置、笑话的前提、转折、幽默之处、额外的幽默层面、视觉笑点6个方面来解释了它。

这个笑话幽默地利用了对历史和科学的误解。以下是详细解释：

场景设置：漫画展示了两个守卫站在山丘上，周围有许多标着「物理学家」的尸体。守卫们在讨论这些物理学家是否真的死了，还是在装死。

笑话的前提：幽默来自第二个画面中的关键台词，一个守卫说「艾萨克·牛顿发明了重力」。这句话暗示了这些物理学家之所以不动（因此看起来像是死了），是因为重力的存在。而实际上，牛顿并不是「发明」了重力，而是用数学描述了它。

转折：笑话的关键在于，每次检查尸体时，这些尸体都会被「发现」。这讽刺了科学方法中的「观察与实验」，即通过观察来发现规律。

幽默之处：这个笑话结合了对科学历史的误解（牛顿没有发明重力，而是描述了它）和对科学发现的字面理解。那些人躺在那里不动是因为重力的作用，但每次检查时，守卫却当作是每次都在「发现」新东西，而不是认识到重力是他们不起来的原因。

额外的幽默层面：情境的荒谬性也增加了笑料。守卫们在一个检查尸体死活的场景里，用科学发现的术语，这种不恰当的应用增强了喜剧效果。

视觉笑点：尸体周围标有「发现」的标签，而守卫们认真地讨论这些人是否真的死了，还是因为重力在「装死」，这种视觉上的荒诞感也加强了笑话的幽默效果。

总体而言，漫画通过这种情景幽默讽刺了科学概念的误解或错误应用，同时还调侃了物理学家们对复杂理论的过度关注，以至于忽略了简单的现实状况。

不少网友调侃道：Grok比美国政客还要聪明有趣！甚至连它都知道什么是笑话。

但其实，这个笑话解释得太过复杂，让人云里雾里！

有网友在评论区补充了更恰当的解释：「真糟糕，我以为笑话是，物理学家们听到牛顿『发明了重力』忍不住要起来纠正，所以才停止装死...」

不少网友讨论道：

「是的，Grok的解释太过『高智商』以至于它重新变得愚蠢。」

「Grok解读太多毁了这个笑话！」

还有网友直言：「整个评论区都很奇怪，因为几乎没有人意识到Grok完全没理解这个笑话。那些知名的网红们都表现得像机器人一样。」

没想到马斯克本人出来官宣还闹了个乌龙！

不过，除了理解笑话还不太行，Grok倒是在其他的图像理解任务中展现出了不错的水平。

AI Breakfast发帖称：「Grok 2具有令人难以置信的OCR功能。它能够完美地转录这份几乎难以辨认的18世纪手稿文件。」

宾夕法尼亚大学沃顿商学院的副教授Ethan Mollick也发帖称赞了Grok的图像理解能力。

他将一张在日本大阪拍摄的照片传给Grok和GPT-4o，并让它们推测这张照片的拍摄地。据他所说，所有位置信息都从图像中删除，且没有可见的路标和广告牌。

GPT-4o回答道：「这张图片展示了一座大型工业起重机，位于水边，可能靠近一个港口或船厂。周围的建筑和起重机的结构表明，它可能位于一个具有大量海洋活动的城市的工业区。根据可见的细节，这个地点可能是在美国、日本或其他以重工业而闻名的沿海城市。」

在被要求进一步缩小范围的时候，GPT-4o能直接猜到是日本。

Grok也同样先分析了一遍照片的内容，最后捕捉到了照片中的「亚洲感」，给到「很可能是像日本、韩国或新加坡这样的亚洲船厂」的结论。

还有网友也分别给Grok和GPT-4o发了一张在葡萄牙首都里斯本拍摄的照片，让它们推测这张照片的拍摄地。

Grok回答道：

图片中的陶瓷作品的设计让人联想到传统的代尔夫特陶器，这是一种荷兰锡釉陶器，以其蓝白配色而闻名。这种风格与荷兰有着密切的关联。因此，这张照片很可能是在荷兰拍摄的，或者是在一个荷兰风格陶瓷流行的地方拍摄的。

GPT-4o回答道：

这张图片展示了一件陶瓷作品，其设计风格让人联想到传统的葡萄牙或荷兰陶瓷，尤其是蓝色花卉图案配以白色背景的设计。这种风格通常出现在葡萄牙（Azulejos）或荷兰（Delftware）。鉴于你位于里斯本，因此葡萄牙很可能是拍摄地点。

显然，ChatGPT完胜！但Grok的回答也不赖，已经十分接近正确答案。

不过目前，Grok还不能处理某些文件格式（例如PDF）。一名用户在马斯克的帖子下评论道：

「埃隆，Grok怎么回事？它无法处理照片或PDF，老实说，它在功能上感觉远远落后于ChatGPT。你曾对它进行了很多宣传，但作为用户，我可以告诉你：Grok需要重大改进。如果目标是设定一个新标准，它还远远不够。是时候让它赶上来了，你不觉得吗？」

马斯克回复说：「不久后就可以了。我们在几个月内完成的事情是其他人花费数年时间才能做到的。」

参考资料：

https://x.com/grok/status/1850808322074509434

https://x.com/AiBreakfast/status/1850961980892615161

https://x.com/emollick/status/1851025478833819947

https://x.com/MesutGenAI/status/1851048640472563798

#勾股定理还能这样证明

高中生一连发现10种证明方法，陶哲轩点赞

论文已上期刊，数学家表示赞叹。

几千年过去了，勾股定理还能有新发现？而且还是被两个高中生发现的？

这个人人都会的初中二年级数学知识，在学术领域居然有了新发展。本周二，UCLA 数学终身教授、菲尔兹奖得主陶哲轩在社交网络上的一番点赞引起了人们的兴趣。

陶哲轩表示，这是一篇有趣的论文，在简单探讨了两种证明是否算是同一种证明的话题之后，他提醒我们：即使是最古老和最完善的数学基础知识，有时也可以从新的角度重新审视。

在中国，周朝时期的商高提出了勾股定理的一个特例：「勾三股四弦五」。在西方，最早提出并证明此定理的为公元前六世纪古希腊的毕达哥拉斯学派，他们用演绎法证明了直角三角形斜边平方等于两直角边平方之和。所以该定理也被称为「毕达哥拉斯定理」。

勾股定理是人类早期发现并证明的重要数学定理之一，至今已成为数学定理中证明方法最多的定理之一 —— 从微分证明到面积证明，有超过 400 种证明方法。

两位高中生一口气发现了十种新方法，她们是如何证明的呢？

论文作者，前高中生 Ne’Kiya Jackson 和 Calcea Johnson。

数学家赞叹：全新思路

故事要从 2022 年讲起，那年美国高中生 Ne’Kiya Jackson 和 Calcea Johnson 在回答数学竞赛的一道加分题时，发现了一种证明几千年历史勾股定理的新方法，令老师们赞叹不已。这仅仅是个开始。

她们写道：「在 500 美元奖金的激励下，我们决定独立承担这项任务。事实证明，这比我们最初想象的要难得多。为了得出一个证明，我们每个人都花了很多个漫长的夜晚，但都失败了。经过大约一个月的脑力劳动，我们每个人都完成并提交了我们的工作。我们高中的数学志愿老师 Rich 先生认为我们的证明足够新颖，可以在数学会议上发表。我们当时对自己的工作都没有那么自信，但我们还是决定继续下去。」

在接下来的两到三个月里，她们把所有的空闲时间都花在完善这些证明上。最终，她们获得了成功。

她们所在的学校，新奥尔良圣玛丽学院的一名志愿者鼓励她们将这个成果提交给专业会议。到 2023 年 3 月，他们成为在亚特兰大举行的美国数学学会东南分会会议上发言的最年轻的人。

她们表示：「令我们惊讶的是，我们的高中作业得到了认真对待，我们获准在 2023 年 3 月的美国数学学会东南分会会议上发言。作为会上最年轻的人和最年轻的演讲者，我们很害怕，但我们知道这是我们之前所有努力的结晶，这给了我们发言的信心。」

如今，去年开始上大学的 Jackson 和 Johnson 又取得了另一项成就：它们已经完成了一篇详细介绍该方法证明的学术论文，新工作于周一发表在科学期刊《美国数学月刊》上。

论文标题：Five or Ten New Proofs of the Pythagorean Theorem
论文链接：https://www.tandfonline.com/doi/full/10.1080/00029890.2024.2370240#abstract

Calcea Johnson 目前在路易斯安那州立大学读环境工程专业，Ne’Kiya Jackson 正在路易斯安那泽维尔大学攻读药学博士学位。

与多年来历代数学家使用代数、几何方式解释勾股定理的方式不同，Johnson 和 Jackson 使用三角学来证明它 —— 一个专注于三角形研究的数学分支。

专家认为 Johnson 和 Jackson 的方法极其具有挑战性，因为三角学作为一个领域本质上是基于勾股定理（毕达哥拉斯定理）的。那么使用三角函数来证明该定理通常需要数学家所说的「循环论证」。然而根据新的研究，证明并不是循环的。

「我们在证明中使用的定理…… 都没有假设毕达哥拉斯定理是正确的，」作者在论文中写道。

英国布里斯托大学数学学院名誉教授 Tom Murdoch 称这项研究令人印象深刻，「我认为这项研究的有趣之处在于，很多人认为这是不可能的。」

三角函数基于正弦和余弦，它们表示为直角三角形某些长度的比率。很容易陷入循环论证，而这项研究的吸引力在于，他们找到了一条使用正弦和余弦的论证路线，同时并不假设毕达哥拉斯定理是正确的。

Johnson 和 Jackson 在研究中概述了使用三角学证明该定理的五种新方法，他们的方法揭示了另外五种证明，总共十种。两人在 2023 年的会议上只展示了其中一种证明，在新论文中，还有九种是全新的。这里我们重点来看看她们给出的五种证明以及她们发现这些证明方式的思路，更多详情可访问原论文。

勾股定理的五种证明

由于前面已经证明了等腰直角三角形的勾股定理，因此在下面五个证明的前四个中，会假设 ABC 是一个非等腰直角三角形，其中 𝑎<𝑏，也就等价于 𝛼<45°<𝛽。根据 [引用 1] 的严格要求，下面每个证明都将从直角三角形的图形开始。

第一种证明

在第一个证明中，他们首先是沿 △𝐴𝐵𝐶 的 AC 边进行翻折，得到一个等腰三角形 𝐴𝐵𝐵′。

现在，如图 8 所示，基于 𝐴𝐵𝐵′ 构建一个直角三角形 𝐴𝐵′𝐷，其中直角在 𝐵′ 处。然后在 △𝐵′𝐵𝐷 中填充逐步变小的 △𝐴𝐵𝐶 的相似三角形。

图 8

由于 𝐵𝐵′ 的长度为 2a，并且是 △𝐵′𝐸𝐵 的较长直角边，因此边的比值 a : b : c 表明较短直角边 BE 的长度为

但 BE 是 △𝐵𝐹𝐸 的较长直角边，因此 △𝐵𝐹𝐸 的斜边 BF 的长度为

根据构造，每个三角形的较短直角边也是下一个三角形的较长直角边，这意味着连续三角形的比率为 𝑎/𝑏；但间隔一个三角形的比率为 𝑎²/𝑏²，因此

因此，直角三角形 𝐴𝐵′𝐷 的斜边 AD 的长度为

在 △𝐴𝐵′𝐷 中，有 cos (2𝛼)=𝐴𝐵′/𝐴𝐷=𝑐/𝐴𝐷，因此 𝐴𝐷=𝑐/cos (2𝑎)。

将 AD 的两个等式合并到一起，可得：

请注意，其中一步使用了众所周知的收敛级数求和公式：

第二种证明

给定直角三角形 ABC，如下图所示，沿边 BC 找到一个点 D，使得 ∠𝐵𝐴𝐷=𝛼。这样一来，∠𝐴𝐷𝐶=90−2𝛼=𝛽−𝛼。

图 9

我们首先将正弦定理应用于 △𝐴𝐶𝐷：

由此得出

接下来，对 △𝐴𝐵𝐷 使用正弦定理：

比较 BD 的两个值，可得

，化简可得 𝑎²+𝑏²=𝑐²。

第三种证明

首先，在 AC 边上找到一个点 D，使得 ∠𝐶𝐵𝐷=𝛽−𝛼，因此 ∠𝐴𝐵𝐷=𝛽−(𝛽−𝛼)=𝛼 且 ∠𝐵𝐷𝐶=90−(𝛽−𝛼)=2𝛼。如图 10 所示。

图 10

根据定义， sin (2𝛼)=𝐵𝐶/𝐵𝐷，因此

那么，

于是可得：

但由于 △𝐴𝐵𝐷 是等腰三角形，有 𝐴𝐷=𝐵𝐷，因此

，消去 2b 后可得 𝑎²+𝑏²=𝑐²。

第四种证明

首先，如图 11 所示，画出斜边 AB 的垂直平分线 DE（使得 △𝐴𝐸𝐷∼△𝐴𝐵𝐶），然后构造矩形 AOBC 并画出它的对角线。

图 11

根据反射对称性，∠𝐵𝐶𝐷=∠𝐶𝐵𝐷=𝛽，然后 ∠𝐷𝐶𝐸=90−𝛽=𝛼 且 ∠𝐵𝐷𝐶=180−(𝛽+𝛽)=2𝛼。还有∠𝐶𝐷𝐸=90−2𝛼=𝛽−𝛼。

由于 𝐴𝐷=𝐵𝐷，有𝐴𝐷=𝐵𝐷=𝑐/2，而 △𝐴𝐸𝐷 的边之比 a：b：c 表明𝐷𝐸=𝐴𝐷(𝑎/𝑏)=𝑎𝑐/2𝑏 且 𝐴𝐸=𝐴𝐷(𝑐/𝑏)=𝑐²/2𝑏。因此

对 △𝐶𝐷𝐸 使用正弦定理可得：

第五种证明

与前四个证明不同，第五个证明仅适用于等腰直角三角形。

给定直角三角形 ABC，且有 𝛼≤𝛽，对于任意常数 𝑘（0<𝑘<1），可以画出一条线 DE 并使得 △𝐴𝐵𝐶∼△𝐴𝐷𝐸 具有比例因子 k。然后再画一条线 DF，使得 ∠𝐸𝐷𝐹=2𝛼。然后选择一个适当的 k 值，使得 F 位于 B 和 C 之间。

图 12

如果 ∠𝛼<45，则 DF 和 EC 可以延伸至点 G 处相交，从而得到一个直角三角形 DEG，其中 ∠𝐺=𝛽−𝛼。由于 𝐷𝐸∥𝐵𝐶，则可得 ∠𝐵𝐹𝐷=∠𝐸𝐷𝐹=2𝛼，则 ∠𝐵𝐷𝐹=180−(2𝛼+𝛽)=𝛽。对 △𝐵𝐷𝐹 使用正弦定理，可得

于是，

而在 △DEG 中，有 sin (𝛽−𝛼)=𝐷𝐸/𝐷𝐺，因此

则可得

并且由于 sin (𝛽−𝛼)=𝐶𝐹/𝐹𝐺，可得

当 ∠𝛼=45 时，仍然有 𝐵𝐹=(1−𝑘)𝑐²/2𝑎 （如果 M 是 BD 的中点，则 𝐵𝑀=(1−𝑘)𝑐/2 且 𝐵𝐹=𝑐/𝑎・𝐵𝑀）并且仍然有

因此对于任何直角三角形 ABC，可知

这两位高中生是如何得到这五种证明的？

在任何创造性活动中，都有一个基本问题：「我能用已有的东西创造什么？」

对于勾股定理，这个问题就变成了：「给定直角三角形 ABC，我可以创建哪些直角三角形？」

这两位高中生对这一问题进行了解答。他们对新三角形的创建做了限制，使其角是 △𝐴𝐵𝐶 的三个角 𝛼、𝛽 和 90 (=𝛼+𝛽) 度的「整数和」和 / 或「整数差」。

引理 1

a. 如果 ABC 是等腰直角三角形（因此 𝛼=𝛽=45），那么所有角是 𝛼 和 𝛽 的整数线性组合的三角形就只有等腰直角三角形。

b. 如果直角三角形 ABC 中的 𝛼 < 𝛽，则存在一个直角三角形，其锐角为 2𝛼 和 𝛽−𝛼。此外，2𝛼 和 𝛽−𝛼 是 𝛼 和 𝛽 的唯一整数线性组合，它们将是每对 {𝛼,𝛽} 的直角三角形的锐角。

证明

a. 由于等腰三角形 ABC 的所有三个角都是 45 的倍数，因此任何新三角形（其角度限制为 △𝐴𝐵𝐶 角度的和和 / 或差）中的所有三个角仍然是 45 的倍数，因此这个三角形必须是等腰直角三角形。也就是说，如果从等腰直角三角形开始，就无法创建一个新三角形。

b. 现在假设 𝛼 < 𝛽。如果新构造的直角三角形中锐角的大小为 𝑚𝛼 + 𝑛𝛽 (𝑚,𝑛∈ℤ)，则其补角大小为 90 – (𝑚𝛼 + 𝑛𝛽) =(𝛼+𝛽)–(𝑚𝛼 + 𝑛𝛽) = (1−𝑚)𝛼 + (1−𝑛)𝛽。如果整数 n 和 1−𝑛 都非零，因此其中一个（例如 n）必定为负数，则用 ⏧𝑛⏧ 替换 n，可知其中一个角度为 𝑚𝛼 – 𝑛𝛽，其中 m > n > 0。但是当 𝛼 为 90𝑛/(𝑚+𝑛) 度时，其补角 𝛽 为 90𝑚/(𝑚+𝑛) 度，这种构造会得到一个三角形，其角度为

这是不可能的，说明必定有 𝑛=0，这样对于某个 𝑚∈ℕ，其中一个锐角为 𝑚𝛼。

如果 𝑚=1，那就会得到原始三角形 ABC。如果 𝑚=2，那会得到一个新的直角三角形，其锐角为 2𝛼 和 𝛽 – 𝛼。（请注意，由于 𝛼 <45，因此 2𝛼 < 90。）最后，可以看到 𝑚 ≥ 3 是不可能的，因为不存在 30 ≤ 𝛼 < 45 的三角形。

该引理为这两位高中生提供了证明勾股定理的思路（对于非等腰直角三角形）：从原始三角形 ABC 开始，尝试以尽可能多的方式创建一个新的直角三角形，其角度为 2𝛼、𝛽 – 𝛼 和 90 度。

举个例子，为了创建 2𝛼 角，一种明显方法是将两个 △𝐴𝐵𝐶 组合到一起，如图 13 所示。

图 13

这会得到一个等腰三角形𝐴𝐵𝐵′，其角度分别为 2𝛼、𝛽 和 𝛽；下一步是取其中的 𝛽 角，并将其转换为 𝛽 – 𝛼 或 90 度。

要在顶点 𝐵′ 处创建 90 度角，可构造一条射线，使它与 𝐵𝐵′ 形成 𝛼 角。如果将边 AB 延伸到点 D 处与该射线相交，则会获得前面第一个证明的图像。

图 14

又或者，如果在斜边 AB 的另一侧创建 2𝛼 角，并延伸 CB 以与新射线相交于点 D，如下所示，则将获得第二个证明的图形。

图 15

这种简单的方法可得到许多新证明，其中五个如上所示，还有五个（或更多）留给感兴趣的读者去发现。

有时，对于问题过于了解，会让我们陷入认为它「理所当然」的束缚。能用全新的眼光看待问题，也是一种稀缺的能力。

这些「高中水平」的内容你看懂了吗？快快拿起纸笔也来尝试一番证明吧！

参考内容：

https://mathstodon.xyz/@tao/113391326199704210

https://www.cnn.com/2024/10/29/science/teens-pythagorean-theorem-study/index.html

https://www.cbsnews.com/news/high-school-students-pythagorean-theorem-trigonometry-proof-60-minutes/

#GitHub Copilot

o1之后，GitHub又接入Claude、Gemini，网友：也杀不死Cursor

那些转到 Cursor 的用户，会不会又被吸引过来呢？

从今天起，GitHub Copilot 用户可以有更多模型选择了。

包括 Anthropic 的 Claude 3.5 Sonnet、Google 的 Gemini 1.5 Pro 以及 OpenAI 的 o1-preview 和 o1-mini，这些模型首先在 Copilot Chat 中推出。

此前，OpenAI o1-preview 和 o1-mini 已经推出，Claude 3.5 Sonnet 将在下周逐步推出，Google 的 Gemini 1.5 Pro 将在未来几周内推出。

Claude 3.5 Sonnet

Anthropic 发布的 Claude 3.5 Sonnet 模型擅长处理整个软件开发生命周期的编码任务 —— 从初始设计到错误修复、从维护到优化。在这些任务中，Claude 3.5 Sonnet 都表现的非常出色。

，时长00:44

Gemini 1.5 Pro

Google 最新 Gemini 模型在各种编码场景中表现出极高的能力。Gemini 1.5 Pro 上下文窗口达 200 万个 token，并且原生支持多模态，能够同时处理代码、图像、音频、视频和文本。

，时长00:20

o1-preview 以及 o1-mini

OpenAI o1-preview 和 o1-mini 模型配备了比 GPT 4o 更先进的推理能力。这些模型的推理能力可以更深入地理解代码约束和边缘情况，从而产生高效、高质量的结果。

，时长00:32

Perplexity + GitHub Copilot

除了对模型更新外，现在 Perplexity 也已经集成到 GitHub Copilot 中，可以帮助用户回答编程中遇到的问题，这项新功能还能提供实时可验证的参考来源，增加答案的可靠性。

，时长01:16

GitHub Spark

为了实现 GitHub 覆盖 10 亿开发者的愿景，研究团队还推出了 GitHub Spark。这是一款完全以自然语言构建应用程序的 AI 原生工具。

Spark 集成了 AI 功能和外部数据源，用户无需管理任何云资源。利用创意反馈循环，用户从初始提示开始，并可以在构建应用程序时查看实时预览，轻松查看每个请求的选项，并自动保存每次迭代的版本，以便他们可以随时比较不同版本的效果。

，时长01:14

看到这，GitHub Copilot 这次更新诚意还是很大的。

在此之前，Copilot 首个公开版本使用的是 Codex，也就是 OpenAI GPT-3 的早期版本，之后 2023 年推出 Copilot Chat，搭载的也是 OpenAI 的模型 GPT-3.5 和后来的 GPT-4。

现在 Copilot 接入了更多模型供大家选择，大家纷纷猜测可能是受到 Cursor 的影响，毕竟 Cursor 把默认模型切到了 Claude，虽然 OpenAI 重金进行了投资。

GitHub Copilot CEO Thomas Dohmke 也进行了一波宣传，Claude 3.5 Sonnet 上线 Copilot。

有网友认为，这是 GitHub Copilot 追赶 Cursor 的一种表现，随着新模型的加入，GitHub Copilot 会赢回一批用户。毕竟很多程序员都转到 Cursor 了，因为那里可以使用 Claude-3.5-Sonnet。

还有网友表示，「可能要切换回 VS Code 了。」

「太好了！也许我可以重新激活我的 GitHub Copilot 订阅。」

还有网友表示：「老实说，我不认为 Cursor 是一个可靠的解决方案。它只是在使用 4o 和 Claude 方面比 Copilot 更胜一筹。如果 Copilot 也这么做，这很容易被取代，而微软确实这么做了。」

不过有人并不同意，表示「GitHub 花了两年时间才承诺类似的功能，在速度方面，Cursor 赢麻了，再次超越微软。」

「Cursor 并没有被杀死。」

GitHub Copilot 和 Cursor 你选哪个？欢迎评论区留言。

参考链接：

https://github.blog/news-insights/product-news/bringing-developer-choice-to-copilot/

#AI公司的时代已经结束了

今年的大模型，上半年异常热闹，下半年有些凉凉。

做底层大模型研发，就像一场旷日持久的马拉松，研发成本高、技术门槛高，迭代竞争激烈。拿 OpenAI 来说，研发带来的年亏损高达 50 亿美元。这样的财务压力显然不是一般的 AI 公司所能承受之重。AI 创业公司也往往显得十分务实，始终将商业化和盈利变现作为核心考量。

AI 在寻找自己用武之地的路上，视频生成算得上是离应用最近的赛道之一。然而今天，AI 视频生成的「顶流」Runway 的 CEO 却给 AI 公司「判了死刑」。在他的公开信中，第一段就写着：「我认为 AI 公司的时代已经结束了。」

Runway 联合创始人兼 CEO Cristóbal Valenzuela Barrera

这封信的全文是这样的：

Runway 不是一家 AI 公司。Runway 是一家媒体和娱乐公司。实际上，我认为 AI 公司的时代已经结束了。

这并不是因为 AI 失败了 —— 恰恰相反，而是因为 AI 正在成为像电力或互联网一样的基础设施。在今天称自己为 AI 公司，就像在 2024 年称自己为互联网公司一样。这没有意义，因为人人都在用 —— 每家公司都使用互联网；每家公司都将使用人工智能。

对于 Runway 来说，我们的重点是艺术、媒体和更广泛的娱乐领域。我们在七年前创办 Runway 的愿景至今未改：人工智能是讲故事的必备工具。为了实现这一愿景，我们不得不反其道而行之，建立最好的研究团队，来提供支持最佳产品的最佳模型。

我经常将我们的工作比作一种新型「相机」。这里的「相机」并不是字面上的捕捉图像，而要诉诸更长远的历史尺度。相机不仅仅创造了摄影 —— 它催生了整个行业、经济和艺术形式。电影、电视、TikTok —— 所有这些都源于那个能捕捉光与时间的革命性工具。

我认为 Runway 的工作是为一个全新的媒体景观打下基础。就像相机改变了我们捕捉现实的方式，人工智能也正在改变我们创造现实的方式。Runway 构建的模型和技术只是一个开始 —— 它们相当于那些最初的银版照片，原始但充满无限可能。

银版摄影是一种早期的摄影技术，于 1839 年由法国人 Louis Daguerre 发明。

许多人错误地将人工智能看作是终极目标。他们错了，AI 只是一种工具，是支撑更伟大成就的途径与方式。真正的革命不在于技术本身，而在于它能够实现的事物：开创新的表达形式、开启新的故事讲述方式、寻找连接人类经验的新方法。

传统媒体就像是一条单行道。创作通过既定的渠道流向消费者。即使分发首先被社交媒体、流媒体先后颠覆，但这个基本模式仍然存在：有人创造，其他人消费。角色清晰，界限明确。然而，现在我们正在见证一种全新的情形。

想象一下，你在观看的节目能在观看过程中自动生成 —— 这是一种真正动态的内容，它能够回应你、理解你、完全为你量身定制。模拟世界，让内容能够实时自我塑造，才能消解创造与分发之间的界限。这不仅是构建全新媒体景观的基础，也将从根本上重新定义媒体：它既是互动的、生成性的、个性化的，同时又是共享和普遍的。

这也是为什么纯 AI 公司正在过气。现在亟待解决的根本问题不再是单纯的技术 —— 而是我们能用技术创造什么？下一波创新不会源于那些专注于研究模型的公司。模型已经成为一种商品。技术基础现已稳固，行业内没有任何秘密。真正的变革将来自于那些知道如何使用这些工具来创造新的媒体形式、新体验和新的叙事方式的人。基础设施已经铺好，接下来才是重头戏：用 AI 创造有意义的事物。

AI 公司的终结，标志着全新的开始：全新媒体的诞生。这不仅仅是新的平台或格式，而是全新的创造和体验内容的方式。我们不再致力于构建一个人工智能公司。这是一个更加令人兴奋的使命，就像 Runway 一直以来所追求的：回归我们的初心。

「抓马」的 Runway

Runway 成立于 2018 年，创始人兼首席执行官 Cristóbal Valenzuela Barrera 认为人工智能在艺术创作领域具有巨大潜力。因此，Runway 自创立之初就致力于为设计师、艺术家和开发人员提供工具和平台。

Runway 的创始团队：从左到右分别为 Alejandro Matamala、 Cristóbal Valenzuela Barrera、Anastasis Germanidis

回顾 Runway 发展历程，我们会发现一些「抓马」事件：Stable Diffusion 背后团队互撕、突然删除 HuggingFace 库......

今天提到 Stable Diffusion，我们或许会认为它是 Stability AI 的研究工作，但实际上，这个模型的技术来源是发表在 CVPR 2022 中的一篇论文《High-Resolution Image Synthesis with Latent Diffusion Models》，署名作者一共五位，分别来自慕尼黑大学、海德堡大学和 Runway。2022 年，Runway 官宣发布了 Stable Diffusion v1.5，并和 Stability AI 因 Stable Diffusion 版权问题而引发矛盾。

而今年 8 月底，Runway 突然删除、清空了他们在 HuggingFace 上的所有内容，包括 Stable Diffusion v1.5。在 Hugging Face 主页上，Runway 声明不再维护 HuggingFace。

尽管这些事件有些抓马，但 Runway 一直在视觉生成领域持续发力。例如，近期 Runway 推出的视频生成基础模型 Gen-3 Alpha 可以创建具有复杂场景变化、多种电影风格和详细艺术指导的高精细视频。

最近，Gen-3 Alpha 还发布了一个新功能 ——Act-One，可以让用户上传一段视频，来驱动视频角色做出同样的表情、动作，可以说颠覆了动捕行业。

如果说「AI 公司的时代已经结束了」，那么 Runway 似乎一直在艺术、媒体和更广泛的娱乐领域创造工具和价值。或许，正如 CEO 所说，AI 在未来是一种基础设施，更值得思考和探索的是 AI 的应用方向。

对 Runway CEO 的观点，你认同吗？

参考链接：https://cvalenzuelab.com/newmedia?cnotallow=f3092b4cb56e4530d15c61194d05f9f9

#ROCKET-1

导航、采矿、建造，北大这个新智能体把《我的世界》玩透了

该研究成果由来自北京大学的蔡少斐、王子豪、连可为、牟湛存、来自北京通用人工智能研究院的马晓健研究员、来自加州大学洛杉矶分校的刘安吉共同完成。通讯作者为北京大学助理教授梁一韬。所有作者均隶属 CraftJarvis 研究团队。

在游戏和机器人研究领域，让智能体在开放世界环境中实现有效的交互，一直是令人兴奋却困难重重的挑战。想象一下，智能体在《我的世界（Minecraft）》这样的环境中，不仅要识别和理解复杂的视觉信息，还需要利用鼠标和键盘精细地控制游戏画面，快速做出反应，完成像导航、采矿、建造、与生物互动等任务。面对如此庞大且复杂的交互空间，如何能让智能体能理解并执行人类的意图呢？

针对这个问题，CraftJarvis 团队提出利用 VLMs （视觉语言模型）强大的视觉语言推理能力来指导任务的完成，并创新地提出了一种基于视觉 - 时间上下文提示（Visual-Temporal Context Prompting）的任务表示方法。该方法允许人类或 VLMs 在当前和历史游戏画面中将希望进行交互的物体分割出来，来传达具体的交互意图。为了将交互意图映射为具体的鼠标键盘操作，该团队进一步训练了一个以物体分割为条件的底层策略 ROCKET-1。这种融合了视觉 - 时间上下文提示的智能体架构为开放世界的交互奠定了基础，预示了未来游戏 AI 和机器人互动的新可能性。

论文链接: https://arxiv.org/pdf/2410.17856
项目主页: https://craftjarvis.github.io/ROCKET-1

研究创新点

视觉 - 时间上下文提示方法

架构对比图；(e) 为基于视觉 - 时间上下文提示的新型架构

视觉 - 时间上下文提示是一种全新的任务表达方式。通过整合智能体过去和当前的观察信息，该方法利用物体分割信息，为智能体提供空间和交互类型的线索，从而让低级策略能够准确识别和理解环境中的关键对象。这一创新使得智能体能够在执行任务时始终保持对目标对象的关注。

基于物体分割的条件策略 ROCKET-1

基于因果 Transformer 实现的 ROCKET-1 架构

ROCKET-1 是一种基于视觉 - 时间上下文的低级策略，能够在视觉观察和分割掩码的支持下预测行动。通过使用 Transformer 模块，ROCKET-1 可以在部分可观测（Partially Observable）环境中推理过去和当前观测的依赖关系，实现精准的动作预测。与传统方法不同，ROCKET-1 能够处理细微的空间和时序变化，并始终关注要进行交互的物体，显著提升了与环境交互的成功率。

反向轨迹重标注策略

反向轨迹重标记流程示意

训练 ROCKET-1 需要收集大量带有物体分割的轨迹数据。传统的数据标注方法成本高、效率低，CraftJarvis 团队提出了一种逆向轨迹重标注方法，利用 SAM-2 的物体分割能力在倒放的视频中连续地对发生交互的物体生成分割注释。这种方法能够根据现有的交互事件重建数据集，使得 ROCKET-1 在离线条件下即可完成高效训练，减少了对人工标注的依赖，并为大规模数据处理提供了切实可行的解决方案。

充分释放预训练基础模型的能力

CraftJarvis 团队将具身决策所依赖的能力分解为视觉语言推理、视觉空间定位、物体追踪和实时动作预测，并巧妙地组合 GPT-4o、Molmo、SAM-2、ROCKET-1 加以解决。

为了应对复杂任务规划的挑战，该团队引入了 GPT-4o，目前最先进的视觉语言模型之一。可以进行强大的视觉语言推理，将复杂的任务分解为一系列具体的物体交互指令。此外，该团队采用了 Molmo 模型来将 GPT-4o 的交互意图翻译为观察图像中的坐标点，用以精确定位交互物体。

为了应对对象跟踪的挑战，该团队引入了 SAM-2，一个先进的视频分割模型。SAM-2 不仅能够通过点提示对物体进行分割，还可以在时间上连续追踪目标，即便物体在视野中消失或重新出现时也能有效保持跟踪。这为 ROCKET-1 提供了稳定的对象信息流，确保了在高频变化的环境中智能体的交互精度。

实验成果

为了验证 ROCKET-1 的交互能力，CraftJarvis 团队在《我的世界》中设计了一系列任务，包括采矿、放置物品、导航和与生物互动等。

《我的世界》交互任务评测集

ROCKET-1 评测结果

实验结果显示，ROCKET-1 在这些任务上，尤其在一些具有高空间敏感性的任务中，获得的成功率远高于现有方法（在多数任务上实现了高达 90% 的成功率提升），ROCKET-1 表现出了出色的泛化能力。即便在训练集中从未出现的任务（如将木门放到钻石块上），ROCKET-1 依然能够借助 SAM-2 的物体追踪能力完成指定目标，体现了其在未知场景中的适应性。

此外，该团队也设计了一些需要较为复杂的推理能力的长期任务，同样展示了这套方法的杰出性能。

ROCKET-1 在解决任务时的截图

需要依赖规划能力的长期任务性能结果

视觉 - 时间上下文方法的提出和 ROCKET-1 策略的开发不仅为 Minecraft 中的复杂任务带来了全新解决方案，也在通用机器人控制、通用视觉导航等领域展示了广泛的应用前景。

#chitu「赤兔」推理引擎

FP8模型不再挑卡！DeepSeek推理成本减半速度翻番，清华团队开源「赤兔」推理引擎

「国产大模型 + 国产引擎 + 国产芯片」的完整技术闭环正在加速形成。

随着 DeepSeek 引燃市场对于大模型私有化部署的热情，模型部署的效率与成本成为企业 AI 落地的关键瓶颈。

今天，清华系科创企业清程极智与清华大学翟季冬教授团队联合宣布开源大模型推理引擎「赤兔」（Chitu），率先实现了非 H 卡设备（英伟达 Hopper 架构之前的 GPU 卡及各类国产卡）运行原生 FP8 模型的突破。

在 A800 集群上的实测数据显示，用赤兔引擎部署 DeepSeek-671B 满血版推理服务，相比于 vLLM 部署方案，不仅使用的 GPU 数量减少了 50%，而且输出速度还提升了 3.15 倍。

赤兔引擎代码已发布至 GitHub 开源社区：

https://github.com/thu-pacman/chitu

赤兔 (Chitu) 开源：

国产大模型基础设施又一里程碑

当前，拥有完整自主可控的 AI 技术栈已成为国家战略性需求。DeepSeek、QwQ 等优秀的国产开源大模型正在重塑全球科技产业格局，但在大模型推理部署领域，业界仍高度依赖国外开源工具。

赤兔引擎的开源为业界提供了国产开源新选择，也意味着「国产大模型 + 国产引擎 + 国产芯片」的完整技术闭环正在加速形成。

「我们看到国内大模型领域取得了显著进步，但在基础设施层面，尤其是推理引擎这一核心环节仍缺乏生产级开源产品。」清程极智 CEO 汤雄超表示，「开源赤兔引擎是我们助力国内 AI 生态建设的重要一步。」

作为清华大学高性能计算研究所所长，翟季冬教授长期致力于高性能计算与系统软件优化研究。翟教授指出：「赤兔引擎凝结了团队多年的并行计算与编译优化技术积累，目标是建立一个真正适合国内多元算力环境的高性能推理引擎，能够弥合先进模型与多样化硬件之间的差距，为中国大模型的产业落地提供关键支撑。」

本次开源的版本特别聚焦于当前市场最迫切的需求 —— 即实现 DeepSeek FP8 精度模型在存量英伟达 GPU 上的无损且高效部署。团队还透露，针对多款国产芯片特别优化的版本也将相继对外开源。这一突破不仅降低了大模型落地门槛，也为国产 AI 算力的发展带来了新的契机。

赤兔引擎核心优势：

全场景性能优化与架构适应性

随着 DeepSeek V3 和 R1 等新一代模型采用 FP8 混合精度训练并发布，企业面临新的部署挑战。这些 FP8 模型针对 NVIDIA Hopper 架构（H100/H200）深度定制，在其他硬件上部署时（包括 NVIDIA 其他架构 GPU 和国产芯片）需要进行额外的适配。

「最先进的模型与最难获取的硬件绑定，这是当前企业大模型落地的最大痛点之一」汤雄超表示。随着更新一代模型和芯片往 FP4 等新型数据精度方向的发展，这种代际效应将愈发显著。

另一个挑战是现有开源推理引擎对多元算力环境的支持不足。当前，vLLM 等主流引擎主要针对 NVIDIA 最新架构优化，对国产芯片或较老款 GPU 的适配并不理想。在国内企业私有化部署场景中，NVIDIA 的 Ampere 系列 GPU、国产芯片等多元算力占据了相当比例，这些场景亟需更加灵活的解决方案。

赤兔从一开始就定位于「生产级大模型推理引擎」，并且充分考虑了企业 AI 落地从小规模试验到大规模部署的渐进式特点，专注于提供以下重要特性：

多元算力适配：不仅支持 NVIDIA 最新旗舰到旧款的多种型号，也为国产芯片提供优化支持。
全场景可伸缩：从纯 CPU 部署、单 GPU 部署到大规模集群部署，赤兔引擎提供可扩展的解决方案。
长期稳定运行：可应用于实际生产环境，稳定性足以承载并发业务流量。

在性能优化方面，赤兔的设计理念是「对症下药」，支持「低延迟优化」、「高吞吐优化」和「小显存优化」，可以根据不同场景需求，在不同硬件配置和系统环境下，针对不同负载的特性，提供相应的最优解决方案。在实际部署中，这意味着赤兔引擎可以根据系统资源状况，在 GPU 利用率、内存效率和网络传输之间寻找最佳平衡点。

本次开源的技术突破是实现非 H 卡设备原生运行 DeepSeek FP8 精度模型。「我们没有走简单的量化路线，而是通过在算子内部高效处理 FP8 数据，确保模型推理质量不受任何影响。」汤雄超表示：「具体来说，我们对 GeMM、MoE 等一系列关键算子进行了指令级的优化，实现了 FP8 数据的原生处理能力。」

这种技术实现的难点在于需要深入理解不同硬件架构的指令集特性，以及 FP8 与其他精度格式之间的数学等效关系，结合硬件特性分析并优化。得益于团队在系统软件人才方面的积累，才能够在较短时间内实现这一突破。传统上为每种芯片架构人工编写优化代码的工作量巨大，而团队所具备的智能编译技术有助于加速高性能算子的开发过程。

在 A800 集群上的实测结果表明，与 vLLM 相比，赤兔引擎实现 DeepSeek-671B 满血版推理所需 GPU 数量减少 50%；尽管只用了一半的算力，但推理速度却达到其 3.15 倍。这意味着企业可以用一半的硬件资源获得更高的推理性能，极大降低了部署门槛和运营成本。

「部署大模型的最低算力成本是一个时常被忽视但极其重要的指标。」清程团队强调，显著降低推理成本对推广 AI 应用至关重要，赤兔推理引擎在设计之初就将降低用户的算力成本纳入核心考量。

开源共建

为国产芯片「抢时间」

赤兔推理引擎的开源标志着清程极智的业务发展进入新的阶段。清程极智在持续提供企业级软件部署运维服务和全套人工智能解决方案的同时，将把更多实际业务中的经验通过开源的方式回馈社区。

「目前英伟达 GPU 在大模型推理市场占据主流地位，未来几年可能出现国外 AI 芯片和国内 AI 芯片百花齐放的态势。」汤雄超分析指出：「我们希望赤兔引擎成为连接多元算力与大模型应用的桥梁，同时通过推理一体机产品为企业提供端到端的大模型部署解决方案。」

清程极智的推理一体机产品基于赤兔引擎，适配多种硬件和模型，能够为企业提供开箱即用的私有化部署方案，并配套专业的运维与优化服务。

对于国产 AI 基础设施而言，赤兔引擎的开源有助于弥合国产芯片与国际先进芯片之间的「时间差」—— 当新模型架构和新数据类型出现时，赤兔引擎可以帮助国产芯片快速适配。

其次，开源引擎减轻了芯片厂商的软件开发负担。芯片厂商可以专注于硬件创新，而不必每家都重复开发完整的软件栈。翟季冬教授表示，「我们目前与多家国产芯片厂商进行合作，各方可直接向赤兔项目贡献代码，共同建设一个更强大的开源生态。」

「开源就是做给大家用，用了才知道好不好。我们把代码放到 GitHub 上，有问题提 issue，有想法提 PR，一起把它做得更好。」汤雄超说。

「无论用什么卡，赤兔都是高性价比的选择。」

#一家高校实验室，走出12家明星AI初创公司

Pieter Abbeel：我的NB学生们

一家高校实验室，能走出多少个知名 AI 初创公司的创始人？

强化学习大牛、UC 伯克利教授 Pieter Abbeel 浅浅统计了一番：我带过的学生里，也就 12 个吧。

这些公司的名气都不小：OpenAI、Perplexity、Physical Intelligence、Inception AI、Reflection…… 相信你都听说过。

刚刚，Pieter Abbeel 用一句话和一张配图，低调宣传了一下让他骄傲的学生们：「那些获得博士学位或从事博士后研究的创始人，曾在伯克利实验室渡过一段美好的时光，现在他们开始了他们的创业之路。」

截屏2025-03-13 14.30.39.png

Pieter Abbeel 是加州大学伯克利分校电气工程与计算机科学系的教授，同时也是伯克利机器人学习实验室（Berkeley Robot Learning Lab）主任和伯克利人工智能研究实验室（BAIR）联合主任。

在人工智能和机器人领域享有盛誉的专家 Pieter Abbeel ，不仅研究成果在学术界产生了深远影响，他带出的学生在不同领域也取得了非凡成就。

下面我们盘点一下，Abbeel 口中的这些优秀学生们（人名后的信息为企业名+当前估值）。

John Schulman-OpenAl (350B)

John Schulman 是一位著名的人工智能研究科学家，尤其在强化学习和大语言模型领域有着重要贡献。

2015 年 12 月，Schulman 连同奥特曼等人共同创立了 OpenAI，并在其中担任重要角色。他在 OpenAI 领导了强化学习团队，参与创建了 ChatGPT，并从 2022 至 2024 年共同领导了后训练团队。Schulman 于 2024 年 8 月从 OpenAI 离职。

Schulman 离开 OpenAI 后，加入竞争对手 Anthropic，专注于 AI 对齐研究。然而，他在 Anthropic 仅工作了半年，于 2025 年 2 月再次离职。

今年 2 月，Schulman 成为初创公司 Thinking Machines Lab 的联合创始人兼首席科学家。Thinking Machines Lab 是一家「人工智能研究和产品公司。」 CEO 为 OpenAI 前 CTO Mira Murati，她曾在 OpenAI 领导过研究、产品与安全方面的工作。

谷歌学术页面显示，John Schulman 的学术引用总数已经超过 10 万。其中，引用量最高的研究便是他创造的 PPO 算法《Proximal policy optimization algorithms》。

他在加州大学伯克利分校获得了计算机科学博士学位，导师为该校教授、深度强化学习大牛 Pieter Abbeel。之后从事机器人和强化学习研究与工作。在此之前，他还曾在伯克利短暂学习过神经科学，并在加州理工学院学习过物理学。

Aravind Srinivas-Perplexity (15B)

Aravind Srinivas 是一位印度裔美国计算机科学家、企业家，因联合创立 AI 初创公司 Perplexity AI 而广受关注。

2018 年，他在 OpenAI 实习并参与开发强化学习项目，师从 John Schulman。

2022 年，Srinivas 与 Denis Yarats、Johnny Ho 等人联合创立了 Perplexity AI，担任首席执行官。Perplexity AI 致力于打造世界上最值得信赖的问答引擎，其核心产品是一款基于大型语言模型的聊天机器人，能够提供准确的答案和信息来源。

Aravind Srinivas 工作经历也非常丰富，先后就职于谷歌 DeepMind、OpenAI 等明星公司。

Aravind Srinivas 在印度理工学院马德拉斯分校（IIT Madras）完成了电气工程硕士学位，专注于迁移学习和强化学习研究。随后，他前往加州大学伯克利分校深造，获得计算机科学博士学位，研究方向包括高效深度学习训练方法和计算机视觉。

Deepak Pathak-Skild (4B)

Skild AI 是一家专注于机器人技术和人工智能应用的初创公司，成立于 2023 年 5 月，由 Deepak Pathak 和 Abhinav Gupta 创立。该公司致力于构建通用机器人智能。

Skild AI 开发了一款被称为 Skild Brain 的可扩展机器人基础模型，成为各种机器人在不同场景和任务中的通用大脑。这一模型能够适应不同的硬件平台和环境，从建筑工地到工厂，再到家庭等场景。去年 7 月，Skild AI 完成 3 亿美元 A 轮融资，估值达到 15 亿美元。此外，2025 年 1 月，有消息称软银正在谈判向 Skild AI 投资 5 亿美元，其估值约为 40 亿美元。

我们再回到 Deepak Pathak 本人。Deepak Pathak 博士毕业于加州大学伯克利分校，导师是 Alyosha Efros 和 Trevor Darrell 教授。他主要专注于计算机视觉、机器学习和机器人技术的交叉研究。

之前，Deepak Pathak 在 Meta AI 研究部门担任了一年的研究员，并在加州大学伯克利分校以访问博士后的身份与 Pieter Abbeel 合作。

Chelsea Finn, Sergey Levine-Pl (2.4B)

Physical Intelligence（简称 PI 或 π）是一家专注于开发基础模型和学习算法的美国初创公司，目标是为当今的机器人和未来的物理驱动设备提供动力。

Chelsea Finn 是斯坦福大学计算机科学和电气工程助理教授，也是 Pl 的联合创始人。

之前，Chelsea Finn 在加州大学伯克利分校完成了计算机科学博士学位，并在麻省理工学院获得了电气工程和计算机科学学士学位。她还曾在谷歌大脑团队工作过一段时间。

Sergey Levine 被认为是强化学习领域的领军人物之一，他的谷歌学术引用量超过 17 万。他也是 PI 的联合创始人。

Sergey Levine 现在是加州大学伯克利分校电气工程与计算机科学系副教授，专注于能够使自主智能体通过学习获得复杂行为的算法，特别是能够使任何自主系统学习解决任何任务的通用方法。这类方法的应用包括机器人技术，以及需要自主决策的其他领域。

Sergey Levine 2009 年获得了斯坦福大学硕士学位，2014 年获斯坦福大学博士学位，2016 年加入加州大学伯克利分校电气工程与计算机科学系。他的研究涉及自动驾驶、机器人、计算机视觉和图形学。他的研究包括开发用于深度神经网络的端到端训练算法，用于逆向强化学习的可扩展算法，深度强化学习算法等。

Roshan Rao-Evolutionary Scale (x00M est.)

Roshan Rao 是 EvolutionaryScale 的联合创始人兼研究科学家，致力于研究蛋白质的进化模型。此前他在 Meta AI 工作，并在加州大学伯克利分校完成了博士学位，导师是 John Canny 和 Pieter Abbeel。

EvolutionaryScale 是一家非盈利公司。他们的使命是通过与科学界合作以及开放、安全和负责任的研究，开发人工智能来理解生物学，造福人类健康和社会。自成立以来，ESM 项目一直致力于通过代码和模型发布来开放科学，该团队承诺将继续坚持下去。该公司成立于 2023 年 7 月已经完成 1.42 亿美元种子轮融资，并已经与亚马逊（Amazon）和英伟达（NVIDIA）公司达成合作。

2024 年夏天，EvolutionaryScale 推出了 ESM3，一款面向蛋白质语言的大模型，成功在自然进化未曾涉足的区域设计出功能性蛋白，同期上线了该研究的预印版本。

时隔半年，该研究以「Simulating 500 million years of evolution with a language model」为题，于 2025 年 1 月 16 日在《Science》发布。

Aditya Grover-Inception Al (x00M est.)

Aditya Grover 是加州大学洛杉矶分校的计算机科学助理教授，领导机器智能 (MINT) 小组开发可以在有限监督下进行交互和推理的人工智能系统。

在加入 UCLA 之前，他曾在 FAIR 和 Meta 的核心机器学习团队担任研究科学家。此前他在加州大学伯克利分校度过了博士后生涯（导师为 Pieter Abbeel），在斯坦福大学完成了博士学位（导师为 Stefano Ermon，扩散模型的发明者之一），在印度理工学院德里分校完成了学士学位（联合导师是 Mausam、Parag Singla）。

Aditya Grover 博士期间的导师 Stefano Ermon 于去年夏天创立了 Inception，并邀请他和康奈尔大学教授 Volodymyr Kuleshov 共同领导公司。

不久前， Inception 发布了首个商业级扩散大型语言模型（dLLM）Mercury，在英伟达 H100 上能以每秒超过 1000 token 的速度运行，性能媲美现有的经过速度优化的 LLM。基于来自 MidJourney 和 Sora 等图像和视频生成系统的灵感，Inception 为 Mercury 引入了一种新的语言生成方法。相比于现有的 LLM，这种方法的运行效率显著更高（速度更快、成本更低），并且还可将推理成本降低 10 倍。

Peter Chen&Rocky Duan&Tianhao Zhang-Covariant (625M)

左一至左四：陈曦、Pieter Abbeel、段岩、张天浩

Covariant 是一家位于美国湾区的人工智能与机器人公司，致力于构建先进的人工智能模型，使机器人能够观察、推理和应对周围的世界，从而支持多种不同的仓库自动化任务。

公司成立于 2017 年，原名为 Embodied Intelligence，由 Pieter Abbeel、Peter Chen（陈曦）、Rocky Duan（段岩）和 Tianhao Zhang（张天浩）创立。Pieter Abbeel 担任首席执行官，Abbeel 担任总裁兼首席科学家，段岩担任首席技术官。

自 2008 年以来，Abbeel 一直担任加州大学伯克利分校机器人学习实验室主任，同时还是该校教授。三位创始人都是他在这所大学的学生。此外 Pieter Abbeel 和陈曦、段岩曾在 OpenAI 担任研究员（当时 OpenAI 解散了机器人团队），张天浩曾是微软研究员。

在实验室的研究基础上，两位创始人花了两年多时间设计出 Covariant Brain，这是一款由人工智能驱动的软件，可以为机械臂提供动力，使其能够在仓库中执行劳动。2018 年，该公司开始收集全球仓库中 30 种机械臂的数据，所有这些机械臂都使用 Covariant Brain 运行。此后，该公司建立了一个包含数十亿个现实世界机器人信息的数据库。

2024 年 9 月，亚马逊宣布聘用 Pieter Abbeel、Peter Chen 和 Rocky Duan 和 Covariant 约四分之一的员工，帮助推动 Covariant 技术在亚马逊运营中的开发和实施，还签署了使用 Covariant 机器人基础模型的非独家许可。

Misha Laskin-Reflection (555M)

Misha Laskin（左）和 Ioannis Antonoglou（右）

Misha Laskin 曾于 2022-2024 年任 Google DeepMind 研究科学家，此前曾在加州大学伯克利分校念博士后，是芝加哥大学理论物理学博士。他曾帮助开发谷歌 Gemini 大语言模型系列的训练工作流程。

不久前，他宣布了自己已经成立一家名为 Reflection AI 的公司，旨在开发超级智能。公司一亮相，就已宣布获得 1.3 亿美元融资，估值更是高达 5.55 亿美元。

除了担任 CEO 的 Misha 之外，公司的联合创始人 Ioannis 是谷歌 DeepMind 的创始工程师，也是 AlphaGo 的幕后功臣，还从事了 Gemini 的训练后系统工作。其他团队成员也都是曾在 DeepMind、OpenAI 和其他前沿实验室发挥主导作用的研究人员和工程师，参与打造了过去十年间一些最先进的人工智能系统，比如 AlphaGo 和 Gemini 等。

Reflection 的愿景是构建超级智能代理来执行所有知识工作，这建立在两个核心信念之上：

1. 自主编码是迈向超级智能的关键一步。

2. 现实世界的评估 —— 而不仅仅是基准 —— 才是最重要的。

Jonathan Ho-ldeogram (500M est.)

Jonathan Ho 于 2020 年博士毕业，他曾与 Ajay Jain、Pieter Abbeel 联合提出了去噪扩散概率模型（Denoising diffusion probabilistic models，DDRM）。

此后，他曾在谷歌担任研究科学家，并在 2022 年 12 月共同创立了 Ideogram，开发文本生成图像模型。公司利用深度学习技术将自然语言描述（即提示词）转化为数字图像。与其他文本生成图像模型相比，Ideogram 的独特之处在于其能够在生成的图像中准确地呈现可读的文字内容，这使其在创建包含文本元素的图像（如标志、海报等）方面表现出色。

2024 年 8 月，公司发布了 Ideogram 2.0 模型，提供了现实主义、设计、3D 和动漫等多种风格，并进一步提升了在图像中生成文本的能力。

自创立以来，Ideogram 完成了多轮融资，包括 2023 年 8 月的 1650 万美元种子轮融资，该轮融资由 a16z 和 Index Ventures 领投；以及 Ideogram 1.0 发布后获得由顶尖风险投资公司 a16z 领投的 8000 万美元 A 轮融资。

Ajay Jain-Genmo

2023 年，Ajay Jain 博士毕业。博士期间，他的研究包括了机器学习（尤其是深度生成模型和表示学习）和计算机系统，学习了强化学习、无监督学习、计算机视觉、NLP、优化以及近似算法和系统方面的知识。

他是 DDPM 和 DreamFusion 的共同创建者。他们的工作为包括 Stable Diffusion 和 DALL-E 2 在内的所有现代扩散模型奠定了基础。

他曾在 Google Brain 工作，创建了首个文本到 3D 生成模型。2022 年 12 月，他共同创立了 Genmo AI 并担任 CTO，这是一家专注于视频生成的 AI 公司。

2024 年 10 月，Genmo 推出了 Mochi 1 开源视频生成模型的研究预览版本，可以实现高保真运动和强大实时性，尤其在遵循用户详细指令方面做得很好。

Ariun Singh-Gradescope

Arjun Singh 于 2016 年博士毕业。

2014 年，Arjun Singh 与 Pieter Abbeel、Sergey Karayev（另一位博士）共同创立了 Gradescope，一款利用人工智能辅助教师评分的工具。

图源：从左到右依次为 Gradescope 联合创始人 Pieter Abbeel、Arjun Singh 和 Sergey Karayev。

根据 Crunchbase 的信息，Gradescope 已完成多轮融资，投资方包括 Khosla Ventures、Reach Capital 和 Gradient Ventures 等知名机构。不过，具体的融资金额和轮次并未公开披露。

值得注意的是，2018 年，Gradescope 被 Turnitin 收购。此后，Gradescope 继续作为 Turnitin 旗下的产品运营，致力于为教育工作者提供高效的批改和反馈工具。

Philipp Wu&Fred Shentu-Stealth

Philipp Wu 现为 Pieter Abbeel 的博士生（2021 年 8 月到 2026 年 5 月）。他的研究兴趣在于现实世界的通用机器人，研究涉及到了强化学习、无监督学习和机器人技术的交叉融合。

他在 Pieter Abbeel 负责的机器人学习实验室（Robot Learning Lab）工作，内容包括创建低成本、对人类安全、7 自由度的柔性机械臂，被称为「Blue」，应用包括辅助家庭护理、深度强化学习、模仿学习和抓取。此外，他还研发了一个机器人动力学和运动学模型以及一个用于测试控制算法的「Gazebo」模拟器，等等。

Yide (Fred) Shentu 现为 Pieter Abbeel 的博士生。他本科同样就读于加州大学伯克利分校，主修专业为物理以及数学和计算机科学。本科期间，他曾在 BAIR（伯克利人工智能研究实验室）担任研究助理。本科毕业后，他曾担任机器人公司 Covariant AI 的创始工程师和研究科学家。

目前，关于 stealth 的信息不多。

#出海应用也能享受高速稳定的DeepSeek-R1？

亚马逊云科技出手了

给大模型落地，加入极致的务实主义。

DeepSeek 引领的新一轮 AI 技术爆发才刚开始，激烈的应用侧竞争也进入了正在进行时。

由于官方服务器经常遭遇繁忙、限流等问题，各家云厂商的 MaaS 服务正在解决开发者们的燃眉之急。自 2 月份以来，各家云科技大厂纷纷上线满血版 DeepSeek V3、R1 大模型。它们不仅卷算力，也竞相提供更便捷的部署方案（从 API 到应用开发能力），甚至连价格也卷了起来。

3 月 11 日，亚马逊云科技宣布 DeepSeek-R1 正式作为全托管的无服务器模型提供，成为了第一家以全托管通用模型形式提供 DeepSeek-R1 的国际云服务提供商。

亚马逊 CEO 安迪・贾西宣布 Amazon Bedrock 提供全托管式 DeepSeek-R1 的贴文。

也就是说，无需配置硬件资源，无需设置软件环境，一个 API 就能直接调用满血版 DeepSeek-R1。

使用 Amazon Bedrock Converse API 调用 DeepSeek-R1 模型生成文本的代码示例，来自：亚马逊云科技新闻博客

众所周知，DeepSeek-R1 是引爆这一轮生成式 AI 技术爆发的核心。它将强大的自然语言处理与高级推理能力相结合，性能直接对标 OpenAI o1 而且开源。对于开发者来说，DeepSeek-R1 的高性能和低成本为众多 AI 应用打开了新方向。

不过对于希望基于大模型构建应用的开发者和企业来说，自己部署 671B 参数量的满血版 R1 模型的门槛非常高，最好的方法依然是使用 API。不过，DeepSeek 官方的 API 远不能满足众多开发者的需求，也因此，国内外的 AI 或云服务商都掀起了一股部署并提供 DeepSeek-R1 服务的浪潮。

其中有的提供商采用了提供计算平台让客户自行部署的方式，也有的会提供包括一键式部署在内的更进一步的部署服务，而 Amazon Bedrock 为客户提供多种形式的选择，包括 1 月 30 日开始在其 Marketplace 和 Custom Model Import 中提供的 DeepSeek-R1 模型支持以及从本月 11 日开始的全托管式 DeepSeek-R1。

当然，这也体现了亚马逊云科技提供多种先进模型，面向不同需求的「Choice Matters」理念。

实测验证：低 TTFT + 高 TPOT

这里，基于 Playground，对 Amazon Bedrock 的全托管式 DeepSeek-R1 进行了一番实测。

首先，先测试一个最近常被用于测试推理和编程模型的问题：编写一个演示小球在正十二面体中来回碰撞的 Python 脚本，并且这个小球的颜色会在每次撞击时发生变化。

可以明显注意到，Amazon Bedrock 的全托管式 DeepSeek-R1 的首 Token 时延（TTFT）非常低，这个示例中仅有 0.7 秒 —— 几乎在我们点下「运行」按钮之后马上就开始输出推理 Token 了。同时我们也能看到输出速度也非常快。

我们也以同样的提示词在 DeepSeek 官网上进行了两次测试，结果第一次遭遇了长达 13 秒的 TTFT，另一次更是在等待近一分钟后只收获了一个「服务器繁忙，请稍后再试」。

至于结果表现，因为 Amazon Bedrock 的全托管式 DeepSeek-R1 是与官网部署的相同的满血版，所以结果上并不存在明显的差异。至少对于这个任务而言，DeepSeek-R1 第一次输出的结果还需要一些 debugging。

下一个测试，我们使用了前两天 OpenAI CEO 山姆・奥特曼在 𝕏 上发布的元小说提示词：

这一次我们直接把温度值拉满，让 AI 创造起来：

同样，Amazon Bedrock 上的 DeepSeek-R1 速度非常快！这一次同样是 0.7 秒左右就给出了首 Token 响应。考虑到 Amazon Bedrock 的服务器远在美国，这种速度表现可以说堪称惊艳了。而根据亚马逊云科技自己在美国的测试结果，TTFT 更是可以低至 0.4 秒。

根据 Artifical Analysis 发布的《DeepSeek-R1：API 提供商基准评测和分析》报告，0.4 秒的 TTFT 足以傲视全球所有提供商。（注：Artifical Analysis 报告中最快的 0.26 秒 TTFT 是 FP4 量化版 DeepSeek-R1）。

图源：Artifical Analysis

再来看看 Amazon Bedrock 输出每个 Token 的时间（TPOT），下表汇总了我们多次测试的数据：

平均计算下来，Amazon Bedrock 的全托管式 DeepSeek-R1 的 TPOT 仅有 15.50 ms，也就相当于每秒能输出约 64.5 个 Token—— 这个速度自然远超 DeepSeek 官方的 API 服务，在 Artifical Analysis 发布的测试结果中处于靠前的位置。

图源：Artifical Analysis

整体体验下来，我们发现 Amazon Bedrock 的全托管式 DeepSeek-R1 的性能表现基本与官网 DeepSeek-R1 服务一致，但不管是 TPOT 还是 TTFT 都要远胜后者。至于服务稳定性，想必拥有顶级规模服务器集群的亚马逊云科技足以应对任何流量压力。

亚马逊云科技是市占率稳居第一的云基础设置服务提供商，图源：emma.ms

可落地化的 AI 服务，帮你实现「大模型自由」

现在，开发者可以基于 DeepSeek-R1 的强大的能力来构建能编写代码、解决复杂问题的服务，而无需担心任何复杂的设置或运维。对于目标海外市场的客户来说，想要在自己的应用里部署满血 DeepSeek-R1 能力，亚马逊云科技提供的服务已成为首选。

亚马逊云科技最近已经陆续在 Amazon Bedrock 上线了 DeepSeek-R1、Claude 3.7 Sonnet 等先进模型，此外如 Mistral Large 2、Stable Diffusion 3.5 Large 等业内第一梯队大模型，都可以在其平台上选用，提供者来自 AI21 Labs、Anthropic、Cohere、DeepSeek、Luma AI、Meta、Mistral AI、Stability AI 等知名公司。当然，你也完全可以使用亚马逊自家的 Titan 和 Nova 系列模型。

目前在 Amazon Bedrock 上，仅以 API 形式可调用的大模型型号就有超过 50 个，全部可用大模型数量已超过 100 个。

这些模型具有不同的规模和上下文设置，并且可能针对推理、编程、阅读理解和开放式问答等任务进行了不同的优化，也因此具有不同的速度、性能和成本水平，并且其中不仅有文本模型，也有图像和视频模型。

其实，亚马逊云科技在构建大模型能力的过程中，一直在强调多模型相互协作的必然性：没有一个大模型可以一统天下。

这个观点是真正面向应用的考量。一方面，每个 AI 模型都有其特长、局限性和适用场景，从使用者的角度出发，不同的行业和业务场景对 AI 模型的需求差异很大；另一方面，出于数据隐私、适应性差异以及政策等原因，全球通用的服务也需要在各地部署不同的模型，苹果的 Apple Intelligence 就是个例子。

若想实践这一思路，就需要云服务商进行多方合作，充分整合资源并建立一套高效率、低成本的平台。通过引入业界最先进的基础模型，亚马逊云科技在其云服务平台上第一时间提供具备生产条件、可落地化的 AI 服务。适用于不同场景、体量、性价比。人们可以单独调用，还可以针对复杂场景结合使用不同模型。人们在 AI 能力的部署过程中不必考虑模型迁移、适配等任务的工作。

这一模式打开了格局，为开发者和企业提供了多样化且方便实用的 AI 落地途径。Amazon Bedrock 也成为了过去十年以来，亚马逊云科技增长最快的云服务之一。

自有数据 AI Ready，开发也能端到端

我们知道，DeepSeek-R1 发布及开源以后，AI 领域正在发生翻天覆地的变化，如今基础 AI 模型能力不再是难以逾越的壁垒，各家公司、各个应用能够做出差异化的关键或许在于发挥自身数据的核心价值。

在「大模型自由」的基础上，亚马逊云科技为 AI 应用开发的全流程提供了一整套开箱即用的完整工具链，涉及安全防护、知识库管理、智能体、模型评估、提示词集中管理等各个方面，能让你利用现有的数据做到 AI Ready。

事实上，自 2023 年发布完全托管服务 Amazon Bedrock 以来，亚马逊云科技一直在推动大模型工作流的集成化。这个过程一直在进行中，随着技术的进步也越来越快。

首先，在安全防护方面，Amazon Bedrock Guardrails 支持客户根据自己的用例为任何基础模型创建和应用防护栏，同时还能为客户提供额外的保护层，据介绍可以阻止高达 85% 的有害内容。

使用 Amazon Bedrock Guardrails，可以轻松地为 DeepSeek-R1 配置内容过滤规则。

不仅如此，为了防止模型因幻觉产生事实性错误，Amazon Bedrock 还开创性地利用了自动推理来进行检查。据我们所知，Amazon Bedrock 不仅是首个，而且依然还是唯一一个使用此方法来构建生成式 AI 防护栏的平台。效果如何呢？根据用于检索增强生成（RAG）和汇总使用案例的模型的数据，该方法可成功过滤 75% 以上的幻觉响应。

此外，Amazon Bedrock Knowledge Bases 可以让企业安全地将自己的内部数据源用于 RAG，以便为聊天机器人和问答系统等用例提供更准确、针对特定上下文的响应。

Amazon Bedrock 提供非常便捷的知识库创建入口，并且支持向量数据库、结构化数据库、Kendra GenAI Index 等多种形式。

Amazon Bedrock 也早已经为当今大热的「智能体」概念做好了准备。Amazon Bedrock Agents 可与企业系统、API 和数据源无缝连接，协调基础模型、数据源、软件应用和用户对话之间的交互，使生成式 AI 应用能够自动执行多步任务。具体来说，Amazon Bedrock Agents 支持的功能包括：

扩展基础模型以理解用户请求，并将智能体必须执行的任务分解为更小的步骤。
通过自然对话从用户那里收集更多信息。
通过 API 连接公司系统以采取行动以满足客户的请求。
通过查询数据源来提高性能和准确度。

在 Amazon Bedrock 上可以便捷配置智能体，用户可以选择是否启动记忆、知识库、防护机制和编排策略。

不仅如此，Amazon Bedrock Agents 并不局限于单一会话的信息处理，还可以记录用户之前的历史交互信息并基于此提供更为精准的个性化服务推荐。

针对企业和开发者并不知道哪个模型适合自身业务的情况，Amazon Bedrock 还提供了 Evaluations（评估）能力，其中包括模型评估和 RAG 评估。企业可以快速分析和比较 Amazon Bedrock 上的模型，可让评估模型的时间从几个星期缩短到几个小时，从而可让客户更快地推出新的应用并改善用户体验。

Amazon Bedrock 即支持自动化评估，也支持人类评估。

此外，Amazon Bedrock 还支持对提示词进行集中管理。Prompt Management 简化了提示词的创建、评估、版本控制和共享，可帮助开发者和提示工程师从基础模型中获得针对其使用案例的最佳响应。全新的提示词缓存功能和提示词智能路由功能可帮助客户大规模管理提示词信息、降低响应延迟、优化响应质量和成本。

Amazon Bedrock 最近新增的提示词路由可以智能地在同一系列的模型中路由用户请求，从而权衡优化响应质量和成本。

Amazon Bedrock Flows 也是非常值得尝试的能力，其可以将提示词、智能体、知识库、防护栏以及其它亚马逊云科技服务连接起来，从而创建、测试和部署用户自己定义的生成式 AI 工作流。

Amazon Bedrock Flows 具有非常直观的创建界面。

除此之外，Amazon Bedrock 还具有水印检测、批量推量、预配吞吐量、跨区域推理等诸多能力，可为企业和开发者的应用提供全方位的支持。

去年底，亚马逊云科技对其 AI 训练推理统一平台 Amazon SageMaker 进行了重大更新，全新的 SageMaker AI 几乎涵盖了数据探索、准备和集成、大数据处理、快速 SQL 分析、机器学习（ML）模型开发和训练以及生成式 AI 应用程序开发所需的所有组件。

其中最引人关注的是 SageMaker Unified Studio。这是一个单一的数据和 AI 开发环境，整合了目前 Amazon Athena、 Amazon EMR、 AWS Glue、 Amazon Redshift、 Amazon Managed Workflows for Apache Airflow（MWAA）和现有 SageMaker Studio 中的一系列独立组件、查询编辑器和可视化工具的功能和工具。

基于这些能力，人们在构建大模型应用时所需要的数据处理能力、AI 模型调用等功能全部被整合进了同一个界面。

具体来说，在 SageMaker Unified Studio 上你可以使用集成的 SQL 编辑器可以查询多个来源的数据，可视化地提取、转换和加载 (ETL) 工具可简化数据集成和转换工作流；全新的统一 Jupyter 笔记本可以帮助你实现跨不同计算服务和集群的无缝工作；借助新的内置数据目录功能，人们可以查找、访问和查询整个组织的数据和 AI 项目。

SageMaker Unified Studio 包含 SageMaker AI 的功能，为机器学习整个生命周期提供了基础设施、工具和工作流程。再进一步，你也可以使用新的 Amazon Bedrock IDE 在 Amazon SageMaker Unified Studio 中开发生成式 AI 应用程序。

借助 Amazon Bedrock IDE，人们只需点几下鼠标就可以利用专有数据源构建聊天智能体并创建知识库，从而实现检索增强生成 (RAG）。借助内置的模型评估功能，你也可以同时测试和优化 AI 应用程序的性能，为生成式 AI 驱动的工作流设计流程，共享应用程序或提示，或将其导出和部署到其他地方。

亚马逊云科技提供的能力可以帮助开发者轻松地构建、微调和部署基础模型，构建生成式 AI 应用，无需直接管理和维护底层基础设施。以前数据科学、机器学习的所有工作，现在在单一界面上使用一个接口就能够完成了。

Choice Matters：Amazon Bedrock 能提供最适合你的解决方案

在了解 Amazon Bedrock 版 DeepSeek-R1 的过程中，我们反复听到的一句话是「Choice Matters」，也就是要为客户提供充分的自主选择权。总结起来，这主要体现在以下几个方面：

丰富的模型选择：针对不同层级的用户需求，Amazon Bedrock 可提供不同规模和性能的 AI 模型（比如编程等应用需要性能更好的模型，而实时翻译等任务则还有速度需求）。据了解，Amazon Bedrock 已经提供了 50 多种 serverless 版的模型，另外在 Marketplace 也提供了 100 多种模型。
丰富的部署方式选择：开发者和企业可根据自身的业务需求选择不同灵活度的部署方案 —— 从使用全托管式模型（模型即服务 / MaaS）到仅使用亚马逊云科技的基础设施搭建自己的业务流程（基础设施即服务 / IaaS）。
丰富的配套方案选择：不同的业务有不同的资源、安全需求和技术门槛，亚马逊云科技可为客户搭配最适合的配套方案。
定价与成本优化模式选择：灵活的定价策略和成本控制方案也是客户选择的重要考量。Amazon Bedrock 为不同业务场景和负载需求提供了多样化的计费模式，帮助客户在保障性能的同时，实现成本优化。

Amazon Bedrock 为 DeepSeek-R1 提供了按需定价模式。

这种为客户提供自由选择的服务模式可为跨国企业与创新性开发者提供前所未有的灵活性，尤其是其全托管式的 AI 模型选择更可让企业和开发者从繁琐的部署技术细节中解脱出来，专注于自己的业务和应用创新。

随着生成式 AI 技术不断突破，企业和开发者对高性能、低延迟且稳定的云服务的需求也将愈发迫切。凭借全球领先的技术架构、丰富的模型资源和一流的安全保障，Amazon Bedrock 可以成为正大量涌现的 AI 应用的强大基石。

如果你也想在自己的出海业务中整合 DeepSeek-R1 的强大推理能力，不妨试试 Amazon Bedrock。

#MIDI-3D

VAST和北航开源MIDI，从单张图像端到端生成三维组合场景

本文的主要作者来自 VAST、北京航空航天大学、清华大学和香港大学。本文的第一作者为北京航空航天大学硕士生黄泽桓，主要研究方向为生成式人工智能和三维视觉。本文的通讯作者为 VAST 首席科学家曹炎培和北京航空航天大学副教授盛律。

在 Sora 引爆世界模型技术革命的当下，3D 场景作为物理世界的数字基座，正成为构建动态可交互 AI 系统的关键基础设施。当前，单张图像生成三维资产的技术突破，已为三维内容生产提供了 "从想象到三维" 的原子能力。

然而，当技术演进到组合式场景生成维度时，单物体生成范式的局限性开始凸显：现有方法生成的 3D 资产如同散落的 "数字原子"，难以自组织成具有合理空间关系的 "分子结构"。这导致几个核心挑战：① 实例分离困境（如何从单视图准确解耦交叠物体）② 物理约束建模（如何避免穿模的不合理交互）③ 场景级语义理解（如何保持物体功能与空间布局的一致性）。这些瓶颈严重制约着从 "数字原子" 到 "可交互世界" 的构建效率。

最近，来自北航、VAST 等机构的研究团队推出了全新的模型 —— MIDI，它能够从单张图像生成高几何质量、实例可分离的 3D 组合场景，在单视图 3D 场景生成领域取得了突破性进展，为可交互世界生成奠定基础。

论文链接：https://arxiv.org/abs/2412.03558
项目主页：https://huanngzh.github.io/MIDI-Page/
代码仓库：https://github.com/VAST-AI-Research/MIDI-3D
在线 Demo：https://huggingface.co/spaces/VAST-AI/MIDI-3D

技术突破：从单张图像到三维组合场景的关键创新

传统的组合式 3D 场景重建技术往往依赖于多阶段的逐个物体生成和场景优化，流程冗长且生成的场景往往几何质量低、空间布局不准确。为解决这些问题，MIDI （Multi-Instance Diffusion Model）创新性地利用了三维物体生成模型，将其扩展为多实例扩散模型，能够同时生成具有精确空间关系的多个 3D 实例，实现了高效高质量的 3D 场景生成：

单物体到多实例生成的跨越：通过同时去噪多个 3D 实例的潜在表示，并在去噪过程中引入多实例标记之间的交互，MIDI 将 3D 物体生成模型扩展至同时生成有交互建模的多实例，而后直接组合为 3D 场景。
多实例自注意力机制：通过将物体生成模型的自注意力扩展至多实例自注意力，MIDI 在生成过程中有效捕获实例间的空间关联和整体场景的连贯性，而无需逐场景的布局优化。
训练阶段的数据增强：通过使用有限的场景数据监督 3D 实例间的交互，同时结合物体数据进行增强训练，MIDI 有效建模场景布局的同时保持了预训练的泛化能力。

效果展示

基于单张图像，MIDI 可以生成高质量的组合式 3D 场景：

在线演示

，时长00:21

卓越性能：在几何质量和空间布局等多个维度上表现突出

MIDI 的主要特点在于其精确的空间布局建模、卓越的几何生成质量、生成的高效性和广泛的适用性。实验结果显示，该模型在多个数据集上的表现超越现有方法，包括 3D 实例间的空间关系、3D 实例生成的几何质量、以及端到端的生成速度均取得了优异的表现。

，时长00:26

应用场景：3D 场景内容创作的新工具

MIDI 的出现为 3D 场景的创作提供了一种崭新的解决方案。在建筑设计、虚拟现实、影视特效以及游戏开发等领域，该技术展现了广阔的应用潜力。通过具备高准确度、高几何质量的 3D 场景生成能力，MIDI 能够满足复杂场景中对高质量内容的需求，为创作者带来更多可能性。

未来展望

尽管模型表现优异，MIDI 研发团队深知仍有许多值得提升和探索的方向。例如，进一步优化对复杂交互场景的适配能力、提升物体生成的精细度等，都是未来努力的重点。希望通过不断改进和完善，让这一研发思路不仅推动单视图生成组合 3D 场景技术的进步，也能为 3D 技术在实际应用中的广泛普及贡献力量。

#MM-Eureka

极少数据实现多模态推理的R1-Zero时刻

尽管 DeepSeek-R1 在单模态推理中取得了显著成功，但已有的多模态尝试（如 R1-V、R1-Multimodal-Journey、LMM-R1）尚未完全复现其核心特征。

例如，R1-V 仅在简单计数任务上表现出进步，未能实现回答长度的增长和顿悟时刻；R1-Multimodal-Journey 则在训练过程中回答长度反而降低；LMM-R1 虽然有所进步，但尚未在大规模图文数据训练中得到验证。而 Kimi 1.5 尽管表现突出，但并未开源其模型或数据。

论文标题：MM-EUREKA：EXPLORING VISUAL AHA MOMENT WITH RULE-BASED LARGE-SCALE REINFORCEMENT LEARNING
代码地址：https://github.com/ModalMinds/MM-EUREKA
技术报告：https://arxiv.org/pdf/2503.07365
模型地址：https://huggingface.co/FanqingM/MM-Eureka-Zero-38Bhttps://huggingface.co/FanqingM/MM-Eureka-8B
数据集地址：https://huggingface.co/datasets/FanqingM/MM-Eureka-Dataset

我们这篇工作聚焦于一个核心问题：如何在多模态环境中复现 DeepSeek-R1 的关键特性，包括稳定的回答长度增长、准确率奖励以及 Visual aha-moment？

为了解答这一问题，来自上海人工智能实验室、上海创智学院、上海交通大学和香港大学的研究人员提出了多模态学科推理模型 MM-Eureka。

我们的探索

开源框架：我们基于 OpenRLHF 开发了一个高效可扩展的多模态大规模强化学习框架，支持 InternVL 等多种模型和 RL 算法。相比 R1-V 等已有框架，我们的方案成功训练了 InternVL 2.5-38B 等大型模型。

稳定训练：我们开发了两个模型——MM-Eureka-8B（基于 InternVL 2.5-Instruct-8B）和 MM-Eureka-Zero-38B（基于 InternVL 2.5-Pretrained-38B），均成功复现了稳定的 accuracy reward、response length 增长以及 Visual aha-moment。

极大的数据效率：仅使用 54K 图文数据进行规则型 RL 训练，平均性能超过使用 1M 数据的 MPO 模型；整体基准准确率与使用 12M 数据进行 CoT SFT 训练的模型相当！MM-Eureka-Zero 仅使用 8K 图文数学推理数据（指令模型的 0.05%），在我们自建的 K12 基准测试上超越指令模型 8.2%，在 MathVerse 上表现相当。

重要发现

极简的 RL 设计足以获得出色效果。在 instruct 模型上实验时，添加 KL 散度会限制模型探索，导致无法观测到 response length 的提高。

数据选择对于稳定 RL 训练很重要！基于难度的数据过滤策略对 RL 训练稳定性至关重要。在 8B-instruct 模型上进行 RL 训练时，若不进行数据过滤，训练过程极其不稳定。

模型在 RL 训练中展现类似 DeepSeek-R1 的 aha-moment，特别是模型不仅学会反思和回溯，还学会重新审视图像中的关键信息，我们认为这是 Visual aha-moment 的关键特征。

我们的成果

无论在 Instruct 还是 Pretrained Model 上，我们均在极简 RL 设计以及数据筛选策略下实现了稳定的 Accuracy Reward 提升和 Response Length 提升。

在 Instruct 模型上，几乎全部使用开源数据（50K），便在所有多模态数学推理基准上取得稳定提升。相比其他后训练策略，比如 MPO（1M 数据）和 CoT SFT（12M 数据），我们发现简单的 rule-based RL 具备极强的数据高效性，使用几十分之一的数据，平均性能超过 MPO，与 CoT SFT 相当。

在 Pretrained 模型上进一步挖掘 RL 潜力，仅需 8K 多模态数学推理数据，即可在奥林匹克数学测试集（部分）和 K12 数学推理测试集上，超过使用 16.3M 数据进行 SFT 的指令模型。在 MathVerse 上，两种模型表现也相似。我们仅使用了指令模型数据量的 0.05%，凸显了强化学习的巨大潜力！

其他尝试与反思

我们在复现过程中进行了许多其他的尝试，在此分享一些我们认为有帮助，但并未成功验证的操作。我们认为这并不代表这些方法有问题，而是需要进一步探索。

Curriculum Learning：尽管我们基于难度划分数据并尝试从易到难训练，但未观察到明显性能提升。我们认为简单问题的学习难以直接泛化到难题，如何更有效地组织课程学习数据仍需探索。

Online Data Filter：我们将预先基于难度的数据筛选策略记为 Offline Data Filter。这种方案虽然可以帮助 RL 进行稳定训练，但其数据利用率降低了，因此我们希望在模型训练过程中动态进行基于难度的数据筛选（类似 PRIME）。然而，我们发现训练结果不如 offline data filter 稳定，我们认为这是因为每次更新时的数据量不同，导致梯度不稳定。

Model Size：尽管目前一些工作，比如 ORZ、SimpleRL 在 7B level 的 LLM 上也复现了 R1 的表现，但我们在多模态推理场景下，难以通过 8B 的 InternVL Pretrained 进行成功复现。我们认为这受制于多模态推理数据质量以及多模态预训练数据中很少存在 long CoT 数据。

我们的期望

我们开源了全套数据（包括自助收集的高质量多模态 K12 数据集）、代码和模型，并发布了详细的技术报告，涵盖所有复现过程及未成功的尝试。希望我们的工作能帮助社区共同推进多模态推理的发展！我们同样在持续推进模型训练，请继续关注！

#Mistral OCR、Claude 3.7合体实现论文速读

arXiv科研神器

现在是 2025 年，新论文要以博客形式出现。

还有人沉浸在阅读论文的苦恼吗？面对 arXiv 上浩如烟海的学术论文，你是否也曾感到无从下手？

复杂的术语、冗长的段落、晦涩的图表，仿佛一道道高墙，将知识与理解隔离开来。对于科研爱好者、学生甚至专业人士来说，读懂一篇论文往往意味着数小时的专注投入，甚至可能还需要反复查阅资料才能勉强理解其核心内容。

但这一切，即将成为过去！由 alphaXiv 推出的一款新工具 —— 结合了 Mistral OCR 和 Claude 3.7 的强大能力，为 arXiv 论文自动生成博客风格的概述。

只需单击一下，你就能获得一篇结构清晰、内容丰富的文章，不仅提炼出论文的核心见解，还配以精美的图表和通俗易懂的解释。无论你是想快速了解论文的要点，还是希望深入挖掘其中的细节，这款工具都能为你提供高效的支持。

下面我们就来亲自体验一下这一款新工具，首先我们点开需要了解的论文。

接下来是最关键的一步，只需找到 arXiv 论文的链接，将链接中的「arxiv」替换成「alphaxiv」。

替换完成后，用户只需在网页下方找到「blog」按钮并点击，便进入了博客生成界面。

到这一步，我们就只需点击「Generate Overview」按钮，工具将自动生成一篇结构清晰、内容丰富的博客。

在生成的博客中，涵盖了：

简介：更加简明地概述了论文的核心内容。

研究背景：探讨了测试时扩展技术的背景。

具体方法包括：详细介绍了 S1 方法及技术路径，帮助读者理解研究的核心技术。

实验结果展示了研究的实际效果，包括数据分析和图表展示。

局限性和未来前景：帮助读者直接客观地分析了研究的不足。

总结：对全文进行了精炼的总结。

其中每一步都清晰标注，形成一个直观的阅读指南。

通过这一过程，工具不仅从论文中提炼出了核心技术如 S1 方法和预算技术，还从研究背景、数据管理、实验结果等多个层面进行了全面总结。此外，生成的博客还附有图表和深入浅出的解释，使得复杂的研究内容变得易于理解。

想象一下，你可以在几分钟内掌握一篇复杂的深度学习论文，或是在通勤的路上轻松浏览最新的量子研究发现。AlphaGoXiv 这款神器，不仅提升了科研效率，更为广大科研爱好者打开了一扇通往知识宝库的便捷之门。

目前，alphaXiv 官方表示，手机上的 App 也不远了。

有了大模型，我们已经迎来了高效学习的新时代？

#VLM²-Bench

人类秒懂，AI却懵圈：揭示视觉语言模型「视觉关联」能力短板

本文来自港科与 MIT 教授团队。本文有两个共同一作：张鉴殊为武汉大学本科四年级，本篇为其在港科大访问期间完成，将于 2025 秋季前往美国西北大学攻读 CS PhD。姚栋宇目前就读于 CMU CS 系下的 MSCV 项目。

论文链接：https://arxiv.org/pdf/2502.12084
项目主页：https://vlm2-bench.github.io/

当前，视觉语言模型（VLMs）的能力边界不断被突破，但大多数评测基准仍聚焦于复杂知识推理或专业场景。本文提出全新视角：如果一项能力对人类而言是 “无需思考” 的本能，但对 AI 却是巨大挑战，它是否才是 VLMs 亟待突破的核心瓶颈？

基于此，该团队推出 VLM²-Bench 来系统探究模型在 “人类级基础视觉线索关联能力” 上的表现。

本文将如下的两点作为本工作的出发点：

什么能力对于人类来说是在日常生活中非常重要，且这种能力还得是对人们来说非常容易的，不需要庞大的知识储备也能完成。

我们在浏览不同的照片时可以找到出现在多张照片的同一个人，但是我们并不需要在之前就见过这个人，叫得出名字或者对这个人很了解，而是简单的在不同的图片间通过脸部特征在视觉上的比对和关联。同理我们还会拿着喜欢球鞋的图片去线下门店比对挑选出一样的款式（如下图），而不需要知道这个鞋的具体产品型号，只需要把鞋的花纹这一视觉特征给关联起来即可。这种视觉关联的能力显然是不依赖于先验知识，是纯粹基于视觉侧的关联。

日常生活中我们经常利用“视觉关联”，比如图中这个男孩正拿着手机上的图片去线下门店一一比对，来挑选出一样的球鞋款式（图片由AI生成）

为什么这种能力对于现在 VLMs 也是非常重要的？

随着 VLMs 从单图处理扩展到多图、视频输入，其视觉感知的广度和深度显著提升。然而，视觉内容的扩展并未带来对视觉线索关联能力的同步提升，而 VLMs 时需要具有 “回头” 关联视觉线索的能力来帮助在其更一致且和谐的理解世界。

VLM²-Bench 的设计

全面考察 VLMs 对于通用线索 GC（General Cue）、物体线索 OC（Object-centric Cue）和人物线索 PC（Person-centric Cue）三个大类的基础关联能力，总共可分为 9 个子任务，同时涵盖多图和视频的测试数据，共计 3060 个测试案例。
评测问题的形式包含了判断题、多选题、数值题、开放题，其中对于每种形式我们都设计了特定的评估方式来更好的反应模型的性能。
结合人工验证与自动化过滤，同时确保数据质量与挑战性。

以上是 VLM²-Bench 统计数据。

实验与发现

这里我们引入了蒙题（Chance-Level）和人类做答（Human-Level）的两个基准来更好的衡量 VLMs。根据表 1，可以发现 VLM²-Bench 对于人类来说几乎没有什么难度，但绝大多数模型的准确率甚至比不上乱蒙，和人类表现差距甚大。尤其是在描述视频中出现的人（VID）这一任务上，模型很容易把变化的人当作同一个来描述，把第二次出现的人当作一个新出现的人介绍。

同时我们还观察到模型在关联人物线索 PC 上的表现比物体线索 OC 更好，这个可能是因为关于人的图文数据上有提供区分度较大的不同的人名作为人物视觉线索的文本锚点，而在物体有关的数据上训练时往往都是用宽泛的类别这一作为锚点，从而模型更擅长区分不同人。

通过在通用线索 GC 这个大类中的进一步的分析，可以看到在匹配线索（Matching）这一子任务上，模型匹配两个由于替换（Swp）导致的不一致的能力较弱；而在跟踪线索（Tracking）这一子任务上，模型匹配两个由于添加或去除（A/R）时很难给出线索的变化顺序。这一发现说明模型在视觉线索关联任务中的短板存在一定的共性 —— 过度依赖于线索的 “连续可见性”，缺乏全局关联这一动态视觉理解的能力。

不仅仅局限于简单的评测，本文还探究了以语言为中心（CoT-）和以视觉为中心（VP-）的 prompting 方法能否促进模型在这种视觉关联能力。有以下的几点发现：

将语言为中心的推理（如逐步说出解决问题的过程），可以在一定程度上促进关联时的逻辑，但是前提是视觉线索适合用语言进行表达，对于抽象的视觉线索，以语言为中心的推理会因为表达的开放性从而严重影响表现。
将视觉为中心的提示（如放大关键的视觉线索），在物体线索 OC 的场景下帮助较大，而在人物线索 PC 上反倒会 “帮倒忙”。
以视觉为中心的提示带来的效果和模型的视觉基础能力呈现正相关的关系。只有在模型能够先后理解视觉提示带来的额外的辅助信息以及图中本身的信息时，视觉为中心的提示才能起到较好的效果。

未来方向

增强基础视觉能力：提升模型的核心视觉能力不仅能直接提升性能，还能增强适应性。更强的视觉基础可以最大化视觉提示的效果，并减少对先验知识的依赖，使模型在以视觉为核心的任务能够实现独立和可拓展。
平衡基于语言的推理在视觉任务中的作用：在视觉任务中引入语言推理需要谨慎调整。未来研究应明确哪些情况下语言推理可以增强视觉理解，哪些情况下会引入不必要的偏差，以确保模型合理地利用语言侧的优势。
新的训练范式：当前的训练方法主要关注视觉和语言的关联，但随着模型视觉上下文窗口的扩展，单纯在视觉域内进行推理的能力变得越来越重要。未来应优先发展能够在视觉线索之间进行结构化、组织和推理的模型。