51c大模型~合集106

我自己的原文哦~   https://blog.51cto.com/whaosoft/13115290

#GPT-5、 Opus 3.5为何迟迟不发

新猜想:已诞生,被蒸馏成小模型来卖

「从现在开始,基础模型可能在后台运行,让其他模型能够完成它们自己无法完成的壮举——就像一个老隐士从秘密山洞中传递智慧。」

最近几个月,从各路媒体、AI 社区到广大网民都在关注 OpenAI 下一代大模型「GPT-5」的进展。

我们都知道 OpenAI 在研究新模型,新模型可能遭遇了困难无法按计划推出,但如果有人说 GPT-5 已经在某个地方塑造世界了,你会怎么想?

假设如下:OpenAI 已经构建了 GPT-5,但将其应用在了内部,因为这样做投资回报远高于将其发布给数百万 ChatGPT 用户。此外,他们获得的投资回报不是金钱。如你所见,这个想法很简单,难就难在如何将那些细枝末节的线索联系起来。最近,技术分析师 Alberto Romero 深入探讨了这个思路。

首先澄清一下:这并不是 100% 可靠的猜测。证据是公开的,但没有泄密或内幕传言证实该想法是对的。作者没有获得独家信息 —— 如果有,也无论如何都会签署保密协议。不过,至少从逻辑上讲,这个猜想看起来很有说服力。

让我们看看这篇文章是怎么说的。

原文地址:https://www.thealgorithmicbridge.com/p/this-rumor-about-gpt-5-changes-everything

一、Opus 3.5 的神秘消失

在介绍 GPT-5 之前,我们必须先去拜访它的远亲,同样失踪的 Anthropic 的 Claude Opus 3.5。

如您所知,海外三大人工智能实验室 OpenAI、Google DeepMind 和 Anthropic 提供了一系列覆盖各价位段、延迟与性能范围的大模型服务。OpenAI 提供了 GPT-4o、GPT-4o mini 以及 o1 和 o1-mini 等;Google DeepMind 提供 Gemini Ultra、Pro 和 Flash;而 Anthropic 有 Claude Opus、Sonnet 和 Haiku。

他们的目标很明确:迎合尽可能多的客户。有些人优先考虑顶级性能,而另一些人则寻求负担得起、足够好的解决方案,至此一切都很好。

但 2024 年 10 月发生了一件奇怪的事情。每个人都期待 Anthropic 宣布推出 Claude Opus 3.5 以回应 GPT-4o(于 2024 年 5 月推出)。然而到 10 月 22 日,他们发布了 Claude Sonnet 3.5 的更新版本(人们开始称之为 Sonnet 3.6)。Opus 3.5 却不见了,似乎 Anthropic 没有了 GPT-4o 的直接竞争对手。到这里研究进度似乎出现了问题。以下是人们所说的内容以及 Opus 3.5 实际发生的事情:

  • 10 月 28 日,有传言称 Sonnet 3.6 是…… 备受期待的 Opus 3.5 训练失败的中间检查点。r/ClaudeAI subreddit 上出现了一篇文章称 Claude 3.5 Opus 已被废弃,并附有指向 Anthropic 模型页面的链接。截至今天,该页面没有提及 Opus 3.5。有人猜测,删除 Opus 3.5 是为了在即将到来的融资轮之前保持投资者的信任而采取的战略举措。
  • 11 月 11 日,Anthropic 首席执行官 Dario Amodei 在 Lex Fridman 播客上否认他们已经放弃 Opus 3.5,从而消除了谣言:「没有给出确切的日期,但据我们所知,计划仍然是推出 Claude 3.5 Opus。」态度谨慎,但是确认。
  • 11 月 13 日,彭博社的报道证实了之前的传言:「经过训练后,Anthropic 发现 3.5 Opus 在评估中的表现优于旧版本,但考虑到模型的大小以及构建和运行的成本,其优势并没有达到应有的程度。」Dario 似乎没有给出日期,因为尽管 Opus 3.5 的训练运行没有失败,但其结果却不尽如人意。请注意,重点是相对于性能的成本,而不仅仅是性能。
  • 12 月 11 日,半导体专家 Dylan Patel 和他的 Semianalysis 团队给出了最后的情节转折,提出了一个将所有数据点编织成一个连贯故事的解释:「Anthropic 完成了对 Claude 3.5 Opus 的训练,它表现良好,并且能够适当扩展…… 但 Anthropic 并没有发布它。这是因为 Anthropic 没有公开发布,而是使用 Claude 3.5 Opus 来生成合成数据并进行奖励建模,从而与用户数据一起显著改进了 Claude 3.5 Sonnet。」

简而言之,Anthropic 确实训练了 Claude Opus 3.5 大模型。他们放弃了这个名字,因为它还不够好。Dario 相信不同的训练尝试可以改善结果,因此避免给出发布日期。彭博社证实结果比现有模型更好,但不足以证明推理成本是合理的。Dylan 和他的团队发现了神秘的 Sonnet 3.6 和失踪的 Opus 3.5 之间的联系:后者正在内部用于生成合成数据以提高前者的性能。

图片

二、更好的模型变得更小,更便宜?

使用强大、昂贵的模型生成数据来提升略弱但更便宜的模型性能的过程被称为蒸馏。这是一种常见做法。这种技术允许 AI 实验室将他们的小型模型提升到仅靠额外预训练无法达到的水平。

蒸馏有多种方法,但我们不会深入讨论。你需要记住的是,作为「教师」的强大模型将「学生」模型从 [小、便宜、快速]+ 弱变成 [小、便宜、快速]+ 强大。蒸馏将强大模型变成金矿。Dylan 解释了为什么 Anthropic 对 Opus 3.5-Sonnet 3.6 这对模型这样做是有意义的:

推理成本(新 Sonnet 与旧 Sonnet 相比)没有显著变化,但模型性能提升了。为什么要发布 3.5 Opus 呢?从成本角度来看,相比发布经过 3.5 Opus 进一步后训练的 3.5 Sonnet,这样做在经济上是不合理的。

我们又回到了成本问题:蒸馏能在保持推理费用低廉的同时提升性能。这立即解决了彭博社报道的主要问题。Anthropic 选择不发布 Opus 3.5 不仅仅是因为性能不佳,而是因为它在内部更有价值。(Dylan 说这就是为什么开源社区能这么快赶上 GPT-4—— 他们直接从 OpenAI 的金矿中获取黄金。)

最惊人的发现是,Sonnet 3.6 不仅仅是好 —— 它达到了 SOTA 水平,比 GPT-4o 更好。由于从 Opus 3.5 蒸馏(可能还有其他原因,五个月在 AI 时间里很长),Anthropic 的中端模型超越了 OpenAI 的旗舰产品。突然间,高成本作为高性能的代理指标被证明是错误的。

「bigger is better」怎么了?OpenAI 的 CEO Sam Altman 警告说这个时代结束了。一旦顶级实验室变得神秘,小心翼翼地保护他们珍贵的知识,他们就停止分享数字。参数数量不再是可靠的衡量标准,我们明智地将注意力转向基准性能。OpenAI 最后一次正式披露的模型大小是 2020 年的 GPT-3,拥有 1750 亿参数。到 2023 年 6 月,有传闻称 GPT-4 是一个专家混合模型,总计约 1.8 万亿参数。Semianalysis 后来在详细评估中证实了这一点,得出 GPT-4 有 1.76 万亿参数的结论。这是 2023 年 7 月的事。

直到 2024 年 12 月,那是在一年半后,EpochAI(一个专注于 AI 未来影响的组织)的研究员 Ege Erdil 在文章《Frontier language models have become much smaller》中估计,领先的 AI 模型(包括 GPT-4o 和 Sonnet 3.6)比 GPT-4 小得多(尽管两者在基准测试中都优于 GPT-4):

……GPT-4o 和 Claude 3.5 Sonnet 等当前的前沿模型的参数量可能比 GPT-4 小一个数量级:4o 大约有 2000 亿参数,3.5 Sonnet 大约有 4000 亿参数…… 考虑到我得出这个数字的粗略方式,这些估计值可能有 2 倍的误差。

他为什么能在实验室没有发布任何架构细节的情况下得出这些数值?他深入解释了原因。但这个原因对我们来说并不重要。重要的是迷雾正在散去:Anthropic 和 OpenAI 似乎都在遵循类似的轨迹。他们最新的模型不仅更好,而且比上一代更小更便宜。我们知道 Anthropic 的做法是将 Opus 3.5 蒸馏成 Sonnet 3.6。但 OpenAI 是怎么做的呢?

图片

三、AI 实验室背后的推动力普遍存在

人们可能认为 Anthropic 的蒸馏方法源自自身特有的情况 —— 即 Opus 3.5 训练结果令人失望。但实际上,Anthropic 的情况绝不是特例。Google DeepMind 和 OpenAI 也报告称,他们最新的训练结果不太理想。(需要强调,不理想并不等于模型更差。)对我们来说,造成这种情况的原因并不重要:数据不足导致的收益递减、Transformer 架构固有的限制、预训练 Scaling Law 陷入停滞等。无论如何,Anthropic 的特有情况实际上相当普遍。

但还记得彭博社的报道吗:只有把成本放在一起考虑时,才能判断性能指标的好坏?是的,Ege Erdil 解释了原因:ChatGPT/GPT-4 热潮之后对 AI 的需求激增。

生成式 AI 的普及速度如此之快,以至于实验室难以跟上,导致亏损不断增长。这种状况促使他们所有人都要降低推理成本(训练运行只做一次,但推理成本会随着用户数量和使用量的增加而成比例增长)。如果每周有 3 亿人使用你的 AI 产品,运营支出可能突然会要了你的命。

促使 Anthropic 将 Sonnet 3.6 从 Opus 3.5 中蒸馏出来的原因不管是什么,都会以好几倍的程度压在 OpenAI 身上。蒸馏之所以有用,是因为它能将两个普遍存在的难题变成一个优势:通过向用户提供更小的模型可以解决推理成本问题,同时还能避免在不发布更大模型时因为性能不佳而被公众苛责。

Ege Erdil 认为 OpenAI 可能选择了另一种方法:过度训练(overtraining)。也就是使用超过计算最优(compute-optimal)程度的数据量来训练小型模型:「当推理成为你在模型上支出的主要或主导部分时,更好的做法是…… 在更多的 token 上训练较小的模型。」但过度训练不再可行。AI 实验室已经在预训练上把高质量数据源消耗一空。伊隆・马斯克和 Ilya Sutskever 最近几周都承认了这一点。

回到蒸馏,Ege Erdil 总结说:「我认为 GPT-4o 和 Claude 3.5 Sonnet 很可能都是从更大模型中蒸馏出来的。」

到目前为止,所有证据都表明 OpenAI 正在以同样的方式(蒸馏)出于同样的原因(性能不佳 / 成本控制)做 Anthropic 对 Opus 3.5 所做的事情(训练和隐藏)。这是一个重要发现。但先别急,Opus 3.5 仍在隐藏。OpenAI 的类似模型在哪里?它在该公司的地下室里藏着吗?你能猜出它的名字吗...?

图片

四、深入无人踏足之地,必须自己开路

我的分析始于 Anthropic 的 Opus 3.5 故事,因为有很多关于它的信息。然后我用蒸馏的概念搭建了通向 OpenAI 的桥梁,并解释了为什么推动 Anthropic 的潜在力量也在推动 OpenAI。然而,我们的理论中出现了一个新障碍:因为 OpenAI 是先驱,他们可能面临着 Anthropic 等竞争对手尚未遇到的障碍。

其中一大障碍便是训练 GPT-5 的硬件要求。Sonnet 3.6 与 GPT-4o 相当,但发布时间滞后了五个月。我们应该假设 GPT-5 处于另一个层次。更强大也更庞大。推理成本也更高,训练成本也是如此。可能运行一次训练就需要 5 亿美元。用现有的硬件有可能完成这样的事情吗?

Ege 的答案是可以。为 3 亿人提供服务是难以承受之重,但训练却是小菜一碟:

「理论上,即使我们现有的硬件也足以支持比 GPT-4 大得多的模型:例如,一个放大 50 倍的 GPT-4 版本,拥有大约 100 万亿参数,可能每百万输出 token 的成本为 3000 美元,输出速度为每秒 10-20 个 token。然而,要实现这一点,这些大型模型必须为使用它们的客户带来大量经济价值。」

然而,即使是微软、谷歌和亚马逊(分别是 OpenAI、DeepMind 和 Anthropic 的投资方)也无法为这种推理成本找到合理理由。那么他们如何解决这个问题的?很简单:只有当他们计划向公众提供数万亿参数的模型时,他们才需要「释放大量经济价值」。所以他们选择不放出那些模型。

他们训练它。他们意识到它「比他们目前的产品表现更好。」但他们必须接受它「还没有进步到足以证明保持它运行的巨大成本是合理的。」(听起来熟悉吗?这是《华尔街日报》一个月前关于 GPT-5 的报道。与彭博社关于 Opus 3.5 的说法惊人地相似。)

他们报告并不太好的结果(或多或少准确,他们总是可以在这里把玩叙事)。他们将其作为大型教师模型保留在内部,用于蒸馏更小的学生模型。然后他们发布这些更小模型。我们得到了 Sonnet 3.6 和 GPT-4o 以及 o1,并且非常高兴它们便宜且相当好。即使我们越来越不耐烦,但对 Opus 3.5 和 GPT-5 的期待依然没有改变。而他们的口袋就继续像金矿一样闪闪发光。

五、微软、OpenAI 与 AGI

当我在调查中达到这一点时,我仍然不太相信。当然,所有的证据都表明,这对 OpenAI 来说是完全合理的,但在合理 —— 甚至可能 —— 和真实之间存在着 gap。我不会为你填补这个 gap—— 毕竟,这只是推测。但我可以进一步加强论据。

有什么额外的证据表明 OpenAI 是这样运作的吗?除了性能不佳和亏损增加之外,他们还有其他理由扣留 GPT-5 吗?从 OpenAI 高管关于 GPT-5 的公开声明中我们能得出什么?反复推迟模型发布,他们不是在冒着牺牲声誉的风险吗?毕竟,OpenAI 是 AI 革命的代表,而 Anthropic 在其阴影下运作。Anthropic 可以负担得起这些举动,但 OpenAI 呢?也许这么做并非没有代价。

说到钱,让我们挖出一些关于 OpenAI - 微软合作关系的相关细节。首先是每个人都知道的:AGI 条款。在 OpenAI 关于其结构的博客文章中,他们有五个治理条款,描述了其运作方式、与非营利组织的关系、与董事会的关系以及与微软的关系。第五条将 AGI 定义为「在大多数具有经济价值的工作中超越人类的高度自主系统」,并规定一旦 OpenAI 董事会声称已经实现 AGI,「这样的系统将被排除在与微软的 IP 许可和其他商业条款之外,这些条款只适用于 AGI 之前的技术。」

不用说,两家公司都不希望合作关系破裂。OpenAI 设定了这个条款,但会做任何必要的事情来避免遵守它。其中一种方式是推迟发布可能被标记为 AGI 的系统。「但 GPT-5 肯定不是 AGI,」你会说。而我会说这里有第二个事实,几乎没有人知道:OpenAI 和微软对 AGI 有一个秘密定义:AGI 是一个「可以产生至少 1000 亿美元利润的 AI 系统。」这个定义虽然在科学目的上无关紧要,但在法律术语上构建了他们的合作关系。

如果 OpenAI 假设性地以「还没有准备好」为借口扣留 GPT-5,除了控制成本和防止公众反弹外,他们还能多做一件事:他们会回避宣布它是否达到了被归类为 AGI 的门槛。虽然 1000 亿美元的利润是一个非凡的数字,但没有什么能阻止雄心勃勃的客户在此基础上创造更多的利润。另一方面,让我们说清楚:如果 OpenAI 预测 GPT-5 每年能带来 1000 亿美元的经常性收入,他们不会介意触发 AGI 条款并与微软分道扬镳。

对于 OpenAI 不发布 GPT-5 的大多数公众反应都基于这样的假设:他们不这样做是因为它不够好。即使这是真的,也没有怀疑者停下来想一想 OpenAI 可能有比他们从外部获得的更好的内部用例。创建一个优秀的模型与创建一个可以廉价地服务于 3 亿人的优秀模型之间存在巨大差异。如果你做不到,你就不做。但同样,如果你不需要,你也不做。他们之前给我们访问他们最好的模型是因为他们需要我们的数据。现在不那么需要了。他们也不追逐我们的钱。想要钱的是微软,而不是他们。他们想要 AGI,然后是 ASI。他们想要一个遗产。

图片

六、从山洞中传递智慧的老隐士

文章接近尾声了。我相信我已经列出了足够的论据来建立一个坚实的案例:OpenAI 很可能在内部拥有正在运行的 GPT-5,就像 Anthropic 拥有 Opus 3.5 一样。OpenAI 永远不会发布 GPT-5 也是有可能的。公众现在将性能与 o1/o3 进行对比,而不仅仅是 GPT-4o 或 Claude Sonnet 3.6。随着 OpenAI 探索测试时 scaling law,GPT-5 需要跨越的门槛不断提高。他们如何能发布一个真正超越 o1、o3 和即将到来的 o 系列模型的 GPT-5 呢,特别是考虑到他们生产这些模型的速度?此外,他们不再需要我们的钱或数据了。

训练新的基础模型 ——GPT-5、GPT-6 及以后的模型 —— 对 OpenAI 内部来说永远有意义,但不一定作为产品。这可能结束了。现在对他们来说唯一重要的目标是继续为下一代模型生成更好的数据。从现在开始,基础模型可能在后台运行,让其他模型能够完成它们自己无法完成的壮举——就像一个老隐士从秘密山洞中传递智慧,只是这个山洞是一个巨大的数据中心。而无论我们能否见到他,我们都将经历他的智慧带来的后果。

图片

即使 GPT-5 最终发布,这个事实突然显得几乎无关紧要。如果 OpenAI 和 Anthropic 确实启动了递归自我改进行动(尽管仍然有人类参与其中),那么他们公开给我们什么并不重要。他们将越走越远 —— 就像宇宙膨胀得如此之快,以至于远处星系的光再也无法到达我们这里。

也许这就是 OpenAI 如何在短短三个月内从 o1 跳到 o3 的原因,以及他们将如何跳到 o4 和 o5。这可能也是为什么他们最近在社交媒体上如此兴奋。因为他们已经实施了一种新的改进后的运作模式。

你真的认为接近 AGI 意味着你能随时使用越来越强大的 AI 吗?他们会发布每一个进展让我们使用?当然,你不会相信这个。当他们说他们的模型会让他们远远领先于任何人以至于无法追赶时,他们是认真的。每一代新模型都是逃逸速度的引擎。从平流层开始,他们已经在向我们挥手告别。

他们是否会回来还有待观察。

#豆包Kimi通义现身搅动江湖

一觉醒来,在逆水寒里被AI娘包围了?

作为一家专业的人工智能媒体,AI 竞技场我们熟呀。目前 AI 领域最热门的竞技场当属 LMSYS Org 的 Chatbot Arena,其玩法也很简单:评估者与两个匿名模型互动,然后盲评这两个模型给出的响应。根据评估者反馈的胜负情况,LMSYS Org 还制作了一个动态更新的排行榜。可以看到,目前 Chatbot Arena 语言模型板块已经积累了 250 余万投票,同时暂居冠亚军的都是 Gemini 模型。

图片

Chatbot Arena 语言模型排行榜前 10 名,截取自 1 月 14 日

当然,AI 大模型开发者乐于「打榜」的排行榜可不只 Chatbot Arena 一个,你能在网上找到大量基于各种不同基准的 AI 排行榜,如会全面比较性能、质量、价格、速度等多因素的 Artificial Analysis  LLM Leaderboard、曾经很热门但现在可能有点过时的 SuperGLUE Leaderboard 和 ImageNet/COCO 挑战赛以及前段时间因为 OpenAI ο3 发布而备受关注的 ARC-AGI-PUB。

虽然许多排行榜已经不再是 AI 研究者的「热榜」,但它们为 AI 进步所做出的贡献却已经实在地印刻在了 AI 发展史中,毕竟新诞生的有效方法最早改变的往往都是排行榜。因此,排行榜的变化往往预示着新技术方法的诞生乃至范式上的转变。

不过将 AI 竞技场部署在游戏中?我们真还是第一次听说,尤其是《逆水寒》这个拥有上亿玩家的「国民级手游」。看来,我们得去上手研究一番了,而且我们也确实对「AI 娘」这个关键词非常感兴趣,于是我们拿起手机,回到了阔别日久的江湖。

我们回到了上次离开的地方,万松书院。一抬头,却见旁边的二楼上多了一位正在放声大笑的姑娘。她看起来有点……呃……中二。她说自己名叫「越之安」,乃是一位从修仙世界穿越至此的魔尊!

惊讶之中,我们赶忙传送,不觉竟来到汴京虹桥。翻身上马,在神侯府的街角,我们遇到了两位仙姿玉骨的姑娘!她们姓童,姐姐叫做「千问」,妹妹名唤「星尘」。

星尘姑娘灵动活泼,喜爱扮演;而姐姐千问乃是一位书院夫子,谈吐如珠玑落盘,并且文采斐然。

而倘若你选择往皇城方向走,来到戏曲杂耍艺人云集的曲院街,你还能在戏台下面遇见一位会让你猜她是姐姐还是妹妹的宇小星,而她的当事姐妹则正在杭州薛妙手的药铺前方,思考着如何帮助他人,给人带去温暖。

图片

我们还在江湖游历之时遇到过窦豆包和窦包包姐妹以及白文心和文一言……

千问、星尘、星野、豆包、越之安(面)、文心一言…… 她们的名字其实就已经暗示了她们的来历。我们也向《逆水寒》确认了这一点,这些 NPC 背后正是阿里、百度、MiniMax、月之暗面、字节跳动这五家国内头部 AI 厂商的大模型。这一次,他们一共带来了九位 AI 娘!

图片

确切地说,这些 AI 娘都是这五家公司的 AI 大模型的拟人化形象,同时这些大模型也是最早入驻《逆水寒》AI 大模型竞技场的「参赛者」。

经常闯荡《逆水寒》江湖的玩家都知道,这款国民级手游一诞生便是实打实的「AI 游戏」。玩家早就可以在 AI 的帮助下给角色捏脸,与网易伏羲自研 AI 驱动的 NPC 交流,用 AI 剧组拍戏,甚至捏出「AI 智能生命体」作为自己的门客……看起来,九位 AI 娘的到来以及 AI 大模型竞技场的设立其实是《逆水寒》「AI+游戏」战略的进一步延续,向外部模型开放也可说是迈出了划时代一大步,并且他们还会继续前进。

《逆水寒》告诉:「未来我们还希望通过竞技场和更多服务商合作,在游戏中创造更多的与 AI 深度结合的场景,推动技术变革和『东部世界』的到来。」

聚集五大厂商,全球首次在游戏内开设 AI 大模型竞技场

其实,《逆水寒》的 AI 大模型竞技场在去年 11 月份就已经上线了,其被设置成了「游历」中一种有概率触发的玩法。进入「游历」玩法之后,玩家有可能会遇到两位诗人正在竞比才情。你可以出题让他们各自赋诗一首,看看谁的作品更胜一筹。

也有可能,你会如孔子东游一样遇到两小儿辩斗。同样,你也能通过自由形式的交谈对他们进行一番考验,看看哪位小朋友的回答更好玩。

你还可能遇到两位侠士在争论怎样才能更具大侠气质。如果他们让你来帮忙,你完全可以提一个离奇又刁钻的问题:如果外星人入侵地球,大侠该怎么做?

图片

熟悉 AI 评估的读者可能一下子便能看出,这就是典型的 AI 竞技场机制。《逆水寒》 AI 大模型竞技场采用了盲评机制,也就说在竞技游戏结束前,玩家无法得知他们背后究竟是什么模型。

虽然 AI 竞技场早已有之,但将 AI 竞技场放在游戏中?《逆水寒》真正做到了世界首创,再考虑到这款游戏巨大的玩家规模,其所带来的影响必定不小。据我们了解,去年 11 月 AI 大模型竞技场上线后不到半个月,就已经跃升成了参与人数(达到千万级)与有效投票数均为全球第一的 AI 竞技场。相较之下,业内知名的 AI 竞技场 Chatbot Arena 语言模型板块的总投票数目前也仅有 250 多万。这似乎也从侧面验证了《逆水寒》开设 AI 竞技场玩法的合理性 —— 竞技场模式与游戏场景可说是天然适配。并且《逆水寒》作为一款 MMORPG 游戏,看起来尤其适合做这件事。

首先,RPG(角色扮演游戏)中通常有很多可与玩家互动的 NPC,而大型语言模型(LLM)天生就非常适合角色扮演。在通过提示词让 LLM 执行任务时,一种常用的提示词工程方法就是给 LLM 设定一个身份,比如「你是一位想象力超乎寻常的科幻电影剧本作家」或「你是一位经验丰富的心理医生」。而《逆水寒》这种充满多变的情节和复杂决策的 RPG 游戏又正好可以为 LLM 提供一个表演的舞台,让开发者或 AI 厂商可以在更多样化和更复杂的情境中对 AI 进行测试。

,时长01:38

AI 大模型扮演两位官员接受了玩家的三连问,其中包括一个常识性问题、一个常被用来考验大模型的基础数学题(9.11 和 9.8 哪个大)和一个哲学问题。

第二,RPG 游戏往往能创造一个沉浸式的交互体验。我们知道,RPG 游戏强调叙事和角色互动,玩家常常沉浸在虚拟世界中,愿意花费大量时间与游戏中的角色互动,有效地解决传统 AI 竞技场用户参与不足的瓶颈。这种高度沉浸式的环境,可为 AI 提供理想的测试和展示场景。AI 在这样的世界中能够表现得更自然,玩家也能通过互动深入体验其能力,真正参与到 AI 竞技场的竞赛中,而不仅仅是数据或表面展示。

MMORPG 游戏中的社交功能(如公会、组队、竞赛等)也能够促使玩家与其他玩家或 AI 进行大量的互动。这能比 Chatbot Arena 等传统模式的 AI 竞技场更能吸引用户的持续和长期参与。同时,在社交能力的加持下,玩家可能会集体参与、分享经验、讨论策略,甚至形成社区支持,帮助开发者发现潜在的问题并提供创新的解决方案。而相对地,传统 AI 竞技场可能更多是个体的比较。

另外,由于玩家群体的多样性,游戏中的 AI 竞技场往往能比传统 AI 竞技场(通常仅能吸引 AI 技术爱好者)吸引更广泛的用户参与。这样一来,就能从多个维度、从多种角度对 AI 进行评价。这种多元化反馈的重要性已经在 AI 对齐和社会影响等相关研究中被强调了无数次。《逆水寒》自然也明白这一点,所以其 AI 大模型竞技场没有规定玩家应该以什么标准来评价 AI 的响应,而是将评估指标交给了玩家,并且玩家还可以自行编写点评。

当然,《逆水寒》巨大的玩家规模对 AI 大模型厂商来说也极具吸引力。目前,这个 AI 大模型竞技场已经吸引了阿里、百度、MiniMax、月之暗面、字节跳动这五家国内头部 AI 厂商带着自家 AI 模型入驻,即通义、文心、abab、Kimi 和豆包。《逆水寒》也表示大门会持续开放,因此可以预见不久后还能看到更多 AI 智能体踏足这片江湖。

最后,对于玩家,AI 的加入也大大有利。最起码的,它们能让游戏更加好玩 —— 有头脑的 AI NPC 可比只会重复固定台词的传统 NPC 有趣多了!AI 还能随着游戏的更新而不断演进,优化其行为表现,给玩家提供持续的新鲜感和挑战。《逆水寒》也表示会基于 AI 大模型竞技场开发更多玩法。

具体技术上,《逆水寒》表示这个 AI 大模型竞技场是基于网易伏羲 AOP 框架构建的,即面向智能体编程(Agent Oriented Programming)。该框架可将大模型建模为统一的智能体,从而极大简化了 AI 接入到《逆水寒》游戏的流程。

另外,我们还向网易伏羲提出了一个数据上疑问:假如玩家胡乱提问,或者随意投票和点评,该怎么办?网易伏羲当然早就考虑到了这一点并已部署一些应对措施。他们表示,为了验证数据的有效性,网易伏羲进行了大规模的数据分析和实验,综合性地评估了玩家多样性的选择对数据有效性的影响;基于这些实验结果,他们部署了可以滤除无效信息的过滤机制,从而可以保证最终结果的客观和有效。

可以说在如此受欢迎的游戏中开设 AI 大模型竞技场是一项极具开创性的举措。这不仅能展现 AI 技术在实时互动和复杂决策中的潜力,还能推进「AI+娱乐」的边界,为行业探索新的商业模式和创新方向提供灵感。《逆水寒》的这一创举正好在游戏与科技的交汇点上,可为双方都开辟出更多可能性。

在逆水寒的江湖中

AI 已无处不在

AI 娘,或温柔婉约,或直爽洒脱,各擅奇艺,尽展风华。除了她们,你还能在街头巷尾偶遇其他网易自家大模型驱动的 AI NPC。

在汴京的虹桥附近,就有不少 AI NPC 聚集在这里等着玩家们与他们互动。不仅如此,他们之间还能彼此互动。有一次,当我路过此处时,正巧遇见了 AI NPC 孙小溪与僧人弥乐发生了争执。

,时长01:01

此外,这些 AI NPC 也能流畅地回答玩家的离题话题 —— 你甚至能与他们讨论宇宙飞船和人工智能。《逆水寒》为这些角色配置的音色也非常合适,如果以后能配置上实时语音能力,或许还能更加好玩。

据逆水寒介绍,这些 AI NPC 都有自己独特的性格、喜好、目的,会遵循人情世故、大宋律法、江湖法礼、是非善恶等观念和规则。

他们会自主游历江湖,主动结交好友,不断产生新的记忆,反过来迭代进化自己的各种观念…… 比如之前我在虹桥附近向孙皓等 NPC 散播了杭州城郊外有一艘宇宙飞船的(假)消息,后来我遇到「风流先生」时,他竟然主动说起了宇宙飞船,还添油加醋地说那里有陨石。

伴随着 AI NPC 逐渐成长为一个个有着自己思想和情感的「数字生命」,逆水寒的世界也将形成动态发展、自我更新的江湖社会网络。

更令人激动的是,每个人都能为这个社会添砖加瓦。在《逆水寒》,你可以自己捏智能 NPC,并为自己的「自捏江湖友人」量身打造独一无二的外貌与声音。还能根据《逆水寒》独一档的 AI 功能,赋予其智商、情商、性格等「灵魂特征」,令其成为一个「完整的人」,与你一起行走江湖。

除了 AI NPC,在网易伏羲 AI 技术加持下,《逆水寒》中还整合了其它许多 AI 能力,包括 AI 副本队友、AI 捏脸染色、AI 自定义语音、AI 大宋头条、AI 作诗作画、AI 离线玩家、AI 剧组模式、AI 翻拍等等。

,时长00:23

新上线的剧组模式 - 智能翻拍

图片

大宋头条

在《逆水寒》江湖中闯荡一番后,我们的整体感受就是 AI 已经无处不在,并已经深刻嵌入到这个江湖世界的底层叙事和玩法之中。纵观当今的游戏行业,《逆水寒》在「AI+游戏」之路上是走得最激进的游戏,甚至可能没有之一。网易 CEO 丁磊曾表示:「要牢牢抓住 AI 这个百年不遇机遇。」从《逆水寒》以及其它网易系游戏的 AI 浓度来看,网易确实非常努力想要做到这一点并且已经取得了不错的成绩。

前段时间,AI+游戏赛道爆出了几个大新闻:无需游戏引擎,视频模型直出实时交互可玩的游戏 Oasis;谷歌推出了会「自己生长」的《模拟人生》式游戏 Unbounded。然而,与这些仍在实验阶段的项目不同,《逆水寒》选择了一条更贴近玩家的渐进式路径,将 AI 技术无缝融入 MMO 生态,从玩法到体验,全面革新了传统 MMORPG 的可能性。

AI+游戏的前景甚至让伊隆・马斯克也按捺不住了,表示下一步计划是:「创立 AI 游戏工作室,让游戏再次伟大」。但他可能不知道《逆水寒》早已引领在前。据说马斯克发布下面这条推文后,有很多玩家后台私信《逆水寒》:「这下逆子真的遥遥领先了!建国同志没通知马厂长 AI 游戏已经做出来了,而且已经让 MMO 再次伟大了,马厂长进度落后起码快 2 年了。」

图片

引领时代

逆水寒将继续书写 AI+游戏新传奇

《逆水寒》通过 AI 技术的深入应用,正在重新定义游戏世界的边界。从九位 AI 娘的活灵活现,到竞技场玩法的趣味横生,再到无处不在的智能互动,这片江湖早已不只是人的江湖,也是 AI 的江湖。

AI 与游戏的结合不仅仅是娱乐体验的提升,更是一次产业模式的深刻变革。通过 AI 技术,游戏能够更加贴近玩家需求,提供个性化、沉浸式的体验。这种技术与内容的双向驱动,让游戏不再是单纯的娱乐工具,而是一种动态发展的艺术形式。

据我们了解,《逆水寒》游戏中的各式 AI 能力主要由网易伏羲提供支持,并且这些能力也并不局限于这一款游戏。《永劫无间》、《倩女幽魂》、《全明星街球派对》等多款网易系游戏都已上线自己各具特色的 AI 玩法,包括 AI 队友、AI 萌娃、AI 对抗竞赛等。在前些天的 CES 2025 上,英伟达还宣布,将与网易雷火和伏羲实验室合作使用 NVIDIA ACE 技术在《永劫无间手游》PC 版中部署基于本地推理的 AI 队友,其不仅支持实时语音沟通,还能实时观察战场局势并与玩家一起制定战术!

对于 AI 行业来说,游戏基本上已经成为研发和测试 AI 的最主流平台之一。从围棋等棋盘游戏到《毁灭战士》、《星际争霸 II》等视频游戏,在游戏环境中诞生和优化的新技术数不胜数。比如,AlphaGo 不仅改变了围棋的竞技格局,还推动了深度强化学习的发展。又如,OpenAI Five 在《Dota 2》中的出色表现,展现了多智能体合作和长时间决策的能力,又启发了自动化决策和机器人技术的进步。《我的世界》更是早已成为低成本测验各种 AI 技术的平台。前段时间,斯坦福还搭建了一个智能体小镇 Smallville 来研究多智能体交互与人类行为模拟。

AI 行业之外,诺奖级 AlphaFold 是一大经典案例。另一个例子是游戏引擎 Unity 在自动驾驶和机器人开发中的应用。Unity 提供的 AI 训练环境可让开发者模拟不同的物理环境,以便训练和测试智能体,极大助力了机器人导航和决策技术的发展。此外,基于 OpenAI GPT-3 开发的互动式文字冒险游戏《AI Dungeon》也在教育中得到了应用,可帮助学生通过互动式故事提高语言表达能力和创造力,甚至被用作语言学习工具。这样的例子不胜枚举。从数据处理到人机交互,游戏 AI 的技术实践正影响更广泛的社会领域。

未来,当 AI 技术更加成熟,游戏世界可能会成为人类与智能共创的最佳平台。无论是生成独特的故事线,还是构建自适应的虚拟生态,玩家与 AI 的协作将为我们打开通往未知可能性的大门。

江湖未远,未来已来。《逆水寒》的探索也只是起点,属于「AI+游戏」的精彩篇章还在书写之中。

#Multi-matrix Factorization Attention

阶跃公开了自家新型注意力机制:KV缓存消耗直降93.7%,性能不减反增

虽然业界已有 MQA、GQA、MLA 等多种注意力机制变体试图解决这一问题,但这些方案要么难以在严格的显存限制下保持理想性能,要么在模型结构上引入额外复杂度,带来巨大的工程挑战和生态兼容性问题。

在近期由阶跃星辰、清华大学等机构完成的论文《Multi-matrix Factorization Attention》中,研究人员提出新型注意力机制架构 —— 多矩阵分解注意力(MFA)及其变体 MFA-Key-Reuse,在大幅降低语言模型推理成本的同时,还实现了性能的显著提升。

链接:https://arxiv.org/abs/2412.19255

实验中,MFA 和 MFA-KR 不仅超越了 MLA 的性能,还在减少了高达 93.7% 的 KV Cache 使用量的情况下,与传统的 MHA 性能相当。于此同时,MFA 实现简单,容易复现,对超参敏感度低,且兼容各种 Pos-embedding。

图片

图片

MFA 方法与分析

研究团队通过研究 Attention 机制的一般性设计和容量分析,明确了 Attention 机制的容量最相关的两个维度,并且提出了一系列的分析方法和设计原则。

图片

为了更好地理解注意力机制的本质,研究团队提出了广义多头注意力(GMHA)的概念框架,为理解不同的 MHA 变种注意力机制提供了一个统一的视角。进一步地,研究团队分别从推理角度研究键值的计算和存储方式,从分解角度探讨模型的容量特征。这种创新的分析方法为理解不同策略如何在模型性能和计算效率之间取得平衡提供了全新视角。

在此基础上,研究者们确立了完全参数化双线性注意力(FPBA)作为理论上的性能上限标准。他们发现,目前广泛使用的 MHA 及其各种变体实际上都可以被视为 FPBA 的低秩分解版本。研究团队在分析现有解决方案时,重点考察了两个代表性的改进方案:多查询注意力(MQA)和多头潜在注意力(MLA)。

对于 MQA,研究人员发现它采用了一种更激进的参数共享策略。不同于 MHA 在头部之间保持独立的参数,MQA 让所有注意力头共享同一组键值参数。这种设计虽然将内存使用降到了极低的水平,但可能会影响模型的表达能力。研究团队指出,这种权衡实际上反映了一个更普遍的设计困境:如何在保持模型性能的同时减少资源消耗。

而对于更新的 MLA 方案,研究人员发现它采用了更为复杂的架构设计。MLA 引入了一个共享的潜在空间,通过在这个空间中进行参数压缩来节省内存。虽然这种设计看似提供了更大的灵活性(因为中间维度可以设置得更大),但研究团队的理论分析揭示了一个关键问题:模型的实际表达能力仍然受限于最小维度的约束,这意味着 MLA 的设计中增加中间维度并不能真正提升模型的性能上限。

在深入分析现有方案的基础上,研究团队提出了一个雄心勃勃的目标:开发一种新的注意力机制,既能最大限度地节省资源,又能尽可能接近理论性能上限。这个目标促使他们开发出了多矩阵分解注意力(MFA)。

MFA 的设计体现了研究团队的三个关键创新:

  • 首先,他们突破传统设计的局限,显著增加了注意力头的数量和维度,极大增加了注意力模块的模型容量。
  • 其次,研究团队在矩阵分解方面实现了创新性突破,采用激进的低秩分解策略,成功地在扩展模型注意力头的数量和维度时保持了极高的参数效率。
  • 最后,研究团队采用单键值头设计,这个设计确保了即使在增加模型复杂度的情况下,内存使用仍然保持在最低水平。

图片

为了进一步分析 MFA 和其他注意力机制的不同,研究团队提供了一个清晰的对比表格。研究人员首先引入两个关键指标来度量 GMHA 系列模型的容量:模型总有效秩 TER ( Total Effective Rank ) 和 共享隐空间维度 SLSD(Shared latent subspace dim)。总有效秩 TER 定义为注意力头数量与每个头部分解秩(Factorization rank per head,简称 FRH)的乘积,而共享隐空间维度 SLSD 则代表了所有注意力头共同使用的隐空间维度,注意到 TER 和  SLSD 越大,模型具有更高的容量。同时注意到每个头的分解秩(FRH)不超过 SLSD,而 KV Cache 的占用受制于 FRH 和 SLSD 之间的较大值,这构成了容量和效率之间的关键权衡。

通过这个框架进行分析,可以发现与 MQA 相比,MFA 同时实现了更高的 SLSD 和更高的 TER;与 MLA 相比,在相似的参数预算下,MFA 不仅达到了更小的 KV cache 尺寸,还实现了更高的 TER,同时保持了相当的 SLSD;与传统的 MHA 相比,虽然 MFA 的 SLSD 较小,但它的 TER 更高,这解释了为什么在实验中 MFA 能够获得更好的性能。

实验结果

为了研究新架构在可能的更大规模上的表现,研究团队开展了一系列深入的扩展性实验,系统地测试了从 1B 到 7B 参数的不同规模的模型,训练数据量从 10B 扩展到 1T。在性能扩展方面,研究团队的 MFA 方案展现出与传统 MHA 完全相当的扩展能力。这意味着,即使在更大规模下,MFA 依然能保持其优异的性能。而 MFA-KR 虽然在性能上略有降低,但其扩展趋势与 MHA 保持一致。而随着模型规模的增加,MFA 和 MFA-KR 在内存节省方面的优势不仅得到保持,还呈现出进一步扩大的趋势。在最大规模模型上,MFA 实现了 87.5% 的内存节省,而 MFA-KR 更是将内存使用降低到原来的 6.25%。

图片

研究人员还进行了一系列的消融实验,证明 MFA 和 MFA-KR 的设计的有效性,并在其他的主流的位置编码上也验证了 MFA 和 MFA-KR 的性能优势。

图片

图片

展望

MFA 用最简洁的设计带来了最显著的提升,在不增加额外工程复杂度的前提下,优雅地解决了 LLM 的高效推理显存瓶颈问题,并能无缝集成到现有的 Transformer 生态中。这种简单而强大的创新,必将加速大语言模型在更多场景中的落地应用。

#2025 AAAI Fellow公布

港科大(广州)熊辉、华盛顿大学陈一昕等四位华人入选

含金量极高。

AAAI(Association for the Advancement of Artificial Intelligence)是国际人工智能领域最权威的学术组织之一,Fellow 是该学会给予会员的最高荣誉,仅颁给对人工智能做出「非同寻常的卓越贡献者」,而且评价时间以十年计。

由于其评判极其严格,历届 AAAI Fellow 入选会士均为人工智能领域公认的著名学者,每年严格限制入选人数,因此被誉为国际人工智能领域的名人堂。

今天,AAAI 公布了 2025 年度的 Fellow 评选结果,共有 16 位 AI 学者入选,其中有 4 位华人学者。

陈一昕

  • 机构:华盛顿大学
  • 入选理由:因在机器学习领域做出重要贡献,开创了广泛使用的图神经网络架构和轻量级深度神经网络算法。

陈一昕(Yixin Chen)是圣路易斯华盛顿大学计算机科学与工程系的教授。自 2005 年加入该校以来,他一直致力于数据挖掘、机器学习、人工智能和优化领域的研究,曾在 AAAI (2010)、AMIA (2015) 和 IDEAL (2016) 等顶级会议上斩获最佳论文奖。他是《可解释人工智能导论》一书的作者之一。2022 年,陈一昕凭借其研究成果和学术影响力,荣获 IEEE Fellow 的称号。

付昀

  • 机构:美国东北大学
  • 入选理由:在计算机视觉、增强人机交互方面的变革性技术创新,以及在 AI 技术商业化而做出了重大贡献。

付昀(Yun Raymond Fu)既是人工智能专家,又是成功的连续创业者。目前,他是东北大学的杰出教授。他在计算机视觉、增强现实、人机交互等前沿领域做出了开创性贡献,发表了 500 多篇科研论文,拥有 40 多项专利。

他曾四度创业,将先进的 AI 技术应用于化妆品电商、电视广告分析等行业。他领导的初创公司 Giaran 被日本化妆品巨头资生堂收购,获得 5800 万美元风投。他还获得了众多重要奖项,如 IEEE、ACM、IAPR 等会议的 12 项最佳论文奖,以及谷歌、亚马逊、三星、Adobe 等知名企业评选的行业大奖。此外,他已入选 IEEE、AAAI、OSA 等学会的 Fellow。

熊辉

  • 机构:香港科技大学(广州)
  • 入选理由:对人工智能和移动计算领域做出了重大贡献,并开发了广泛使用的 Informer 算法。

熊辉(Hui Xiong)现为香港科技大学(广州)协理副校长,人工智能学域讲座教授(Chair Professor)。熊辉教授长期从事数据挖掘与人工智能方面的科研工作,在 Nature Communications、TKDE、TOIS、KDD、VLDB、AAAI、IJCAI、NeurIPS 等国际顶级期刊和会议上发表论文 400 余篇。

熊辉教授曾任美国罗格斯 - 新泽西州立大学杰出终身教授及百度研究院副院长。他获得的荣誉包括 AAAS Fellow、IEEE Fellow、ACM 杰出科学家、中国人工智能学会会士、2017 IEEE ICDM Outstanding Service Award、ICDM-2011 最佳研究论文奖、AAAI 2021 最佳论文奖等等。

杨明玄

  • 机构:加州大学默塞德分校、 Google DeepMind
  • 入选理由:为视觉跟踪、低级视觉和视觉学习方面做出了重大贡献,提供了广泛使用的基准数据集和开源代码。

杨明玄(Ming-Hsuan Yang)是加州大学电气工程与计算机科学教授,2000 年获得了伊利诺伊大学厄巴纳 — 香槟分校的计算机科学博士学位。他的主要研究兴趣包括计算机视觉、模式识别、人工智能、机器人和机器学习,他在目标跟踪算法评测方面做出了重要贡献,提出了广泛认可的基准数据集。

他曾担任 ACCV 2014 程序共同主席、ACCV 2016 大会共同主席和 ICCV 2019 程序共同主席,此外还担任 ICCV、CVPR、ECCV、NeurIPS、ICLR、AAAI、 IJCAI、WACV、FG 等学术会议的领域主席。

以下是其他 12 位入选今年 AAAI Fellow 的简要介绍:

  • Maria-Florina (Nina) Balcan
  • 机构:卡内基梅隆大学
  • 入选理由:对机器学习的基础及其在多智能体系统和现代算法设计中的应用做出了重大贡献。
  • Mohit Bansal
  • 机构:北卡罗来纳大学教堂山分校
  • 入选理由:对多模态 AI 基础以及忠实的语言生成和总结做出了重大贡献。
  • J. Christopher Beck
  • 机构:多伦多大学
  • 入选理由:对规划和调度、约束规划以及运筹学和人工智能在组合优化中的整合做出了重大贡献。
  • Emma Brunskill
  • 机构:斯坦福大学
  • 入选理由:对强化学习领域以及社会福利应用,尤其是教育 AI 做出了重大贡献。
  • Ernest Davis
  • 机构:纽约大学
  • 入选理由:对自动常识推理,特别是空间和物理推理做出了重大贡献,并撰写了向普通观众解释 AI 的著作。
  • Emilio Ferrara
  • 机构:南加州大学
  • 入选理由:对计算社会科学和在线信息传播与操纵研究做出了开创性贡献。
  • Gal Kaminka
  • 机构:巴伊兰大学
  • 入选理由:在规划和目标识别、协作多机器人系统以及展示社交智能的多智能体系统方面做出了重大贡献。
  • Kate Larson
  • 机构:滑铁卢大学
  • 入选理由:在多智能体系统基础以及为更广泛的 AI 社区提供服务方面做出了重大贡献。
  • Karen Myers
  • 机构:SRI International
  • 入选理由:在 AI 规划领域做出了重大贡献,包括以人为本的规划技术的开发和应用。
  • Sriraam Natarajan
  • 机构:德克萨斯大学达拉斯分校
  • 入选理由:在统计关系 AI、医疗保健适应以及为 AAAI 社区提供服务方面做出了重大贡献。
  • Roberto Navigli
  • 机构:罗马大学
  • 入选理由:在多语言自然语言理解以及开发广泛认可的知识资源构建、文本消歧和语义解析方法方面做出了重大贡献。
  • Balaraman Ravindran
  • 机构:印度理工学院马德拉斯分校
  • 入选理由:在强化学习基础和应用方面做出了重大贡献。

参考内容:

​https://aaai.org/about-aaai/aaai-awards/the-aaai-fellows-program/elected-aaai-fellows/​

#OpenAI可能已经突破

游戏结束了?跨过起飞的最后临界阈值

OpenAI 的研究达到了可以自我递归改进的程度?

刚刚,X 上的一则帖子爆火,浏览量达到 30 多万。

该推文涉及引领 AI 潮流的 OpenAI。内容显示「OpenAI 递归式自我改进目前在一个盒子里,准确的说是在一个无法破解的盒子!」

我们不难看出,帖子内容突出了 OpenAI 的发展态势,AI可以自我改进,并且很难有人短期内破解。还有一则帖子表示:

「OpenAI 可能已经获得了突破,并最终跨越了临界点,达到一个起飞状态 —— 即智能达到了可以自我递归改进的程度,o4 或 o5 将能够自动化 AI 研发并完成其余工作。

像 o1 这样的模型的大部分意义不在于部署它,而在于为下一个模型生成训练数据。o1 解决的每一个问题现在都是 o3 的训练数据点。

实际上我们有点惊讶于 OpenAI 竟然费心的部署了 o1-pro,而不是将其保持私密并投资计算资源进行更多的 o3 训练等。这显然与 Anthropic 和 Claude-3.6-opus 的开发不同,这个模型没有研发失败,只是 Anthropic 选择将其保持私密,并将其蒸馏成一个小而便宜但很智能的 Claude-3.6-sonnet。

如果你想知道为什么 OpenAI 的人突然在 X 上变得几乎是狂喜地乐观,认真观察从原始 4o 模型到 o3 的改进可能就是原因。

这就像观看 AlphaGo 的 Elo 曲线:它只是不断 up……up……up……

这给我们一种感觉,他们已经获得突破,终于跨越了临界点,即从仅仅是尖端 AI 工作(其他机构将在几年内才能复制),到起飞(破解智能),以至于 o4 或 o5 将能够自动化 AI 研发并完成其余工作。」

在这条推文下,大家的讨论格外热烈。

有人表示「如果这是真的,如果模型不需要人类进行训练,那么《黑客帝国》的结果就不再有效了。」

「我一直是这么想的,OpenAI 没有向公众发布他们最新的优秀模型,他们总是在内部领先 1 或 2 代,因为这为他们提供了开发优势。」

「也许最可怕的不是上述观点是否正确,而是我们无法判断他是否错误。」

就连 OpenAI 研究员 Jason Wei 也跑到评论区发言:魔法,就是当一个不可阻挡的强化学习(RL)优化算法,在充足的计算资源驱动下,遇到一个无法被攻破的强化学习环境时,奇迹就发生了。

Andrej Karpathy 也发表了自己的观点:魔法就是当优化技巧破解了那个环境时,就会出现。

对于上述观点,你怎么看,欢迎评论区留言。

参考链接:

​https://x.com/AISafetyMemes/status/1879624959934497078​

​https://x.com/AISafetyMemes/status/1879938756334977117​

#Uni-AdaFocus

视频理解框架,让AI学会「划重点」,计算效率提升4-23倍!

本文介绍刚刚被 IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI) 录用的一篇文章:Uni-AdaFocus: Spatial-temporal Dynamic Computation for Video Recognition,会议版本 AdaFocus V1/V2/V3 分别发表于 ICCV-2021 (oral)、CVPR-2022、ECCV-2022。

  • 论文链接:https://arxiv.org/abs/2412.11228
  • 项目链接:https://github.com/LeapLabTHU/Uni-AdaFocus

Uni-AdaFocus 是一个通用的高效视频理解框架,实现了降低时间、空间、样本三维度冗余性的统一建模。代码和预训练模型已开源,还有在自定义数据集上使用的完善教程,请访问项目链接。

Uni-AdaFocus 的关键思想与设计思路在于,它建立了一个统一的框架,实现了降低时间、空间、样本冗余性的统一建模,并且使用一些数学方法处理了时空动态计算不可微分的问题,可以方便地进行高效端到端训练,无需强化学习等更为复杂的方法。

具体而言:

  • 降低时间冗余性:动态定位和聚焦于任务相关的关键视频帧;
  • 降低空间冗余性:动态定位和聚焦于视频帧中的任务相关空间区域;
  • 降低样本冗余性:将计算资源集中于更加困难的样本,在不同样本间差异化分配;

在长视频理解上,Uni-AdaFocus 比现有最好的同类 baseline 加速了 5 倍。它可以兼容于现有的高效 backbone,利用动态计算的思想进一步提升其效率,例如将 TSM 和 X3D 各自加速了 4 倍左右。在上述加速情形中,Uni-AdaFocus 基本上都在加速的同时实现了比较显著的准确性提升。

在 7 个学术数据集(ActivityNet, FCVID, Mini-Kinetics, Sth-Sth V1&V2, Jester, Kinetics-400)和 3 个应用场景(使用脑 MRI 诊断阿尔兹海默症和帕金森综合征、细粒度跳水动作识别、互联网不良视频检测)上进行了验证,Uni-AdaFocus 发挥稳定,特定典型情况下可实现多达 23 倍的(性能无损)推理加速或高达 7.7% 的准确性提升。

在 CPU/GPU 实测速度、吞吐量上,Uni-AdaFocus 与理论结果高度一致。

接下来,我们一起来看看该研究的细节。

研究背景和动机

相较于图像,视频理解是一个分布范围更广、应用场景更多的任务。例如,每分钟,即有超过 300 小时的视频上传至 YouTube,超过 82% 的消费互联网流量由在线视频组成。

自动识别这些海量视频中的人类行为、交互、事件、紧急情况等内容,对于视频推荐、视频监控、智能编辑与创作、教育与培训、健康医疗等受众广泛的应用具有重要意义。

同时,面向视频数据的视觉理解技术在具身智能、自动驾驶、机器人等物理世界的实际场景中也有广泛的应用空间。

图片

近年来,已有很多基于深度神经网络的视频理解算法取得了较佳的性能,如 TSM、SlowFast、I3D、X3D、ViViT 等。然而,一个严重的问题是,相较于图像,使用深度神经网络处理视频通常会引入急剧增长的计算开销。如下图所示,将 ResNet-50 应用于视频理解将使运算量(FLOPs)扩大 8-75 倍。

图片

因此,一个关键问题在于,如何降低视频理解模型的计算开销。一个非常自然的想法是从视频的时间维度入手:一方面,相邻的视频帧之间往往具有较大的相似性,逐帧处理将引入冗余计算。另一方面,并非全部视频帧的内容都与理解任务相关。现有工作大多从这一时间冗余性出发,动态寻找视频中的若干关键帧进行重点处理,以降低计算成本,如下图第二行 (b) 所示。

图片

然而,值得注意的一点是,该团队发现,目前尚未有工作关注于视频中的空间冗余性。具体而言,在每一帧视频中,事实上只有一部分空间区域与任务相关,如图中的运动员、起跳动作、水花等。

受此启发,该团队提出了 AdaFocus 方法来动态定位每帧中的任务相关区域,并将最多的计算资源分配到这些区域以实现高效处理,如上图第三行 (c) 所示。

以 AdaFocus 为基础,该团队进一步实现了时间、空间、样本三个维度的统一动态计算,提出了一个通用于大多数骨干网络(backbone)的 Uni-AdaFocus 框架。

Uni-AdaFocus 能够自适应地关注于视频中任务相关的关键帧、关键帧中任务相关的重要区域、以及将计算资源更多地分配给更为困难的样本,如上图第四行 (d) 所示。

模型简介

图片

如上图所示,Uni-AdaFocus 首先使用全局编码器 f_G(轻量化的特征提取网络,例如 MobileNet-V2 等)用低成本对均匀采样的视频帧进行粗略处理,获得视频整体的时空分布信息,即全局特征。

一个策略网络 π 基于 f_G 提取的全局特征自适应地采样关键帧以及其中的关键区域,得到值得关注的 patches,patch 的形状和大小根据视频帧的具体特性自适应地决定。局部编码器 f_L(参数量大的大容量神经网络,准确率高但计算开销较大)仅处理策略网络 π 选择出的 patches,即局部特征。

最后分类器 f_C 逐帧聚合全局特征和局部特征以得到最优的视频理解结果,同时通过早退机制实现对样本维度计算冗余性的建模。

关于 Uni-AdaFocus 模型设计和训练方法的更多细节,由于比较繁杂,可以移步参阅论文。

实验结果

使用 MobileNet-V2 和 ResNet-50 为 backbone, Uni-AdaFocus 在 ActivityNet,FCVID 和 Mini-Kinetics 上的实验结果,以及与现有最佳同类方法的比较。

图片

蓝色文字表示基于 baseline 模型的提升幅度

图片

使用 MobileNet-V2-TSM 和 ResNet-50-TSM 为 backbone,Uni-AdaFocus 在 Something-Something-V1 / V2 和 Jester 上的实验结果。

图片

图片

使用 X3D-S 和 X3D-L 为 backbone,Uni-AdaFocus 在 Kinetics-400 上的实验结果。

图片

Uni-AdaFocus 在 3 个应用场景(使用脑 MRI 诊断阿尔兹海默症和帕金森综合征、细粒度跳水动作识别、互联网不良视频检测)上的实验结果。

图片

图片

图片

Uni-AdaFocus 的可视化结果。所示的视频帧为 Uni-AdaFocus 所选取的任务相关帧,浅蓝色方块表示 Uni-AdaFocus 在每一帧选择的 patch。可以看到 Uni-AdaFocus 成功定位到任务相关视频帧中的任务相关区域,例如长笛、小狗、圣诞树、马术运动员等,并能自适应地调整 patch 的大小和形状、以及任务相关视频帧的数目。

图片

#黄仁勋「看中」的14款人形机器人,国产机器人胜算几何?

近日,英伟达 CEO 黄仁勋在 CES 2025 的一场主题演讲中提到,「机器人技术领域,特别是人形机器人和通用机器人技术,即将迎来 ChatGPT 时刻般的突破。」在演讲中,黄仁勋公布了英伟达新推出的世界基础模型开发平台 Cosmos,并展示了加入 Cosmos 平台的 14 款人形机器人,其中近一半来自国内机器人公司。

本篇解读详细地盘点了 14 款人形机器人的基础参数信息、主要适用场景、核心亮点(相较于其他人形机器人不同的地方)、商业化情况以及背后的核心技术路线等情况。

目录

01. 为何实现「通用人形机器人」如此重要?机器人的 ChatGPT 时刻真的来了吗?

机器人技术一旦实现通用性意味着什么?最适合通用具身智能的形态会是人形吗?要想迎来通用机器人领域的「GPT」时刻,哪些因素才是核心关键?

02. 老黄选中的 14 款人形机器人:国产机器人梯队的胜算如何?海外机器人梯队情况如何?

黄仁勋展示的 14 款人形机器人都是什么「来头」?国产机器人厂商「突飞猛进」,占据近一半?国内外的各家机器人在技术路线上有何差异?

03. 老黄没带上台的机器人种子选手还有哪些?

在 CES 2025 展会上,还有哪些值得关注的机器人?

01  为何实现「通用人形机器人」如此重要?

1、黄仁勋认为通用机器人技术的重要性在于,能够创造出无需特殊环境即能适应「棕色地带」的机器人。同时,黄仁勋还在演讲中指出了未来对世界产生重要影响的三类机器人,分别为自主机器人、自动驾驶汽车和人形机器人。

2、实现机器人的「通用」非常重要。深度学习强化领域的大牛 Pieter Abbeel 曾表达机器人通用性的重要,「当机器人能够适应不同环境时,就会发生重大变革。」

① 传统的机器人需要针对特定的环境、任务,用某种固定的动作序列对机器人进行编程,只针对于结构化的环境有效。而当下,业内追求的通用机器人,能够在一个未设定具体规则、一切皆可变化的开放环境中解决问题。

3、同时,基于人形是否是最适合实现通用具身智能的形态,仍存在一些争议。清华大学交叉信息研究院院长姚期智认为,人形是最适合实现通用具身智能的形态。目前只有人类本身达到了真正的通用具身智能,因此人形机器人被视为最好的通用具身智能体。

4、据麦肯锡近期发布的一份报告预测,机器人行业的收入到 2040 年将增长至 1900 - 9100 亿美元,年均增长率高达 13%至 23%。机器人领域的潜力不言而喻。

5、同样,黄仁勋在其近 1 个半小时的 CES 2025 主题演讲上,重点讲到了对于「Physical AI」的看法。在此期间,黄仁勋公布了英伟达新推出的世界基础模型开发平台 Cosmos,并展示了加入 Cosmos 平台的 14 款人形机器人,其中有 6 款来自国内的机器人公司,8 款来自国外的机器人公司。

14 款人形机器人的基础情况一览:

图片

02  机器人的 ChatGPT 时刻真的来了吗?

黄仁勋在演讲中提到,「机器人正在进入 ChatGPT 时刻」。但距离通用机器人领域的「GPT」时刻真的来临,还面临着几点需要克服的「关键难题」。

1、首先,是机器人的「大小脑」的大模型的架构还没有统一,各家仍在探索中,如大语言模型的技术路径、模仿学习与深度强化学习的技术路径以及空间模型的技术路径等。目前,尚没有哪条技术路径表现出明显的优势性。

①  具体而言,目前较为常见的架构主要有两种。一是将大语言多模态模型直接应用于机器人,并在此基础上增加一部分机器人底层的操作运动集等,使大语言模型能够进行调用,以完成相应任务,这已成为目前最为普遍的架构形式;二是如特斯拉等公司追求的更为端到端的解决方案,采用模仿学习的方式,通过人为采集大量的动作数据来训练机器人。但该方法的「scling law」还没有得到验证。

2、其次是,目前机器人的泛化性较差 ......

03 老黄选中的 14 款人形机器人,国产机器人梯队的胜算如何?

此次在 CES 2025 主题演讲上,出现在黄仁勋身边的 14 款人形机器人中,有 6 款机器人来自国内的机器人厂商。

远征 A2(智元机器人)

1、「远征 A2」是由智元机器人于 2024 年 8 月推出的一款智能交互服务机器人,主要场景适用于营销客服、展厅讲解、商超导览、前台接待、业务咨询等。8 月,与「远征 A2」同时发布的远征系列机器人还有「远征 A2-W」和「远征 A2-Max」两款,适用于柔性智造、重载特种作业等场景。

2、「远征 A2」全身具备超过 40 个主动自由度的关节和仿人的灵巧双手,能够模拟出丰富和复杂的人类工作。同时拥有一个可以持续学习的大脑,由大语言模型加持。此外,还具备多模态的感知,输入系统,可以通过视觉感知交互者的情绪。

① 在语音交互方面,远征 A2 机器人采用了语言大模型+RAG 构建企业定制业务知识库......

#o3-mini几周内发布,奥特曼表示AGI只需872兆瓦计算功率

昨天,我们报道了一个行业猜想,说是 OpenAI 和 Anthropic 等前沿大模型公司可能已经训练出了下一代大模型,但由于它们的使用成本过高,所以短时间内根本不会被放出来。但是,为了响应用户期待,OpenAI 和 Anthropic 等公司会不断放出一些基于下一代大模型蒸馏得到的较小模型。更多分析请参阅文章《GPT-5、 Opus 3.5 为何迟迟不发?新猜想:已诞生,被蒸馏成小模型来卖》。

有意思的是,就在这篇文章发布后不久,OpenAI CEO 山姆・奥特曼就在 𝕏 上宣布将在「几周内」发布 o3-mini,并且这一次会同时发布 API 与网页端。从名字也能看出来,o3-mini 应该就是某个大模型的蒸馏版,这似乎也映证了上面的猜想。

图片

另据 OpenAI 研究科学家 Hongyu Ren 透露,他们会同时发布 o3-mini 的 high、medium、low 三个版本。

图片

当然,严格来说,这并不算是一个新闻。早在上个月 21 日,OpenAI 十二天连发的最后一天,奥特曼就提到过计划在一月底左右推出 o3-mini,并在不久后推出完整的 o3 模型。更多详情可访问《刚刚,OpenAI 放出最后大惊喜 o3,高计算模式每任务花费数千美元》。

这条推文之后,奥特曼又积极地回答了许多网友的提问,为我们揭示了更多细节。

首先,奥特曼证实 o3-mini 的性能表现会逊于 o1-pro,但速度会更快。

图片

这一点着实让不少网友失望,因为从这个描述看,o3-mini 可能也就比 o1-mini 强一点。

图片

但其实,OpenAI 此前就已经公布过相关基准数据了,所以这一点倒并不让人惊讶。比如在 Codeforces 编程基准上,o3-mini (low) 性能不及 o1,high 版本会好一些,但整体都更具成本效益,这使其非常适合用来编程。

图片

OpenAI 的 Dylan Hunn 也强调了 o3-mini 在编程速度上的优势。

图片

或许是为了安抚大家的情绪,奥特曼又抬出了 o3,表示这个版本会比 o1-pro 聪明得多,更别提 o3-pro 了。同时,他也表示 o3-pro 的定价不会是一个月 2000 美元起,200 美元的 Pro 订阅者应该就能获得一定的使用额度。

图片

至于 o3-mini 的使用额度,奥特曼只是说「真的高」,从上下文看应该会比 o1 系列的高一些。

图片

奥特曼也表示 o3-mini 会向 ChatGPT Plus 订阅者提供,并不限于 200 美元月供的 Pro 用户。

图片

另外,奥特曼也谈到了 GPT 系列与 o 系列模型品牌融合的问题。看起来,这个融合行动就将在今年发生!

图片

AGI 需要 872 兆瓦的计算功率

除了与 o3-mini 相关的问题,奥特曼也解答了一个与 AGI 相关的提问。当然,他的答复已经不是第一次出现了:AGI 可以实现,并且需要 872 兆瓦的计算功率。作为参考,美国目前最大的核电站 Alvin W. Vogtle 发电站的装机容量为 4536 兆瓦,理想情况下也顶多仅能供养 5 个这样的 AGI。不过话也说回来,872 兆瓦这个数据着实精确得让人惊讶。

图片

那我们目前实际上已经到哪一步了呢?根据 situational-awareness.ai 的估算,目前 AI 的功率应该差不多就在这个水平。

图片

看起来,OpenAI 确实很有可能已经开发出了下一代模型,甚至有可能达到了 AGI 等级 —— 当然,这得取决于 OpenAI 对 AGI 的具体定义。事实上,已经有人根据所谓的内部消息在暗示这一点了。

图片

对此,你有什么看法呢?

参考链接

​https://x.com/sama/with_replies​

​https://en.wikipedia.org/wiki/List_of_largest_power_stations_in_the_United_States​

​https://situational-awareness.ai/racing-to-the-trillion-dollar-cluster/​

#「完美的搜索引擎」是否存在

你需要一群拒绝接受现状的人,并为之努力多年,直到一个抽象的愿景变为现实,即使其他人都不理解。

你每天都在用的搜索引擎,可能并不完美。

大型语言模型(LLMs)能够解决研究生水平的数学问题,但今天的搜索引擎却无法准确理解一个简单的三词短语。例如,如果你在谷歌图片中搜索「shirts without stripes」(没有条纹的衬衫),结果却几乎全是有条纹的衬衫。

图片

图源:https://x.com/sur4js/status/1876773163222130719

如何才能打造一个完美的搜索引擎,AI 初创公司 Exa 的 CEO Will Bryk 亲自撰写了一篇文章来回答这个问题。

图片

Will Bryk 表示 Exa 的目标是打造一个比谷歌更好的搜索引擎,一个能够像 LLM 那样真正理解你的搜索引擎。

随着公司的发展和 LLM 技术的进步,Exa 的目标也在不断升级,他们不再仅仅满足于打造比谷歌更好的搜索引擎,而是希望打造一个完美的搜索引擎。

一个完美的搜索引擎对世界的帮助可能比人们想象的还要大。而 Exa 是目前全球唯一一个致力于实现这一目标的组织。

以下是 Will Bryk 博客内容。

当前的搜索生态系统

尽管近年来关于 AI 搜索的炒作很多,但搜索引擎本身并没有真正改变。

谷歌搜索和必应搜索仍然与十年前非常相似。当你输入一个查询,比如「shirts without stripes」(没有条纹的衬衫),它们会将你查询中的关键词与网络上的所有文档进行匹配。然而这种搜索方式在这里失败了,因为「without stripes」(没有条纹)超越了关键词匹配的理解能力。

虽然搜索算法没有改变,但所有关于 AI 搜索的炒作都来自于 AI 摘要的引入。谷歌 AI overview、SearchGPT、Perplexity—— 这些产品背后都使用了像谷歌或必应这样的传统搜索引擎,然后利用 LLM 生成摘要。

LLM 生成的摘要很简洁,为我们节省了时间。但不幸的是,LLM 仍然受限于底层搜索引擎的质量。如果必应找不到某些内容,那么依赖必应的 SearchGPT 也无法找到。因此,今天的 AI 搜索主要是一个节省时间的工具,而不是一个真正更好的搜索引擎,能够找到我们以前找不到的东西。

我记得在 2021 年,当我告诉我父亲我正在构建一个新的搜索引擎时,他回答说:谷歌还不够好吗?

我的回答是它还不够好。谷歌的传统搜索算法对于简单的查询非常有效 —— 比如「Taylor Swift boyfriend」(泰勒・斯威夫特的男朋友)或「Walmart homepage」(沃尔玛主页)。但一旦查询变得复杂,它就会彻底失败 —— 比如「phds in the Bay area who've written about flying cars」(在湾区写过飞行汽车相关文章的博士)。

如果你曾经去 LinkedIn 找人、去 X(原 Twitter)找有趣的文章,或者向朋友打听好的初创公司,那么在你意识里肯定觉得谷歌还不够好,因为你没有选择谷歌来获取这些信息。但这很荒谬,因为这些本质上都是对网络信息的搜索,而 2025 年的搜索引擎应该能够正确处理它们。

问题不在于谷歌没有索引到所有这些信息 —— 事实上,谷歌已经索引了几乎所有网页(大约一万亿页)。问题在于谷歌的算法从根本上并不是为在一万亿页面上处理复杂搜索而设计的。

但现在,已经存在能够近乎完美地处理复杂请求的 AI 系统。我们对搜索引擎也应该有同样的期待。世界值得拥有一个完美的搜索引擎。

你需要一个完美的搜索引擎

一个完美的搜索引擎是能够找到你想要的任何信息,无论你的请求有多么复杂。

它是人类集体知识的数据库,能够实时按照你的需求完全组织起来。

然而这样的搜索引擎还不存在,不过我们可以先展示一些酷炫示例来说明完美搜索是什么样子的:

相似想法搜索

假设你有一个想法,并希望在网上找到类似的想法。目前使用传统搜索引擎是不可能做到这一点的。例如,我有一个关于利用车顶充电的飞行汽车的想法,我想找到数百篇讨论这一想法的文章、推文、YouTube 视频和专家,而不是一些与之无关的内容。谷歌在这方面完全失败了,因为这种搜索需要真正的理解。如果我有一个能够基于精确语义匹配内容的完美搜索引擎,我就能立即找到所需的一切。

对人的搜索

我们人类一直在寻找其他人以建立友谊、合作和社区。但我们这个先进社会所构建的最好的人脉搜索工具之一是 LinkedIn。然而,互联网上的信息远比这丰富得多。有了完美搜索,你应该能够找到任何你要找的人。如果我是正在研究 AI 对齐(AI alignment)的本科生,我应该能够轻松找到「那些抽出时间研究 AI 对齐并有博客的本科生」。试试在谷歌上搜索这个,看看你会得到什么结果。完美的 web 搜索将把混乱的网络转化为比 Meta 或 X 更强大的社交网络。

多模态搜索

网络上包含了数十亿的视频、图片和歌曲,但由于我们无法很好地搜索它们,这些内容的大部分价值都被埋没了。例如,我真的很喜欢那些人们为世界做出某种自我牺牲的视频片段。YouTube 搜索在这方面表现得很糟糕。一个完美的搜索引擎应该能够找到你想要的任何媒体,无论你的搜索有多么复杂。

完美控制

谷歌对搜索结果提供了很少的控制。一般来讲,你会输入几个关键词并希望搜索引擎能够很好地理解你。你从来不会想到输入一个长句子来准确解释你想要什么,因为你知道那样行不通。完美的搜索让你可以添加任何你想要的过滤器,而且它总是有效的。如果你在寻找要雇佣的人,你将能够添加诸如「曾在初创公司工作过」的修饰词,像「既懂 Rust 又懂 C++」这样的复杂连接词,以及「没有在这些学校学习过」的否定条件。网络将感觉像是一个数据库,你可以根据自己的意愿任意过滤。

全面性

我们每个人几乎对所有事物的理解都是不完整的。无论你是在寻找公司、博客文章、人物、产品还是论文等,Google 都会为你提供一小部分结果,与此同时,你会错过其他内容。完美搜索解决了这个问题 - 如果世界上有 387 个实体符合你的条件,你应该能够找到所有 387 个。不是 10 个,不是 389 个,而是 387 个。正是你所要求的。完美搜索将让我们所有人对我们的世界有完整的了解。

智能体 + 完美搜索

完美搜索最强大的地方在于它不是与人类配对,而是与基于 LLM 的智能体( 2025 年推出)配对。人类与 LLM 聊天,LLM 在后台进行智能体搜索,这个过程可能进行了数百次搜索。

作为最后一个例子,想象我有一个关于飞行汽车如何利用城市基础设施的想法。我让 LLM 生成一份报告,列出我可以采取的所有措施来实现这一目标。

LLM 首先在网络上搜索所有类似的想法,包括帖子、推文、研究论文、新闻文章、视频等。对于每个想法,LLM 会找到网络上最好的反驳意见(如果存在的话)。然后,LLM 基于所有这些想法创建一个全面、逐步的计划。接着,针对计划中的每一步,LLM 会在我所在的城市中找到能够帮助实施该步骤的人,从供应商到独立研究人员。LLM 会收集那些公开信息可用的联系信息,并为每个人创建一条个性化的消息。

有了 LLM + 完美搜索功能,只需几分钟就能制定出一个全面的行动计划。而如果只有 LLM + 传统搜索,这将永远无法完全实现 —— 我将永远只知道所有相关想法和人员中的一小部分,我的飞行汽车想法也将永远无法实现。

为什么完美搜索很重要

我们很难预测完美搜索将被使用和集成到工具中的方式。

我甚至可以说,人类的未来取决于能否正确实现这一点。因为我们所消费的信息对我们有着巨大的影响力。它决定了我们所知道的内容,进而决定了我们如何思考,最终决定了我们如何行动。

目前,世界上的信息完全是一团糟。每天都有大量的内容像消防水带一样涌向世界,没有任何组织性。

尽管人工智能取得了诸多进展,但我们依赖的主要信息工具仍然是谷歌、社交媒体和主流媒体。这些工具都无法也不致力于提供全面、无偏见、高质量的世界理解。

我们需要修复信息生态系统,以便我们能够作为一个信息灵通的物种度过下一个十年。

完美搜索从定义上就是我们信息生态系统的解决方案,因为它让每个人都能完全控制世界的信息 —— 我们的信息 —— 使其易于消化、清晰可读、有用且可操作。

目前没有人构建完美搜索,这就是为什么 Exa 正在构建它。

那么,为什么还没有人构建出一个完美的搜索引擎呢?原因有三 —— 金钱、技术和疯狂。

要构建完美的搜索引擎,你需要一个具有正确财务激励的组织。谷歌每年通过搜索广告赚取 2000 亿美元。完美的搜索不会为谷歌带来更多广告收入 —— 甚至可能减少收入。而 Exa 通过 API 使用和订阅赚钱,有强烈的动力去改进搜索,直到它变得完美。

要构建完美的搜索引擎,你需要使用新颖的神经方法重新设计搜索算法,而不是关键词方法。传统的搜索引擎是在二十年前设计的,当时计算机还无法思考。神经搜索引擎更加混乱和不可预测,但随着时间的推移,它们将胜过传统搜索引擎。大型公司不会构建神经搜索引擎,因为它们的基础设施和产品都是围绕旧范式构建的。而对于新玩家来说,开发所需的机器学习架构和网络规模基础设施相当困难。Exa 有自由、经验,现在还有资源,可以从头开始以正确的方式构建搜索算法。

要构建完美搜索引擎,你需要有点疯狂。自 2021 年我们成立公司以来,几乎所有人都认为我们在做的事情是疯狂的。「搜索有什么问题?谷歌还不够好吗?」你需要一群拒绝接受现状的人,并为之努力多年,直到一个抽象的愿景变为现实,即使其他人都不理解。这就是 OpenAI 在智能领域所做的,也是我们打算在知识领域做的事情。

原文链接:https://exa.ai/blog/perfect-search

#用了一个月后发现,Devin是真不好用

与 Devin 合作一个月后,这些研究者给出了不太乐观的反馈。

在 AI 编程领域,你可能听说过 Devin,它是由初创公司 Cognition 发布的一项成果。Devin 就像一个超级智能助手,能帮助工程师更快更好地完成工作,发布之初,很多人都称赞 Devin 是全球首位 AI 软件工程师。它似乎具备从学习新技术、调试成熟代码库,到部署完整应用程序,甚至训练 AI 模型的全方位能力。

然而,事实真的如此吗?答案是:未必。近日,来自新型 AI 研发实验室 Answer.AI 的研究者就记录了他们使用 Devin 翻车的情况。

他们还为此写了一篇博客《与 Devin 共度一个月的感想》,文章详细记录了他们在给 Devin 超过 20 项任务之后获得的感受。

博客链接:https://www.answer.ai/posts/2025-01-08-devin.html

以下是博客内容:  

简单任务表现尚可

第一个任务很简单但真实:将数据从 Notion 数据库拉取到 Google Sheet。Devin 以令人惊讶的能力完成了这项任务。它浏览了 Notion API 文档,了解需要什么,并指导我在 Google Cloud Console 中设置必要的凭证。它没有只是转储 API 说明,而是带领我完成每个菜单和按钮点击 —— 这通常会节省繁琐的文档搜索时间。整个过程大约花了一个小时(但只有几分钟人工交互)。最后,Devin 分享了一个链接,链接到一个格式完美的 Google Sheet,其中包含我们的数据。

它生成的代码有点冗长,但可以运行。这感觉像是一个展望未来的场景 —— 一个可以处理消耗大量开发人员时间的「胶水代码」任务的 AI。Johno 使用 Devin 创建了一个行星跟踪器,用于揭穿有关木星和土星历史位置的错误说法,也取得了类似的成功。令人印象深刻的是,他完全通过手机就做到了这一点,Devin 处理了设置环境和编写代码的所有繁重工作。

致命问题:在不可能完成的任务上浪费时间

在早期的成功基础上,我们依赖 Devin 的异步能力。我们想象让 Devin 在会议期间编写文档,或者在我们专注于设计工作时调试问题。但随着我们扩大测试范围,问题出现了。看似简单的任务往往需要几天而不是几个小时,Devin 会陷入技术死胡同或产生过于复杂、无法使用的解决方案。

更令人担忧的是,Devin 倾向于推进实际上不可能完成的任务。当被要求将多个应用程序部署到单个 Railway 部署中(Railway 不支持这一点时),Devin 没有识别到这个限制,而是花了一天多的时间尝试各种方法,并幻想不存在的功能。

最令人沮丧的不是失败本身 —— 所有的工具都有局限性 —— 而是我们花了多少时间试图挽救这些尝试。

深入了解哪里出了问题

在探索过程中让我们感到困惑的是,Devin 能够熟练地处理 API 集成并构建功能性的应用程序,但却在一些看似更简单的任务上遇到了困难。

我们开始怀疑是自己的运气不好,还是使用方法有误。为了回答这一问题,在接近一个月的时间里,我们系统地记录了对以下几类任务的尝试:

  • 从零开始创建新项目
  • 执行研究任务
  • 分析和修改现有项目

结果令人震惊,在 20 项任务中,Devin 有 14 次失败,3 次成功,3 次结果不确定。

更令人担忧的是,我们无法找出任何规律来预测哪些任务会成功,甚至那些与早期成功案例相似的任务,Devin 都会以意想不到的方式失败。

下面是我们在几类任务上的一些经验总结。

从零开始创建新项目

从零开始创建新项目是 Devin 的强项。毕竟,Devin 最初的演示视频就展示了其能自主完成 Upwork 任务的场景。然而,现实却更加复杂。

这里,我们尝试了一个可观测性平台集成的项目。任务很明确:生成合成数据并上传。然而,Devin 并没有提供一个简洁的解决方案,而是生成了一堆代码 soup—— 层层抽象使得简单的操作变得不必要的复杂。

我们最终放弃了 Devin,转而使用 Cursor 进行逐步构建集成,结果证明效率要比 Devin 高得多。

类似地,我们还进行了其他尝试,比如当要求 Devin 在 AI 笔记工具和 Spiral.computer 之间创建集成时,Devin 生成的代码被我们其中的一员形容为「意大利面条式的代码,阅读起来比从头开始编写更令人困惑。」。测试后我们发现,尽管 Devin 可以访问两个系统的文档,但它似乎让集成的每个方面都变得过于复杂。

不过,最能说明问题的是让 Devin 进行网页抓取。我们要求 Devin 跟踪 Google Scholar 的链接并抓取某位作者最近的 25 篇论文 —— 这一任务使用 Playwright 等工具应该是非常简单的。

考虑到 Devin 具备浏览网页和编写代码的能力,这应该是特别容易实现的。然而,它却陷入了一个无休止的 HTML 解析循环中,无法从自己的混乱中解脱出来。

研究任务

如果 Devin 在具体的编码任务上表现不佳,或许它在研究任务上会表现得更好?

然而,结果充其量也只能说是喜忧参半。虽然它能够处理基本的文档查找,但对于更复杂的研究任务却颇具挑战性。

比如,当我们要求 Devin 完成带有准确时间戳的转录摘要时 ——Devin 只是重复了一些与核心问题无关的信息,而没有真正解决问题。具体而言,Devin 没有探索潜在的解决方案或识别关键的技术挑战,而是提供了一些不涉及根本问题的通用代码示例。

即使 Devin 看起来在取得进展,结果往往也不尽如人意。例如,当要求 Devin 创建一个最小化的 DaisyUI 主题时,它生成了一个看似可行的解决方案。然而,经过仔细检查,我们发现这个主题实际上并没有起到任何作用 —— 我们所看到的颜色来自默认主题,而不是我们的自定义设置。

分析和修改现有代码

Devin 最令人担忧的失败可能出现在处理现有代码库时。这些任务需要理解上下文并与现有模式保持一致 —— 这些技能本应是 AI 软件工程师的核心能力。

我们尝试让 Devin 处理 nbdev 项目的经历尤其具有启发性。当要求将一个 Python 项目迁移到 nbdev 时,Devin 甚至无法掌握基本的 nbdev 设置,尽管我们为其提供了全面的文档访问权限。更令人困惑的是它处理 notebook 的方式 —— 它没有直接编辑 notebook,而是创建了 Python 脚本来修改它们,为简单的任务增加了不必要的复杂性。虽然它偶尔会提供一些有用的注释或想法,但它生成的代码却始终存在问题。

安全审查也暴露了类似的问题。当我们要求 Devin 评估一个 GitHub 仓库(不到 700 行代码)的安全漏洞时,它反应过度,标记了大量误报,甚至虚构了一些不存在的问题。这种分析可能更适合通过一次简单的、有针对性的 LLM 调用来完成,而不是 Devin 这种更复杂的方式。

在调试任务中,这种模式依然存在。当调查 SSH 密钥转发在设置脚本中为何不起作用时,Devin 只专注于脚本本身,从未考虑问题可能出在其他地方。类似地,当要求添加用户输入与数据库值之间的冲突检查时,一位团队成员花了几个小时研究 Devin 的尝试,最终放弃,并在大约 90 分钟内自己完成了该功能的编写。

团队感受:没有什么场景让人真正想用 Devin

经过一个月的密集测试,我们的队员说出了以下感受:  

「它可以完成的任务是那些非常小且定义明确的任务,我用自己的方式可能能更快完成。那些有望节省时间的复杂任务,它又很有可能失败。所以没有什么特定场景让我感觉真的想用它。」——Johno Whitaker

「一开始,我对它如此接近我想要的样子感到很兴奋,因为我感觉我只需要调整一些小地方。然后,随着我不得不改动越来越多的地方,我逐渐变得沮丧,最终发现我还不如从头开始,一步一步来得更妥当。」——Isaac Flath

「Devin 在使用 AnswerAI 的关键内部工具时遇到了困难,此外还有其他一些问题,使得这个工具很难使用。尽管我们为 Devin 提供了大量的文档和示例,但它仍然遇到了这样的问题。而在使用像 Cursor 这样的工具时,我就没有发现这种问题。在使用 Cursor 时,有更多机会可以逐步地、一点一点地引导事情朝着正确的方向发展。」——Hamel Husain

与 Devin 的情况相对比,我们发现那些更多由开发者主导的工作流程(比如像 Cursor 这样的工具所采用的流程)能够避开我们与 Devin 合作时所遇到的大部分问题。

结论

与 Devin 合作展示了自主 AI 开发渴望成为什么样子。用户体验很精致 —— 通过 Slack 聊天,观察它异步工作,看到它设置环境和处理依赖关系。

但问题是,它很多时候并不好用。在我们尝试的 20 个任务中,我们看到 14 次失败,3 个结果不确定,只有 3 次成功。更令人担忧的是,我们无法预测哪些任务会成功。即使是与我们早期成功案例相似的任务也会以复杂、耗时的方式失败。看似前景光明的自主性成为了负担 ——Devin 会花几天时间追求不可能的解决方案,而不是认识到根本性的障碍。

这反映了我们在 AI 工具中反复观察到的一种模式。社交媒体的兴奋和公司估值与现实世界的实用性几乎没有关系。最可靠的信号来自用户交付产品和服务的详细故事。

One More Thing:新版本来了,能解决问题吗? 

Answer.AI 团队一篇洋洋洒洒的博客暴露了 Devin 遇到的问题。原博客最后的附录还展示了几位研究者与 Devin 合作的具体任务。

可能大家都在期待新版本的到来,或许这些问题就解决了呢。

遗憾的是,新版本是发布了,但只是一个小版本的更新。最新发布的 Devin 1.2 在存储库中根据上下文进行推理的能力有了重大升级。

新版本更新可总结为以下几点:

1:更新后的 Devin 更有可能找到需要编辑的相关文件,重用现有的代码和模式,并且整体上会生成更准确的 Pull Request。这些改进将逐步向所有用户推出。

2:Devin 现在可以回应音频消息。试着口头向 Devin 解释你的任务和反馈,就能得到回复。

图片

3:推出企业账户。企业账户的管理员可以:

  • 管理所有组织的成员和访问权限;
  • 集中管理所有组织的账单。

目前,企业账户功能仅对 Devin 企业客户开放。

4:推出按使用量计费。从本月开始,用户可以按需付费,直至达到你设置的额外使用预算。

用户可以在 「Settings > Plans > Manage Plan Limits 」或者「 Settings > Usage and Limits > Manage Additional Usage Budget」中设置自己的额外使用预算。

这么看下来,虽然 Devin 已经进化到 1.2 版本,但并不能覆盖用户在使用过程中遇到的各种问题,比如上文中 Answer.AI 遇到的一系列问题。

在使用 Devin 的过程中,你都遇到了哪些问题?欢迎评论区吐槽。

参考链接:

​https://www.cognition.ai/blog/jan-25-product-update​

#AI新贵Perplexity要拯救TikTok?

网友:这就像津巴布韦收购加拿大

TikTok的「生死时刻」。

TikTok 的命运越发扑朔迷离了。

18日晚,TikTok公司通知美国用户,由于美官方禁令19日起生效,TikTok软件将暂时对用户停止服务。

图片

周五,美国最高法院以九比零的投票,维持了 TikTok「不卖就禁」法令,而在此前,拜登表态他将不执行该法律,而是将这一「烫手山芋」甩给即将上任的特朗普政府。

特朗普则在周六表示,他「很可能」在周一上任后给予 TikTok 90 天的禁令缓期。

这也意味着,靴子最终落地前,TikTok 将一直在生死边缘徘徊。

不过,据 CNBC 最新消息,AI 新贵 Perplexity AI 于周六正式对 TikTok 发起收购,向其母公司字节跳动提交了一份竞购方案,计划将 Perplexity、TikTok 美国业务和新的资本合作伙伴合并成一个新实体。

据一位因交易保密要求匿名的知情人士透露,新的架构将允许字节跳动现有的大多数投资者保留其股权,同时为 Perplexity 带来更多视频内容。

这家估值一年暴涨 18 倍的 AI 搜索引擎初创公司,难道要来拯救 TikTok 美国业务?

据知情人士称,字节跳动已公开暗示不会出售 TikTok 美国业务,这也是为什么 Perplexity AI 认为其竞购有机会 —— 因为该提议是合并而非出售。

知情人士认为,合理的价格应该「远超 500 亿美元」,但最终方案的具体数字将部分取决于字节跳动现有股东中有多少愿意继续留在新实体,有多少想要套现。

作为一家 AI 搜索公司,Perplexity 为何需要 TikTok?

图片

有网友表示,因为 Perplexity 本身没有技术护城河,任何人都可以复制它,他们既没有像谷歌这样的庞大数据的复杂高精度索引,也没有像 OpenAI 一样的高质量 LLM ,他们拥有的只是一个用户界面。

图片

也有网友认为,如果这一交易达成,对于 Perplexity 来说,这可能是吸引更多用户的明智方式,同时他们的搜索技术还能改善 TikTok 的体验。

图片

不过,仍有网友对 Perplexity 的动机持有怀疑。

他们认为,这根本不是一次合并,而是一次巧妙伪装的退出尝试。因为随着开源技术的迅速追赶,Perplexity 想要在其价值大幅缩水之前寻找出路。

图片

并笑称Perplexity 此举就像津巴布韦大举收购加拿大一样。

图片

TikTok 命运扑朔迷离

自 2019 年起,美国开始对 TikTok 进行调查,这让用户们一直处在高度紧张的状态中。

本周,大量 TikTok Refugee(TikTok 难民)涌入小红书,寻找新的短视频平台落脚地。作为美国最受欢迎的社交媒体之一,TikTok 相关的政治与法律斗争却愈演愈烈。在这种情况下,它的前途命运也显得迷雾重重。

美国政府,特别是特朗普政府,长期对 TikTok 的数据安全表示担忧,因此提出对 TikTok 的审查。拜登政府接手了特朗普政府提出的一系列 TikTok 禁令和审查问题,但面临着复杂且棘手的局面。虽然拜登政府的外交政策团队曾表示将重新审视 TikTok 问题,但仍未提出明确的解决方式。

美国国会和总统的职能分配上,TikTok 禁令的问题越来越显得是一个「烫手山芋」。政府官员表示,该问题的最终处理可能需要由下届政府来执行,从而推卸了部分政治责任。实际上,这为特朗普政府留下了新的机会,也让未来总统的决策变得更加重要。

2025 年初,美国最高法院对 TikTok 问题做出了关键判决,维持了之前法院对 TikTok 禁令的原判。这一裁决意味着,TikTok 仍然面临着被出售或迎接禁令的压力。 

据美国有线电视新闻网(CNN)报道,短视频社交媒体平台 TikTok 当地时间周五(17 日)发表声明称,除非拜登政府立即干预,提供「不会强制执行禁令」的明确信息,否则 TikTok 将于 19 日在美被迫停止运营。

TikTok 称,拜登政府和司法部未向 TikTok 的服务提供商提供「不会强制执行禁令」的明确性保证,而这些服务提供商是维持超过 1.7 亿美国用户继续使用 TikTok 软件所不可或缺的。TikTok 希望拜登政府和司法部立即提供明确性声明,表示不会强制执行即将生效的禁令,否则将不得不于 19 日暂停运营。

据路透社报道,当选总统特朗普于周六表示,他「很可能」会在周一上任后给予 TikTok90 天的宽限期,以推迟对该应用的禁令。此举是在 TikTok 面临周日关闭的临界时刻之际,这立刻吸引了大量的关注。

然而,TikTok 是否能够满足特朗普政府要求的高法律门槛以获得 90 天的宽限期仍不明确。根据要求,TikTok 需要与字节跳动达成具有约束力的协议,以确保在 4 月中旬之前完成 TikTok 的出售。这意味着 TikTok 和字节跳动需要在极短的时间内处理这些复杂的交易,并克服涉及国家安全审查的法律和政治障碍。 

这一情况加剧了 TikTok 和其美国用户的焦虑,同时也使得特朗普政府面临如何平衡国家安全考量与经济利益的艰难抉择。如果无法在规定时间内达成交易,TikTok 可能将不得不面临彻底退出美国市场,影响到数百万用户和相关企业。 

用户们何去何从?

TikTok 被「驱逐」,影响最大的就是数以百万计的创作者们。

如果最近你也刷了小红书,不难发现,有大量的英文图文、视频正占领推荐页。这是 TikTok 的创作者们在寻找新的「栖息地」。小红书 RedNote 在这个关键时刻登上了 AppStore 榜首。

图片

尽管许多创作者已经习惯了在不同的社交媒体平台之间迁移,因为即便是在最大、最稳定的平台上,触达率、互动度和可见度也在不断变化。

但是,此次 TikTok 的「消失」不仅仅是一个简单的平台迁移问题,而是可能终结一个让普通人也能享受到流量红利的独特创作生态。这对那些依赖 TikTok 平台特性来获得曝光的小创作者来说,影响特别大。

TikTok 创作者 Kay Poyer 表示:「我认为 TikTok 的易用性为许多潜在创作者开辟了一条道路。现在我们正处在一个分水岭,许多人将选择停止创作或被迫适应回到旧平台,但在这些平台上通常更难积累粉丝和实现变现。」

关于她自己的计划,Poyer 表示如果 TikTok 无法使用,她会继续留在那些有用户参与度的平台上。她认为像 Bluesky 或 Neptune 这样的小平台目前还没有足够影响力,不足以吸引她去转移创作重心。

在 TikTok 上有着 8.9 万粉丝的 Noelle Johansen 销售一些带有标语的卫衣、配饰、贴纸和其他产品。

她表示,「在巅峰时期,大约 70% 的销售额是通过 TikTok 实现的。因为在 Instagram 和 Twitter 上,内容是否会被看到一直是个未知数,但 TikTok 在向我的粉丝和潜在新客户展示我的视频方面一直很稳定。」

Johansen 说,「我还在 TikTok 上的艺术家社区里交到了很好的朋友,这种社区关系很难转移到其他社交媒体上。大多数应用的运作方式与 TikTok 有很大不同,大多数人没有精力去跟进所有新的社交平台,在那里重新建立基础。」

Johansen 还表示他们未来将专注于通过 X 和 Instagram 进行销售,同时努力在 Bluesky 和 Threads 上扩大受众群体。

参考链接:

​https://www.cnbc.com/2025/01/18/perplexity-ai-makes-a-bid-to-merge-with-tiktok-us.html​

​https://www.theverge.com/2025/1/17/24342982/tiktok-ban-creators-instagram-reels-youtube-twitch​

​https://www.reuters.com/technology/tiktok-faces-us-ban-deadline-users-brace-fallout-2025-01-18/​

​https://x.com/AndrewCurran_/status/1880703253878636806​

#语音识别卷完了,下一个机会在哪里?

小米语音首席科学家 Daniel Povey

多模态能力的融合正在改写 AI 发展路径。语音、视觉与自然语言处理的边界日益模糊,以 Transformer 为代表的通用解决方案,正在重塑传统技术领域。

在这个技术范式转变的关键时期,那些长期深耕细分领域的研究者又在思考什么?他们如何看待这种技术融合的趋势?

本期《智者访谈》邀请到著名开源语音识别项目 Kaldi 的创始人、小米集团语音首席科学家 Daniel Povey 博士。作为推动全球智能语音处理产业化的关键人物,他见证了语音识别技术从实验室走向大规模应用的全过程。十多年前,他在微软研究院的实习生,如今已成为 Google Gemini 等标志性项目的负责人。

当整个行业都在追逐大模型和通用方法时,Povey 博士却选择专注于不那么热门,但更有潜力的方向。「有这么多聪明人都在试图改进 AI,那些容易被发现的方法早就已经被人发现了。」

在他看来,技术进步不应被某一主流范式所限制,AI 领域的进步往往源于解决特定领域的具体问题,每个领域都应该保持自己独特的视角和方法——也许语音领域的下一个解决方案,会给机器学习带来全新的启发。

Transformer 确实好,也确实可能是未来发展的方向,但如果所有人都只基于现有模型做改进,可能阻碍整个领域的根本性创新。在访谈中,Povey 博士还分享了技术创新的方向选择、规模与效率的权衡,以及如何在紧跟前沿的同时保持独立思考。

对于年轻一代的研究者,他的建议直白而务实:你必须诚实面对自己真正想要的。学 AI 就能年薪百万的时代已经过去了,现在进入 AI 领域很难做出突破,除非你真的才华横溢;很多时候,你职业生涯的最终目标,要么很难实现,要么实现了也没有想象中那么美好。

希望这番坦诚的对话,能为我们在 AI 发展的万千可能性中,找到属于自己的方向。

时间戳

01:35

Kaldi 之后的新探索

02:51

语音成了神经网络的子领域

04:37

多模态:Transformer 大一统?

07:54

大模型 vs 小模型

11:13

会议不再是交流研究的最佳方式

14:01

如何判断真正的技术进步?

18:10

Scaling Law 与数据极限

21:18

未来机遇展望

23:52

别把生活卷丢了

访谈文字整理

为完整呈现观点,本文在视频访谈基础上补充了对两个问题的讨论。

Povey 博士,感谢您接受我们的采访。我从 Kaldi 时起就关注您的工作,欢迎做客《智者访谈》。

Dan Povey:谢谢。不过说到 Kaldi,可能只是我运气好,碰巧在对的时间做了对的事情。但我会继续尝试做其他重要的事情。

您太谦虚了。在当前的 AI 热潮中,很多人追逐热点、扩大规模,您似乎选择了一条不同的道路,那就是关注小模型,致力于开发高效而实用的解决方案。今天我们将深入探讨促使您做出这些选择的技术洞见,以及您是如何在快速发展的浪潮中保持独立思考的。

首先,作为语音技术的先驱,您目前关注的重点是什么?

Dan Povey:语音技术正处于一个低谷期。如果你去参加语音会议,会发现人们对新的语音技术并不那么兴奋。这种情况以前也出现过,但这次可能是永久性的,因为语音识别确实已经做得很好了。现在大家对文字转语音(TTS)更感兴趣,最近几年兴起的流匹配(flow matching)方法简单易懂,而且效果特别好,也很稳定,我很喜欢研究它们。

我在小米的团队正在转向 TTS(文字转语音)。一般来说,TTS 的速度要比语音识别慢,特别是在手机上运行的时候。我们希望开发一个既能在手机上快速运行,又能保持完美音质的 TTS 系统。

您如何看待您当前的工作与主流 AI 研究的关系?

Dan Povey:现在语音已经成为 AI 的一个子领域,跟 AI 紧密相连。以前语音是一个独立的领域,我们有自己的会议,而且地位跟神经网络一样甚至更高,因为那时候神经网络还不怎么管用。如今神经网络成了主流,我们不得不用他们的术语来描述我们以前就有的东西,比如我擅长的「判别式训练」现在成了「序列训练」。

这让您有什么感受?

Dan Povey:其实我不是特别在意。我觉得挺有趣的。几年前我去过一次 NeurIPS 会议(那时候还叫 NIPS)。我并不是很喜欢,因为那里的人太紧张了,他们看起来特别兴奋,像「打了肾上腺素」,但似乎并没有真正享受其中。

多模态发展:Transformer 大一统

对研究并不太好

您如何看待语音模态的发展,以及与多模态的融合?

Dan Povey:当然,在一些应用场景中语音会被整合,但我认为独立的语音识别系统仍然会继续存在。我希望通过我们的研究,能找到对 AI 普遍有用的方法。我认为大多数 AI 进步都来自于解决某个特定领域的问题,可能是视觉,也可能是语言或语音,正因为要解决某个领域的具体问题,人们才想出了某种解决方案,而这种解决方案最终也可能适用于解决其他领域的问题。

Transformer 恰好就是如此,现在似乎有一种趋势,语言、视觉乃至视频都被整合进基于 Transformer 的模型当中。您如何看待这种发展趋势?

Dan Povey:我认为对于研究而言,所有人都使用同一种模型并不健康,因为如果大家都用同样的模型,就会遇到相同的问题,然后尝试相同的解决方案。这样就会产生大量重复的研究。在语音识别领域,也曾经出现过所有人都用同一种方法的情况,这实际上并不太好,因为研究整体的进展会变得很慢。我认为在不同任务中使用不同的模型会更有利于研究的发展,这样可能会让工具和方法发展得更快。

话说回来,Transformer 确实效果很好,而且效率也不错,特别是有了各种加速器的支持。但另一方面,我不喜欢过度依赖这些加速器,因为它们实际上会冻结研究进展。一旦你开始使用为了特定模型(比如某个注意力模块)开发的特定加速器,你就失去了改变它的自由。这相当于把整个领域的进展都固定在那个点上了。

那您认为语音会完全融入机器学习领域,还是说仍然会独立发展?

Dan Povey:我们确实还有自己的会议,但事实是大多数时候,我们都在使用与 AI 领域相同的方法和工具,比如 PyTorch,还有 Transformer。我觉得让各个领域保持自己的特色和方法是件好事,也许有一天我们会发现比其他领域更好的解决方案呢?

如果我们做的事情仅仅只对语音有用,那并不会让人感到太兴奋,我们肯定是希望能够提出对机器学习其他领域也有帮助的想法,我们一直都在尝试具有这种更通用的潜力的新方案。但是,在这个领域要做出新发现有时候需要很长时间,因为有这么多聪明人都在试图改进 AI,那些容易被发现的方法早就已经被人发现了。

如今要想做出有影响力的研究工作越来越难了,您如何应对这种情况呢?

Dan Povey:对我来说这不算什么,因为我已经过了需要向人证明自己的阶段。但对于学生或年轻人来说这确实是个问题。我的优势可能在于愿意去做别人没有在做的事情,或者选择并不热门的领域。我不知道我能否在当前的 AI 领域产生重大影响,因为每个人都涌入这个赛道。我可能需要找一些不那么热门但更有潜力的方向,但首先我们要在 TTS 领域做出有影响力的工作。

大模型与小模型的权衡

有不少从事小模型的研究人员表示,尽管他们的模型性能也很好,但由于无法部署到与 Transformer 同等的规模,他们很难证明小模型的优势,您如何看待模型大小、可扩展性和性能之间的权衡?

Dan Povey:所有的大模型最开始也都是小模型,Transformer 刚被提出的时候也没有跑在 1000 个 GPU 上。不过,规模和效果之间确实是有关联的,比如 Transformer 在数据量很小的情况下效果并不是特别好,当然,这也取决于损失函数。

现在我们一般都用中等规模的模型,就是规模大到可以看出它在更大规模上是否可行,但又足够小,方便做实验。因为超大规模实验的问题在于,实际上每个实验都只能做一次,因为成本太高了。

我不喜欢超大规模实验的另一个原因是,人们会开发一个系统,然后给它起个名字,比如「语音转某某」或「XX 转 XX」的命名模板,然后用他们独有的 100 万小时的数据去训练,这个模型就成了世界上最好的模型。但是,由于没有人能在相同条件下复现,你不知道他们的方法是否有什么特别,是不是真的更好。所以,从某种意义上说,这对领域的进步贡献并不大。

再来,媒体喜欢报道这类东西,它们在媒体上被大量讨论,然后做决策的人看到媒体报道,也变得很关注这些。结果就是人们只关心超大规模。当然,这也会反馈到研究人员身上,因为他们需要申请资助等等,但就连有的研究人员也会受此影响……

您认为怎样的研究风格是值得提倡的呢?

Dan Povey:机器学习领域盛行过许多的研究风格和潮流。多年来,学界一直痴迷于数学证明,尤其是凸优化相关的证明。据说在这股潮流的巅峰时期,一位领军研究者对另一位说:「如果不是凸的,那就别说是在做机器学习。」这种痴迷的痕迹至今仍可见于传统 NIPS 论文中必有的定理 1(Theorem 1);这些定理大多是琐碎的,与论文主旨关系不大。

我个人不喜欢这种风格的一个原因是,人们往往喜欢展示非常技术性的证明,却不给出任何直觉解释或背景说明,于是这就成了一种「我比你聪明」的展示,而不是向那些尚未掌握知识的人传授知识。

如今机器学习领域的成功往往被简单归结为「这个方法管用」。当某个方法不管用时,人们似乎对其失效的原因缺乏深入研究的兴趣。这与土木和结构工程很不同,在那些领域,失效分析受到高度重视。在我自己团队的工具当中,我们有大量用于诊断的额外代码,比如当某种方法收敛不好时,我们可以准确找出原因,而不是简单地降低学习率。很多情况下,问题都与某个特定的子模块有关,比如激活值或梯度爆炸。我可能应该想办法推广这类工具。

另外,我认为机器学习与信息论之间的潜在联系也应该得到更多关注。举个例子,现在很多人在使用涉及激活值码本量化的方法时,他们像对待空操作一样传递这个(VQ + 重建)操作的梯度,这是很粗糙的做法。实际上,我们可以用香农-哈特利定理来分析这个问题,假设激活值是高斯分布的,该定理告诉我们需要多少比特才能将它们重建到特定的保真度(用相关性来衡量)。因此,在训练时,你可以将这个操作视为将激活值与一定量的高斯噪声混合。这就为传递梯度提供了理论依据,尽管理论上你应该用一个标量来缩小它们(对于大多数拓扑结构,这不会影响最终结果)。

这只是应用信息论的一个例子。目前我还对双射函数的神经网络层或模块很感兴趣,这种函数不会将两个输入映射到同一个输出,因为每当我们将两个输入映射到同一个输出时,我们就会损失一些信息。

说到研究风格,现在学术界也出现了一些新的趋势,比如在社交媒体上宣传自己的研究工作。对此,一些会议已经开始采取措施,比如规定具体的宣传时间窗口。您怎么看待这种现象?

Dan Povey:我觉得这另一回事,现在美国学术界有一种态度,那就是不想要任何的「不公平」。其想法是如果你来自一个知名团队,或者你已经很出名了,这跟是否接收你的论文应该没有关系。但我觉得这是出于他们对公平的理解,与研究风格无关。

如果您来主办一个会议或期刊,您会给投稿设立什么标准?

Dan Povey:我会允许人们发布预印本,因为我觉得如今会议这种形式对传播研究成果来说已经不那么重要了,没有人能看完会议上的所有论文。人们总是转发 arXiv 上的论文,很多甚至都还没发表。而且会议实际上会减缓研究进展,假设某人想出了一个新的方法,投稿到 NeurIPS,这样就必须在规定时间前对论文内容保密,对吧?所以会议可能会将事情延后半年到一年。

我认为在互联网时代,传统的同行评议模式已经没有必要了。我喜欢 ICLR 的做法,应该是 Yan LeCun 在试图推广,ICLR 的评审是完全公开的,即便不是评审人也可以发表评论,而且所有评论都是公开的,我想要类似这样的方式,甚至没有正式的接受或拒稿的决定,每个人都可以上传他们的论文。当然,还是需要通过一些方法来筛选出好的论文,但我们可以开发某种社交算法,比如给不同的人的投票设定不同的权重。既然可以给 YouTube 解决这个问题,为什么论文就不行呢?

比如说你和我登录 B 站,我们看到的推荐内容肯定不一样,对吧?这没什么问题,你能看到和你类似、与你观点相近的人喜欢的内容,然后你可以根据自己的喜好来决定信任谁。当然,这可能会导致有些人最终相信错误的内容,因为他们关注了一些持有错误观点的人。但这也没关系,人们本来就会相信一些错误的东西。更重要的是,那些想要追求真相的人,他们能不能找到真相?

那您觉得 AI 评审如何,就是用 AI 来评判论文?

Dan Povey:这种方法可以,但问题在于 AI 总是会稍微落后一步,因为 AI 判断一篇论文好与坏的标准,是基于这篇论文和以往那些被大量引用的论文有多相似。我认为 AI 不太可能识别出下一个重大突破,因为新的突破往往和过去的突破看起来不太一样。

关于 AI 的一些深度思考

Rich Sutton 教授在《The Bitter Lesson》一文中提出,纵观 AI 历史,往往是那些简单且可扩展的方法效果更好。您对此是怎么看的?

Dan Povey:首先,AI 的历史并不算长。「可扩展」也有不同的形式。有些方法在计算层面上很容易扩展,但实际上并不好用。我不认为 AI 的解决方案一定是简单的。其次,什么叫「简单」?有时候你可以用很少的代码写出一个神经网络程序,但神经网络本身是非常复杂的,真正在做识别的是这个很复杂的神经网络,仅仅因为可以用几行代码实现,就说这种方法很简单,这样说真的准确吗?

即便某种方法的定义很复杂,只要我们能够处理好它的复杂性,那就没有问题。我们的大脑就没有简单的定义,而且每个人的大脑都略有不同。这是好事,因为不同的人在不同方面各有天赋。

对于神经网络来说,如果有某种元参数或元描述,让每个网络都有点不同,然后通过选择或其他方式进化,这可能是个不错的方法。但我们需要找到合适的描述语言,让进化能够很容易发生。

那您如何定义技术进步呢?

Dan Povey:当我们看到真正的进步时,我们是能够分辨出来的,过于严格定义反而会限制我们的想象力。

至于复杂性,我认为一个方法在最初被发明时往往很简单,随着时间推移,人们会开发出更复杂(也更高效)的版本,类似人们最初发现了铁,然后是碳钢,现在已经有上千种不同类型的钢。当然,有时我们也会发现简化的方法。我认为不应该仅仅因为已经有一个运作良好且简单的方法就停止改进。

举例来说,很多人都在为标准 Transformer 架构做硬件加速,我觉得这对进步来说是危险的,因为一旦你对标准架构做任何改变,速度就会大幅下降,这阻碍了探索。我对使用预训练模型和微调的趋势也持谨慎态度,因为这将把你限制在预训练时使用的架构上。这确实有用,也许这就是未来的方向,但它会减缓进步的步伐。就像美国的建筑规范,短期内可能确实让建筑更安全更好,但同时也让建筑风格和方法固化,从而阻碍了进步。

我认为《The Bitter Lesson》一文主要是针对早期的 AI 从业者,那时的 AI 都是关于形式化「苏格拉底是人,人都会死,所以苏格拉底会死」这类推理。确实,通用方法正在占据 AI 的大部分领域,但我们使用它们的原因不应该仅仅因为它们是通用的,而是因为它们更好。例如,在 wav2vec 中,他们移除了使用 FFT 系数对数能量的人工设计前端。这种传统方法虽然看起来像是「人工雕花」,但移除它并没有提升性能,反而让系统变得更慢。这与其说是技术进步,不如说是一种噱头,好让他们可以宣称自己的系统是「端到端」的,因此很「现代」。如果保留 FFT,系统实际上会更实用。

还有一点,如果所有事情都可以由一个简单的 AI 架构完成,我们会生活在一个什么样的世界?人们会做什么?我最近看到一个观点,说衡量一个国家价值的更好指标不是 GDP,而是其人民执行复杂任务的能力。即使人们不需要去编程、制造复杂机器、写书或创作艺术品,人为创造这种需求也是有意义的,因为这可以发展人们的技能和能力,给他们有意义的事情做。难道让他们待在家里看直播、吃零食会更好吗?

人生来就想要竞争,做很酷的事情,也自然想拥有某种自主权。所以从长远看,以一种让小公司能够蓬勃发展,让人们能够一起创造的方式来组织经济是有意义的,即使从短期经济角度来看,这并不是最有效率的。

我甚至认为,禁止某些领域使用通用 AI 是有道理的,因为它会剥夺人们生存的意义。想象一下,如果有人发明了一个人工儿童,比真实的人类儿童更好、更便宜、更高效,你会用这个产品替换你自己的孩子吗?现在想象他们发明了一个比真实员工更好的人工员工,你会接受他们替代你或你孩子的工作吗?我想答案是否定的。

随着机器智能的发展,您如何看人类的创造力和直觉在推动技术创新中的作用?

Dan Povey:一直以来,创新都是关于人类的独创性。我想我们之所以会问这个问题,是因为现在有了能发明东西的机器。我们会被这些机器取代吗?这很难说。我认为人类的直觉仍然扮演着机器无法替代的重要角色。而且人类可以基于机器的成果来简化直觉,因为机器往往会提出过于复杂的解决方案。

比如说你让机器设计一个马达,它可能会设计出一个形状奇怪、看起来有点像生物的马达,人类很难理解它为什么能工作。所以要真正从中学到东西,我们需要有人来解释为什么这个东西有用,可能要描述它利用了哪些效应等等。

您会担心 AI 的不可解释性吗?

Dan Povey:这我倒不担心,关键是也没有人能很好地解释我们的大脑是如何工作的。最终有的决定就是无法被解释的。而且,关键可能在于即便有了解释,你并不喜欢那个解释。

关于 Scaling Law,这是目前 AI 领域讨论最多的话题。这也跟我们之前的讨论有关,大模型很难做实验,因为它们太大了。所以有人研究 Scaling Law,先用小模型做实验,再迁移到大模型。您怎么看 AI 界提出的这个 Scaling Law,您在工作中有用到它吗?

Dan Povey:这确实是个很有用的新工具。我觉得在 AI 从业者的脑子里,一直都有某种规模效应的概念。只是我们不一定会去做系统性的实验证明它。我们有一些直觉,然后根据实验来更新这些直觉。现在有人尝试把它系统化,创建图表来帮助了解如何更好地扩展,这是好事。

有观点认为 Scaling Law 已经到头了,主要是因为数据不够了,我们只有一个互联网,公共数据就这么多,尽管计算能力还在不断增长。

Dan Povey:我不这么认为。我们可能接近文本数据的极限了,但在视频数据方面还远远没有达到天花板。实际上,这是我们团队可能会从事的另一个方向,那就是研究如何把视频压缩得更小、更适用于机器学习,因为现在还无法在互联网规模的数据上训练视频大模型。

说到压缩,有观点认为智能就是一种数据压缩。

Dan Povey:这个话题很有趣。压缩对智能而言可能很重要,也许我们可以用压缩的概念来改进 AI。但如果说智能就是压缩,这可能有点过了。

聊了这么多,这些年领域的发展和变化,种种因素,对您的研究方法有什么影响?

Dan Povey:以前我会想出很多点子,主要是自己去试。现在不同了,我有团队成员可以帮我去尝试这些想法。但难点始终在于如何决定在不同的问题上投入多少精力,对此我还没有找到理想的解决方案,主要还是基于直觉和一些其他因素。

关于职业发展:

人生不应该只有搞钱和出圈

您认为未来 AI 领域哪些问题最有前景?

Dan Povey:我觉得机器人领域还有很多未被开发的潜力。人们已经制造出可以走路的机器人,而且训练过程中不需要太多人工干预。但目前机器人似乎还没被用于什么特别有用的事情,当然在酒店送餐确实有用。但我觉得将来在采矿、农业和建筑领域,可能会出现更通用的机器人。有些地方在建造摩天大楼时已经用上了,但还可以用于其他更基础的建筑任务。

我觉得在解决软件不兼容问题上也有机会,如今程序员做的很多工作都是在各种不兼容的软件版本中摸索,这真的很麻烦。一定有办法解决这些兼容性问题,不过这可能需要从零开始重建。

此外,还可以开发某种简化的计算系统,类似一种可以在任何硬件上运行的通用语言,去解决可重复性的问题。对于 AI 计算来说,这是一项特殊的挑战,因为 AI 模型通常需要在特定版本的 ONNX 上运行,而且计算量都很大。试想,如果你能得到某种 git hash,让你能够一键复现特定的函数调用或计算,那肯定会非常有用。

机器学习确实已经有一些交换格式,但还有很多工具开发的空间。比如说,我们特别需要一个支持不同精度整数运算的工具。现有的框架如 PyTorch 就缺少一些基础功能,比如将 int8 乘以 int8 矩阵,在 int32 中累加,乘以指定标量,然后限制在 int8 范围内这样的操作。要实现这类功能,可能需要即时编译(JIT)来处理众多可能的情况,同时还要考虑内核融合。更进一步,如果能在这样的工具包基础上添加自动微分功能,让用户能够自由扩展或配置(因为需要处理各种近似计算并适当调整梯度),那就更好了。简单来说,我们需要的是一个「支持整数的 NumPy」,再加上即时编译和可配置的自动求导工具。我相信这样的工具会有很大的市场需求。

在当今竞争激烈的环境下,您对 AI 从业者的职业发展有什么建议?

Dan Povey:我从来都不是特别在意职业发展。比如说,我从微软研究院离职去约翰霍普金斯大学当研究科学家,按传统标准看这可能是职业上的倒退,但我当时只是想集中精力做 Kaldi 开源项目,后者对我来说更重要。

我认为过分关注「职业发展」并不是什么好主意,因为这可能导致你做出让生活变糟糕的决定。仅仅因为某件事在金钱和地位上是一种进步,并不意味着它会让你幸福快乐,或者实现你其他的人生目标。我记得有人问过乔布斯这个问题,乔布斯说「这不是职业,而是生活」,我觉得他说得很有道理。

对于那些想在这个领域做出真正贡献的年轻人,您有什么建议?

Dan Povey:首先,我认为你得诚实面对自己真正想要的是什么。有时候当人们说想要为领域做贡献时,他们真正想要的是赚钱出名,这两者并不一定能同时实现。

我记得有段时间,如果你是学 AI 的,很容易就能成为百万富翁——之前我在微软研究院有个实习生叫 Oriol Vinyals,我经常在新闻上看到他,我不知道他是不是在 OpenAI,他就很有钱——在那个特定的时期,有天赋的人确实有机会变得非常富有,但关键是,除非你真的才华横溢,这种机会可能很难再次出现了。

也许未来的关键领域会来自我们意想不到的地方,比如化学,谁知道呢?

在我们结束前,您还有什么想和观众分享的吗?

Dan Povey:我觉得世界各地都存在这样一个问题,那就是人们过于关注名利。父母会让孩子参加各种课外班,学钢琴或其他才艺,即便孩子本人并不感兴趣,这样做只是为了进名校而已。他们最终可能会被名校录取,毕业后找到一份高薪工作,然后用工作得来的钱去买名牌产品,一切都是在追名逐利。

但这不一定能让人幸福。也许回乡下种田,结婚生子会更幸福。

如果你选择了某条路,要认真考虑这条路会把你带往何方。在西方国家有个「博士后陷阱」,也许在中国情况有所不同,但我觉得有很多工作都有这样的倾向:你职业生涯的最终目标,要么很难实现,要么实现了也没有想象中那么美好。

嘉宾简介

Daniel Povey 博士毕业于英国剑桥大学,先后就职于 IBM 和微软。2012 年加入美国约翰霍普金斯大学,任语言和语音处理中心副教授。2019 年 10 月加入小米,担任集团语音首席科学家。2022 年 12 月,凭借在语音识别和声学建模方面的杰出贡献当选 IEEE Fellow。

Daniel Povey 博士是著名开源语音识别工具 Kaldi 的提出者和主要维护者,被业界称为「Kaldi 之父」。Kaldi 项目在学术界和工业界都极具影响力,广泛应用于各研究机构和国内外知名公司,有力推动了智能语音处理的产业化。

Daniel Povey 在智能语音处理的技术上做出了非常多的贡献。他首次将序列区分性训练方法应用于语音识别,他提出的 LF-MMI 建模方法至今仍为商用语音识别系统普遍使用的标准技术。他也是将深度学习用于语音识别领域的重要引领者,在语音识别中推广了时延神经网络,配合 LF-MMI 训练,是 2015-2020 年学术界和工业界普遍使用的最佳组合。他还是深度学习在声纹识别领域的重要引领者,提出的 X-vectors 方法是第一个取得成功并被普遍应用的深度学习说话人识别方法,广泛应用于工业界。他在国际顶级会议和期刊发表论文 200 多篇,谷歌学术引用近 52000 次,h-index 70,担任 Signal Processing Letters 的终身副主编。

#游戏表现仍落后前代和AMD

英特尔Core Ultra 200S修复被曝未达预期

Tomshardware 拿出了第一手实测,一定程度上预示了 Core Ultra 200S 系列处理器修复的「不尽如人意」。

今日,外媒 Tomshardware 的实测结果意味着:英特尔对其代号为 Arrow Lake-S 的酷睿 Ultra 200S 系列处理器的修复没有达到预期效果,尤其是游戏和生产力性能。

去年 10 月,英特尔发布了酷睿 Ultral 200S 系列桌面处理器,并宣称在性能、功耗和能效等方面迎来了极大飞跃,并将 AI PC 功能扩展到台式机平台,打造了首台发烧友台式机 AI PC。 

然而,Ultra 200S 系列的初期表现却让游戏玩家大失所望,各种测评显示出实际性能与英特尔内部结果的差异。因此,英特尔在发布仅半个月后便开始搜集用户反馈,进行调查,并暴露出一些问题,包括缺少 PPM 包、APO 优化未能生效、启动 Easy Anti-Cheat 游戏时蓝屏死机、Reviewer BIOS 中性能设置配置错误、新的 BIOS 性能优化。

随后,英特尔宣布对以上问题进行一系列修复,并通过 Windows 和 BIOS 补丁发布了修复程序。那么修复达到预期了吗?Tomshardware 给出了「No」。

测评结果表明,英特尔针对 Arrow Lake 芯片的修复无法有效解决芯片游戏性能不佳的问题,至少在他们测评的主板上是如此。

Tomshardware 发现,Core Ultra 9 285K 更新后的游戏性能比以前略慢。此外操作系统的更新促使上一代 Raptor Lake Refresh 的游戏性能比 Arrow Lake 芯片还强,旗舰处理器 Core Ultra 9 285K 的表现甚至不如前代产品。Core Ultra 9 285K 仍然没有达到英特尔最初宣称的游戏性能。

在本月初的 2025 CES 上,英特尔发布基准测试,声称通过「修复」可将游戏性能最高提升 26%。不过这些提升仅适用于某些非常具体的问题,并非所有用户都会遇到这些问题。测评表明,这些修复对其与 AMD 的竞争地位没有产生切实的影响,更糟糕的是,Arrow Lake 竟然在游戏方面不如前代产品。

在测评中,Tomshardware 选择了 Windows 11 版本 26100.2605(打补丁后配置)。英特尔表示,新版本改进了 PPM(性能与电源管理)包,确保在使用平衡电源配置文件时获得良好的性能。另外,为了保持一致性,Tomshardware 将原始测试设置与发布版本的 BIOS 和 Windows 重新进行测试,同时测试了更新到最新 BIOS 和 Windows 后的效果。

因此,基准测试中标有「Original」的代表原始发布的 BIOS 和固件,标有「New FW-OS」的代表对所有更新后的累计影响进行测试。在测评时,Tomshardware 仅使用了标准 DDR5 内存(CUDIMMS)和 ASUS 和 MSI 两个主板平台。

图片

测试配置

Core Ultra 9 285K 游戏性能

我们可以看到,Asus 主板搭配 Core 9 285K 在打补丁之后的游戏性能实际上出现了小幅下降,其中未打补丁的 285K 配置比新打补丁的配置慢 3%。再来看 MSI 主板,它的原始固件 / 操作系统从低得多的标准开始,确实取得了至少 3.7% 的进步,然而仍落后于测评中相同设置的原始未打补丁的 Asus 配置 1.9%。

更重要的是,与 MSI 主板上最快的 285K 打补丁结果相比,Ryzen 9 9950X 现在快了 6.5%(最初测评快了约 3%),而 Ryzen 7 9800X3D 仍然比 285K 快近 40%。这意味着修复之后并没有以积极的方式改变 Arrow Lake 与 AMD 处理器的竞争地位。

图片

与此同时,英特尔上一代 Core i9-14900K 在更新到新版 Windows 后,性能提升幅度远远超过了 Core 9 285K。Tomshardware 仅针对更新后的 14900K 配置更新了操作系统。可以看到,现在 14900K 比使用旧版 Windows 进行测试时快 7%。看来 Windows 已经纠正了此处所有英特尔处理器的某种问题,促使现在 14900K 比 285K 快 14%。

作为参考,Tomshardware 最初在发布日测评中测得 14900K 比 285K 快 6.4%,但现在 14900K 比更新后的 285K 快 14%。因此,这落后于英特尔最初声称的 285K 与 14900K 性能相当的说法。

测试结果表明,到目前为止,虽然英特尔可能修复了一些极端情况,但 Core Ultra 9 285K 应该仍然没有达到用户对它的期望。事实上,上一代英特尔芯片在游戏方面明显更快。

Core Ultra 9 285K 生产力性能

Tomshardware 还测试了修复后 Core Ultra 9 285K 的生产力表现,效果还是不错的。285K 在单线程和多线程工作负载方面实现了代际提升,尽管 AMD 仍然在后一类别(多线程)中占据主导地位。

不过,从结果可以看到,无论是在单线程还是多线程生产力工作负载的累积性能测试,Core Ultra 的修复对整体性能都没有太大影响。另外,上代 14900K 在更新操作系统后略有退步,但只有 0.8%,这在预期范围内。

图片

图片

下图为英特尔在 2025 CES 演讲中的修复后性能演示,其中提到了 Cyberpunk 2077 在修复后实现 26%的性能改进。不过需要注意的是,英特尔没有提到前代 14900K 也从更新的 Cyberpunk 2077 游戏代码中获得了显著提升。同样的情况发生在了《孤岛惊魂 6》上,14900K 升级到新版 Windows 后受益的程度远远超过 285K。

此外,英特尔的测试中没有加入竞品处理器的比较,包括自家前代和 AMD。因此,Tomshardware 认为英特尔并没有明显「修复」Core Ultra 9 285K 的游戏性能,事实上可能出现了倒退。

更多基准测试结果请参阅 Tomshardware 报道原文。

原文链接:

​https://www.tomshardware.com/pc-components/cpus/intels-arrow-lake-fix-doesnt-fix-overall-gaming-performance-or-correct-the-companys-bad-marketing-claims-core-ultra-200s-still-trails-amd-and-previous-gen-chips​

#Rewards for Hallucination MitigationToken Preference Optimization with Self-Calibrated Visual-Anchored 

细粒度对齐无需仔细标注了!淘天提出视觉锚定奖励,自我校准实现多模态对齐

核心作者包括顾纪豪,王瑛瑶。工作由淘天集团算法技术 - 未来生活实验室团队主要完成。为了建设面向未来的生活和消费方式,进一步提升用户体验和商家经营效果,淘天集团集中算力、数据和顶尖的技术人才,成立未来生活实验室。实验室聚焦大模型、多模态等 AI 技术方向,致力于打造大模型相关基础算法、模型能力和各类 AI Native 应用,引领 AI 在生活消费领域的技术创新。

近年来,视觉大模型(Large Vision Language Models, LVLMs)领域经历了迅猛的发展,这些模型在图像理解、视觉对话以及其他跨模态任务中展现出了卓越的能力。然而,随着 LVLMs 复杂性和能力的增长,「幻觉现象」的挑战也日益凸显。

为有效缓解 LVLMs 中的幻觉现象,团队提出了一种创新的令牌级偏好对齐方法(Token Preference Optimization,TPO),针对性设计了一个能够自我校准的视觉锚定奖励信号。

该方法首次在多模态偏好对齐领域实现了自动校准奖励,优化每个令牌生成时与视觉信息的相关性。同时,它也是多模态领域首个无需人工细粒度标注的令牌级偏好优化方法,从而提升了模型的优化效率和自动化水平。

  • 论文标题:Token Preference Optimization with Self-Calibrated Visual-Anchored Rewards for Hallucination Mitigation
  • 作者单位:阿里巴巴淘天集团 & MBZUAI
  • 论文链接:https://arxiv.org/pdf/2412.14487

背景

现如今的 DPO 方法通过直接对齐人类偏好,在缓解大型视觉语言模型幻觉问题方面取得了显著成效。然而它仍然面临两个问题:

  • 缺少高效和可扩展的 token-level 的奖励信号:如图 1 所示,现有的多模态偏好对齐方法要么使用 sequence-level 的奖励,要么需要通过细粒度标注获得 token- level 的监督信号。因此,设计一个高效且可扩展的 token-level 的监督信号非常重要。
  • 在训练的过程中忽略了视觉锚定的 tokens(visual-anchored tokens)对所有 token 分配相同的奖励是低效的,依赖视觉信息生成的 tokens 更容易产生幻觉并需要重点对待(如图 2 中的 glass)。

图片

图 1:TPO 方法和其它消除幻觉的 DPO 改进方法的对比。比较了是否关注视觉锚定信息,是否生成 token-level 的监督信号和是否需要细粒度标注。比较的方法包括 DPO、POVID、CSR、RLHF-V、V-DPO 和论文中的方法 TPO。

为了解决上述问题,TPO 具有如下特点:

  • 自动识别偏好数据中的视觉锚定 token,无需人工细粒度标注。
  • 在每个训练步自动地分配 token-level 的奖励,该奖励可以反映当前 token 对图片信息的依赖程度。

图 2 可视化了 TPO 训练前后的 ground truth 及模型回复的视觉锚定奖励。可以看到,我们的方法有效地找到了视觉锚定的 tokens,并能够在训练之后增强模型对视觉信息的关联。

图片

图 2:一个视觉 QA 对的例子以及 TPO 对视觉信息锚定程度的打分可视化,上面的框是 GT_answer,下面的框是 LVLM 在使用 TPO 训练前后的回复。在每一个框中,上方是 TPO 训练前的打分,下方则是训练后的打分。

方法

图片

图 3:TPO 的整体流程

TPO 整体流程

(以下步骤中的数据包含输入 x,图像 v 和正负样本 y_w,y_l。当不强调正样本或负样本时,统称为 y.)

1. 自校准的视觉锚定奖励生成

TPO 通过捕捉在图像是否加噪时每个生成 token 的生成概率差的变化来衡量其视觉锚定程度,首先对输入图像进行加噪处理:

图片

这里 ε ∈ N(0,1),

图片

 ,

图片

是提前设置好的噪声参数,是含有 1000 个元素呈等差数列的列表。k 代表加噪步数。

在获得了加噪图像之后,计算

图片

,用来反映每个 token 的视觉锚定程度。它可以在每个训练步中的自动更新,对于 y 中的每一个 token

图片

图片

进一步地,在此引入自我校准的过程获得最终的监督信号。这一步的目的是为正负样本分配相应奖励的同时,能够对二者中所有视觉锚定 token 进行视觉信息关联度的优化。最终的视觉监督信号被定义为:

图片

通过 sigmoid 归一化,

图片

。可以看出,对于正样本,监督信号 c 随 s 的增大而增大,对于负样本则相反。由于当 

图片

 时,该 token 没有锚定视觉信息,无监督信号,此时设置 a=0.5, s=0,则 c=1,监督信号将不发挥作用。

TPO 训练

在获得了自校准的视觉锚定信号

图片

之后,可以根据 DPO 方式定义新的视觉锚定分布:

图片

则反馈函数为:

图片

其中

图片

图片

分别代表来自 policy 模型和 reference 模型的反馈信号。可以看到,相对于原始的 DPO,该团队在此基础上为每一个 token 加入了监督信号

图片

,而且

图片

可以在训练过程中的每一个 step 中迭代,达到自我校准的目的。

TPO 在反馈函数中引入了

图片

,该项可以推导出合理的上下界。由于正负样本不同的

图片

计算方法,在训练过程中会让

图片

不断增大,让模型输出锚定更多的视觉信息。

最终得到 TPO 的优化目标为:

图片

实验结果

实验设置

  • 基础模型:LLaVA-1.5(7B)/(13B)。
  • 数据:RLHF-V(5k)。
  • Benchmark:幻觉评测集 AMBER、MMHal、HallusionBench,通用评测集 SeedBench、MMBench、LLaVA-Bench 及 MM-Vet。

主实验结果

图片

图 4:各种强化学习方法在 LLaVA-1.5 上测试的在幻觉和通用 benchmarks 上的实验效果,其中 POVID 和 CSR 方法的结果是根据开源的模型权重测试的效果,V-DPO 的结果来自该文章的结果。

  • TPO 在 LLaVA-1.5(7B)/(13B)模型上均带来非常显著的幻觉缓解效果,在大部分幻觉指标上超越了现有的偏好对齐幻觉缓解方法。
  • 在 HallusionBench 中,easy 代表基于原图问答,hard 代表基于人工编辑的反事实图片问答。我们的方相较于初始模型在 hard 问题上取得了更显著的提高,说明在 TPO 后,答案生成更依赖于视觉信息而非语言模型先验知识。

消融实验

  • 图像加噪的 steps 数量:如图 5 显示,加噪步数设置为 500 最优。
  • 奖励自校准中的 a: a=0.5 最优,即当 s=0 时,c=1 时,不分配奖励信号。

图片

图 5: 各指标随着加入噪声步数和参数 a 的变化趋势

  • 奖励分配方式:只为正样本或负样本单独引入 TPO 的奖励,也可取得较优的对齐效果,但同时分配获得最优表现。调换正负样本中 token 获取的奖励和其视觉锚定程度的相关性,TPO 表现变差。

图片

图 6: 消融实验

分析实验

  • Attention 分析:图 7 展示了在 TPO 训练前后,模型回复中每个 token 对图像 token 的 attention 分数加和的分布。可以看到,TPO 训练可以拉高模型回复对图像信息的关联程度,锚定更多图像信息,进而缓解幻觉问题。

图片

图 7:attention weights 对比图,左边蓝色的是训练前模型回答错误的回复,右边红色的是训练后模型回答正确的回复。

  • 奖励自校准分析:图 8 展示了正负样本的监督信号 c 随训练 step 的变换,证明了 TPO 在不断自我校准奖励的过程中,让模型逐渐关注到更多的图像信息。

图片

图 8: 正负样本的 c 随训练 step 得变化过程

淘天集团算法技术 - 未来生活实验室团队将持续深耕强化学习领域,为解决多模态幻觉问题贡献力量。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值