51c大模型~合集126-CSDN博客

本文链接：https://blog.csdn.net/weixin_49587977/article/details/147850964

我自己的原文哦~ https://blog.51cto.com/whaosoft/13892529

#物理图灵测试

机器人的「物理图灵测试」，英伟达Jim Fan 17分钟演讲揭秘具身Scaling Law

Jim Fan，英伟达机器人部门主管和杰出科学家、GEAR 实验室联合领导人、OpenAI 的首位实习生，最近在红杉资本主办的 AI Ascent 上做了一场 17 分钟的演讲，介绍了「解决通用机器人问题的第一性原理」，包括训练机器人 AI 的数据策略、Scaling Law 以及基于物理 API 的美好未来。

其中尤其提到了「物理图灵测试」，大意是说对于一个真实的物理场景和一个指令，会有人类或机器人根据该指令对这个场景进行相应的处理，然后看其他人能否分辨这个场景是人类处理的还是机器人处理的。

很显然，Jim Fan 以及英伟达正在朝着让机器人和 AI 通过这个物理图灵测试而努力。在文本中，我们梳理了 Jim Fan 的主要演讲内容，另外还在文末发起了一个投票，看你觉得物理图灵测试会在什么时候被攻克？

，时长17:33

以下为经过梳理的演讲内容。

几天前，一篇博客文章引起了我的注意。它说：「我们通过了图灵测试，却没人注意到。」图灵测试曾经是神圣的，堪称计算机科学的圣杯，结果我们就这么通过了。

Jim Fan 提到的博客：https://signull.substack.com/p/we-passed-the-turing-test-and-nobody

当 o3 mini 多花几秒钟思考，或者 Claude 无法调试你那些讨厌的代码时，你会感到不满，对吧？然后我们把每一个大语言模型的突破都当作只是又一个普通的星期二。在座的各位是最难打动的人。

所以我想提出一个非常简单的东西，叫做「物理图灵测试（Physical Turing Test）」。

物理图灵测试

想象一下，你在周日晚上举办了一个黑客马拉松派对，最后你的房子变成了这样：

你的伴侣对你大喊大叫，你想：「哎呀，周一早上，我想告诉某人清理这个烂摊子，然后为我准备一顿很好的烛光晚餐，这样我的伴侣就能开心了。」

然后你回到家，看到这一切（实现了），但你无法分辨是人还是机器帮你弄的。物理图灵测试就是这么简单。

那我们现在进展到什么程度了？接近了吗？看看这个准备开始工作的机器人：

再看看机器狗遇到香蕉皮：

机器人为你准备燕麦早餐：

这就是我们的现状。

那么，为什么解决物理图灵测试如此困难呢？

你们知道大语言模型研究人员经常抱怨，对吧？最近有个叫 Ilya 的人抱怨说：大语言模型预训练的数据快用完了。他甚至称互联网为「AI 的化石燃料」。他说我们快没有数据来训练大语言模型了。但是，如果你了解机器人模型，你就会知道大语言模型研究人员被宠坏了。我们甚至连化石燃料都没有。

下图是英伟达总部的一个数据收集环节。英伟达有一个咖啡厅，我们设置了这些人形机器人，我们操作它们并收集数据。

收集到的数据如下图所示。这是机器人关节控制信号，是随时间变化的连续值。你在维基百科、YouTube、Reddit 或任何地方都找不到这种数据，所以你必须自己收集。

那我们是怎么收集的呢？

我们有一种非常复杂但也非常昂贵的方法，叫做遥操作（teleoperation）。你可以让人佩戴某种 VR 头显，它能识别你的手势并将其传输给机器人。这样你就可以教机器人技能，比如从烤面包机中取出面包，然后倒上蜂蜜。但可以想象，这是一个非常缓慢且痛苦的过程。

如果你把这个方法放到 scaling 图上，你会发现它根本不能 scale。真实机器人数据的获取是在拿人力当燃料，这比用化石燃料更糟糕。而且，一个机器人每天只有 24 小时的时间可以用。实际可利用的时间更少，因为人会疲劳，机器人比人类更容易疲劳。

那我们该怎么办呢？机器人的核能在哪里？我们必须有清洁能源。不能永远依靠化石燃料。

模拟很重要

接下来进入「模拟」。我们必须离开物理世界，进入模拟的世界。

我们训练了一个机器手，能在模拟中完成超人般的灵巧任务，如转笔。对我来说这是超人的，因为我不能转笔，我很高兴我的机器人至少在模拟中能做得比我好。

那么如何训练机器手来完成这样复杂的任务呢？我们有两个想法。一是你必须以比实时快 10000 倍的速度进行模拟。这意味着你应该在单个 GPU 上并行运行 10000 个环境进行物理模拟。

第二点，10000 个环境副本不能都相同。你必须改变一些参数，如重力、摩擦力和重量。我们称之为域随机化。

这给了我们模拟原则。

为什么这种做法能 work？想象一下，如果一个神经网络能够控制机器人掌握一百万个不同的世界，那么它很可能也能掌握第一百万零一个世界 —— 即我们的物理现实。换句话说，我们的物理世界处于这种训练的分布之中。

接下来，我们如何应用这些模拟结果呢？你可以建立一个数字孪生（digital twin），即机器人和世界的一对一副本，然后你在模拟中训练，直接在真实世界中测试，零样本迁移。

机器手也是如此：

我们能做的最令人印象深刻的任务是让狗站在瑜伽球上走，我们把它从虚拟迁移到现实世界。

我们的研究人员看起来超级奇怪，就像《黑镜》的一集。

接下来，我们还可以将其应用于更复杂的机器人，如人形机器人。在短短两小时的模拟时间内，这些人形机器人就经历了 10 年的训练，学习行走，然后你可以把它们迁移到现实世界。无论实体是什么，只要你有机器人模型，你就可以模拟它，并且可以实现行走。

我们能做的不仅仅是行走。当你控制自己的身体时，你可以跟踪任何你想要的姿势，跟踪任何关键点，遵循任何你想要的速度向量，这被称为人形机器人的全身控制问题，是个非常困难的问题。

但我们可以训练它，在 10000 个并行运行的模拟上，我们可以将其零样本迁移到真实机器人上，无需任何微调。

这是在英伟达实验室进行的一个演示。你可以看到它所做的动作的复杂性。它模仿人类所有这些敏捷的动作，同时保持平衡。

做这个需要多大的神经网络？它只需要 150 万参数，不是 15 亿。150 万参数足以捕捉人体的潜意识处理。

所以，如果我们将其放在这个图表上，纵轴是速度，横轴是模拟的多样性，我们称之为模拟 1.0，数字孪生范式，它是一个经典的向量化物理引擎，你可以运行到每秒 10000 帧甚至一百万帧。但问题是你必须建立一个数字孪生。你需要有人建造机器人，建造环境和一切。这非常繁琐，且需要手动完成。

用生成式 AI 生成模拟数据

那么，我们能否用生成的方式获得模拟环境的一部分？下图这些 3D 资产都是由 3D 生成模型生成的：

这些纹理来自 Stable Diffusion 或任何你喜欢的扩散模型：

这些布局也是可以用工具生成的：

将所有这些放在一起，我们构建了一个名为 RoboCasa 的框架，它是日常任务的一个组合模拟。这里的一切，除了机器人，都是生成的。你可以组合不同的场景，但它仍然依赖于这个经典引擎来运行，但你已经可以从中获得很多任务。

接下来，同样让人类来操作。但这一次，人类是在模拟中进行操作。

基于这一个放杯子的演示，我们可以得到人类操作的轨迹，然后便可以在模拟中重放这一轨迹。

而在模拟中，我们可以通过各种技术修改场景，甚至还可以修改运动，比如可以通过 GR00T Mimic 等技术模拟出相似的动作。

也就是说，只需一个人类演示，就能通过环境生成得到 N 个演示，如果在执行动作生成，则能得到 N×M 个不同的模拟样本。如此一样，便实现了数据的倍增。

如下所示，第一和三列是真实的机器人，第二和四列是生成的模拟。看得出来，生成的视频的纹理真实感依然很差，但它们已经足够接近了。

那么，我们如何称呼这些足够接近的生成样本呢？数字表亲（digital cousin）。这与数字孪生不一样，但也在一定程度上捕捉到了真实感。

这些模拟运行速度较慢，但目前存在一种混合生成物理引擎 —— 先生成部分内容，然后将剩余部分委托给经典图形管道。

现在，假如我们要模拟这个场景。可以看到，里面有固体、有液体，各种东西。如果让人类来建模，所需的时间会很长。

但现在，有计算机模拟了。

要知道，从左边的视觉效果到右边的视觉效果，可是足足花了 30 多年时间。但视频生成模型只用了一年时间从实现从左边到右边的跨越。

还记得我之前展示的这个视频吗？我骗了你们。这个视频里的像素没一个是真的。它完全是由一个自定义模型生成的。

我们是怎么做的呢？我们会使用一个开源的通用 SOTA 视频生成模型，然后在真实收集的数据的数据域上进行微调。

然后，使用不同的语言命令，你可以让模型想象不同的未来 —— 即便这个场景从未在真实世界中发生过。

这些也都是生成的。

其中有个例子是机器手弹奏尤克里里，但实际上，这个机器手还完全做不到这一点，但 AI 依然可以生成这样的视频。

这就是模拟 2.0。视频生成的多样性大大增加，但目前执行起来速度很慢。我称之为 Digital Nomad（数字游民），可以说它已经进入了视频扩散模型的梦境空间。它是将数亿个互联网视频压缩成这种多元宇宙的模拟，就像奇异博士一样 —— 在梦境空间中实例化机器人，基本上机器人现在可以与任何地方的所有事物都同时互动。

具身 Scaling Law

下面来看具身 Scaling Law。

在模拟 1.x 时代，大规模模拟需要大规模的计算。问题是，随着规模的扩大，物理 IQ 会撞墙，因为这个人工构建的系统的多样性有限。

而在神经世界模型的模拟 2.0 时代，物理 IQ 会随计算的扩展而指数级增长。图中的交汇点便是神经网络超越传统图形工程的地方。

这两者加在一起，将成为我们扩展下一代机器人系统的核能。

引用黄仁勋的话就是：「买得越多，省得越多。」

然后，我们把这些数据用来训练「视觉-语言-动作模型」。它能接收像素和指令输入，然后输出电机控制信号。这就是三月份 GTC 上黄仁勋主题演讲中开源的 GR00T N1 模型的训练方式。

这里展示了一个在实际机器人上运行它的案例。看起来很浪漫，但你无法想象我们在训练期间做了多少清洁工作。在这个示例中，它能够完美地抓起香槟。

不仅如此，它还可以执行一些工业任务，拿取一些工厂物件，还可以进行多机器人协调。

GR00T N1 模型是开源的，事实上这个系列的后续模型都将继续开源。

展望未来：物理 API

那么，下一步是什么呢？我认为是物理 API（Physical API）。

想一想，5000 年来，虽然人类的生活整体好了很多，但做晚餐的方式可能与古埃及人没有本质差别。

也许人类历史的 99% 的时间里，我们都保持着这样的结构：用人力方式处理原材料，最终建立起文明。但在最近的 1% 时间里，大概最近 50 年的时间里，人工劳动量正在减少，我们拥有高度专业化、高度复杂的机器人系统，它们一次只能做一件事。而且它们的编程成本很高。目前，我们处于人类劳力与机器人共存的时代。

未来，物理 API 将无处不在。

类似于 LLM API 移动数字和比特构成的块，物理 API 能移动原子构成的块，也就是给软件一个物理执行器来改变物理世界。

在这个物理 API 之上，将会有新的经济范式。我们会有新的物理提示技术（physical prompting）来给机器人下达指令，教它们学习新任务。语言有时候是不够的。

我们还会有物理应用商店和技能经济。举个例子，米其林大厨不必每天都亲自去厨房了 —— 他可以教会机器人，把晚餐作为一项服务提供。

这里再次引用黄仁勋的一句话：「所有会动的东西都将自动化。」

未来某天，当你回家，你会看到干净的沙发和烛光晚餐，你的伴侣会对你微笑，而不是因为你没有洗脏衣服而对你大喊大叫。

这是因为你上个月买了两台人形机器人，可能是 GR00T N7，它们默默工作，与你生活的背景融为一体，就像是环境智能（ambient intelligence）。你甚至不会注意到它们通过物理图灵测试那一刻，因为那就是像是另一个平常的星期二一样。

请在手机微信登录投票

投票：你认为物理图灵测试会在什么时候被攻克？单选

2028 年之前

2028-2030 年

2030-2040 年

2040-2050 年

2050 年之后

#OpenAI科学家Dan Roberts谈强化学习扩展的未来

9年实现爱因斯坦级AGI

近日，在红杉资本主办的 AI Ascent 上，OpenAI 研究科学家 Dan Roberts 做了主题为「接下来的未来 / 扩展强化学习」的演讲，其上传到 YouTube 的版本更是采用了一个更吸引人的标题：「9 年实现 AGI？OpenAI 的 Dan Roberts 推测将如何模拟爱因斯坦。」

在这场演讲中，Dan Roberts 介绍了预训练和强化学习的 Scaling Law，并预测强化学习将在未来的 AI 模型构建中发挥越来越大的作用，而随着强化学习继续扩展，我们最终将造出有能力发现新科学的模型。

，时长10:09

https://www.youtube.com/watch?v=_rjD_2zn2JU

Dan Roberts，Open AI 研究科学家，强化学习科学团队负责人，同时也是 MIT 理论物理中心访问科学家。他还曾与 Sho Yaida 合著了《The Principles of Deep Learning Theory（深度学习理论的原理）》一书，该书有发布在 arXiv 上的免费版本：https://arxiv.org/abs/2106.10165 。他还曾在 Facebook AI 研究中心担任过研究科学家，之后他参与创立了一家为国防、情报和金融服务客户提供协作情报文本挖掘产品的公司 Diffeo—— 该公司后来被 Salesforce 收购，Dan Roberts 也一并加入了 Salesforce。后来，他又加入了红杉资本，成为了一位 AI Fellow。去年，他离开红杉资本，加入了 OpenAI。

整理了 Dan Roberts 的演讲内容。

正如你们许多人知道的，去年 9 月，OpenAI 发布了一个名为 o1 的模型。

我这里展示的是一张图表，y 轴代表模型在某种数学推理基准测试上的表现，但真正有趣的是 x 轴。

左边的图表显示，随着训练时间的增加，模型性能随之提升。这种走势是每个训练 AI 模型的人都熟悉的。

但真正令人兴奋的是右边的图表：它表明在「测试时间」增加时，模型的表现也会得到改善。模型学会了思考，思考的时间越多，进步就越大。

这个发现太重要了，我们甚至把它印在了 T 恤上。因为这代表了一个全新的扩展维度 —— 不仅仅是训练时间扩展，还包括测试时间扩展。

这种发现意味着什么呢？意味着我们有了一个会思考的模型。

上个月，我们发布了一个更强大的推理模型 o3，比如图中展示的一张草稿图，你可以提问「Solve the QED problem on the left（解决左边的量子电动力学问题）」。

来源 https://openai.com/index/thinking-with-images/

这类模型在测试时，能进行思考，分析图像，并放大图像细节（过程如下）。

其实这张纸上有个费曼图（一种用于表示量子场论计算的图示），模型经过分析后，最终给出正确答案 —— 整个过程大约花了一分钟。

顺便提个趣事：在发布这篇博客前，一位同事让我验证这个计算。尽管这是教科书级别的题目，但我花了 3 个小时才搞定 —— 我得一步步追踪它的推导，确保所有正负号都正确，最后才能确认答案是对的。

那么，我们现在能做什么？模型思考一分钟，就能完成一些相当复杂的计算 —— 但我们的目标远不止于此。

不如做个思维实验吧！说到思维实验，谁最擅长？阿尔伯特・爱因斯坦。

让我们以爱因斯坦为对象做个假设：如果回到 1907 年（他刚开始研究广义相对论之前），让他回答一道广义相对论的期末考题 —— 这题目其实是 GPT-4.5 编的，但我可以保证，这确实是你会遇到的那种典型问题。

我们设想爱因斯坦在 1907 年被问到以下问题：问题 1：黑洞与施瓦西度规。

当然，作为 OpenAI，我们不会直接问爱因斯坦，而是问「爱因斯坦 v1907-super-hacks」。

我认为爱因斯坦是个视觉型思考者。他总爱用电梯和自由落体来举例 —— 学广义相对论时肯定会碰到这些概念，还有那些橡胶膜上的小球的比喻。不过看起来他中途走神去琢磨量子力学了……（我们的模型也经常这样分心！）。

看起来「爱因斯坦 v1907-super-hacks」的思考逐渐接近黑洞的概念了…… 不过我也不知道为什么他会把自己代入到这些场景里。但答案是正确的。

但事实证明，GPT-4.5 没能答对这道题，我们得靠 o3 才能解决。

我在 OpenAI 的工作大概就是专门验证这些物理计算，而不是搞 AI 研究。

不过重点在于：模型给出了正确答案，而爱因斯坦当然也能答对 —— 只是他花了 8 年时间。

目前，我们的模型已经可以通过一分钟的思考重现教科书级别的计算及其衍生问题。但我们的目标远不止于此 —— 我们希望它们能为人类知识与科学的前沿做出重大贡献。

我们在回到这张图表（左边），如何才能实现这一目标？通过图表可以看出，模型的性能会随着训练量的增加而提升，而我们的训练方法主要是强化学习（Reinforcement Learning, RL）。

这次演讲我最想传达的核心信息是：我们需要持续扩大强化学习的规模。一年前，我们发布了 GPT-4o，当时所有的计算资源都投入在预训练（pre-training）上。

但随后，我们开始探索新方向，这才有了如今测试阶段的「思考」能力 —— 比如在 o1 模型中，我们额外增加了强化学习计算量（RL compute）。

当然，这只是一个卡通演示，比例不一定对，但其方向是对的。o3 用到了一些强化学习，但未来强化学习计算的比重会更大。到某个时候，强化学习计算可能会成为主导。

这是我从 Yann LeCun 的幻灯片借的一张图，大概是他 2019 年的一场演讲。这张幻灯片有点复杂，难以理解。其中关键在于：预训练就像这个大蛋糕，强化学习应该像上面的小樱桃。我们实际上要做的是颠覆这个迷因。我们的蛋糕大小可能不会变化，但我们可能会有一颗超大的强化学习樱桃。

那么，我们计划怎么做呢？但我不能泄漏我们的计划。我一开始担心我的幻灯片会被删减一些，但一切都还好。

我们的计划其实很明显：大规模扩展计算。

什么意思呢？我们将筹集 5000 亿美元，在德克萨斯州的阿比林买一些地，建一些建筑，在里面放一些计算机。我们也将训练一些模型，然后希望能借此获得大量收入，然后我们会建更多建筑并在里面放更多计算机。这就是我们扩展计算的方式。与此同时，我们也将发展 scaling 科学，这就是我在 OpenAI 所做的事情。

这张图来自介绍 GPT-4 的博客文章，那时候我还没有加入 OpenAI，但这张图确实振奋人心。下面的绿点是 GPT-4 的最终损失性能，前面的灰点是训练过程中记录的性能。而这张图采用了对数尺度。

将这些点连起来，可以得到一条趋势线，我们可以借此预测未来：训练前所未有的大模型确实能带来好处。

现在我们有了测试时间计算和强化学习训练的新方向。我们是否必须抛弃一切，重新发明应用于扩展计算的含义？所以我们需要扩展科学。

这张图来自播客主理人 Dwarkesh。他问，既然现在 LLM 已经记住了如此多的知识，为什么还没有做出什么科学发现呢？

原因可能是我们提问的方式不正确。在研究中，很多时候提问的方式比研究过程和答案更重要。所以关键在于问对问题。

还有一个可能原因是，我们现在过于关注竞赛数学等问题了，这就导致模型在不同问题上的能力参差不齐。

总之，我认为真正会发生的事情是扩大规模。我们需要进一步扩大规模，这是有用的。

总结一下，这就是接下来会发生的事情。这是去年 AI Ascent 上的一张图，其中 Y 轴是半对数的。可以看到，智能体 / AI 所能处理的任务的长度每 7 个月就会翻一倍。根据这张图，他们可以执行长达一个小时的测试了，但明年呢？大概会在 2 到 3 小时之间。

不过，预测 AI 的发展并不容易，大家总是错的。但假如这张图的预测是对的，沿着其趋势，到 2034 年 AI Ascent 时，AI 将有能力进行长达 8 年的计算和思考 —— 而 8 年正是爱因斯坦发现广义相对论所用的时间。

我想，或许 9 年后，我们就将有能发现广义相对论的模型。

#Harmon

协调视觉表征，统一多模态理解和生成（模型已开源）

吴思泽，南洋理工大学MMLab@NTU四年级博士生，导师是Chen Change Loy，研究方向为基于多模态模型的视觉理解和生成、开放世界的检测分割等，在ICCV/CVPR/ICLR等顶级学术会议上发表过多篇论文。

论文标题：Harmonizing Visual Representations for Unified Multimodal Understanding and Generation

论文链接: https://arxiv.org/abs/2503.21979

代码地址: https://github.com/wusize/Harmon

项目主页：https://wusize.github.io/projects/Harmon

在线 Demo: https://huggingface.co/spaces/wusize/Harmon

1. 背景：统一多模态理解生成

GPT-4o 生图功能的出现揭示了统一理解与生成模型的巨大潜力，然而如何在同一个框架内协调图像理解与生成这两种不同粒度的任务，是一个巨大的挑战。从视觉表征的维度看，现有的统一模型通常采用如下三种范式：

（1）理解生成统一使用 CLIP/SigLIP 表征，并使用 Diffusion Model 将视觉表征解码成图像，如 EMU2、ILLUME 等。此类方案的图像生成过程缺少与 LLM 的交互，本质上是将 LLM 输出的 embeddings 作为生成 condition。

（2）理解生成统一使用 VQGAN/VAE 表征，如 Transfusion、Show-o、ViLA-u 等，由于 VQGAN/VAE 用于图像压缩，主要表征纹理等细节，缺乏视觉语义的建模，此类方法通常理解能力偏弱。

（3）解耦理解生成表征，理解任务使用编码高层语义的 CLIP/SigLIP，生成任务使用 VQGAN，如 Janus、UniFluid 等。

2. 协调理解和生成的视觉表征

不同于 Janus 割裂理解和生成的视觉编码，Harmon 探索在统一的视觉表征上协调图像理解和生成。

（1）MAR 的启发

图一：Linear Probing 和特征图激活

MAR 作为一种基于图像掩码建模的生成范式，沿袭了表征学习 MAE 的 Encoder-Decoder 框架，Harmon 的作者们发现 MAR Encoder 在图像生成训练中，同时学会对视觉语义的建模。如图一所示，MAR 的 Linear Probing 结果远超 VQGAN、VAE，同时对视觉语义概念有更精确的响应。

（2）Harmon：理解生成共享 MAR Encoder

图二： Harmon 框架图

Harmon 框架如图所示，通过共享 MAR Encoder 同时促进理解和生成：

i）图像理解：MAR Encoder 处理完整图像，LLM 根据图像内容和用户指令输出文本

ii) 图像生成：沿用 MAR 的掩码建模范式，MAR Encoder 处理可见（已经生成）的图像内容，LLM 中实现模态交互，MAR Decoder 预测剩余的图像内容。

（3）Harmon 的三阶段训练

i）模态对齐：第一阶段对齐 MAR 与 LLM，冻结 LLM 参数，仅训练 MAR Encoder 和 Decoder

ii）联合训练：在大规模图文数据上联合训练，并更新所有模型参数

iii）高质量微调：最后一个阶段使用高质量数据微调，并将图片分辨率从 256 提升至 512

3. 实验结果：理解生成两开花

（1）Harmon 在多模态理解基准上，取得接近 Janus-Pro 的效果

（2）在文生图基准上，Harmon 优势显著

i) 在图像生成美学基准如 MJHQ-30K 上，Harmon 大幅领先同类的统一模型，并接近或超过文生图专家模型如 SDXL。

ii) 在衡量指令跟随和一致性的 GenEval 基准上，Harmon 大幅领先所有专家模型和统一模型。

iii) 同时，Harmon 能在文生图中更好地利用多模态大模型的世界知识，在 WISE benchmark 上远超 Janus 等统一模型。

(3) 协同生成理解

实验中，相较于解耦理解生成地视觉编码器（图三d），Harmon 的协同视觉表征表征使理解 loss 能显著提升生成指标（图三b），显示出统一视觉表征对于生成理解协同进化的巨大潜力。

图三：理解生成的相互作用

4.可视化效果

#只有通过海量测试才能抓住泛化性的本质吗？

本文第一作者为上海交通大学博士生程磊，指导老师为上海交通大学张拳石教授。

当以端到端黑盒训练为代表的深度学习深陷低效 Scaling Law 而无法自拔时，我们是否可以回到起点重看模型表征本身——究竟什么才是一个人工智能模型的「表征质量」或者「泛化性」？我们真的只有通过海量的测试数据才能抓住泛化性的本质吗？或者说，能否在数学上找到一个定理，直接从表征逻辑复杂度本身就给出一个对模型泛化性的先验的判断呢？

论文标题：Revisiting Generalization Power of a DNN in Terms of Symbolic Interactions
论文地址：https://arxiv.org/abs/2502.10162

本文就上述问题给出了初步的探索，从神经网络内在精细交互表征复杂度的角度来探索「可泛化交互表征」和「不可泛化交互表征」各自所独有的分布。

一、大模型时代呼唤更高效的泛化性分析策略——中层表征逻辑的交流与对齐

尽管深度学习基础理论近年来取得了长足的发展，但一些根本性问题仍未得到有效解决。典型地，对神经网络泛化性的研究依然停留在一个相对较浅的层面——主要在高维特征空间分析解释神经网络的泛化性（例如通过损失函数景观平滑度来判断泛化性）。

因此，我们始终无法对神经网络泛化性给出一个「究竟」的解释——究竟怎样的确切的表征才叫高泛化性的表征。

然而，不同于判断「人工神经网络」的泛化性，人们对自身「生物神经网络」可靠性的有一种更加直接有效的评价策略——在内在表征层面的交流。让我们跳出不言自明的直觉，反观人类智能，其实人类的交流是一种很神奇的能力，两个上百上千亿神经元的黑盒大脑（而且链接方式也各不相同）居然可以不约而同地共享相同的底层符号化认知——不仅包括语言，还包括一些下意识的公共认知（比如底层的 image segmentation 都是下意识自动完成的），让人们可以直接可以从中层逻辑层面进行交流和对齐。人类彼此通过交流中层表征逻辑层面来实现对齐和互信，而不是像对待神经网络那样，需要通过长期的、大样本的、统计上的正确率来证明其可靠性。

比起端到端评测中统计意义的正确率，通过中层表征逻辑的交流，是判断一个智能体表征可靠性的一个更直接、更高效、更本质的手段。

二、两个本质的数学问题

然而，上述在中层精细表征逻辑上的交流与对齐，目前并没有被应用在人工神经网络上，根本上，工程实现上种种细节问题都可以归结为两个基本的数学问题。

问题 1：能否数学证明神经网络内在复杂混乱的各种精细表征逻辑，可以被清晰地、简洁地解释为一些符号化的概念。

这里，我们要面对一个看似相互矛盾的「既要又要」，既要解释的「简洁性」又要同时兼顾解释的「全面性」——用简洁的符号化操作解释神经网络中几乎全部的细节表征变换。

实验室前期提出的「等效交互解释理论」部分解决了上述问题。它证明了大部分神经网络的分类置信度的计算可以等效表示为一个符号化的（稀疏的）「与或交互逻辑模型」。

具体地，给定一个包含 n 个输入单元的输入样本，其一共存在 2^n 种不同的遮挡状态，我们发现神经网络在这 2^n 种不同遮挡状态下对目标类别的不同分类置信度，都可以表示为少量的（比如 50 到 150 个）与或交互逻辑的数值效用之和。

即无论输入样本被如何遮挡，其各种变化的分类置信度都可以被这个「与或交互逻辑模型」中 50 到 150 个交互所全部拟合出来。我们将其称为交互的「无限拟合性」——这是一个很强的结论，在数学上保证了「神经网络内在精细表征逻辑可以被严格地解释为少量的『与或交互概念』」。

图 1. 与或交互的无限拟合性。给定一个神经网络，总能构造出一种稀疏的「与或交互逻辑模型」，仅使用少量的显著「与或交互」来精确匹配神经网络在所有 2^n 种遮挡样本上的输出。

如图 1 所示，「与或交互逻辑模型」中的交互分为「与交互」和「或交互」两类。其中，「与交互」S 表示神经网络所等效建模的输入单元间的「与逻辑」关系，当集合 S 内所有输入单元均出现在输入样本（不被遮盖）时，该交互为神经网络的分类自信分数贡献一个数值效应

。例如，图 1 中 LLaMA-7B 模型编码了一个与交互

，当集合内输入单元均出现时，为 LLM 预测下一个词素「space」（目标单词 spacetime 中的词素 token）贡献一个正的数值效应。「或交互」表示神经网络所等效建模的输入单元间的「或逻辑」关系，当集合 S 内任一输入单元出现（不被遮盖）时，该「或交互」为神经网络的分类自信分数贡献一个数值效应

。例如，上图中模型编码了一个或交互

，当集合内任一输入单元出现时，为 LLM 预测下一个单素「space」贡献一个正的数值效应

；

#Agent产品，快者为王？

Anthropic 和 Databrick CEO 对话解读

Anthropic 和 Databrick 近期以「人工智能的未来：面向各领域的专用 Agent」为主题的线上峰会。两家公司的 CEO Dario Amodei 和 Ali Ghodsi 在其中的对谈环节分享了有关 Agent 的未来、Amodei 此前的博文以及双方所展开的相关合作等话题。

01. 在谈论Agents之前，人们应该先关注什么？

Dario Amodei 在《Machine of Loving Grace》中写了什么？为什么说「AI的未来是Agent」？...

02. 数据价值无可替代，但数据治理风险如何破解？

Anthropic 和 Databrick 如何围绕数据 Agent 数据进行创新？人类如何把握 AI技术的双刃剑？...03. AI 应用快速迭代的阻塞要靠 MCP 跨越？Agents 产品迭代的关键缺口如何突破？MCP 和 A2A 范式下，企业怎样维护数据安全？...

04. Anthropic 为何仍乐观看待「Scaling Law」？

数据的「Scaling Law」依然乐观？Anthropic 一直在做 Model Scale？...

01 在谈论Agents之前，人们应该先关注什么？

1、在本场访谈开始前，Ali Ghodsi 询问了 Dario Amodei 在 2024 年 10 月发布的《Machines of Loving Grace》文章中对 AI 未来发展潜力与风险的看法。

① 在这篇文章中，Amodei 提到人类低估了 AI 的好处和风险，强调需要关注风险以实现积极的未来。[2-1]

② 文章中还提到，短期内人类可以通过比较优势继续在经济中发挥作用，但长期来看，人类需要重新思考经济组织方式，包括加强全球合作、政策支持以及对 AI 风险的有效管理。[2-1]

2、就该文章所延展的问题，Amodei 表示，人们在讨论 AI 优势时往往缺乏足够的想象力和具体案例，AI 应用将覆盖整个经济领域，同时带来超越经济层面的社会变革。

3、Ghodsi 进而提出「AI 技术要多久才能真正落地并产生实际效益」的问题。Amodei 表示这将取决于传统企业与 AI 公司的合作及市场推广，更重要的是要让相对滞后的经济领域也能快速适应并应用这些创新技术。

4、在这一话题下，Dario Amodei 明确表示「AI 的未来是 Agents」，企业需要围绕 Agents 进行创新，开发能够充分利用 Agents 这种能够自主地调用工具，完成与数据的交互能力的产品和服务，并通过列举 2 个实例证明上述观点。

① Amodei 在访谈中分享到，全球科技公司 Block 利用语音识别技术和生成式 AI 模型，开发了能够通过语音指令自动完成店铺和商品信息设置的 Agents。

② 另一个案例是美国电话电报公司 AT&T 结合传统机器学习和生成式 AI 模型，通过分析通话记录来检测欺诈行为，使欺诈攻击减少了 80%。

5、在后续的对话中，Dario Amodei 和 Ali Ghodsi 基于两家公司达成合作以及 Databricks 开发的治理工具，强调了 AI 能够在确保安全条件下，量化数据价值和加速产品迭代。此外，两人还探讨了 Scaling Law 相关话题。

① Amodei 和 Ali Ghodsi 都建议借助 AI 技术量化企业专有数据的价值，以两家公司的合作作为范式，并介绍了管控数据治理风险的 Unity Catalog 工具。

② Amodei 和 Ali Ghodsi 都强调 AI 产品快速迭代的重要性。Dario Amodei 分享了如何使用 RAG 技术，加速产品迭代。两家公司均接入 MCP 协议，帮助 AI 工具使用外部数据资源。

③ Anthropic 的两位创始人都强调 Scaling Law 未达上限，但实用性需要预训练之外的优化，同时指出数据耗尽和成本问题，以及多维度协同优化和混合推理模型的重要性，并预测模型迭代速度将继续保持快速。

02 数据价值无可替代，但数据治理风险如何破解？

1、Dario Amodei 和 Ali Ghodsi 的第二个话题围绕数据展开，他们从 AI 能力角度和企业角度分别强调了数据对于企业的价值和重要性。

① Amodei 认为，数据代表着企业积累的知识与智慧，是与 AI 能力最相辅相成的要素之一。企业不仅可以用数据来微调模型，还可以将其作为模型运算的基础，通过 RAG 等方法提供上下文，或供智能体分析使用。

② Ali Ghodsi 认为，企业专有数据是构建竞争壁垒的核心，专用于训练模型的企业数据对构建 AI 模型很关键，尤其是各行业、企业和客户特有的数据，比如制药公司的实验数据，金融机构的交易记录，科技公司的用户行为数据...

#Qwen3 系列大模型亮点解析

总结一下我最关心的几个点：

一、混合思维模式

Qwen3 能在两种模式下工作，实现「按需切换」：

思考模式 (Thinking Mode)：处理复杂问题，比如数学推理、代码生成、深度分析的时候，模型会模拟人类的「慢思考」或「系统 2 思维」，进行详细的、逐步的推理（CoT），然后给出最终答案。
非思考模式 (Non-Thinking Mode)：面对相对简单、直接的问题，模型则采用「快思考」或「系统 1 思维」，迅速给出答案，优先保证响应速度和效率。

用户可以通过「思维预算」（token 数）来控制，也可以显式地通过 API 参数 (enable_thinking) 或特定指令（如对话中的 /think, /no_think 标签）来指导模型采用何种模式。

这个灵活度可能会带来应用上的一些新玩法。

二、架构与性能

这部分没有特别出人意料的东西。主打的架构是最近比较常见的 MoE：

旗舰模型 Qwen3-235B-A22B
相对小巧的 Qwen3-30B-A3B

还有一系列不同参数规模的 Dense 模型（从 0.6B 到 32B）。

这次的命名方式终于让我舒服了一点，从名字就能看出来这个模型是啥……

性能方面，从官方数据上看，感觉突破性没有特别强（当然终究还是要看实测）。我比较期待 Qwen3-30B-A3B 这个尺寸模型的实测表现。

这是官方的模型性能数据：

三、训练方式

预训练：

后训练：

graph TD
    %% Define Styles for final models
    classDef frontierFinal fill:#f8d7da,stroke:#e53e3e,stroke-width:2px,color:#721c24
    classDef lightweightFinal fill:#cce5ff,stroke:#3182ce,stroke-width:2px,color:#004085

    %% === Frontier Models Post-training ===
    subgraph "顶尖模型 (Frontier Models) 后训练流程"
        direction TB
        Base_Model_Large["大型<b>基础模型</b><br>(e.g., Base for 235B, 32B)"] --> PT1;
        PT1("阶段 1: 长思维链 (CoT) 冷启动<br>目标：学习基础推理") --> PT2;
        PT2("阶段 2: 基于推理的 RL<br>目标：强化推理能力") --> PT3;
        PT3("阶段 3: 思维模式融合<br>目标：融合思考/非思考") --> PT4;
        PT4("阶段 4: 通用 RL<br>目标：提升通用能力/对齐") --> Final_Model_Large;
        Final_Model_Large["产出: <b>顶尖指令模型</b><br>(e.g., Qwen3-235B-A22B, Qwen3-32B)<br>具备完整混合思维能力"];
        class Final_Model_Large frontierFinal;
    end

    %% === Lightweight Models Post-training ===
    subgraph "轻量级模型 (Lightweight Models) 后训练流程"
        direction TB
        Base_Model_Small["小型<b>基础模型</b><br>(e.g., Base for 30B, 14B, ...)"] --> Distill;
        Distill("<b>强模型到弱模型蒸馏</b><br>(Strong-to-Weak Distillation)<br>将大模型能力迁移到小模型") --> Final_Model_Small;
        Final_Model_Small["产出: <b>轻量级指令模型</b><br>(e.g., Qwen3-30B-A3B, Qwen3-14B, ...)<br>继承强大能力，更高效"];
        class Final_Model_Small lightweightFinal;
    end

    %% === Link between Frontier and Lightweight ===
    Final_Model_Large -- "作为 '强' 教师模型 (Teacher)" --> Distill;

也可看官方给的后训练流程图：

四、支持 MCP

看到很多媒体的说法是「原生」支持了 MCP，我对这个「原生」具体指代的内容抱有一点点疑问。看官方给的使用例子：

from qwen_agent.agents import Assistant

# Define LLM
llm_cfg = {
    'model': 'Qwen3-30B-A3B',

    # Use the endpoint provided by Alibaba Model Studio:
    # 'model_type': 'qwen_dashscope',
    # 'api_key': os.getenv('DASHSCOPE_API_KEY'),

    # Use a custom endpoint compatible with OpenAI API:
    'model_server': 'http://localhost:8000/v1',  # api_base
    'api_key': 'EMPTY',

    # Other parameters:
    # 'generate_cfg': {
    #         # Add: When the response content is `<think>this is the thought</think>this is the answer;
    #         # Do not add: When the response has been separated by reasoning_content and content.
    #         'thought_in_content': True,
    #     },
}

# Define Tools
tools = [
    {'mcpServers': {  # You can specify the MCP configuration file
            'time': {
                'command': 'uvx',
                'args': ['mcp-server-time', '--local-timeznotallow=Asia/Shanghai']
            },
            "fetch": {
                "command": "uvx",
                "args": ["mcp-server-fetch"]
            }
        }
    },
'code_interpreter',  # Built-in tools
]

# Define Agent
bot = Assistant(llm=llm_cfg, function_list=tools)

# Streaming generation
messages = [{'role': 'user', 'content': 'https://qwenlm.github.io/blog/ Introduce the latest developments of Qwen'}]
for responses in bot.run(messages=messages):
    pass
print(responses)

我的目前的理解是，qwen_agent 这个 SDK 封装了 MCP 的用法，而不是 Qwen3 系列模型针对 MCP 协议数据进行了预训练或者后训练。不过这个理解有待证实，需要后面看一下 qwen_agent 的代码。

不过，无论如何，对于用户（开发者）都是一件好事。

#proof assistant

Copilot上大分，仅数天，陶哲轩的估计验证工具卷到2.0！刚刚又发数学形式化证明视频

本周二，我们报道了菲尔兹奖得主陶哲轩的一个开源项目 —— 在大模型的协助下编写了一个概念验证软件工具，来验证涉及任意正参数的给定估计是否成立（在常数因子范围内）。

在项目中，他开发了一个用于自动（或半自动）证明分析中估计值的框架。估计值是 X≲Y（在渐近记法中表示 X=O (Y)）或 X≪Y（在渐近符号中表示 X=o (Y)）形式的不等式。

这才几天的时间，这个估计验证工具的 2.0 版本就来了！

陶哲轩对该工具进行了两次全面改进。

首先，他将其改造成一个基础的证明助手（proof assistant），同时能够处理一些命题逻辑；接着，他根据评论者的反馈，将其改造成一个更加灵活的证明助手（在几个关键方面特意模仿了 Lean 证明助手），它也由功能强大的 Python 符号代数包 sympy 提供支持。

陶哲轩认为现在得到了一个稳定的框架，并可以进一步扩展该工具。他最初的目标只是自动化（或半自动化）标量函数渐近估计的证明，但原则上可以继续向该工具添加策略、新的 sympy 类型和引理，以处理范围广泛的其他数学任务。

该证明助手的 2.0 版本已经上传到了 GitHub。同样地，与自己以前的编码一样，陶哲轩最终「严重」依赖大语言模型的帮助来理解 Python 和 sympy 的一些细节，其中 Github Copilot 的自动补全功能尤其有用。

虽然该工具支持全自动证明，但陶哲轩决定现在更多地关注半自动交互式证明，其中人类用户提供高级「策略」，然后证明助手执行必要的计算，直到证明完成。

GitHub 地址：https://github.com/teorth/estimates

根据项目简介，这是一个利用 Python 开发的轻量级证明助手，其功能远逊于 Lean、Isabelle 或 Rocq 等完整证明助手，但希望它能够轻松用于证明一些简短而繁琐的任务，例如验证一个不等式或估计是否由其他不等式或估计推导出来。该助手的一个具体目标是为渐近估计（asymptotic estimates）提供支持。

具体实现过程

下载相关文件后，即可在 Python 中启动证明助手，只需输入「from main import *」并加载一个预先制作的练习即可。以下是其中一个练习：

这是证明助手对以下问题的形式化描述：如果 x, y, z 是正实数，且 x<2y 且 y<3z+1，则证明 x<7z+2。

证明助手的工作方式是：用户指示助手使用各种「策略」来简化问题，直到问题得到解决。在本例中，该问题可以通过线性算法求解，具体形式化为「Linarith ()」策略：

如果有人想更详细地了解线性算法的工作原理，可以使用「verbose」标志（flag）来运行此策略。

有时，证明过程会涉及情况拆分，最终的证明会呈现出树状结构。这里有个例子：其务是证明假设 (x>-1)∧(x<1) 且 (y>-2)∧(y<2) 蕴涵 (x+y>-3)∧(x+y<3)：

这里，根据使用的三种策略对证明进行「伪精益」描述：策略「cases h」 1 对假设「 h1」进行情况拆分，然后在两种情况下分别应用「simp_all」策略来简化。

该工具支持渐近估计。陶哲轩找到了一种在 Sympy 中实现量级形式化的方法。事实证明，Sympy 在某种意义上已经可以原生实现非标准分析：它的符号变量有一个「is_number」标志，基本上对应于非标准分析中「标准」数的概念。

举例而言，数字 3 的「sympy」版本「S (3)」有「S (3).is_number == True」，因此是标准的；而整数变量「n = Symbol ("n", integer=true)」有「n.is_number == False 」，因此是非标准的。

在「sympy」中，他能够构建各种（正）表达式「X」的数量级「Theta (X)」，其属性「 Theta (n)=Theta (1)」如下：如果「n」是标准数，然后使用这个概念来定义渐近估计，例如

（实现为 lesssim (X,Y)）。接下来可以应用对数形式的线性算术来自动验证一些渐近估计。这里有个简单的例子：给定一个正整数 N 和正实数 x,y，使得

且

，任务目标是得出结论

：

对数线性规划求解器还可以通过相当强力的「分支」方法处理低阶项。

陶哲轩计划开始开发用于估计符号函数的函数空间范数工具，例如创建一些策略来部署诸如 Holder 不等式和 Sobolev 嵌入不等式之类的引理。Sympy 框架看起来足够灵活，可以为这些类型的对象创建更多对象类。目前，他只有一个概念验证引理来说明这个框架，即算术平均 - 几何平均（arithmetic mean-geometric mean）引理。

陶哲轩最后表示，他对这个证明助手的基本框架非常满意，因此愿意接受进一步的建议或新功能的贡献，例如引入新的数据类型、引理和策略，或者一些示例问题。这些问题应该很容易被这个助手解决，但目前由于缺乏合适的策略和引理而超出了它的能力。

数学形式化证明实验纪实

而就在刚刚，陶哲轩又发了一个新项目。

他最近尝试了一个小实验：尝试利用现代自动化工具（如 GitHub Copilot 和 Lean 证明助手）来半自动地形式化一个一页纸的数学证明。这个证明来自他在 Equational Theories Project 中的合作者 Bruno Le Floch。

视频演示：https://www.youtube.com/watch?v=cyyR7j2ChCI
讨论地址：https://leanprover.zulipchat.com/#narrow/channel/458659-Equational/topic/Alternative.20proofs.20of.20E1689.E2.8A.A2E2
GitHub 链接：https://github.com/teorth/estimate_tools/blob/master/EstimateTools/test/equational.lean

陶哲轩尝试「盲做」这个证明，即不真正理解证明结构的前提下，直接用工具去拼出形式化过程。他用约 33 分钟完成了形式化过程。对他来说，这是一种很不一样的工作方式 —— 不靠对整个证明的大局理解，而是完全依赖于工具处理逻辑细节。

在 Zulip 讨论中，Bruno Le Floch 最初指出，在论文中「E1689-E2 的所有已知证明都是计算机辅助」这一说法太绝对了。他自己后来给出了一个更具可读性的「人类版本」，虽有些步骤灵感来自 prover9，但整体不应算作纯计算机证明。

陶哲轩回应：那我们可以更新 blueprint，并在论文中注明我们在项目中得到了一个非计算机生成的版本。

故事就此开始，陶哲轩选择做一个实验。「我尝试完全基于 Bruno 的草稿，一步步进行形式化，过程非常依赖 Copilot 和 Lean 的 canonical 策略。」他将原稿拆解成细小逻辑单元，让工具处理约一半细节，剩下的由自己手动填补，完成了一个可以通过验证的 Lean 形式化证明，还录了视频上传到 YouTube。

实际证明，虽然这种方法看起来有点机械，但对于结构不强、以技术推导为主的证明，是有效的。AI 工具可以代劳大量繁琐推理，让人专注于「如何表达」而不是「是否合理」。

这场实验还暴露出一些 Lean 项目协作工具的问题。目前项目使用的 blueprint 工具只支持每个命题绑定一个证明版本。如果要同时记录人类证明和 AI 生成的版本，会发生覆盖，管理混乱。

如果你对这个话题感兴趣，建议直接查看 Zulip 讨论区，了解更多一线协作细节。

#现在的大学生，不用大模型才是异类

「大学现在学的就是掌握 ChatGPT 的程度了。」

在北美的顶尖大学校园里，人工智能完成作业、写论文已经成为一种常态。

近日，New York Magazine 旗下 Intelligencer 发表了一篇题为「每个人都在大学里作弊」的专题报道，其中从 Chungin「Roy」Lee 开发作弊软件的故事开始，谈到了美国大学对 ChatGPT 等 AI 工具的广泛使用乃至滥用的情况。

原文地址：https://nymag.com/intelligencer/article/openai-chatgpt-ai-cheating-education-college-students-school.html

这篇报道引起了社交媒体上广泛的讨论，作家 Steve McGuire 在一则帖文中总结了这篇报道中一些颇具冲击力的言论。

对此，有人认为 AI 会给教育带来不可避免的改变，而教育本身也应当顺应这种变化，探索新的教学和作业模式。

也有人表示，为了防止学生用 AI 写作业，应该考虑回归传统的课堂作业方式。

也有人分享了他们自身的教学技巧。

编译了 Intelligencer 的这篇专题报道。

去年秋天，Chungin「Roy」Lee 走进了哥伦比亚大学的校园，他坦言自己几乎在每份作业上都使用了生成式人工智能作弊。作为一名计算机科学专业的学生，他在入门的编程课上依赖人工智能：「我把题目扔到 ChatGPT 里，然后它输出什么就交什么。」他粗略地算了一下，他提交的每一篇论文 80% 都是人工智能写的。「最后我会进行一些润色。我会把 20% 的人性，也就是我的声音，融入其中，」Lee 最近告诉我。

Lee 出生于韩国，在亚特兰大郊外长大，他的父母在那里经营着一家大学预科咨询公司。他说，他在高中四年级时就被哈佛大学录取，但因为他在毕业前的一次夜间实地考察中偷偷溜出去而被停学，哈佛大学撤销了录取。一年后，他申请了 26 所学校，但一无所获。所以，他在一所社区大学待了一年，之后转学到哥伦比亚大学。（他的自我介绍是在 ChatGPT 的帮助下撰写的，论文将他曲折的高等教育之路变成了一个寓言，讲述了他创办公司的雄心壮志。）

去年 9 月，当他以大二学生的身份开始在哥伦比亚大学学习时，他并不太担心学业或 GPA。他告诉我：「大学的大多数作业都与我无关…… 它们可以被 AI 破解，而我对做这些作业根本没兴趣。」当其他新生对大学严格的核心课程感到担忧时，学校称其「拓展智力」和「促进个人转变」，而 Lee 却利用人工智能以最少的努力轻松通过了考试。当我问他为什么费尽心思考进常春藤盟校，却把所有的学习都推给机器人时，他说：「这是结识联合创始人和找对象的最佳场所。」

到第一学期末，Lee 终于实现了其中一个愿望。他遇到了联合创始人、工程学院大三学生 Neel Shanmugam，两人一起开发了一系列有潜力的初创项目：一款专为哥伦比亚大学学生设计的约会应用、一款面向酒类经销商的销售工具，以及一款笔记应用。但这些应用都没有成功。这时，Lee 萌生了一个想法。作为一名程序员，他曾在 LeetCode 上苦苦挣扎了大约 600 个小时。

对于 CS 专业的学生来说，LeetCode 的大名再熟悉不过了，这是一个刷题平台，旨在帮助程序员应对科技公司在面试和实习生时提出的算法题。和许多年轻的开发者一样，Lee 觉得这些题目乏味无趣，而且大多与实际的工作内容无关。这有什么意义呢？如果有人开发一个程序，在远程面试中隐藏浏览器的 AI 能力，让面试者可以通过作弊手段通过面试，结果会怎样？

2 月，Lee 和 Shanmugam 推出了一款工具，实现了这一目标。他们的 Interview Coder 的网站上打出了一条横幅，上面写着「F*CK LEETCODE」。Lee 在 YouTube 上发布了一段自己用该工具作弊通过亚马逊实习面试的视频。（他实际上得到了实习机会，但拒绝了。）一个月后，Lee 被哥伦比亚大学学术诚信办公室叫去。根据委员会的报告，委员会认定他「宣传作弊工具链接」和「向学生提供访问该工具的知识，并让他们自行决定如何使用」，之后学校对他进行了纪律处分。

Lee 认为，哥伦比亚大学与 ChatGPT 的母公司 OpenAI 有合作关系，却因为他在人工智能方面进行创新而惩罚他，这太荒谬了。尽管哥伦比亚大学的人工智能政策与许多其他大学类似 —— 除非教授明确允许（无论是某个课程还是具体项目），否则禁止学生使用人工智能 —— 但 Lee 表示，他认识的学校里没有一个学生不在利用人工智能作弊。需要明确的是，Lee 并不认为这是一件坏事。他说：「我认为，我们距离一个没有人认为使用 AI 做作业是作弊的世界还有几年的时间，甚至可能是几个月的时间。」

2023 年 1 月，就在 OpenAI 推出 ChatGPT 仅仅两个月后，一项针对 1000 名大学生的调查发现，近 90% 的学生曾使用这款聊天机器人来帮助完成作业。ChatGPT 上线第一年，其月访问量逐月稳步增长，直至 6 月学校放暑假。（这并非纯粹的猜测：2024 年暑假，流量再次下降。）

教授和助教们越来越多地发现自己面对的论文充斥着笨拙、机械化的措辞，虽然语法上无可挑剔，但听起来却不像大学生 —— 甚至不像人类。两年半后，大型州立学校、常春藤盟校、新英格兰文理学院、海外大学、专业院校和社区学院的学生都开始依赖人工智能来帮助他们顺利完成教育的各个方面。

生成式 AI 工具，除了 ChatGPT，还有谷歌的 Gemini、Anthropic 的 Claude、微软的 Copilot 等等，它们可以帮助人们在课堂上做笔记、设计学习指南和练习测试、总结文章和教科书内容，以及集思广益、勾勒提纲与撰写论文。STEM 专业的学生正在使用人工智能来自动化他们的研究和数据分析，加速完成密集的编码和调试任务。「大学现在学的就是掌握 ChatGPT 的程度了，」犹他州的一名学生最近在一段视频中配文，视频中她将《种族灭绝与大规模暴行》教科书中的一章复制粘贴到 ChatGPT 中。

加拿大威尔弗里德・洛里埃大学（Wilfrid Laurier University）的新生 Sarah 表示，她第一次使用 ChatGPT 是在高中最后一年的春季学期。（出于隐私考虑，文中为化名）熟悉了聊天机器人后，莎拉在所有课程中都使用了它：原住民研究、法律、英语，以及一门名为「绿色产业」的「嬉皮士农业课」。「我的成绩棒极了，」她表示，「ChatGPT 改变了我的人生。」

去年秋天上大学后，Sarah 继续使用人工智能。她几乎每次上课都会看到其他学生的笔记本电脑打开 ChatGPT。学期末，她开始觉得自己可能对这个网站产生了依赖。她已经觉得自己对 TikTok、Instagram、Snapchat 和 Reddit 上瘾了，她在 Reddit 上用用户名「maybeimnotsmart」写作。「我在 TikTok 上花费了很多时间，」她说。「成小时的刷，直到我的眼睛开始疼，这让我很难计划和完成学业。有了 ChatGPT，我可以在两个小时内写出一篇通常需要 12 个小时的论文。」

教师们尝试过用人工智能来布置作业，比如重新使用蓝皮书（作文考试）或改为口试。圣克拉拉大学的技术伦理学者 Brian Patrick Green 在第一次尝试 ChatGPT 后就立即停止了布置论文。不到三个月后，在教授一门名为「伦理与人工智能」的课程时，他认为低风险的阅读反思是安全的 —— 肯定没有人敢用 ChatGPT 来写一些私人的东西。但他的一个学生提交了一份反思，其中充满了机械的语言和尴尬的措辞，Green 知道这是人工智能生成的。阿肯色大学小石城分校的一位哲学教授发现，她在「伦理与技术」课上的学生使用人工智能来回答「简单介绍一下自己，并说出你希望从这门课中学到什么」这个问题，直接输入当提示词。

作弊并不是什么新鲜事。但现在，正如一位学生所说的，「天花板被掀翻了」。谁能抗拒一种能让所有作业都变得更容易、而且似乎没有任何后果的工具呢？过去两年大部分时间一直在批改 AI 生成论文的加州州立大学奇科分校伦理学教授 Troy Jollimore 对此感到担忧。

「大量学生将从大学毕业，获得学位，进入职场，但他们本质上是文盲，」他表示。「既是字面意义上的文盲，也是历史上的文盲，他们对自己的文化一无所知，更不用说其他人的文化了。」考虑到大学教育的短期性，这样的未来可能比预期更快到来。目前，大约一半的本科生在大学期间还没有接触过生成式 AI。「我们谈论的是整整一代人的学习方式可能都受到了严重破坏，」Green 表示。「它正在缩短学习过程，而且这种情况正在迅速发生。」

在 OpenAI 于 2022 年 11 月发布 ChatGPT 之前，作弊现象其实已达到了新高度。当时，许多大学生远程完成高中学业，基本无人监督，并且可以使用 Chegg 和 Course Hero 等工具。这些公司标榜自己拥有庞大的在线教科书和课程资料库，但实际上，它们只是作弊的多功能工具。Chegg 承诺每月只需 15.95 美元，即可获得其雇佣的 15 万名拥有高学位的专家（主要在印度）提供的全天候服务，最快 30 分钟内即可解答家庭作业问题。

不过在 ChatGPT 推出后，学生们迎来了一款速度更快、功能更强大的工具。

学校管理者对此却束手无策。由于无法全面禁止 ChatGPT，大多数学校采取了临时措施，由教授决定是否允许学生使用人工智能。一些大学对此表示欢迎，与开发者合作，推出自己的聊天机器人帮助学生选课，或开设以生成式人工智能为重点的新课程、证书课程和专业。但监管仍然困难重重。多少程度的 AI 帮助是可以接受的？学生是否应该被允许与大模型对话以获取灵感，但不能要求他们直接复制粘贴？

如今，教授们通常会在教学大纲中阐明他们的政策 —— 例如，允许使用人工智能，但学生必须像引用其他来源一样引用它；或者只允许 AI 提供概念帮助；或者要求学生提供与聊天机器人对话的记录。学生们通常将这些指示理解为指导方针，而非硬性规定。有时，他们会在作业上作弊，甚至在不知情的情况下 —— 或者在不了解具体程度的情况下，要求聊天机器人修改草稿或查找相关研究进行引用，这显然违反了大学政策。

Wendy 是纽约市一所顶尖大学的金融专业大一学生，她告诉我，她反对使用人工智能。或者，她澄清道：「我反对复制粘贴。我反对作弊和剽窃。所有这些。这违反学生手册。」然后她一步步描述了她是如何在最近一个星期五早上 8 点调用一个人工智能平台来帮助她写一篇两小时后截止的四到五页的论文。

每当 Wendy 使用 AI 写论文时（也就是说，每当她写论文时），她都会遵循三个步骤。第一步：「我会对大模型说，『我是一名大学一年级学生，我正在上这门英语课』，」Wendy 说道。「它会教给你一种非常高级、非常复杂的写作风格，而你肯定不想要那样。」第二步：Wendy 会介绍一下她所学课程的背景，然后将教授的指示复制粘贴到聊天机器人中。第三步：「然后我会问，『根据提示，你能否给我一个提纲或组织结构，以便我能够按照提纲写作？』然后，它会给我一个提纲、引言、主题句、第一段、第二段、第三段。」有时，Wendy 会要求 AI 列出支持或反驳某个论点的观点：「我不太擅长组织文章，而这个提纲让我很容易理解。」

大模型聊天机器人勾勒出 Wendy 的论文大纲，提供主题句和观点要点后，她只需填写其他内容即可。温迪在上午 10:17 提交了一份工整的五页论文，迟到的时间尚可接受。当我问她作业完成得如何时，她说她得了个好成绩。「我真的很喜欢写作，」她说道，语气中带着一丝奇特的怀旧之情 —— 那是她最后一次独自写作文。

「说实话，我觉得精心规划论文很有意思。你能学到很多东西。你必须思考，哦，我这一段该写些什么？或者我的论点应该是什么？」但她更希望获得好成绩。「用 ChatGPT 写论文，它就像直接告诉你要遵循什么。你真的不用想那么多。」我问 Wendy 能不能读一下她交的论文。打开论文，我惊讶地发现论文的主题是：批判教育学，即巴西教育家保罗・弗莱雷开创的教育哲学。这种教育哲学考察社会和政治力量对学习和课堂动态的影响。她的开场白是：「学校教育在多大程度上阻碍了学生批判性思考的认知能力？」

后来，我问Wendy，她是否意识到自己利用 AI 撰写的不仅是一篇关于批判教育学的论文，而且是一篇论证学习才是「让我们真正成为人」的论文，这其中的讽刺意味。她不确定该如何理解这个问题。「我经常使用人工智能，几乎每天都用，」她说。「我确实认为它会剥夺批判性思考的能力。但只是 —— 既然我们依赖它，我们真的无法想象没有它的生活。」

我接触过的写作课教授大多表示，学生使用人工智能写作时往往破绽百出。有时是语言过于流畅，但句式呆板单调；有时又显得生硬机械。论点呈现诡异的绝对平衡 —— 反驳观点竟与论文核心主张同样严密周详。multifaceted（多方面的）、context（上下文）这类词汇出现频率异常偏高。去年甚至有教师发现学生论文开篇赫然写着「作为 AI，我被编程设定......」，不过更多时候迹象更为隐蔽，这使得指认 AI 抄袭比认定传统剽窃困难得多。

部分教授开始采用所谓的特洛伊木马策略：在作业要求段落间插入白色小字体的怪异短语（理论上会诱导 ChatGPT 在论文中植入突兀内容）。比如圣克拉拉大学的学生最近就发现教授布置的作业里暗藏 broccoli（西兰花）一词。

有学生在社交上揭发了这个陷阱并警告同学。「这招偶尔奏效，很多情况下有些学生不仅没有写论文，而且在提交论文之前也没有仔细阅读自己的论文。」一位大学教授表示道。

但一些教授们坚定的认为他们能检测出 AI 生成的写作，然而事实并非如此。

2024 年 6 月发表的一项研究中，英国某大学采用虚构学生档案，将完全由 AI 生成的作业混入教授批改队列，结果 97% 的 AI 作业未被标记。

更棘手的是，自 ChatGPT 问世以来，AI 生成类人文本的能力还在持续进化。

这促使高校纷纷启用 Turnitin 等 AI 检测工具 —— 该软件通过分析 AI 文本的特征模式进行识别，检测系统会为文本段生成一个百分比数值。学生间流传着某些教授的红线阈值传闻（比如 25%），超过该数值就可能被认定为违反学术诚信。

然而，无论是规模庞大的大学还是小型私立学院，无论是精英学府还是普通院校，我采访的所有教授中，没有一人承认执行过这种「AI 检测红线政策」。多数教授似乎已无奈接受一个现实：现有 AI 检测工具根本靠不住。

不同检测工具的准确率差异悬殊，研究数据也充满矛盾。虽然某些系统宣称误报率不足 1%，但多项研究表明，英语非母语者的作业更容易被误判为 AI 生成。Turnitin 首席产品官坦言，他们的产品宁可漏判也不愿误报，以避免教师错误指控学生抄袭。

为验证检测效果，我将 Wendy 的论文输入免费检测工具 ZeroGPT，结果显示 AI 生成概率仅为 11.74%—— 考虑到其核心论点明显由 AI 构建，这个数值低得反常。更荒诞的是，当我把一本书（创世纪）的段落输入同一系统时，竟被判定为 93.33% 可能由 AI 生成。

当然，要糊弄教授和检测工具，学生有的是办法。

用 AI 生成论文后，他们可以手动改写、加入个人风格或故意制造几个错别字 —— 甚至直接让 AI 代劳：比如输入指令「模仿有点犯蠢的大一新生文风」。

更隐蔽的做法是通过多款 AI 进行「文本洗稿」，有些 AI 工具标榜允许上传过往作业来训练专属写作风格。学生们太会钻空子了 —— 先把指令输给 ChatGPT，产出文本扔进第二个 AI 系统，再转手第三个 AI 系统。经过层层转码，检测工具显示的 AI 概率就会逐次递减。

大多数教授逐渐意识到，要遏制 AI 滥用泛滥，仅靠个人审查远远不够，可能需要彻底改革教育体系，更全面地评估学生。许多教师如今深陷无力感。

去年秋季，来自爱荷华大学的助教 Sam Williams 表示，他所教授的课程明文禁止使用 AI。当批改第一份作业时 ——Williams 还乐在其中。但到第二份作业时，学生的文风突然剧变。荒诞的是事实性错误频出：多篇论文竟用整段篇幅讨论另一个不相关的人。Williams 直接对学生摊牌：别用 AI，但如果非要作弊，至少得聪明点。

Williams 表示「学生们用 AI，是因为这是个简单的解决方案，能轻松逃避写论文的耗时过程。我理解这点，因为我上学时也讨厌写论文。但现在每当遇到一点困难，他们不是迎难而上、从中成长，而是退缩到让事情变得轻松得多的捷径上。」

到 11 月时，Williams 估计至少半数学生都在用 AI 写论文。追究责任根本无济于事 —— 他早已不信任 AI 检测工具，而授课教授也明确指示他不要因 AI 使用而判定论文不及格，即便是那些明显经过 AI 润色的作业。「每次向教授反映这个问题时，我都能感觉到他低估了 ChatGPT 的能力。系里的态度是这事难以界定，我们无法真正证明学生使用了 AI，我被要求按照假设这是篇真实完成的论文来打分。说白了，我其实是在给学生们使用 ChatGPT 的能力评分。」

这项「假设真实完成论文」的评分政策彻底扰乱了 Williams 的评分体系。如果给一篇明显由 AI 生成但质量尚可的论文打 B，那么按照他的说法，对于那些真正自己动笔却交上来「狗屁不通文章」的学生，又该如何打分？这种混乱彻底动摇了 Williams 对教育体系的信念。学期结束时，他已然心灰意冷，决定放弃研究生学业。「我们身处一个全新的时代，而教育这条路，已经不是我想要的了，」他说道。

Jollimore 已经教了 20 多年的写作。现在他确信：人文学科（尤其是写作）正迅速沦为一门与时代脱节的艺术选修课，就像编篮子一样。

「每次我和同事谈这个问题，他们总是提起同一件事：退休。我什么时候才能退休？我什么时候才能摆脱这些？我们现在都在想这些，」他说。「这可不是我们当初想要的。」Williams 和我采访过的其他教育工作者将 AI 的接替描述为一场全面的生存危机。「学生们似乎意识到这个系统已经崩溃，这样做真的毫无意义。也许这些作业的初衷已经丢失，或者没有很好地传达给他们。」

他很担心，如果被动地让 18 岁的年轻人决定是否主动写作业，会出现不良的长期后果。这会让职场软技能差距加速扩大吗？如果学生依靠 AI 来接受教育，他们又能为职场带来什么技能呢？

加州大学伯克利分校计算机科学讲师 Lakshya Jain 一直在用这些问题试图说服他的学生「如果你提交的作业是 AI 完成的，你实际上就相当于是 AI 引擎的人类助手，这让你很容易被取代。为什么有人会留着你？」这并非空穴来风：一家科技研究公司的首席运营官（COO）最近就问 Jain，为什么他还需要程序员。

理想情况下，大学是增长智识的地方，学生可以接触深刻的思想。但是，这种理想早在 ChatGPT 出现之前就已经消失了。高昂的成本和赢家通吃的经济模式已经让大学教育变成了一种类似交易的过程，一种达到目的的手段。（德勤最近的一项调查发现，仅略多于一半的大学毕业生认为他们的教育值得每年花费数万美元，而职业学校毕业生的这一比例为 76%。）

某种程度上讲，AI 能够快速高效地完成大学水平作业这件事本身就暴露了问题的核心。「作为教育工作者，我们还没有开始消除社会多年来对学生认知和精神造成的伤害 —— 这种社会把学校教育视为获得高薪工作、或许是某种社会地位的手段，仅此而已，我们怎么能指望他们理解教育的意义呢？」Jollimore 在最近的一篇文章中写道。「或者更糟的是，我们认为学校教育毫无价值，就像一种骗局，一场精心设计的骗局？」

而使用 AI 的不仅仅是学生：现在也有不少可以给学生的论文写反馈的工具。这就产生了这样一种可能性：AI 评估 AI 生成的论文。如此一来，整个学术活动就简化为了两个机器人之间的对话 —— 甚至可能只是一个机器人自我对话。

我们还需要数年时间才能完全解释这一切对学生大脑的影响。

一些早期研究表明，当学生将认知任务转移给聊天机器人时，他们的记忆力、解决问题的能力和创造力可能会受到影响。

过去一年发表的多项研究将 AI 的使用与批判性思维能力的下降联系起来；其中一项研究发现，这种影响在年轻参与者中更为明显。今年 2 月，微软和卡内基梅隆大学发表了一项研究，发现人们对生成式 AI 的信心与批判性思维投入的减少相关。其最终效果即使不完全像《机器人总动员》那样，至少也是对个人努力和能力的一次重大重组，从高强度的探究和事实收集转向整合和验证。

如果考虑到 AI 并不完美（它可能依赖于一些事实上不准确的东西，或者完全杜撰一些东西），再加上社交媒体对 Z 世代辨别事实和虚构的能力造成的毁灭性影响，这一切就尤其令人不安。

问题可能远不止生成式 AI。弗林效应（Flynn effect ）指的是智商分数的持续上升，至少可以追溯到 20 世纪 30 年代。这种增长速度在 2006 年左右开始放缓，在某些情况下甚至出现下降。

康奈尔大学心理学教授 Robert Sternberg 告诉《卫报》：「在这个生成式 AI 时代，最大的担忧不是它会损害人类的创造力或智力，而是它已经损害了。」

也有学生担心这个问题，即使他们不愿意或无法放弃聊天机器人，毕竟这让他们的生活变得无比轻松。佛罗里达大学计算机科学专业的 Daniel 告诉我，他清楚地记得第一次尝试 ChatGPT 的情景。他说，他大步穿过走廊，来到高中计算机科学老师的教室，拿出他的 Chromebook 给他看。「我当时就想：『哥们儿，你一定要看看这个！』我爸爸现在回想起史蒂夫・乔布斯的 iPhone 主题演讲，都会想，『是啊，那真是个重要时刻。』对我来说，看着这样的东西，感觉就像我会把它用在我的余生的每一天。」

AI 让 Daniel 更加好奇；他喜欢每当有问题时都能快速找到完整的答案。但当他用 AI 做作业时，他常常会想，如果我花时间去学习，而不是仅仅去发现，我是不是能学到更多？在学校，他让 ChatGPT 确保他的论文精炼且语法正确，在时间紧迫时帮他写好论文的前几段，处理编程课上的繁琐工作，基本上省去了所有可以省事的环节。有时，他知道使用 AI 明显违反了学生行为准则，但大多数时候，他感觉自己处于一个灰色地带。他说：「我想没人会说找家教是作弊吧？但如果家教开始帮你写论文，会发生什么呢？」

最近，芝加哥大学数学专业大一新生 Mark 向一位朋友承认，他比平时更多地使用 ChatGPT 来帮助他完成一个编程作业。

他的朋友打了一个多少让人感到安慰的比喻：「你可以是一个盖房子的承包商，使用所有这些电动工具，但到头来，没有你，房子就不会存在。」不过，Mark 说：「这真的很难判断。这能算是我的成果吗？」

我问了 Daniel 一个假设，试图了解他觉得哪种程度才算是他的成果，哪些又是 AI 的：如果他发现恋人给他发了一首 AI 创作的诗，他会难过吗？

「我想问题在于，你收到的东西的价值主张是什么？是他们创造了它？还是东西本身的价值？」他说道。「在过去，给某人写信通常同时意味着这两件事。」如今，他还是会发出手写的笔记 —— 但这些笔记都是他用 ChatGPT 起草的。

杜克大学教授 Orin Starn 在最近一篇题为《我与 AI 作弊的败局之战》的专栏文章中写道：「语言是思想之母，而非婢女。」他引用了一句常被认为出自 W. H. 奥登 (W. H. Auden) 的名言。

参阅：https://www.dukechronicle.com/article/2025/02/losing-battle-ai-cheating

但培养批判性思维的不仅仅是写作。得州农工大学副教务长 Michael Johnson 说：「学习数学是为了培养你系统地经历一个过程来解决问题的能力。即使你不打算在职业生涯中使用代数、三角学或微积分，你也会运用这些技能，在遇到不合理的事情时，获得洞见。」

青少年受益于结构化的逆境，无论是代数还是家务。他们的自尊和职业道德还在构建中。正因如此，社会心理学家 Jonathan Haidt 主张：让孩子们学习做困难的事情很重要，而科技正让孩子们更容易避免困难。

OpenAI 首席执行官萨姆・奥特曼（Sam Altman）倾向于将学术界对 AI 应用的担忧视为目光短浅，他将 ChatGPT 描述为仅仅是「一个文字计算器」，并表示作弊的定义需要改进。这位斯坦福大学的辍学生去年曾说过：「用老式的方法写论文不会有什么用，」但他在 2023 年在参议院技术监督委员会发表讲话时，他承认了自己的保留意见：「我担心随着模型越来越好，用户自己的判断过程会越来越少。」

OpenAI 一直不遗余力地向大学生推广。比如，它推出的 ChatGPT Plus 的订阅费通常是每月 20 美元，但在期末考试期间却会免费向学生开放。（OpenAI 认为，学生和老师需要学习如何负责任地使用它，并强调了它向学术机构销售的 ChatGPT Edu 产品。）

3 月下旬，Lee 在 X 上发布了有关其纪律听证会的详细信息后，哥伦比亚大学暂停了他的学业。他没有重返校园的计划，也不想在大型科技公司工作。

Lee 向我解释说，通过向世界展示 AI 可以在远程求职面试中作弊，他推动了科技行业的进化，就像 AI 推动高等教育进化一样。他说：「每一次技术创新都会促使人类静下心来思考哪些工作真正有用。也许在 17 世纪或 18 世纪，有人抱怨机器取代了铁匠，但现在人们普遍认为学习铁匠是无用的。」

Lee 早已不干面试作弊这种事情了。今年 4 月，他和 Shanmugam 推出了 Cluely，它可以扫描用户的电脑屏幕并监听音频，以便在无提示词的情况下实时提供 AI 反馈和问题解答。

「我们打造的 Cluely，是为了让用户不再独自思考，」公司宣言中写道。这一次，Lee 试图通过一则耗资 14 万美元的脚本广告进行病毒式传播。广告中，Lee 饰演的一位年轻软件工程师 —— 他利用安装在眼镜上的 Cluely，在与一位年长女性的初次约会中撒谎。当约会开始不顺利时，Cluely 建议 Lee「看看她的艺术作品」，并提供了一个脚本供他参考。「我看到了你的个人资料和那幅有郁金香的画，你真是我见过最漂亮的女孩。」Lee 从眼镜里读到这句话，这挽救了他和她在一起的机会。

在推出 Cluely 之前，Lee 和 Shanmugam 从投资者那里筹集了 530 万美元，这笔钱让他们能够雇佣两名程序员，他们是 Lee 在社区大学认识的朋友（不需要求职面试或 LeetCode 答题），然后他们搬到了旧金山。

在 Cluely 推出几天后，我们进行了交谈，当时 Lee 正在他的房地产经纪人办公室，准备拿新工作间的钥匙。我们交谈时，他正在电脑上运行 Cluely。虽然 Cluely 还不能通过人们的眼镜提供实时答案，但他们的想法是，不久的将来它将在可穿戴设备上运行，看到、听到并对你周围的一切做出反应。Lee 说：「最终它会装在你的大脑里。」

目前，Lee 希望人们能够使用 Cluely 继续 AI 对教育的攻城略地。他说：「我们的目标是数字化 LSAT、数字化 GRE 考试；所有校园作业、测验和考试。它几乎能让你在所有事情上作弊。」

#WorldMem

转身世界就变样？WorldMem用记忆让AI生成的世界拥有了一致性

本文一作为肖泽琪，本科毕业于浙江大学，现为南洋理工大学博士生，研究方向是基于视频生成模型的世界生成和模拟，导师为潘新钢。个人主页：

https://xizaoqu.github.io

近年来，基于视频生成模型的可交互世界生成引发了广泛关注。尽管现有方法在生成质量和交互能力上取得了显著进展，但由于上下文时间窗口受限，生成的世界在长时序下严重缺乏一致性。

针对这一问题，南洋理工大学 S-Lab、北京大学与上海 AI Lab 的研究者提出了创新性的世界生成模型——WorldMem，通过引入记忆机制，实现了长时序一致的世界生成。

WorldMem 在 Minecraft 数据集上进行了大规模训练，支持在多样化场景中自由探索和动态变化，并在真实数据集上验证了方法的可行性。

论文名称：WorldMem: Long-term Consistent World Simulation with Memory
项目主页： https://xizaoqu.github.io/worldmem
论文代码：https://github.com/xizaoqu/WorldMem
Demo：https://huggingface.co/spaces/yslan/worldmem

研究背景

世界生成模型在近期受到了广泛关注，如谷歌的 Genie 2 [1]、阿里的 The Matrix [2]、Meta 的 Navigation World Models [4] 等。这些方法在生成质量与交互性方面取得了显著进展，但长时一致性问题仍未得到有效解决。

举例：当我们控制视角先向右转，再向左转。

在传统方法中，回看时场景内容会发生显著变化。

在 WorldMem 中，我们在世界生成模型中引入记忆机制，实现了一致的世界生成。

方法效果

WorldMem 通过引入记忆机制，实现了长时序下世界生成的一致性。智能体可在广阔的动作空间中探索多样场景，生成结果在视角和位置变化后仍保持良好的几何一致性。

同时，WorldMem 还支持时间一致性建模。比如在雪地中放置南瓜灯，随着时间推移，模型不仅保留该物体，还能生成其逐渐融化周围积雪的细节，体现真实的事件演化过程。

方法

WorldMem 模型的主要结构如下图所示，包含三大核心模块：

条件生成模块
记忆读写模块
记忆融合模块

条件生成模块——支持交互与持续生成的条件视频生成主干

我们基于 Oasis [5] 和 Conditional DiT [6] 构建了世界生成基模型，并采用 Diffusion Forcing [3] 训练策略，使模型能在有限上下文下实现自回归式长时生成。

尽管扩散模型结合自回归训练具备一定的长时生成能力，但仍受限于上下文窗口，易出现遗忘问题，导致生成内容逐渐失真。为此，我们引入记忆机制，以增强模型的长期一致性。

记忆读写模块——负责历史信息的存取与精准检索

记忆库（Memory Bank）：构建生成的长期记忆

为缓解上下文窗口带来的遗忘问题，我们引入了记忆机制，作为一个持续更新的外部缓冲区，帮助模型回顾过去，保持场景在时间上的连续性。

我们设计的记忆库用于存储生成过程中的关键历史信息。每个记忆单元包含图像帧及其对应的状态（视角位姿与时间戳）。随着生成推进，记忆库不断积累，构建起一套可检索的时间记录。

记忆检索（Memory Retrieve）：高效选出最相关的历史帧

由于每次生成仅能参考少量历史帧，我们设计了一种贪心匹配算法，从庞大的记忆库中高效筛选关键信息：

计算相似度（基于视野重叠与时间差异）；
选取与当前场景最接近的记忆单元；
过滤冗余，确保选出的记忆代表性强、信息多样。

这一过程不仅提升了生成效率，也保障了历史信息的有效利用。

记忆融合模块——融合关键历史帧，引导当前生成

在长时序视频生成中，仅依赖当前帧难以维持场景一致性。我们引入记忆融合模块，通过融合关键历史帧，引导当前生成，使模型在视角或场景变化后，仍能还原先前内容。

不同于 StreamingT2V [7]、SlowFast [8] 等方法主要依赖高层语义特征，我们更关注细节重建与空间一致性，因此需要更精细的历史关联机制。

Memory Attention：连接过去与现在

我们采用跨注意力机制，实现当前帧与历史帧的动态交互：

为当前帧和记忆帧添加状态嵌入（位姿 + 时间）；
通过注意力计算，提取与当前场景最相关的记忆信息，生成融合特征用于引导生成。

这种方式实现了历史信息的高效利用与精准检索，显著增强生成的一致性。

状态嵌入设计：精细表达空间与时间

为提升融合效果，我们设计了两类嵌入：

位姿嵌入：采用 Plücker 坐标表达空间位置；
时间嵌入：使用 MLP 映射时间戳。

二者相加构成最终状态特征。此外，我们引入相对嵌入机制：

查询帧使用零向量，仅依赖记忆帧的相对状态；
并采用帧独立检索策略，确保每帧都能单独提取最相关历史信息。

整体上，记忆融合模块显著提升了模型的空间理解与细节保持能力，是实现稳定、连贯世界生成的关键组成部分。

实验

在 Minecraft 上的结果

我们在 Minecraft 基准测试中评估了所提方法，结果显示：

在短时生成中，传统方法易出现一致性问题，而引入记忆机制后，生成质量与一致性明显提升；
在长时推理中，传统方法性能显著下降，而我们的方法在各项指标上保持优势，展现出良好的长期稳定性。

长时序生成对比

下图展示了不同消融设置下，模型在 300 帧序列上的 PSNR 变化。结果表明：

缺少记忆模块或采用随机检索的方法，在短时间内即出现一致性下降；
缺少相对位置编码的模型，在 100 帧后性能明显退化；
完整方法在 300 帧以上仍保持稳定一致性，展现出优越的长期建模能力。

可视化结果

与仿真数据（Ground Truth）相比，WorldMem 能够基于记忆条件输入，准确建模世界场景，同时支持动态变化（如降雨），并保持良好的时间一致性。

，时长00:09

WorldMem 支持与生成世界的交互，例如在沙漠中放置干草堆或在草原上种植作物。这些事件会被写入记忆库，并影响后续生成。当用户回到曾种植作物的位置时，不仅能看到作物仍在，还能观察其从发芽到生长的过程，体现出模型对时间动态的建模能力。

在真实场景上的结果

我们同时也将我们的方法在真实场景数据上做了验证，结果显示，加入记忆机制后，我们的方法能够增强真实世界生成的一致性。

更多定制轨迹的结果:

更多细节请参考我们的论文与项目主页。

展望

近年来，视频生成模型（如 WAN 2.1 [9]、Hunyuan [10] 等）展现出惊人的世界生成与仿真能力，验证了其在理解与生成复杂环境中的潜力。

我们相信，未来交互式视频生成模型将在虚拟仿真、交互智能等领域发挥越来越重要的作用。

WorldMem 为世界一致性建模迈出了关键一步，随着技术发展，视频生成模型有望成为构建真实、持久、交互式虚拟世界的核心引擎。

参考文献

[1] Genie 2: A large-scale foundation world model. 2024.

[2] The Matrix: Infinite-Horizon World Generation with Real-Time Moving Control. arXiv 2024.

[3] Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion. NeurIPS 2024.

[4] Navigation World Models. CVPR 2025.

[5] Oasis: A universe in a transformer. 2024.

[6] Scalable Diffusion Models with Transformers. ICCV 2023.

[7] StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text. arXiv 2024.

[8] Slow-Fast Learning for Action-Conditioned Long Video Generation. arXiv 2024.

[9] Wan: Open and Advanced Large-Scale Video Generative Models. arXiv 2025.

[10] HunyuanVideo: A Systematic Framework For Large Video Generative Models. arXiv 2024.

#CineMaster

快手可灵团队提出3D感知的可控电影级视频生成工作CineMaster！

Sora、可灵等视频生成模型令人惊艳的性能表现使得创作者仅依靠文本输入就能够创作出高质量的视频内容。然而，我们常见的电影片段通常是由导演在一个场景中精心布置多个目标的运动、摄像机拍摄角度后再剪辑而成的。例如，在拍摄赛车追逐的场景时，镜头通常跟随赛车运动，并通过扣人心弦的超车时刻来展示赛事的白热化。而如今的视频生成模型无法实现 3D 场景中目标、相机联合控制的文本到视频创作，限制了 AI 影视制作的能力。

近期，可灵研究团队在「3D 感知可控视频生成」领域做出了首次尝试，推出了电影级文本到视频生成框架 CineMaster，允许用户在提供全局文本描述的基础上，通过提出的交互式工作流辅助用户像专业导演一样布置场景，设定目标与相机的运动，指导模型生成用户想要的视频内容。目前该论文已录用于 SIGGRAPH 2025。

论文标题：CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation

论文地址：https://arxiv.org/abs/2502.08639

项目主页：https://cinemaster-dev.github.io/

，时长01:43

CineMaster 支持 3D 感知的目标、相机运动控制

a) 目标相机联合控制

b) 目标运动控制

c) 相机运动控制

可以观察到，CineMaster 可以根据用户提供的多模态细粒度的控制信号生成期望的视频，支持较大幅度的目标、相机运动的可控生成。

CineMaster 框架

CineMaster 通过两阶段的工作流，实现高度可控的文本到视频生成：

阶段 1：构建 3D 感知的控制信号。用户可以通过交互式界面在 3D 空间中调整物体的边界框（3D Bounding Box）和摄像机位置，这个过程类似于真实的电影拍摄过程，即导演多次调整演员在场景中的排布和相机的运动。随后，导出相机轨迹和每帧的投影深度图，作为后续生成的条件信号。

阶段 2：如图所示，该方法框架通过语义布局 ControlNet 的架构集成了物体的运动控制信号和物体的类别标签信息，从而明确地控制每个目标的运动。此外，通过 Camera Adapter 集成了相机运动控制信号表示视频序列的全局运动。

CineMaster 训练数据构建流程

数据构建流程旨在从任意视频中提取 3D bounding boxes、类别标签、视频相机轨迹，主要包含 4 个步骤：

通过 Qwen2-VL 增强的实体描述提升开放词汇目标检测模型 Grounding DINO 的性能，并通过 SAM v2 实现视频实例分割；
利用 DepthAnything V2 估计视频的绝对深度；
在每个目标的 Mask 最大帧通过深度投影分割结果到点云空间计算 3D bounding box；
访问由 Spatial Tracker 实现的 3D 点跟踪结果，计算所有目标在视频序列中的 3D bounding box，并投影整个 3D 场景得到深度图。

此外，该框架利用 MonST3R 计算了视频的相机轨迹。

对比结果

上图中研究者将 CineMaster 与基线方法进行了比较。据观察，基线方法无法显式地关联给定的运动条件和相应的目标，也存在目标运动和相机运动耦合的问题。而 CineMaster 可以合成符合文本提示、目标、相机控制信号的高质量视频。请访问项目主页查看视频结果。

总结

在本文中，研究者期望为用户提供强大的 3D 感知的可控视频生成能力，让用户能够像专业导演一样创作。为此，首先设计了一个 3D 感知的交互工作流，允许用户直观地编辑目标和相机的运动；随后开发了一个多模态条件控制视频生成模型，生成用户想要的视频。此外，该方法精心设计了一套从任意视频中提取 3D 控制信号的数据构建流程，为 3D 可控视频生成领域的研究提供了实践经验。

更多细节请参阅原论文。

快手视觉生成与互动中心 (Kuaishou Visual Generation and Interaction Center）是「可灵」视频生成大模型背后的核心团队，主要技术方向是视觉内容生成和多模态互动。我们致力于通过计算机视觉/图形学、多模态机器学习、XR/HCI等多领域的交叉，一方面帮助每个人更好的表达自己和创作优质内容，另一方面为每个人提供更好的内容体验和交互方式。

#CoT（Chain-of-thought）

强迫模型自我争论，递归思考版CoT热度飙升！网友：这不就是大多数推理模型的套路吗？

递归思考 + 自我批判，CoRT 能带来 LLM 推理力的飞跃吗？

CoT（Chain-of-thought）大家都很熟悉了，通过模仿「人类解题思路」，进而大幅提升语言模型的推理能力。

这几天，一个名为 CoRT（Chain-of-Recursive-Thoughts）的概念火了！从名称上来看，它在 CoT 中加入了「递归思考」这一步骤。

具体来讲，CoRT 能让 AI 模型递归地思考它们的响应，生成替代性方案，并从中选择最佳的一个。

这就像赋予了 AI 自我质疑或反驳的能力，并一遍一遍地尝试。

通过将「结构化自我批判」和「递归思考模式」结合起来，提升语言模型的推理能力。

$图片编辑助手\SCR-20250512-jzan.jpg$

短短两周时间，CoRT 在 GitHub 的星标数已经快突破 2k 了。

GitHub 地址：https://github.com/PhialsBasement/Chain-of-Recursive-Thoughts

从技术原理来讲，相较于传统的 CoT，CoRT 让语言模型不仅能分步骤思考，还能在思考过程中反复回头检查、修正，形成类似于人类的「反思性思维」或「内省」的推理路径。

然而，很多网友对 CoRT 的出现并没有感到太激动。CoRT 是让 LLM 更努力思考的不错技巧，但称不上什么新颖的 idea。它的工作原理就像一个加入了递归组件的元提示（meta-prompt）。

还有网友指出，这种方法在 2023 年的论文中《Improving Factuality and Reasoning in Language Models through Multiagent Debate》就出现了。

有网友发出疑问：CoRT 不就是现在大多数 LLM 的思考模式吗？

比如在 Cursor 中配置的 Gemini 2.5 Pro，它的 CoT 就是这样做的。模型会思考一分钟，并反驳自己的答案，直到找到最无力反驳的答案。

再比如，CoRT 不就是 Qwen 和 R1 中的「but wait」模式吗？模型一直思考，并自我反驳，两者似乎没有什么不同。

大家觉得，CoRT 是不是「新瓶装旧酒」呢？请在评论区留言。

项目介绍

根据项目介绍，CoRT 的诀窍在于以下四个方面：

自我评估；

有竞争力的替代生成方案；

迭代优化；

动态思维深度。

工作流程包括了以下四个步骤：

首先，AI 生成初始响应。

其次，AI 决定它需要多少轮「思考」。

接着，对于每一轮思考：

生成 3 个替代性响应；
评估所有响应；
选择最佳响应。

最后，最终响应就是这场 AI 大混战的幸存者。

Web 界面使用方式（仍处于早期开发阶段）

一，打开 start_recthink.bat

二，等待一会，让它安装依赖项

三，配置成功

如果你是运行在 linux 系统上，则依如下：

打开一个新的壳层（shell）:

效果怎么样呢？

作者使用 Mistral 3.1 24B 进行了测试，根据他的说法，CoRT 在编程任务中的表现从「meh」（一般般）升到了「holy crap」（碉堡了）。

我们来看一下示例，下图为 Mistral 3.1 24B+CoRT：

下图为 Mistral 3.1 24B 无 CoRT：

从结果来看，使用 CoRT 前后，Tic-tac-toe（井字棋）游戏从基础的 CLI（命令行界面）变成了完全的 OOP（面向对象编程）。

参考链接：https://x.com/omarsar0/status/1917401353061818478

#R1-Reward

RL训练总崩溃？R1-Reward稳定解锁奖励模型Long-Cot推理能力

多模态奖励模型（MRMs）在提升多模态大语言模型（MLLMs）的表现中起着至关重要的作用，在训练阶段可以提供稳定的 reward，评估阶段可以选择更好的 sample 结果，甚至单独作为 evaluator。尽管近期强化学习（RL）在传统视觉任务和多模态推理任务中取得了显著进展，但其在奖励建模中的应用仍然受到挑战，尤其是如何通过强化学习对奖励模型引入长期推理能力。

来自快手、中科院、清华、南大的研究团队发现，直接把现有的 RL 算法（比如 Reinforce++）用到训练 MRM 上，会遇到很多问题，比如训练过程很不稳定，甚至直接崩掉。本文的出发点就是要解决这些问题，探索如何利用强化学习来稳定、有效地提升多模态奖励模型的长时推理能力。基于团队在多模态强化学习的工作 MM-RLHF (ICML 2025)，本文进一步提出了 R1-Reward，在现有的多模态奖励模型 benchmark 上相比于 SOTA 模型有 5%-15% 的提升，且随着 inference sampling 的数目增多还能进一步增长。

R1-Reward 不仅在学术上展现了巨大价值，还在快手的实际业务场景中得到了成功应用。例如，在短视频、电商和直播等场景中，该方法已用于标签识别、多图 / 多视频相关性判断以及短视频推荐，并取得了显著的性能提升，展示了较强的工业化潜力。

[📖 arXiv Paper](https://arxiv.org/abs/2505.02835)

[📊 Training Code](https://github.com/yfzhang114/r1_reward)

[🏆 R1-Reward Model](https://huggingface.co/yifanzhang114/R1-Reward)

一分钟速看全文内容

1. 重新定义问题：作者把训练奖励模型这个问题，看成是一个基于规则的强化学习任务。简单说，就是给奖励模型一个问题和两个答案，让它通过学习来判断哪个答案更好，并且能给出合理的分析。

2. 提出新算法 StableReinforce：针对现有 RL 算法的不足，他们提出了一个改进版的算法叫 StableReinforce。这个算法主要在几个方面做了优化：

改进了损失函数里的裁剪操作，提出了 Pre-Clip，防止数值计算不稳定。
提出了一种更稳健的优势值（advantage）处理方法（叫做优势过滤器 Advantage Filter），不容易被极端值带偏。
设计了一个新颖的“一致性奖励” (Consistency Reward)。它引入了另一个大模型作为 “裁判”，专门检查奖励模型自己的分析过程和它最终给出的答案是不是一致的。如果一致，就给奖励，这样能促使模型做出更符合逻辑的判断。

3. 渐进式的训练策略：

他们从各种公开数据集中收集了 20 万条偏好数据，构建了一个名为 R1-Reward-200k 的数据集用于训练。
采用了一种 “渐进式难度” 的训练策略。因为直接用 RL 训练模型效果不好（冷启动问题），他们先用 GPT-4o 对这些数据生成了详细的思考过程，作为监督微调（SFT）的数据，让模型先 “入门”。同时，他们记录了 GPT-4o 判断每个样本的难度（需要尝试几次才能判断对）。
在后续的强化学习阶段，专门挑选那些 GPT-4o 都觉得比较难（需要尝试多次或者干脆判断错误）的样本进行训练，让模型在难题上得到锻炼。

4. 效果显著：

实验结果表明，这个 R1-Reward 模型在几个主流的多模态奖励模型测评基准（如 VL Reward-Bench, Multimodal Reward Bench）上表现非常出色，显著超过了之前的最佳模型 (SOTA)。比如在一个榜单上提升了 8.4%，在另一个榜单上提升了 14.3%。
更有趣的是，他们发现通过在推理时多做几次计算（比如采样 5 次或 15 次，然后投票选最多的答案），R1-Reward 的性能还能进一步大幅提升，这说明 RL 方法在优化奖励模型方面潜力巨大。
他们还观察到，经过 StableReinforce 的 RL 训练后，模型输出的平均长度减少了大约 15%，这意味着模型可能变得更有效率了。

现有强化学习方法的局限性

什么是奖励模型

奖励模型（Reward Model）通常被用来判断两个模型的回答，哪一个更符合人类喜好。具体的优化公式如下：

具体的优化公式大概长这样：

这里的 r (y|x) 是模型打的分数，σ 是个 sigmoid 函数，E 表示求期望（平均）。即模型要尽量让好答案的分比坏答案的分高，差距越大越好，然后通过 log 和 sigmoid 函数来计算损失。

PPO 和 Reinforce++ 算法简介

PPO (Proximal Policy Optimization)

PPO 是一种很常用的强化学习算法，属于策略梯度方法，目标是直接优化模型（策略）来获得最大的累积奖励。它的厉害之处在于，它不像传统的策略梯度方法那样容易因为步子迈太大而导致训练不稳定。PPO 通过一种特殊的方式来限制每次策略更新的幅度。

它的目标函数如下：

这个公式的核心思想在于 min 和 clip 操作。它确保了就算 ratio * A_t （标准的策略梯度目标）很大，也会被 clip 后的项限制住，防止策略更新过猛导致训练不稳定。PPO 因为实现简单、效果好，所以在很多地方（比如机器人控制、玩游戏）都得到了应用。

Reinforce++

Reinforce++ 是在 PPO 基础上做了一些优化的版本，目的是让训练更稳定、更高效。主要改进有：

1、在reward中增加了KL 散度惩罚：在奖励函数里加入了一项用来惩罚强化学习模型（RL model）和监督微调模型（SFT model）在每个词（token）上的输出概率分布差异过大。奖励函数变成了：

。这里

表示只有在生成结束符时才加上原始的任务奖励r(x, y) ，

是那个 KL 惩罚项。

2、奖励和优势的归一化：它会对整个批次（batch）的奖励进行归一化、裁剪和缩放，还对优势值A进行归一化：

（减去均值

，再除以标准差

）。

在很多研究中 Reinforce++ 比 GRPO 更稳定，比 PPO 收敛更快。

PPO/Reinforce++ 的问题在哪？

虽然 PPO 和 Reinforce++ 不错，但在实际训练中，尤其是在训练奖励模型的时候，研究者们发现它们有两个核心问题，很容易让模型训练不稳定甚至失败：

1. 训练损失导致的不稳定：

计算 PPO 损失时，需要算概率比值 ratio。如果新旧策略差别很大，此 ratio 可能会变得非常大或非常小。
在代码实现里（比如用 PyTorch），通常是算 ratio = torch.exp(log_probs - old_log_probs)。如果 log_probs - old_log_probs 差值很大，exp() 运算可能会导致数值溢出，最终导致程序崩溃。
即使数值没有溢出，如果算出来的 ratio 很大，并且优势 A_t 是负的（表示这个动作不好），那么根据 PPO 的损失公式，这个损失值可能会变得异常大。这么大的损失会让模型的参数更新变得极其不稳定。

2. 优势归一化导致的不稳定：

奖励模型的训练数据标签通常很简单，比如就两个标签：1 和 2（1 好还是 2 更好）。模型比较容易学会区分。
这就导致在训练后期，一个批次（batch）里的数据，模型可能大部分都能预测对。比如一个 batch 里有 255 个样本的真实奖励是 1，只有 1 个是 0。
在这种情况下，奖励的方差会非常小。如果这时候还用标准的优势归一化方法（减均值除以标准差），那个奖励为 0 的样本对应的优势值，在归一化之后可能会变成一个绝对值非常大的数（例子中是 -15.96）。
这么大的优势值同样会干扰模型的更新，导致训练不稳定。

总的来说，就是直接把 PPO 或者 Reinforce++ 用在奖励模型训练上，会因为损失计算和优势归一化这两个环节内在的问题，在高效率训练或者训练后期特定数据分布下，引发数值不稳定，最终影响模型效果。

StableReinforce 提升训练稳定性

1. Pre-CLIP 策略：为了减小大比例差异的影响，Pre-CLIP 策略会在计算对数概率的指数值之前对比例进行裁剪。通过在应用指数函数前裁剪 log-πθ/πθold 的比例，可以避免由于比例差异过大而导致的溢出问题，并缓解负优势情况下的大对数差异。裁剪后的公式为：

其中

和分别为允许的最小和最大比例限制（上面的伪代码会更清晰一些（algorithm 1））。

2. Advantage Filter 策略：为了避免由于优势分布的极端不平衡对训练带来的影响，文章采用了 3-sigma 规则（即保留标准化优势在范围内的样本）。公式为：

标准化后的优势通过公式

计算，其中

和

分别为优势分布的均值和标准差。

结合了 Pre-CLIP 和优势过滤器，最终用来优化的目标函数长得有点像常用的 PPO 算法的目标函数，但有所修改：

R1-Reward

将 MRM 转化为强化学习问题

首先使用下面的 prompt，将奖励建模问题转化为 rule-based 的强化学习问题

近期 follow deepseek-r1 工作的方法基本上都是格式奖励 + 结果奖励，但是在奖励模型训练过程中，这存在着一致性问题：即只用上面两个奖励时，模型有时会 “精神分裂”：分析部分（<analysis>）明明说回答 2 更好，但最后却输出 <answer>1</answer>。因此本文引入了一个额外的 “裁判” 模型（文中用了 Qwen2.5-VL-7B-Instruct）。这个裁判专门负责检查奖励模型自己输出的分析内容，看它是不是真的支持最终给出的那个答案。

1. 奖励函数设计：文章提出了三种奖励函数：

格式奖励：要求模型的输出符合指定的格式，即‘<think> </think><answer> </answer>’，鼓励模型在给出最终答案之前先进行推理，以提高内容的质量和可解释性。
结果奖励：模型最终生成的答案必须与人类专家的偏好一致。
一致性奖励：确保推理过程与最终答案一致，即模型的最终结果应当直接源自其推理过程，而不是与推理步骤无关的生成内容。

2. 最终奖励计算：为了解决可能出现的一致性奖励过度偏重的问题，最终的奖励计算公式为：

这样的设计好在 Consistency Reward 的加成效果（乘以 0.5 再加 1）只有在 Result Reward 大于 0（也就是答案选对）的时候才能真正起作用。如果答案选错了，Result Reward 通常是 0 或者负数，那么一致性奖励就不会带来正向激励（或者激励很小），从而确保模型首要目标还是把答案选对。格式奖励作为一个基础分被加上去。

“长思考链” 的冷启动问题 (Long-CoT Cold Start)

多模态大模型（MLLMs）本身并不是为做奖励模型这种 “评价比较” 任务而设计的，所以直接用强化学习去训练它们，效果通常很差而且不稳定，因此本文先进行了一轮监督微调。

做法：让 GPT-4o 对 R1-Reward-200k 数据集里的每一条数据，都按照 Table 1 里的提示模板，生成标准的 “分析过程” 和 “最终答案”。生成时设置 temperature=1（让输出更发散），并且最多尝试 3 次，直到生成的答案和真实标签一致。

记录难度：同时，他们还记录了 GPT-4o 需要尝试几次才能生成正确答案，把这个次数作为样本 “难度” 的指标。

目的：这个 SFT 阶段就像是给模型 “预习”。通过模仿 GPT-4o 的输出，先让模型学会任务的基本格式和流程，熟悉这个奖励建模任务应该怎么做。

强化学习（RL）训练数据的筛选

1. 筛选标准：在进行真正的强化学习训练时，并不是用 SFT 阶段的所有数据。研究人员专门挑选了那些被认为是 “更难” 的样本。

2. 具体来源：

在 SFT 阶段，那些 GPT-4o 需要尝试 2 次或 3 次才能给出正确答案的样本。
以及那些 GPT-4o 尝试了 3 次仍然没能给出正确答案的样本。

研究人员认为，这些样本通常意味着两个回答之间的差别更小，更难判断优劣。用这些 “硬骨头” 来训练模型进行强化学习，可以更有效地提升模型辨别细微差异的能力。

有趣的实验发现

研究人员通过一系列实验来验证他们提出的 R1-Reward 模型和 StableReinforce 算法的效果，得到了一些挺有意思的结果：

R1-Reward 效果拔群

在好几个主流的多模态奖励模型排行榜（比如 VLReward Bench, Multimodal Reward Bench, MM-RLHF-Reward Bench）上，R1-Reward 的表现都非常亮眼，平均准确率显著超过了之前最好的开源模型（比如 IXC-2.5-Reward）。

Test-Time Scaling

他们尝试在评价的时候，让 R1-Reward 模型对同一个问题输出好几个判断结果（比如输出 5 次或 15 次），然后采取少数服从多数（投票）的方式来决定最终哪个答案更好。

结果发现，这种简单的 “投票” 策略能大幅提升 R1-Reward 的准确率。比如在 MM-RLHF 这个比较难的榜单上，投票 5 次就能把准确率从大约 71% 提升到 85.3%，投票 15 次更是达到 86.47%，远超其他模型。

更有意思的是，他们还试了另一种策略叫 “Any Correct”，就是只要模型输出的 K 次结果里有一次是正确的，就算对。结果发现，当 K=15 时，这种策略的准确率几乎接近 100%！这暗示 R1-Reward 其实有潜力完美区分所有样本，只是需要更多的数据或更好的训练策略来完全激发出来。

aha Moment

通过 SFT 和 RL 训练，R1-Reward 不仅学会了如何评价两个回答，还自主地学习到了一套分析流程：先明确目标、分析图像、尝试解决问题、给出答案，然后基于这个过程去评价两个外部给定的回答。

更有趣的是，模型展示出了类似人类的反思和纠错能力。比如在上图中，模型自己计算时出错了，但在检查图表后，意识到了错误并重新计算得到了正确结果。这说明模型不仅仅是在模仿，还在学习某种程度的自我检查和修正机制。

经过强化学习训练后，模型输出的分析内容的平均长度还减少了约 15%，说明模型可能变得更 “言简意赅”，推理效率提高了。

结论

本文介绍了 R1-Reward，这是一种使用 StableReinforce 算法训练的多模态奖励模型（MRM）。通过实验，本文证明了强化学习（RL）在奖励建模中的有效应用，显著提升了模型的表现。R1-Reward 解决了多个关键问题，包括训练不稳定、优势归一化限制以及推理和结果之间的不一致性。通过引入 Pre-Clipping、优势过滤、一致性奖励以及渐进式训练策略，StableReinforce 算法有效稳定了训练过程并提升了模型性能。

实验结果表明，R1-Reward 在多个多模态奖励模型基准上超越了现有最先进的模型（SOTA），在准确率和数据效率方面取得了显著进展。此外，R1-Reward 还展示了优秀的推理时扩展能力，为未来将强化学习融入多模态奖励模型（MRM）的研究奠定了基础。

展望未来，RL 在奖励建模中的应用仍有许多值得探索的方向。例如，本文仅测试了简单的多数投票策略用于推理时扩展，未来可能通过更先进的方法进一步提升性能。此外，改进训练策略以进一步增强奖励模型的基础能力，也是一个有意义的开放性问题。

#LEGOGPT

CMU朱俊彦等上新LEGOGPT，一句话就能搭乐高，网友：复杂零件行不行？

AI 不允许有人不会搭乐高。

近日，CMU 助理教授朱俊彦团队带来了新研究 —— 基于文本生成 3D 乐高的大模型。

这款大模型有多强呢？比如输入文本「基本款沙发」，一眨眼的功夫，乐高沙发就拼好了。

如果你觉得乐高沙发太简单，可以继续上难度，让它生成一个复杂点的书架，只见不同大小的积木拼拼凑凑，乐高书架就完工了，整个流程像不像你在拼乐高：

不仅如此，生成的乐高还有纹理和颜色：

为了证明 AI 搭乐高的设计过程在现实生活中可用，研究人员让机器臂组装了由 AI 创建的 LEGO 模型，结果很完美。

接下来，我们看文章主要内容。

得益于生成模型和神经渲染技术，3D 生成模型已经取得了显著进展，并在虚拟现实、游戏、娱乐和科学计算等领域实现了各种应用。比如，一些研究探索了从文本合成 3D 对象、为网格添加纹理以及操控现有 3D 对象和场景的形状和外观。

不过，应用现有方法创建现实世界中的对象仍然充满挑战。大多数方法侧重于生成具有高保真几何形状和外观的多样化 3D 对象，但受限于两个关键挑战，这些数字设计往往无法在物理上实现。一是，这些对象可能难以使用标准组件来组装或制作。二是，即使可以组装，最终的结构也可能存在物理不稳定。如果没有适当的支撑，设计的某些部分可能会坍塌、漂浮或保持分离状态。

因此，朱俊彦团队探讨了生成物理可实现对象的挑战，并在乐高（LEGO）设计环境中进行研究。乐高广泛应用于娱乐、教育、艺术创作和制造原型。同时，由于所有标准组件很容易获得，乐高可以作为可复现的研究基准。由于手动设计需要付出巨大努力，最近一些研究开发了自动化算法来简化流程并生成了令人信服的结果。

然而，现有方法主要基于给定的 3D 对象创建乐高设计，或者专注于单一对象类别。本文的目标是开发一种方法，直接从自由格式的文本提示生成乐高设计，同时确保其物理稳定性和可搭建性。具体来说，研究者的目标是训练一个生成模型，使其能够生成具有以下特点的设计：

物理稳定性：构建在具有强大结构完整性的乐高底板上，不会出现积木漂浮或坍塌的情况。

可搭建性：与标准乐高积木兼容，并且能够由人类或机器人逐块组装。

研究者提出了 LEGOGPT，其关键洞察在于将最初用于下一个 Token 预测的自回归大型语言模型重新用于下一个积木预测。他们将乐高设计问题表述为一个自回归文本生成任务，其中下一个积木的尺寸和位置用简单的文本格式指定。而为了确保生成的结构既稳定又可搭建，研究者在训练和推理过程中都强制执行物理感知的组装约束。

在训练过程中，研究者构建了一个包含物理稳定的乐高设计并配有字幕的大规模数据集。在自回归推理过程中，研究者通过有效性检查和物理感知回滚来执行可行性，以确保最终的 Token 符合物理定律和组装约束。

论文标题： Generating Physically Stable and Buildable LEGO® Designs from Text
论文主页：https://avalovelace1.github.io/LegoGPT/
arXiv 地址：https://arxiv.org/pdf/2505.05469
GitHub 地址：https://github.com/AvaLovelace1/LegoGPT
Demo 地址：https://huggingface.co/spaces/cmu-gil/LegoGPT-Demo

实验表明，本文生成的乐高设计稳定、多样且视觉吸引力强，同时能够完美契合输入文本提示。本文方法优于预训练的 LLM（无论是否包含上下文学习）以及以往基于网格 3D 生成的方法。

朱俊彦表示：LegoGPT 是迈向「物理对象生成制造」这一终极目标的一小步。当前版本仍存在局限：仅支持 20x20x20 的构建尺寸、21 种物体类别和基础积木类型，但他们也在努力扩展其能力！

面对这么好玩的应用，网友纷纷求教程：

还有网友担心，复杂的零件能不能完成啊？

方法介绍

数据集

训练自回归模型需要大规模数据集，因此，本文推出了 StableText2Lego，这是一个全新的大规模 LEGO 数据集，包含 47,000 多种不同的乐高结构，并涵盖 ShapeNetCore 数据集中 21 个常见对象类别中的 28,000 多个独特的 3D 对象。其概览如图 2 所示。

LegoGPT Pipeline

在实现方法上，本文提出了 LEGOGPT，这是一种能够根据文本提示生成物理结构稳定的 LEGO 设计的方法。

该方法通过利用 LLM 的序列建模和文本理解能力，对预训练 LLM 进行 LEGO 生成任务的微调。为了增强设计成品的结构稳定性和可搭建性，本文在推理过程中采用了逐块拒绝采样和物理感知回滚机制。图 3 展示了本方法的整体框架。

模型微调：本文进一步使用自定义指令数据集对预训练的 LLM 进行微调，该数据集包含来自 StableText2Lego 的文本提示及其对应的乐高结构。

预训练基础模型。本文使用 LLaMA-3.2-1B-Instruct 作为基础模型，如图 5 所示，基础模型可以通过上下文学习生成类似 LEGO 的设计。

然而，生成的设计通常会遗漏某些物体部件，并且包含相交或断开的积木，这使其在物理上不稳定且无法搭建。为了解决这些问题，本文使用数据集进一步微调了预训练模型。

物理稳定性：尽管该模型基于物理稳定性数据进行了训练，但有时生成的设计仍会违反物理和组装约束。为了解决这个问题，该研究进一步将物理稳定性验证纳入自回归推理中。

如果乐高结构在底板上搭建时不会倒塌，则该结构被认为是物理稳定的且可搭建的。为此，本文使用稳定性分析方法评估物理结构稳定性。图 4 (a) 展示了施加在单个积木上的所有可能力。

LEGOGPT 推理算法如下：

乐高纹理和着色：颜色和纹理在创意乐高设计中也起着至关重要的作用。因此，本文提出了一种应用精细 UV 纹理或为单个积木分配统一颜色的方法。

实验

图 5 展示了一系列多样化、高品质的 LEGO 设计，这些设计紧密遵循输入提示。

本文选取 LLaMAMesh 、LGM、XCube 和 Hunyuan3D-2 作为基线方法。如表 1 所示，本方法在所有指标上均超越基线方法。图 5 直观展示了本方法生成的乐高结构质量显著优于基线方案。

#MCA-Ctrl

多方协同注意力控制助力AIGC时代图像精准定制化

本文由中国科学院计算技术研究所研究团队完成，第一作者为硕士生杨晗，通讯作者为副研究员安竹林，助理研究员杨传广。

论文标题：Multi-party Collaborative Attention Control for Image Customization
论文地址：https://arxiv.org/abs/2505.01428
论文代码：https://github.com/yanghan-yh/MCA-Ctrl

背景

近年来，生成式人工智能（Generative AI）技术的突破性进展，特别是文本到图像 T2I 生成模型的快速发展，已经使 AI 系统能够根据用户输入的文本提示（prompt）生成高度逼真的图像。从早期的 DALL・E 到 Stable Diffusion、Midjourney 等模型，这一领域的技术迭代呈现出加速发展的态势。

在基础 T2I 模型能力不断提升的背景下，图像定制化（Image Customization）需求日益凸显。所谓图像定制化，是指在对参考图像中的主体（subject）保持身份特征和本质属性的前提下，根据文本或视觉条件生成该主体的新表现形式。这一技术对于电子商务（如虚拟试衣）、数字内容创作（如个性化角色设计）、广告营销等应用场景具有重要价值。

当前，主流的图像定制化方法主要沿着三个技术路线发展：基于反演优化（inversion-based）的方法、基于多模态编码器（multimodal encoder-based）的方法，以及新兴的基于注意力控制（attention control-based）的方法。

尽管这些方法在特定场景下都取得了一定成效，但通过系统的实验评估和实际应用验证，我们发现现有技术方案仍然面临着若干关键性技术瓶颈。

1. 可控性不足：主流文本驱动方法难以精确控制背景、布局等元素。虽然 PhotoSwap 等新技术尝试引入图像条件，但仍局限于单一功能（替换或添加），无法实现统一控制。

2. 复杂视觉场景处理困难：面对多物体交互、遮挡等复杂场景时，常出现主体特征扩散问题，这源于模型在高响应区域生成的不准确性。

3. 背景融合不自然：在图像条件控制下，生成结果与原始背景的融合往往不自然。

方法

本文提出了一种无需微调的通用图像定制方法 — 多主体协同注意力控制 MCA-Ctrl，该方法利用扩散模型内部知识实现图像定制。其核心创新在于将条件图像 / 文本提示的语义信息与主体图像内容相结合，实现对特定主体的新颖呈现。MCA-Ctrl 主要针对三类任务：主题替换、主题生成和主题添加。

本方法分为通过条件图像和条件文本进行图像定制化，如下图（A）和（B）所示。具体而言，本方法首先引入主体定位模块（Subject Location Module，SLM）对图像进行精准定位，然后通过三个并行扩散过程中的自注意力注入与查询机制，在保持条件信息语义空间布局的同时捕获特定主体的视觉特征表示。

具体来说，MCA-Ctrl 在每个扩散步骤中，系统执行以下关键操作：

1）通过自注意力局部查询（Self-Attention Local Query，SALQ）目标过程从主体和条件信息中检索外观与背景内容，如图（C）；

2）通过自注意力全局注入（Self-Attention Global Injection，SAGI）将主体和条件信息的注意力图直接注入目标过程，如图（D）。

1. 自注意力局部查询

从任务视角看，我们的目标是从主体图像提取外观特征，并从条件中查询背景内容与语义布局。受 MasaCtrl 启发，我们利用自注意力层的键值特征表征图像内容。如上图（C）所示，目标过程通过查询特征 Q 从主体和条件中检索前景 / 背景内容，并使用主题、背景掩码约束查询区域。这种设计既能确保布局一致性，又能实现特定对象的外观替换与背景对齐。

2. 自注意力全局注入

经过 SALQ 操作后，生成图像常存在两个问题：（1）细节真实性不足，和（2）特征轻微混淆。我们认为这是由于查询过程本质上是原始特征与查询特征的局部融合，难免导致特征交叉。为此，我们提出全局注意力混合注入机制来增强细节真实性与内容一致性。如上图（D）所示，首先计算条件与主体图像的完整注意力矩阵，再通过掩码过滤获得主体特征和背景特征，最后将其注入目标扩散过程。这种重构式特征替换直接增强了前景 / 背景细节表现，同时有效降低了特征混淆。

实验

下图展示了 MCA-Ctrl 的编辑和生成能力。前三行主要展示了主体编辑性能，包括主体替换、主体添加以及复杂视觉场景中的主体替换，充分证明了 MCA-Ctrl 在主体与背景定制方面的高度一致性和真实感表现。第四行重点呈现了 MCA-Ctrl 的零样本定制生成能力，在物体、动物和人物等不同类别上均能实现高质量、高一致性且富有创意的再现效果。

表 1 展示了基于 DreamEditBench 的主题替换任务量化评估结果。相较于 BLIP-Diffusion、DreamBooth 和 PHOTOSWAP 等方法，MCA-Ctrl 在各项指标上均展现出相当或更优的性能表现。表 2 呈现了 DreamBench 上主题生成任务的评估结果。统一参数测试时，MCA-Ctrl 表现优于 Text Inversion、Re-Imagen 和 IP-Adapter，但略逊于 DreamBooth 和 BLIP-Diffusion。经过参数优化后，MCA-Ctrl 取得了与 BLIP-Diffusion 和 DreamBooth 相当的结果。此外，表 3 的人工评估结果表明，MCA-Ctrl 在主体对齐度和文本对齐度方面均表现突出。

我们在下图中展示了对图像生成的影响。实验表明，在复杂场景下，若完全省略 SAGI 操作，会导致目标定位失败和全局特征混淆等问题。随着的逐步增加，主体特征会呈现越来越清晰的表现。但值得注意的是，当超过总去噪步骤的 60%（此为大多数案例的经验阈值）后，继续增加 SAGI 执行步数对图像质量的提升效果将趋于饱和。具体而言，这一现象揭示了两个重要发现：（1）在去噪过程的前期阶段，SAGI 能有效建立主体与背景的语义关联；（2）在去噪后期，过度的全局特征注入反而可能破坏已形成的细节特征。这种 “边际效应递减” 特性为算法参数优化提供了重要指导。

我们也在代码仓库中构建了图像定制化的演示系统，如下所示，用户可以方便地根据自身的需求使用本文提出的方法完成图像定制化任务。

总结

综上所述，该文章提出了一种无需训练的图像定制化生成方法 ——MCA-Ctrl。该模型通过三个并行扩散过程间的协同注意力控制，实现了高质量、高保真度的主体驱动编辑与生成。此外，MCA-Ctrl 通过引入主题定位模块，有效解决了复杂视觉场景中的特征混淆问题。大量实验结果表明，相较于大多数同期工作，MCA-Ctrl 在编辑和生成任务上表现更优。

#Continuous Thought Machine，CTM

这个缩写怎么像骂街...

连续思维机器来了！Transformer八子之一创企推出，让AI不再「一步到位」拍脑袋做决定

开启「分步思考」新范式。

科学界的一个共识是：即使是最复杂的现代人工智能，也难以媲美人类大脑的表现和效率。

研究者经常从大自然中寻找灵感，了解如何在人工智能领域取得进步，例如利用进化来合并模型、为语言模型进化出更高效的记忆或探索人工生命的空间。虽然人工神经网络近年来让人工智能取得了非凡的成就，但它们仍然是其生物对应物的简化表征。所以，能否通过结合生物大脑中的特征，将人工智能的能力和效率提升到新的水平？

他们决定重新思考认知核心的一个重要特征：时间。

刚刚，Transformer 作者之一 Llion Jones 联合创立的的Sakana AI 发布了「连续思维机器」（Continuous Thought Machine，CTM），这是一种将神经元活动同步作为其核心推理机制的人工智能模型，也可看作一种新型人工神经网络，它利用神经元动态之间的同步来完成任务。

博客地址：https://sakana.ai/ctm/

技术报告：https://pub.sakana.ai/ctm/paper/index.html

代码地址：https://github.com/SakanaAI/continuous-thought-machines/

与传统人工神经网络不同，CTM 在神经元层面使用定时信息，从而实现了更复杂的神经行为和决策过程。这一创新使该模型能够逐步「思考」问题，使其推理过程具有可解释性和类人性。

研究表明，在各种任务中，机器人解决问题的能力和效率都有所提高。

Sakana AI 表示，CTM 是弥合人工神经网络与生物神经网络之间差距的重要一步，有可能开启人工智能能力的新领域。

，时长00:57

CTM 解迷宫和思考真实照片的可视化（图片来源：Alon Cassidy）。值得注意的是，尽管 CTM 的设计并不明确，但它在迷宫中学会的解法却非常容易解释，而且类似于人类，可以看到它在「思考」解法时描绘出通过迷宫的路径。对于真实图像，虽然没有明确的激励措施让它四处查看，但它会以直观的方式查看。

研究创新

尽管随着 2012 年深度学习的出现，人工智能的能力有了重大飞跃，但自 20 世纪 80 年代以来，人工智能模型中使用的人工神经元基本模型在很大程度上一直没有改变。研究人员仍然主要使用神经元的单一输出，这代表了神经元的激发情况，却忽略了神经元相对于其他神经元激发的精确时间。

不过，有力的证据表明，这种定时信息在生物大脑中至关重要，例如在依赖于尖峰定时的可塑性中，它是生物大脑功能的基础。

在新模型中，Sakana AI 用来表示这种信息的方法是让神经元访问自身的行为历史，并学习如何利用这些信息来计算自身的下一个输出，而不仅仅是知道自身的当前状态。这样，神经元就能根据过去不同时期的信息改变自己的行为。此外，新模型的主要行为是基于这些神经元之间的同步，这意味着它们必须学会利用这些时间信息来协调完成任务。研究者认为，与当代模型中观察到的情况相比，这将产生更丰富的动态空间和不同的任务解决行为。

在添加了这种定时信息后，Sakana AI 在许多任务中看到了一系列非同寻常的行为。他们看到的行为具有很强的可解释性：在观察图像时，CTM 会小心翼翼地在场景中移动其视线，选择关注最显著的特征，而且它在某些任务中的表现有所提高。这让研究者惊讶于神经元活动动态中的行为多样性。

CTM 中的神经元动态样本，显示神经元如何随不同的输入而变化。CTM 显然学会了多种神经元行为。每个神经元（随机颜色）如何与其他神经元同步。研究者对其进行测量，并将其作为 CTM 的表征。

新模型的行为基于一种新的表征：神经元之间随时间的同步。研究者认为这更容易让人联想到生物大脑，但并非严格意义上的仿真。他们将由此产生的人工智能模型称为「连续思考机器」，它能够利用这种新的时间维度、丰富的神经元动态和同步信息来「思考」任务，并在给出答案前制定计划。

命名中使用「连续」一词，是因为 CTM 在推理时完全在内部「思考维度」运行。它对所消耗的数据是异步的：它可以以相同的方式对静态数据（如图像）或顺序数据进行推理。研究者在大量任务中测试了这一新模型，发现它能够解决各种问题，而且通常是以一种非常可解释的方式。

研究者观察到的神经元动态在某种程度上更像是在真实大脑中测量到的动态，而不是更传统的人工神经网络，后者表现出的行为多样性要少得多（请参阅下图与经典人工智能模型 LSTM 的比较）。CTM 显示了以不同频率和振幅振荡的神经元。有时，单个神经元会出现不同频率的振荡，而其他神经元只有在完成任务时才会出现活动。值得强调的是，所有这些行为都是完全突发的，并没有设计到模型中，而是作为添加定时信息和学习解决不同任务的副作用出现的。

CTM 完整架构如下图所示，其中①为突触模型（权重用蓝线表示），建模跨神经元交互以产生预激活。对于每个神经元，②都会保留预激活的历史记录，其中最新的历史记录被 ③神经元级模型（权重用红线表示）用于产生④后激活。此外还会保留 ⑤ 后激活的历史记录，并用于 ⑥ 计算同步矩阵。从同步矩阵中选择⑦神经元对，从而产生⑧潜在表征。CTM 用这些表征⑨产生输出并通过交叉注意力机制调制数据。调制后的数据（例如注意力输出）将与后激活连接起来⑩，用于下一个内部时钟周期。

CTM 架构的测试效果

由于新增了时间维度，CTM 的一大优势在于：可以观察并直观地看到它如何随着时间的推移解决问题。传统的 AI 系统可能只需通过神经网络一次性对图像进行分类，而 CTM 可以分多个步骤来「思考」如何解决任务。

下面展示了两个任务：解迷宫和照片中的物体分类。

首先来看解迷宫（Maze Solving）任务。在这个任务中，CTM 会被呈现一个自上而下的 2D 迷宫，并被要求输出走出迷宫所需的步骤。这种模式尤其具有挑战性，因为模型必须理解迷宫构造并规划解决方案，而不是简单地输出路径的视觉表示。

CTM 内部连续的「思考步骤」使其能够制定计划，从而可以直观地看到它在每个思考步骤中关注迷宫的哪些部分。值得注意的是，CTM 学会了一种非常类似于人类的解迷宫方法 —— 在它的注意力模式中沿着迷宫路径前进。

CTM 的行为模式尤其令人印象深刻，因为它自然而然地从模型架构中涌现出来。研究者并没有特意设计 CTM 来追踪迷宫中的路径，它通过学习自行开发展了这种方法。他们还发现，当允许 CTM 进行更多思考步骤时，它会持续沿着训练好的路径前进，这表明它确实学会了解决这个问题的通用方法。

接下来是图像识别任务。传统的图像识别系统只需一步即可做出分类决策，而 CTM 则需要多个步骤来检查图像的不同部分，然后再做出决策。这种循序渐进的方法不仅使人工智能的行为更易于解释，也提高了准确率：它「思考」的时间越长，答案就越准确。

研究者还发现，这种方法使得 CTM 能够减少在简单图像上思考的时间，从而节省算力。例如，在识别大猩猩时，CTM 的注意力会从眼睛转移到鼻子，再转移到嘴巴，这与人类的视觉注意力模式非常相似。

这些注意力模式为我们了解模型的推理过程提供了一个窗口，展示了它认为哪些特征与分类目标最相关。这种可解释性不仅有助于理解模型的决策，还可能有助于识别和解决偏差或故障模式。

结论

尽管现代人工智能以「人工神经网络」的形式建构在大脑之上，但即使在今天，人工智能研究与神经科学之间的重叠仍然少得惊人。AI 研究人员选择沿用上世纪 80 年代开发的极简模型，并且得益于简单易用、训练高效等属性，这些模型在推动人工智能发展方面持续取得成功。

另一方面，神经科学可以创建更精确的大脑模型，但其主要目的是理解大脑，而非试图创建更高级的智力模型。当然，两者之间可能存在某种关联。这些神经科学模型尽管更加复杂，但性能往往仍低于当前最先进的 AI 模型，因此，这类模型可能在人工智能应用领域缺乏进一步研究的吸引力。

尽管如此，研究者认为，如果现代人工智能在某些方面不能继续向大脑的工作方式靠拢，我们将错失良机。我们或许能够通过这种方式创建更强大、更高效的模型。2012 年，得益于受大脑启发的神经网络模型，AI 能力出现跃升，「深度学习革命」才出现。

为了继续推动这一进步，是否应该继续受到大脑的启发呢？CTM 是研究者首次尝试弥合这两个领域之间的差距，它展现出一些更像大脑行为的初步迹象，同时仍然是一个可以解决重要问题的实用人工智能模型。

研究者希望能够继续推动模型朝着这个受自然启发的方向发展，并探索可能出现的新功能。关于 CTM 在不同任务中的行为，请参阅原始技术报告。

#ViLAMP-7B

长视频理解新SOTA！蚂蚁&人大开源ViLAMP-7B，单卡可处理3小时视频

该工作第一作者为中国人民大学高瓴人工智能学院硕士生程传奇，目前于蚂蚁技术研究院实习，其主要研究领域为多模态大模型，蚂蚁技术研究院副研究员关健为共同第一作者。

在视觉语言模型（Vision-Language Models，VLMs）取得突破性进展的当下，长视频理解的挑战显得愈发重要。以标准 24 帧率的标清视频为例，仅需数分钟即可产生逾百万的视觉 token，这已远超主流大语言模型 4K-128K 的上下文处理极限。当面对影视级的长视频内容时，传统解决方案的不足愈加凸显：粗放式的帧采样策略往往造成关键帧信息遗漏，而特征融合方法虽能降低数据维度，却不可避免地导致语义完整性受损。

近日，蚂蚁和人大的研究团队带来了一个创新性的解决方案。他们提出视觉语言大模型 ViLAMP（Video-Language Model with Mixed Precision），实现了对超长视频的高效处理。这个方法的核心在于其独特的 “混合精度” 策略：对视频中的关键内容保持高精度分析，而对次要内容进行强力压缩，就像人类在观看视频时会重点关注关键场景，而对过渡时空信息只做快速扫描一样。

论文标题：Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation

论文地址：https://arxiv.org/abs/2504.02438

Github：https://github.com/steven-ccq/ViLAMP

实验结果令人振奋：ViLAMP 在 Video-MME 等五个主流视频理解基准上全面超越现有方案，特别是在处理长视频时展现出显著优势。更重要的是，它可以在单张 A100 GPU 上连续处理长达 1 万帧（按每秒 1 帧计算约 3 小时）的视频内容，同时保持稳定的理解准确率。这一突破不仅大大提升了视频处理效率，更为在线教育、视频监控、直播分析等实际应用场景带来了新的可能。相关论文已被 ICML 2025 接收。

横轴：处理的视频帧数（从 0 到 10,000 帧），纵轴： GPU 内存使用量（MB）。测试在单块 NVIDIA A100 GPU 上进行。

VideoNIAH（视频版本大海捞针任务）测试结果。横轴：视频总长度（2K-10K 帧）；纵轴：表示目标视频在完整视频中的相对位置（0% 表示在开头，100% 表示在结尾）。

视频信息在时空维度均呈现稀疏性与冗余性

为解决长视频处理的效率问题，研究团队首先对主流视觉语言模型（包括 LLaVA-OneVision、LLaVA-Video、Qwen2-VL 和 LongVA）进行了系统性分析，发现了视频信息在时间和空间上均存在显著的稀疏性和冗余性：

帧间注意力分析：在现有模型中，用户 Query 对相应视频的注意力高度集中 ——90% 的注意力仅分布在不到 5% 的视频帧上（称为关键帧）。更重要的是，这 5% 的关键帧之间往往存在很强的视觉相似度。
帧内注意力分析：在每一帧的内部，模型的注意力也展现出相似的稀疏性质 ——50% 的 patch（帧划分的最小单位）就承载了 80% 的模型注意力，但这些受关注的 patch 与关键帧中的对应 patch 具有远超随机基线水平的相似度。

这一发现表明现有模型在处理视频时存在大量计算资源的浪费。实际上，处理长视频不需要对每一帧、每个 patch 都投入同样的计算量。基于此，研究团队提出 “差分蒸馏原则”（Differential Distill Principle）：识别并保留重要的视频信息，同时压缩那些虽然相关但高度冗余的信息。其中，重要信息应该同时满足两个条件：（1）高查询相关性：与当前用户 Query 高度相关；（2）低信息冗余性：包含独特的视频信息。这一原则为后续设计高效的视频处理算法奠定了理论基础。

ViLAMP: 基于差分蒸馏的双层混合精度架构

前文的注意力分析揭示了一个关键问题：现有视觉语言模型对视频中所有帧和 patch 都采用相同的处理方式，导致大量计算资源的浪费。基于这一认识，研究团队提出了专门面向长视频处理的高效架构 ViLAMP，它能够根据信息的重要程度自适应地分配计算资源。

ViLAMP 模型结构图

ViLAMP 通过层次化的压缩框架实现这一策略：在帧级别，对重要的关键帧保留完整的视觉 token 表示，以捕获关键信息；而对于非关键帧，则采用强力压缩策略；在 patch 级别，通过差分机制增大重要 patch 的权重。

模型具体包含两个核心机制：

1. 差分关键帧选择（Differential Keyframe Selection，DKS）

为实现关键帧的高效识别，ViLAMP 采用了基于贪心策略的选择算法。该算法在最大化与用户 Query 的相关性的同时，通过差分机制降低帧间冗余，确保选中的关键帧既重要又多样化。

2. 差分特征合并（Differential Feature Merging，DFM）

针对非关键帧的处理，ViLAMP 创新性地通过差分加权池化，将每个非关键帧压缩为单个信息量最大化的 token。在压缩过程中，模型赋予那些与用户 Query 相关且具有独特性的 patch 较高的权重，同时降低与相邻的关键帧有显著重复的 patch 的权重，从而在大幅降低计算量的同时保留关键信息。

这种双层混合精度架构既确保了模型能够准确捕获视频中的关键信息，又显著降低了计算开销。

突破性性能：全面超越现有方案

在五个主流视频理解基准上的实验表明：

1.ViLAMP 以 7B 参数量达到或超越了部分 70B 量级模型的表现，特别是在 Video-MME 长视频子集上比现有最优模型提升 4.8%。

2. 针对当前视频理解基准中视频长度不足的问题，本文提出了面向视频理解场景的 “大海捞针” 任务 ——VideoNIAH。该任务将一段目标短视频（1 分钟以内）插入到小时级别的长视频中，要求模型在不依赖先验信息的情况下，从超长视频上下文中定位并理解该片段，进而回答相关问题。与传统基于文本的 NIAH 任务不同，VideoNIAH 中的答案无法直接从视频对应的文本描述中提取。因此，该任务本质上更具挑战性，难以达到语言模型在文本 NIAH 任务中所表现出的近乎完美的准确率（例如 99%）。VideoNIAH 任务的性能上限受限于模型对目标短视频原始 QA 的理解水平，进一步凸显了该任务对视频内容深层次理解能力的严格要求。在这一新提出的超长视频理解基准上，ViLAMP 在处理包含 10K 帧（约 3 小时）的视频时仍能保持 58.15% 的准确率（原始 QA 数据集准确率 78.9%），超越 VideoChat-Flash 基线模型 12.82%，展现出较强的长视频建模能力。

3. 计算效率显著提升：内存消耗相比 LLaMA-VID 基线降低约 50%，在 8,192 帧情况下计算量减少 80% 以上。

4. 深入的消融实验表明：与已有的关键帧选择方案相比，DKS 在长视频场景下表现出明显优势；与 Q-former 和平均池化等特征融合方案相比，DFM 在所有数据集上都展现出 3 个百分点以上的性能优势。

模型表现

Video-MME 排行榜

计算效率对比

结语

ViLAMP 通过创新的差分蒸馏框架成功突破了长视频处理的计算瓶颈，不仅在性能上实现了飞跃，更为视频理解领域提供了新的研究思路。该工作的原理性贡献和实用价值将推动视频理解技术在更多实际场景中的落地应用。期待未来看到更多基于此框架的创新发展。

#2025万篇投稿破纪录

作者被逼全员审稿！网友痛批不如GPT

这一届的ICCV 2025，论文投稿量达到惊人的11,152篇，刷新历史纪录。评审结果公布后，有人晒出高分成绩单，也有人对评审意见表示沮丧。面对如此庞大的投稿规模，大会如何确保评审质量？

ICCV 2025评审结果公布了！

这届ICCV论文投稿数量创历史新高。据大会官方公布，今年共收到11152份有效投稿，远超往届规模。

ICCV 2023顶会共收到了8088篇投稿

截至评审截止日期，11152篇有效投稿论文均已获得至少3份评审意见。

作者可以在5月16日晚上11:59（夏威夷时间）前提交rebuttal，ICCV 2025将于6月25日公布最终录用决定。

根据Paper Copilot发布的统计数据，论文评分曲线现已公开。

评分含义如下：

1：拒绝

2：弱拒绝

3：边缘拒绝

4：边缘接受

5：弱接受

6：接受

到目前为止，大约36%的人得分在3.67以上，只有4%的得分高于4.0。得分在3.67到4.0之间，大约有50%-70%的录用机会。

作为计算机视觉三大顶会之一，ICCV每两年举办一次，今年将于10月19日至23日，在夏威夷檀香山举办。

目前，已有许多童鞋晒出自己的评审结果了。

评审结果，遭全网吐槽

由于评审意见的公开时间多少有些「奇葩」，目前的讨论还没有很多。

网友表示，看到的大多是负面评论、攻击和批评。

网友吐槽：这是人能写出来的review吗？

「我都不会说是GPT写的，因为GPT比这个人有脑子多了，这个只能称为类人。」

大意如下：

该论文提出了一种通过视觉-语言模型结合推理阶段搜索来提高模型「理解力」的方法，该方法本质上是一种检索增强生成 (RAG) 方法。该方法包括预测生成内容之前的「后续内容的值」，并声称能够减少模型幻觉现象。我试图在论文中找到这些被引用的术语的定义。如果论文旨在提高模型的「理解力」，那么理应存在一个精确且客观的衡量标准，对于「幻觉」现象也应如此。然而，我并没有找到这些术语的明确定义，这导致「提高理解力」这一目标的定义实际上取决于用于衡量它的方法，即第4.2节中使用的基准测试。因此，我只能认为该论文在特定的一组基准测试所定义的任务上表现良好，而这种良好表现也是通过同样的基准测试来衡量的。在有限的评审时间内，我无法确定该方法在概念上是否可靠。我希望看到这些术语的明确定义、用于衡量它们的指标，以及优化这些指标的原理，特别是该论文提出的方法是如何实现这些优化的。考虑到影响该领域实证性能的诸多因素，我很难仅凭实验结果来判断其学术价值。

Pinar表示，「真诚感谢「辛勤」工作的ICCV审稿人，你们怕不是直接把ChatGPT的结果复制粘贴上来了！这行云流水般的胡言乱语，配上量子级的模棱两可，同时接受和拒绝，简直是薛定谔的审稿意见。」

Akshit认为，「所谓的领域专家显然误解了概念，这让我感到滑稽。我被要求阐释一些要么不存在，要么补充材料中已有的内容。」

还有网友表示沮丧，没有一个审稿人阅读补充材料。

还有人吐槽，比CVPR有更多不称职的评审。

不过，也有网友的积极评价——对ICCV评审质量提升感到惊讶，新政策确实发挥作用了。

还有一些网友晒出凡尔赛成绩单。

ICCV投稿量从2019年约4300篇逐步增长，到2021年突破6000篇，2023年更跃升至8000+篇。

论文录用率则在25%-26%区间波动，极少数论文被选为大会报告，大多数以Poster形式交流成果。

ICCV对审稿人的要求

ICCV通常会邀请近年在顶级会议（CVPR/ICCV/ECCV）或相关期刊上有发表成果的学者作为审稿人。

大会共邀请了6位大会主席 (PC)、500位领域主席 (AC)，以及约8000名审稿人参与评审。

全员参与审稿，离大谱？

每位投稿论文的作者都被要求担任审稿人。

前段时间，谷歌DeepMind研究员刘若茜吐槽了ICCV 2025全员参与审稿的制度。

她表示，我理解审稿人紧缺的现状，但强制规定「作者必须参与审稿」，且任何一人超期未完成，就会导致其所有论文被直接拒稿，这种规定实在荒谬了。

「完全不考虑作者也是人，谁还没个急事难处」？

马克斯·普朗克研究所主任Michael Black非常认同，他表示修改要求，让任何在CVPR/ICCV/ECCV发表过3篇以上论文作者必须参与评审。

这不有作者因为错过了评审截止日期，为自己论文被拒担惊受怕。

ICCV官方公布了最终结果，97.18%评审按时提交，只有95名审稿人错过了截止日期。

禁用LLM评审

此外，ICCV 2025明确禁止在评审过程中使用大模型（如ChatGPT），以确保评审意见的原创性和真实性。

审稿人必须提供真实评论，一方面对论文作者负责，另外在线聊天机器人会收集对话历史记录，以改进其模型。

因此，在评审过程中使用它们将违反ICCV保密政策。

加州大学圣地亚哥分校的Alex表示，完成今年的ICCV审稿后，整个人都不好了。

评论区表示同样感觉很糟糕，整体论文质量在下滑。

评审规则延续了以往的高标准，严格执行评审截止日期，确保每篇论文至少获得三份评审意见。

任何未能在截止日期前提交评审的审稿人，其作为作者的论文也将被直接拒稿。

根据官方统计，97.18%的评审意见均按时提交，仅有95位审稿人错过截止时间，导致112篇论文可能受影响。

ICCV建议审稿人发掘论文中的闪光点，鼓励具有创新性或大胆假设的工作。

如果一篇论文提出了新的思想，即使在某标准数据集上未超过SOTA性能，也不应仅因为这一点而被拒稿。

来自约克大学CS助理教授Kosta Derpanis转发一位网友的建议，勉励所有拿到不如意结果的研究者们：

对某些人来说，ICCV的评审结果并非如你所愿。这就是学术发表的常态——既要享受偶尔的成功喜悦，也要应对常见的失意挫折。这就是游戏的规则。

不妨趁此机会重新调整，仔细审视评审意见中的有效反馈，有价值的建议往往就藏在其中。有时你需要更深入地挖掘，但这些意见确实能帮助提升你的研究成果乃至整体研究思路。

对于那些还有机会的同行，祝你们好运！我见过太多在rebuttal阶段实现翻盘的论文。

同行评审：荣耀与荒诞

针对ICCV评审结果，来自Pattern Recognition Lab的科学家Andreas Maier发表了一篇长文，阐述了当前同行评审的现状。

评审：简洁批判，但过于简短

一位审稿人收到的论文，主题是降低医学图像生成计算复杂性的技术——将高维卷积分解为低维操作。

这是个有趣的点子，虽然不算全新，但在技术上似乎有潜力。

审稿人仔细研读后，将目光锁定在论文的评估部分，给出评价：

论文仅在一个鲜为人知的单一模态上测试，缺乏对公共数据集的验证（审稿人贴心地列出了可用的数据集建议）；性能提升的报告缺乏鲁棒性检查；更别提视觉比较的呈现混乱，连CT成像的标准Hounsfield单位都没用上。

简而言之：好想法，烂评估。于是，审稿人给出了一个「边缘拒绝」（Borderline Reject）的评价。

他的评审简洁但精准：总结了核心理念，肯定了优点，指出了数据集选择、泛化不足和图像呈现的具体问题。

这样的评审，专业、中肯、切中要害。

然而，他万万没想到，这份简洁的评审竟成了后续「剧情」的导火索。

领域主席「模板攻击」

几周后，审稿人收到了AC的反馈。

原本期待的是技术性的讨论，然而，现实却像一部黑色喜剧：

AC指责审稿人的评论「缺乏足够细节」，甚至引用了评审中根本不存在的语句！

这份反馈，更像是从《ICCV被动攻击反馈模板手册™》中直接复制粘贴，机械得让人怀疑AC是否真的读过评审。

审稿人震惊之余，礼貌但犀利地回复：指出自己的评论基于领域标准，而引用的「原文」子虚乌有，并反问道AC能否具体说明问题出在哪里。

这一幕，堪称学术界「皇帝的新衣」——模板化的反馈不仅无助于改进，反而暴露了评审流程中的官僚病。

程序主席快速反应

审稿人没有让这场闹剧无休止地发酵，他将问题升级到程序主席，简明扼要地陈述了事实。

好在，程序主席的反应堪称神速。

不到两小时，线下讨论展开；当晚，AC亲自回复审稿人，问题迅速化解。

一场可能拖延数周的学术纷争，在一天内画上句号。

同行评审的「抓马」

这场风波虽小，却折射出大规模同行评审的深层问题。

在ICCV这样的顶会上，审稿人，尤其是资深学者，常常需要同时处理数十篇论文，时间捉襟见肘。

AC则要协调数百篇论文、评审和rebuttal，堪称「学术项目经理」。

在这种高压环境下，人与人之间的对话，逐渐被模板、复选框、自动回复所取代。

结果呢？

评审的质量标准开始滑向「容易量化」的指标：字数、格式、是否填满表格。

一份两页的泛泛之谈，可能顺利过关，而一份紧凑、切中要害的论文，却被打上「细节不足」的标签。

AC忙碌到，只能复制粘贴反馈，甚至懒得读评审原文。这种官僚式回复，让同行评审失去了它应有的灵魂。

ICCV 2025的这场风波提醒我们：

评审的质量不在于篇幅，而在于洞察；评审的意义不在于形式，而在于对话。

参考资料：

https://x.com/papercopilot/status/1920964042123858217

https://iccv.thecvf.com/Conferences/2025/ReviewerGuidelines

https://www.reddit.com/r/MachineLearning/comments/1kgemvp/d_iccv_2025_review_and_score_discussion_thread/

https://papercopilot.com/statistics/iccv-statistics/

https://akmaier.substack.com/p/iccv-reviews-2025-where-scripts-dont?r=56pbmv&utm_campaign=post&utm_medium=web&triedRedirect=true