51c大模型~合集54

我自己的原文哦~                       https://blog.51cto.com/whaosoft143/12030828

#审稿进入「半实名制」

不负责任的审稿人将被标记并拒稿

「25篇的上限,还是太多了!」

作为计算机视觉领域最顶级的学术会议,CVPR 这几年可谓是卷疯了。

据统计,从 2020 年到 2023 年,CVPR 每年的投稿数量以约 1000 篇的速度飞速增长。到了 2024 年,投稿数量首次突破了一万大关。

从投稿数来看,CVPR 已经是当仁不让的「宇宙第一大会」。要知道,从 2010 年到 2016 年,这 7 年间,CVPR 的投稿量仅增加了 400 余篇。

图注:在 Google Scholar 上,CVPR 的影响力排名仅次于 Nature。

为了升学或求职,坐拥多篇顶会论文,似乎成为大多数人的努力目标。但投稿数量翻倍也有许多副作用,比如审稿意见越来越短、研究题目越来越结果导向、borderline 越来越多、AC 给的 meta-review 的随机性越来越强。

去年 CVPR 出分时,就有网友写下《审稿 CVPR 而致的伤痕文学:没落的顶会与空虚的文章》一文吐槽这种现状。随着 CVPR 接收的论文数越来越多,人们不禁开始推测明年、后年、甚至十年后 CVPR 的审稿结果得有多「抽象」?

图源:https://www.zhihu.com/question/640845145

为了守护顶会的尊严,这一次,CVPR 对审稿制度开刀了!

由于投稿数量急剧增加和审稿质量的下降,CVPR 组织方在今天宣布,将对现行的会议规定进行如下重大调整。

以下是变更的主要内容:

1. 除非作者在 CVPR 2025 组织中担任其他角色,否则所有作者都都有义务担任审稿人。审稿数量将根据作者资历水平决定。

2. 如果审稿人被 AC 标记为「高度不负责任」,他提交的论文将由 PCs 酌情直接拒绝。

3. 每位作者最多提交 25 篇论文,超过数量限制的论文将被直接拒绝。

4. 在任何阶段,均不允许使用大型语言模型(LLMs)撰写 review 或 meta-review。

5. 在最终论文决策公布后,审稿人的名字将在 OpenReview 上对其他审稿人可见。

6. 每位投稿者都需要填写完整的 OpenReview 个人资料以便更好地进行分配和冲突检测,否则论文将被直接拒绝。

7. CVPR 2025 的 PCs 计划将 CVPR 2025 的审稿数据私下分享给未来相关会议的 PCs。这些数据将精准地「归责到人」,包括对审稿质量的评估以及迟交的统计数据。

CVPR 组织方宣称,规定强制审稿是基于 CVPR 2024 的参与情况,有大约 9000 名审稿人,但作者超过了 30000 人。鉴于论文被 CVPR 接受能获得的好处,他们认为如果作者不为审稿做贡献,对社区是不公平的。以其他身份参与 CVPR 2025 组织工作或担任 ICCV 2025 的总主席 / 程序主席的作者,可免除此规定。

那么,什么样的审稿意见会被 AC 打成「高度不负责任」呢?这条规则是对过去 AC 会给不太负责的审稿人评「没有达到期待」的补充。会被判的行为包含:审稿意见只有一两句、由大模型生成的审稿意见、与被审论文不相关或遗漏重要内容的审稿意见。一旦被 AC 评为「高度不负责任」,那将进入由 PC 们裁决的监督流程,最终是否直接拒绝论文,将由 PC 们酌情决定。

为单个投稿人规定投稿篇数上限,则是 CVPR 组织方期望论文中列出的每位作者都对工作做出了重大且有意义的贡献。根据统计网站 Paper Copilot 的数据,CVPR 2024 中单个投稿人中稿数量最多的正是 25 篇。

图片

来源:https://papercopilot.com/paper-list/cvpr-paper-list/cvpr-2024-paper-list/

至于大模型在审稿意见中能参演的「戏份」,CVPR 组织方也做了明确规定:

1. 不能要求 LLM 为您撰写内容。评审需要基于您自己的判断。

2. 不能与 LLM 分享论文或您的评审的实质性内容。例如,不能使用 LLM 来翻译审稿意见。

3. 可以使用 LLM 进行背景研究或检查短语的清晰度。

高级 AC 将负责检查 (meta-) review 是否违反了以上规定,一旦被检查出来,投稿者也将进入由 PC 们裁决的监督流程。这项规定的决定性因素并非审稿意见是否出自 AI 之手(目前还无法准确判断),而是审稿人是否极不负责任,否则审稿人提交的论文将由 PC 们酌情直接拒绝。

新规一发布,就有不少研究者欢呼:「终于有人愿意管极其不负责任的审稿人了!」

此前,Neurips 也曾在 OpenReview 上公开过审稿人的姓名,确实起到了一定效果。

虽然这套强制审稿,并且要求审稿人保质保量完成审稿意见的「组合拳」拳拳到肉,也对「大水漫灌」树立了护栏,但是评论区更多的是质疑的声音。

其中,最多的质疑要数:「上限是 25 篇,还是太多了!」

对此,有网友提出,采用提交与审阅论文数量的比值作为规定,可能是一个更为合理的方案。

AAAI 2025 发布的公告也对单个投稿人的投稿数量进行了限制,每位作者最多只能向 AAAI-25 技术赛道提交不超过 10 篇论文,且提交后不得在论文上增加作者。

更令人担忧的是,这种做法真能从本质上提高审稿意见的质量吗?

首先,审稿本来是一种义务工作,强迫没有动力的审稿人参与,可能会适得其反。

其次,考虑到一篇论文通常涉及多位作者,该规定意味着一旦其中一位作者在审稿过程中表现不佳,整篇论文就可能面临被拒稿的风险,其他合著者也不得不为这位作者的失误承担责任。这种情况对于那些对论文贡献程度中等的作者来说,无疑会彻底改变他们的地位。

这可能也将导致本不富裕的审稿人数量「雪上加霜」。

对此,腾讯杰出科学家 (PCG ARC 实验室负责人) 单瀛也有类似的看法。

你怎么看呢?欢迎在评论区参与讨论。

参考链接:

​https://cvpr.thecvf.com/Conferences/2025/CVPRChanges​

​https://papercopilot.com/​

​https://x.com/thegautamkamath/status/1835026619817509194​

​https://x.com/chriswolfvision/status/1834888892324970961​

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#VAFlow

重新定义跨模态生成的流匹配范式,VAFlow让视频「自己发声」

本文第一作者是中国人民大学高瓴人工智能学院 2021 级博士生王希华(导师宋睿华),他的主要研究兴趣方向是多模态生成。本文通讯作者是宋睿华长聘副教授,她的 AIMind 团队主要研究方向是多模态感知、交互与生成。

背景:从「噪声到声音」到「视频到声音」

在多模态生成领域,由视频生成音频(Video-to-Audio,V2A)的任务要求模型理解视频语义,还要在时间维度上精准对齐声音与动态。早期的 V2A 方法采用自回归(Auto-Regressive)的方式将视频特征作为前缀来逐个生成音频 token,或者以掩码预测(Mask-Prediction)的方式并行地预测音频 token,逐步生成完整音频。

这两种方法都依赖于音频的离散化表示,而离散化处理往往由于信息损失会限制音质上限。

最近主流方法大多采用扩散模型或流匹配架构,通过「从噪声生成音频」的方式来实现视频驱动的声音合成。这种方式不依赖离散 token 表征,直接在连续的隐空间进行建模。通过采样随机噪声,并将视频信息作为条件,模型从噪声中逐步去噪,最终生成音频。但是这样的范式仍然存在两个天然瓶颈:

  1. 同一视频条件下的多对一映射:在训练阶段,模型被训练从不同的采样噪声中预测同一个音频,多对一的映射关系增加了训练难度;推理阶段,由于不同噪声样本通过 ODE 求解得到的推理结果差异较大,生成的音频质量难以保持一致,甚至出现「抽奖」现象。
  2. 不同视频条件下的一对多映射:在训练和推理阶段,模型被要求从相同的采样噪声出发只根据不同视频条件生成不同的音频,这要求模型具备极强的条件处理能力。

图片

主流扩散模型或流匹配架构的挑战

因此,模型需要从随机噪声中逐步「听懂」视频,这一过程依赖复杂的条件机制,导致路径复杂、训练低效且生成结果不稳定。

在这一背景下,中国人民大学宋睿华带领的 AIMind 团队与值得买科技 AI 团队提出了一个全新的框架 —— VAFlow。研究者提出:既然从噪声到声音依赖复杂的视频条件机制并且有上述局限,为什么不直接从视频出发生成声音?

基于这一思路,团队设计了一个直接建模「视频→音频」映射的跨模态流匹配框架 VAFlow。它摆脱了对高斯噪声先验的依赖,首次实现了从视频分布直接生成音频的范式转变,并在生成质量、语义对齐与同步精度上取得了显著突破。该研究已正式发表于 ICCV 2025。

图片

不同生成范式对比

  • 论文链接:https://openaccess.thecvf.com/content/ICCV2025/papers/Wang_VAFlow_Video-to-Audio_Generation_with_Cross-Modality_Flow_Matching_ICCV_2025_paper.pdf
  • 主页地址:https://vaflow.github.io/demo/

VAFlow:让视频直接「流」向声音

流匹配(Flow Matching)作为多媒体领域主流的生成算法,它学习一条从起点分布到目标分布的最优传输线路,模型沿着路线一步步把原始分布映射到目标分布。主流的流匹配方法中,模型往往将随机采样的高斯噪声作为起点,以视频为条件输入,逐步将噪声映射到音频分布,这种范式对模型的条件建模能力提出了很大的挑战。而 VAFlow 的核心思想简单又直观:不再从噪声出发,而是直接从视频出发,首次实现了视频分布到音频分布的直接映射。

这意味着模型不再从噪声中解读视频条件「猜测」声音,而是顺着视频的信息流自然生成声音,让视觉与听觉真正合而为一。

图片

VAFlow 框架图

VAFlow 的框架由两个关键模块组成:

  • 跨模态对齐自编码器(Alignment VAE):流匹配模型要求路径两端的分布形状相同,而视频和音频之间的时序和特征维度都存在差异。因此 VAFlow 借助跨模态对齐的变分自编码器调整视频特征以匹配音频特征,解决了视频与音频在时间长度和特征维度上的不匹配问题。
  • 视频驱动的流匹配生成器(Video-Conditioned Flow Matching Estimator):VAFlow 采用 Diffusion transformer (DiT) 架构,直接在视频分布与音频分布之间学习最优传输路径,避免了传统噪声先验带来的不稳定效果。

除此之外,VAFlow 保留了 DiT 结构中的交叉注意力层,让模型能够在流匹配采样过程中持续融合原始视频特征,同时支持推理过程中的无分类器引导。

先验分析:为什么「视频先验」(V-Prior)更优?

为了验证「以视频为先验」的合理性,团队对比分析了高斯先验 (Gaussian Prior) 与视频先验 (V-Prior) 的表现,从统计特性、可视化结构和生成质量三方面展开实验。

统计对齐性分析

研究者计算了先验与音频潜向量之间的 均方误差(MSE) 和 中心核对齐度(CKA),并在有条件(Cond.)与无条件(Uncond.)两种设置下训练模型。结果如下表:

图片

可以看出,V-Prior 与音频潜空间的对齐度显著更高(MSE 更低、CKA 更高),同时生成音质(FD)也更优。

这说明:视频先验本身携带了更贴近音频的结构信息,能天然作为更合理的生成起点。

团队进一步利用 t-SNE 将两种先验与目标音频潜空间进行可视化。

图片

不同先验空间及生成过程可视化对比

结果显示:

  • 高斯先验分布随机且离散,其到音频空间的映射路径交叉密集;
  • 视频先验分布则与音频潜空间结构更一致,流动路径平滑,语义结构更清晰。

这说明视频先验在空间结构上更贴合目标模态,能有效减少跨模态传输中的「弯路」,实现更稳定、更高效的生成。

性能对比:更快、更稳、更强、可规模化提升

Diffusion vs Flow vs VAFlow

作者在相同配置下(视觉特征、网络结构、初始化与超参数完全一致)对比了三种不同的生成范式以探究它们的性能差异。分别为:扩散模型(标准 DDPM)、主流流匹配模型(高斯噪声先验)以及 VAFlow(以视频特征为原始分布)。

结果表明:两种流匹配模型在收敛速度与 FD 指标上均优于扩散模型,验证了流匹配在训练效率上的天然优势;而 VAFlow 虽在早期收敛略慢,但最终经过联合训练阶段取得了最低 FD。这种提升得益于它直接建模了更具结构性的视频 - 音频传输路径,避免了高斯噪声先验下的模糊映射。

图片

Scaling Analysis

本文作者发现,VAFlow 随模型规模增大仍保持持续性能提升,这意味着 VAFlow 不仅在小模型上高效,参数量增加时同样稳定可拓展,这为未来构建更强大的多模态生成模型奠定了基础。

图片

Benchmark 结果:超越现有 SOTA

图片

研究团队在 V2A 领域常用的数据集 VGGSound 上对 VAFlow 和其他基线模型进行了对比测试。

实验结果显示,VAFlow 在音频生成质量(Quality)相关指标上全面超越了现有 SOTA,获得了最佳分数。尽管没有设计复杂的视频条件模块,在音视频的时序同步(Sync)和语义相关性(Semantic)方面,也达到了与 SOTA 相当的效果。

值得一提的是,与经过文本 - 音频数据增强的 V2A 模型(表格中的灰色行)相比,VAFlow 在没有任何文本标注数据的前提下,语义相关性方面的表现仍能更优或相当。

真实效果

图片

作者展示了一个沙滩场景视频的例子,该视频包括背景中的海浪声和来自不同角色的声音(人群的嘈杂声、女人说话)。可视化结果对比了真值和不同方法生成的音频的梅尔谱图。从图中可以观察到,VAFlow 不仅能精准理解复杂场景并生成所有必要的声音,而且还能与视觉时序保持同步。模型的其他生成结果可在主页试听。 

总结与展望

VAFlow 为 V2A 开辟了一条从视频直接映射到音频的全新流匹配生成范式,也为构建通用跨模态生成基础模型提供了新思路。未来,团队将继续探索 VAFlow 在语音、音乐等更广泛音频领域的应用。

...

#OWL

「套壳」的最高境界:OpenAI揭秘Atlas浏览器架构OWL

「又一个 Chromium 套壳?」

面对 OpenAI 上周发布的 AI 浏览器 Atlas,这可能是不少人的第一反应,参阅报道《刚刚,OpenAI 发布 AI 浏览器 ChatGPT Atlas,基于 Chromium》。但今天,OpenAI 官方用一篇技术博客「回怼」了这个说法:我们「套」了,但和别人完全不一样。

尽管今天还有 Sora 角色客串功能和 GPT-5 查找和修复安全漏洞智能体的消息,但本文的重点是深扒 Atlas 背后的「灵魂」—— OWL 架构。看看 OpenAI 究竟是如何驯服 Chromium,把它从浏览器「换皮」玩成了「架构重组」的。

基础是 Chromium

OpenAI 表示,要让 ChatGPT 成为网页浏览的真正副驾驶,必须彻底重构浏览器的底层架构:将 Atlas 与 Chromium 运行时剥离开来。这意味着要开发一种全新的 Chromium 集成方式,如此才能满足以下三个关键目标:

  • 秒级启动速度
  • 打开更多标签页时依旧流畅
  • 为智能体(Agent)场景打下坚实基础

图片

OpenAI 强调,Chromium 是一个天然的构建基石。它能提供先进的网页引擎、完善的安全模型、一流的性能,以及卓越的网页兼容性;更重要的是,它由全球开发者社区持续改进。因此,它成为了现代桌面浏览器最常用的底层引擎。

图片

重新定义浏览器体验

虽然基于 Chromium,但 OpenAI 自然也会强调自己的设计,包括在「Agent 模式」等功能中引入丰富的动画和视觉效果。

这要求工程团队使用最现代的原生框架(如 SwiftUI、AppKit 和 Metal),而不是简单地给开源的 Chromium 界面「换皮」。

结果,OpenAI 表示:「Atlas 的用户界面几乎是从零重建的一整套全新体验。」

另外,为了实现快速启动和支持上百个标签页同时运行而不掉帧的目标。还需要对 Chromium 进行一些优化,毕竟其默认架构在启动流程、线程模型、标签管理等方面都非常「固执」。

OpenAI 说:「我们考虑过大幅修改 Chromium,但那样会让后续更新复杂且脆弱。为了保持开发速度,我们选择了一条更巧妙的路 —— 重新设计 Chromium 的集成方式。」

他们的一个关键的技术标准是:不仅要加快功能实验、迭代和上线的节奏,还要保留 OpenAI 的工程文化 —— 第一天就能上线代码。「每位新工程师入职第一天下午就要提交并合并一个小改动。即便 Chromium 的源码编译要花几个小时,我们也得保证这一传统能延续。」

OpenAI 的解决方案:OWL

为了解决这些挑战,OpenAI 构建了一个新的架构层,称为 OWL(OpenAI’s Web Layer)。

OWL 是 OpenAI 整合 Chromium 的方式,其核心理念是:让 Chromium 的浏览器进程独立运行在 Atlas 主应用进程之外。

图片

可以这样理解:Chromium 通过将每个标签页放入独立进程来革新浏览器架构;而 OpenAI 更进一步 —— 把整个 Chromium 从主应用进程中分离出来,放入一个独立的服务层。

如此方法好处多多:

  • 更简洁现代的应用:Atlas 主要使用 SwiftUI 和 AppKit 构建,统一语言、统一技术栈、代码干净。
  • 更快启动:Chromium 会在后台异步加载,Atlas 几乎瞬间显示画面。
  • 隔离崩溃与卡顿:即使 Chromium 出问题,Atlas 也不会挂。
  • 更少的合并冲突:OpenAI 修改的 Chromium 代码极少,易于维护。
  • 更快的开发节奏:大多数工程师无需本地编译 Chromium,OWL 内部以预构建二进制形式分发,Atlas 构建只需几分钟。

因此,即使是新员工,也能在第一天下午轻松提交改动。

OWL 的工作方式

从高层来看,Atlas 浏览器是 OWL 客户端,而 Chromium 浏览器进程是 OWL 主机(Host)。两者通过 Mojo(Chromium 的进程间通信系统)进行通信。OpenAI 编写了 Swift(甚至 TypeScript)的 Mojo 绑定,使 Swift 应用能直接调用主机端接口。

OWL 客户端库提供了一套简洁的 Swift API,用于抽象主机层的关键功能:

  • Session:全局配置与控制
  • Profile:管理用户浏览数据
  • WebView:渲染、输入、导航、缩放等
  • WebContentRenderer:将输入事件传递给渲染管线
  • LayerHost/Client:在 UI 与 Chromium 之间交换合成信息

此外,还提供书签、下载、扩展、自动填充等服务端点。

渲染:跨进程传递像素

WebView 在客户端应用中共享一个合成容器,不同标签页的内容会动态交换显示。在 Chromium 一侧,这对应于一个 gfx::AcceleratedWidget,由底层的 CALayer 支撑。

OpenAI 的设计是将该层的上下文 ID 暴露给客户端,由 NSView 通过私有的 CALayerHost API 嵌入。

诸如 <select> 下拉框或颜色选择器等独立弹窗,也采用相同机制。OWL 会保持视图几何与 Chromium 同步,确保 GPU 合成器输出正确分辨率和比例的内容。

OpenAI 也借用这种机制,将 Chromium 原生界面的一部分直接投射到 Atlas 中,比如权限提示框,从而快速实现功能原型而无需完全重写。

输入事件:捕获与转发

通常,Chromium UI 会将 macOS 的 NSEvent 转换为 Blink 的 WebInputEvent,然后再传递给渲染器。

但由于 OWL 中 Chromium 在后台运行,OpenAI 在 Swift 客户端中自己完成事件转译,再将转换后的事件发给 Chromium。

如果网页未处理某个事件,系统会把事件返回客户端,OpenAI 重新生成 NSEvent,让 Atlas 其他部分接管输入处理。

Agent 模式:特殊情况

Atlas 的智能体浏览对渲染、输入和数据存储提出了额外挑战。OpenAI 的计算机使用(computer use)模型需要屏幕的完整图像作为输入。

但有些 UI(如 <select> 下拉框)会在标签页外单独渲染。在 Agent 模式下,OpenAI 会将这些弹窗重新合成为主页面的一部分,让模型在一帧中看到完整的上下文。

输入事件同样遵循安全原则:Agent 生成的事件直接传给渲染器,不经过特权浏览器层,以确保沙箱隔离。例如,防止自动化事件触发系统快捷键等非网页行为。

此外,Agent 浏览可以在临时「登出」上下文中运行。它不会使用用户的隐私模式配置,而是借助 Chromium 的 StoragePartition 创建独立的内存存储。每个 Agent 会话都是全新的,结束后所有 cookie 和数据都会被清除。用户可以同时运行多个互不干扰的「登出」 Agent 会话。

结语

OpenAI 最后再次重申了 Chromium 的作用:「如果没有全球 Chromium 社区的卓越贡献,这一切都无法实现。OWL 在此基础上开辟了新的方向:将引擎与应用解耦,结合顶级网页平台与现代原生框架,打造更快、更灵活的架构。」

对此,你怎么看?

参考链接

​https://openai.com/index/building-chatgpt-atlas/​

...

#ROVER(Random Policy Valuation for Diverse Reasoning)

港科提出新算法革新大模型推理范式:随机策略估值竟成LLM数学推理「神操作」

论文第一作者何浩然是香港科技大学博士生,研究方向包括强化学习和基础模型等,研究目标是通过经验和奖励激发超级智能。共同第一作者叶语霄是香港科技大学一年级博士。通讯作者为香港科技大学电子及计算机工程系、计算机科学与工程系助理教授潘玲。

在大语言模型(LLM)的数学推理任务中,基于可验证奖励的强化学习(RLVR)已成为提升模型推理能力的重要手段。然而,主流方法如 PPO、GRPO 等仍然依赖为传统 RL 场景设计的策略梯度更新的学习目标,本质上可以被策略迭代(policy improvement)刻画,即包含策略评估(policy  evaluation)与策略改进(policy improvement)的不断循环的过程。这些方法常常面临训练不稳定、多样性丧失、调参复杂等问题。

那么对于 LLM 推理任务,有没有一种更简洁、更本质的解法?

香港科技大学联合阶跃以及快手等团队提出了一个令人惊讶的答案:只需对一个完全随机的策略进行价值评估,就足以找到最优推理路径。他们由此提出 ROVER(Random Policy Valuation for Diverse Reasoning)以极简思路颠覆传统范式,跳过传统强化学习推理的策略迭代(policy improvement)循环。

ROVER 不仅在多项数学推理基准上显著超越现有方法,更以「极简主义」实现高质量与高多样性兼备的推理生成。

目前,论文、代码以及模型均已开源。

  • 论文地址:https://arxiv.org/abs/2509.24981
  • 论文代码: https://github.com/tinnerhrhe/ROVER

图片

在 AIME24、AIME25 以及 HMMT25 等高难度任务上,ROVER 相比于传统方法大幅提高了 pass@1(+8.2)和 pass@256(+16.8),并且在多种多样性指标上均达到了新的高度(+17.6%)。并且 ROVER 不需要额外维护价值网络(value network),也不需要维护基模型(reference model)计算 KL,从而更加轻量。

传统强化学习的「痛点困局」:迭代复杂,代价高昂

在 LLM 推理优化中,主流方法(如 PPO、GRPO)可以被广义策略迭代(Generalized Policy Iteration)刻画 —— 反复执行「策略评估(计算当前策略价值,如估计优势函数 advantage)」与「策略改进(更新策略 [数学公式])」。尽管这些方法能提升性能,却存在核心痛点:

  • 训练稳定性差:优化目标「非定常」,模型易崩溃。最近的工作通过叠加复杂技巧如 KL 正则约束、裁剪重要性采样、熵监控等。这些「补丁」让训练如履薄冰,稍有不慎就会引发「熵坍塌」(策略多样性骤降,陷入单一推理路径)。
  • PPO 需维护独立的价值网络预测状态价值,并反复执行策略迭代:GRPO 等方法也需要维护基模型(reference model)计算 KL。这种「重资产」模式,加重了 RL 优化的计算开销。
  • 推理多样性流失:为质量牺牲探索,pass@k 性能饱和。基于奖励最大化的传统强化学习方法会使模型过度追求单次推理正确率,牺牲了策略探索能力 —— 模型只会生成少数几种推理路径,牺牲了 pass@k(多次推理覆盖更多可行解的能力)。

ROVER 的「极简革命」:随机策略的 Q 值足以指导最优决策

研究团队首先指出,大语言模型推理任务可被建模为有限时域马尔可夫决策过程(MDP),具备以下关键特性:

  • 确定性状态转移;
  • 树状结构(每个状态有唯一父节点,不存在不相交子树);
  • 二元稀疏奖励(正确 / 错误)。

这与传统 RL 任务(如 Atari 游戏、机器人控制)中常见的随机性状态转移、循环图结构、中间奖励等复杂设定截然不同。

「我们是否在用过于复杂的工具,解决一个结构上更简单的问题?」—— 这成为 ROVER 研究的出发点。

在这一简单结构中,研究团队证明了一个颠覆性结论:均匀随机策略的 Q 值,直接指向最优策略。

设环境为有限时域、树形状态空间、二元奖励的 MDP,

图片

 为均匀随机策略(每个动作选择概率为 1/|A|),

图片

 为其 Q 值。则贪心策略(如下所示)就是最优策略!

图片

证明直观:树形结构中,若某动作

图片

的子树存在正确解答,则 

图片

;反之 

图片

。因此,贪心选择

图片

值最大的动作,必然导向包含正确解答的路径。

因此,策略学习过程可以简化为下图形式。

图片

ROVER 算法流程:三步极简,免去迭代

(1)Q 值估计:

ROVER 通过广义贝尔曼方程计算均匀随机策略下状态 - 动作对的

图片

值,因此方程用均值算子表达:

图片

图片

 为奖励,s' 为执行动作 a 后的新状态,V 为动作空间。

(2)策略构建:

尽管贪心选择可保证最优性,却可能丧失多样性。为此,ROVER 引入基于

图片

值的 softmax 采样:

图片

其中

图片

是温度系数,控制探索程度。这种方式既保留了高价值路径的优先级,又能探索多条有效推理路线,显著提升 pass@k 表现。

(3)训练目标:

在实际实现中,ROVER 还引入了:

  • 图片

  • 函数内化于 LLM 参数,无需训练额外价值网络:
  • 图片

  • 这种「自监督」式参数化,让模型学习「相对改进」而非「绝对价值」,既减少计算量,又提升稳定性。
  • 组内奖励中心化,降低方差,即 
  • 图片

  • 。避免高方差奖励干扰
  • 图片

  • 值学习。同时,将中心化奖励「广播」到生成的全序列 token,实现细粒度信用分配。

ROVER 的损失函数可以表示为

图片

算法伪代码如下

图片

实验结果:全面领先,多样性显著提升

研究团队在数学推理基准(AIME24/25、HMMT25、AMC、MATH 等)、Countdown 任务以及 O.O.D. 任务 GPQA-diamond 上验证 ROVER,覆盖 Qwen3-8B/4B、DeepSeek-R1-1.5B 等模型,结果堪称「降维打击」:

1. 数学竞赛任务:pass@1 与 pass@k 双突破

在 Qwen3-8B-Base 模型上,ROVER 的 pass@1 在 AIME24 达 30.6(比最佳基线 DAPO 高 19.1 分);在 HMMT25 任务中,pass@1 从基线最高 7.1 跃升至 14.6(提升 106%)。

图片

更关键的是 pass@k 性能:传统 RL 方法(如 GRPO)的 pass@k 随 k 增大迅速饱和,而 ROVER 在 pass@256 上也能与基线拉开明显差距,展现持续探索能力。

图片

2. 策略多样性:比基线高 17.6%,覆盖更多解题路径

采用 LLM-as-Judge 方法评判所有方法生成的正确答案的推理内容多样性,ROVER 训练的策略多样性比基线平均提升 +17.6%,在 AIME24 上发现更多独特解题路径。在其他多样性指标如余弦距离(cosine distance)与利用率(utility)等,ROVER 在不同温度下仍表现出一致的高多样性。

受益于多样性的提升,ROVER 在 GPQA-diamond 等与数学无关的 O.O.D 任务上也表现最佳。

图片

3. 案例展示:ROVER 发现全新解法

通过「策略数量」指标(同一问题生成的不同推理路径数)评估, ROVER 在各个任务上均能发现更多的解题策略。如下图所示,在「2x3 网格数字排列」问题中,基模型与 GRPO 均仅发现 2 种策略,而 ROVER 可以发现 4 种(包括「隔板法」「容斥原理」等不同数学工具)。

图片

启示与展望

ROVER 的提出,不仅是一次技术突破,更是一次方法论的反思:在某些结构化任务中,简化而非复杂化,才是推进性能的关键。「Simplicity is the ultimate sophistication.」 —— ROVER 这一基于简单随机策略的新方法,诠释了达芬奇这句名言在 AI 时代的新内涵。

更多方法细节与实验分析请见原论文。

...

#Hierarchy UGP

L4大方向有了:理想自动驾驶团队,在全球AI顶会上揭幕新范式

AI 正在进入下半场,最先进化的会是辅助驾驶?

最近,有关 AI 大模型进入瓶颈的讨论越来越多。强化学习之父 Rich Sutton 发表的前瞻论文《体验时代》指出,人工智能正在从依赖人类生成数据向体验式学习的范式转变。

OpenAI 前研究员姚顺雨则直言不讳地表示 AI 正在进入「下半场」。他认为,需要为现实世界的任务开发新的 AI 评估或配置。更重要的是,要实现超越人类的智能,AI 就必须超越模仿人类,依赖一种可随智能体改进而扩展的新数据源。

在自动驾驶领域,AI 范式转变的趋势同样也已显现。

上周刚刚结束的全球计算机视觉学术顶会 ICCV 2025 上,理想汽车自动驾驶高级算法专家詹锟在研讨会上发表了以《世界模型:让我们从数据闭环走向训练闭环》(World Model: Evolving from Data Closed-loop to Training Closed-loop)为主题的演讲。

图片

詹琨在 ICCV 2025 具身智能研讨会(Learning to See: Advancing Spatial Understanding for Embodied Intelligence)上发表了主题演讲。

理想详细阐述了自己「从数据到训练」的系统化思路,提出了全球首个将世界模型与强化学习闭环落地于量产自动驾驶系统的完整架构。

自规则算法时代到大模型时代,理想不仅是技术演进的亲历者,同时也是行业趋势的塑造者。它这次在 AI 顶会上的亮相恰逢一个技术的重要节点,AI 的「下半场」有更多挑战,也有更多的突破点。

世界模型加入 VLA 闭环

理想 LiAD 的新技术路线

在 ICCV 大会上,理想系统介绍了自身在先进辅助驾驶技术上的技术路线,并由点带面,用近期的一系列研究工作将其串联起来。

目前理想汽车的辅助驾驶技术(LiAuto AD Max),是以 VLA(Vision Language Action,视觉语言行动模型)为核心的可交互自动驾驶方案。理想辅助驾驶的发展经历了从规则算法到端到端方案的进化。在去年,理想率先提出双系统方案 —— 使用 E2E 和 VLM 结合构建辅助驾驶系统,逐渐成为 AI 时代的主流路线。

图片

通过直接输入传感器信号,输出驾驶轨迹来全量学习人类驾驶行为的方式,理想的辅助驾驶能力实现了能力的突破。自去年端到端辅助驾驶上线后,理想落地技术的 MPI(人类接管里程)水平在近 12 个月以内提升明显。

这是理想辅助驾驶技术的数据量和接管里程(MPI)之间的比值:

图片

然而在 AI 模型的训练数据扩展到 1000 万 Clips 之后,理想发现基本的端到端、增加数据模范学习的方式面临着边际效应,技术提升再次出现了瓶颈。

研究人员发现:在辅助驾驶任务上,很多场景的数据是稀疏的,自然采集到的数据不足以训练 AI,但这些少见的场景(CornerCase)正是辅助驾驶需要改进的重点。在构建 L4 级的自动驾驶系统时,这些问题都需要得到解决。

面对缺乏数据源的挑战,理想的思路是从单一的数据闭环中走出来,进入更加系统的训练闭环。后者不仅意味着数据采集,还包含在给定训练目标的情况下,不断通过环境生成和环境反馈来进行迭代,最终达到训练的目标。

这种闭环的核心在于训练目标的达成,而不是单纯收集新的数据。

图片

具体而言,理想希望构建一套具备先验知识和驾驶能力的 VLA 车端模型,并构建云端世界模型的训练环境为其进行训练。训练环境中既包含采集到的真实世界数据,也包含合成数据,又包含可以跟随模型一起探索的数据。然后,通过强化学习的体系,包括 RLHF/RLVR/RLAIF 等范式,可以不断训练模型,最终实现迭代训练的目标。

这套基于世界模型的庞大系统,其中要用到的技术会涉及到环境构建、智能体构建、反馈构建以及场景的多种推演。它主要支撑三种关键内容的产出:

  • 具备区域级别的仿真和评估,能够让车端模型在其中进行长时序的拟真评测;
  • 具备合成新数据的能力,能构建多样的场景集,让 AI 做到举一反三;
  • 能成为强化学习的世界引擎,让模型在其中自由探索、获得反馈。

根据上述目标,就需要有多种关键的模块和技术栈提供支持,比如场景重建能力、多传感器渲染能力、多模态生成能力、交通智能体、3D 资产库、评价反馈系统等等。与此同时,AI 基础设施的算力和效率也至关重要。

首先是环境的重建。自 2023 年起,理想团队一直在探索 3DGS 在自动驾驶重建领域的工作,最近一段时间,理想探索了重建 + 生成的路线,其新一代 AI 系统既具备重建的稳定性,又有生成的泛化能力。

图片

随着 VGGT 等优秀的三维 Feedforward 的工作发展,理想也在探索下一代更加依赖生成的世界模型渲染系统。今年,理想参与的研究《Hierarchy UGP: Hierarchy Unified Gaussian Primitive for Large-Scale Dynamic Scene Reconstruction》就被 ICCV 大会收录。

图片

Hierarchy UGP 的核心思想是构建一个由根层、子场景层和图元层组成的层次结构,并使用在四维空间中定义的统一高斯图元(UGP)作为表示。这种设计极大地增强了模型容量,能够建模大规模场景,并重建任意动态元素。 

在构建仿真系统的同时,理想自动驾驶团队也在大量应用合成数据。

理想目前已经可以做到通过提示词(Prompt)直接生成全部的视频和点云,这类应用会用于一些少见但重要的场景,比如面对一些新法规准入条件,新的地区环境等等。

图片

有了世界模型的合成数据能力后,AI 模型在训练的数据配比上更为合理,理想的辅助驾驶系统在实际道路表现的稳定性和能力的泛化上均有了很大的改善。

图片

正如 AI 先驱者们的观察,在新架构上,训练闭环的效率是技术迭代的关键。

在现实世界数据「耗尽」之后,随着合成数据能力的增强,数据分布的配比改进,LiAD 的辅助驾驶能力还会越来越强。新的 VLA 方案推动了 Data Scaling Laws 的持续延伸 —— 在自动驾驶的场景下,数据量越大,辅助驾驶能力就越强。

从前沿成果到未来方向

自 2021 年起,理想汽车自动驾驶团队的前沿探索成果越来越多,仅中稿学术会议的就有 32 篇,其方向正在从感知 BEV E2E 任务,扩展到 VLM/VLA/ 世界模型等前沿方向。

本届 ICCV 大会上,理想自动驾驶团队共有五篇论文入选。除了在 workshop 中介绍的 Hierarchy UGP 之外,其研究成果还覆盖了 3D 数据集、端到端自动驾驶框架、3D 重建、视频模拟等方面。

在论文《3DRealCar: An In-the-wild RGB-D Car Dataset with 360-degree Views》中,研究人员提出了业界首个大规模 3D 真实汽车数据集 3DRealCar。它通过对 2500 辆汽车,三种不同光照条件下的精细 3D 扫描,获得了贴近真实世界水平的汽车图像和点云,可帮助人们实现高保真的 3D 重建。

图片

在论文《World4Drive: End-to-End Autonomous Driving via Intention-aware Physical Latent World Model》中,研究人员提出了端到端自动驾驶框架 World4Drive,它利用视觉基础模型构建潜在世界模型,用于生成和评估多模态规划轨迹。

图片

World4Drive 首先提取场景特征,随后基于当前场景特征和驾驶意图生成多模态规划轨迹,并在预测多个未来状态,它还引入世界模型选择器模块来评估和选择最佳轨迹,可以实现无需感知标注的端到端规划。

论文《HiNeuS: High-fidelity Neural Surface Mitigating Low-texture and Reflective Ambiguity》中,作者提出统一框架 HiNeuS,解决了复杂场景下神经表面重建的多个持续挑战:既可以透过连续遮挡建模后面的形状,也能把规则形状正确对齐好,还能在不牺牲全局内容的情况下保持细节。

图片

论文《RoboPearls: Editable Video Simulation for Robot Manipulation》中,作者提出了用于机器人操作的可编辑视频模拟框架 RoboPearls,它基于 3DGS 构建,能够从演示视频构建照片般逼真、视图一致的模拟,并支持各种模拟算子,包括各种对象操作。

图片

在 ICCV 上,理想除了展示一系列研究之外,也聚焦了几个新方向。

现在的辅助驾驶领域里,最具挑战的应用场景是强化学习引擎。

现有的仿真场景对泛化性要求不高,合成数据可以不要求实时性,可以通过更大规模的模型和 pipeline 来优化。但是,强化学习既要求泛化性也要求时效性,还要求大规模的并发。因此理想认为,强化学习引擎最关键的五个因素在于:世界模型、3D 资产、仿真智能体、奖励模型和性能优化。

图片

其中,世界模型、3D 资产和仿真智能体主要解决环境是否真实的问题,奖励模型则会直接对强化学习产生最重要的影响,性能优化是决定强化学习能否大规模应用的关键。理想正在持续推进这一系列技术难题的攻关与突破。

交互式智能体是目前业界面临的另一大挑战,这可能是一个比单车 L4 还要困难的问题。理想认为,可以通过调整强化学习 reward 的方式约束多个智能体的行为,改变 Agent(智能体)的行为分布,达到样本多样性,从而实现减少主动碰撞,提高运行效率等效果。

詹琨表示,理想正在开展的交互智能体工作 MAD 很快就会发表。

或许过不了多久,LiAD 又会迎来一次技术突破。

驱动行业进化

2023 年 1 月,理想定下了「成为人工智能企业」的目标,作为全球首个展示 VLA 辅助驾驶范式的车企,理想在 AI 领域的长线投入与产出,已经证明了其布局 AI 的决心。

从投入占比来看,理想的研发资金近一半投在了人工智能领域,已经建起的四支 AI 团队分别负责辅助驾驶、理想同学、智能工业和智能商业。

从实际落地的效果看,理想的两大战略级 AI 产品 —— 辅助驾驶和理想同学自 2024 年以来快速迭代,都取得了重大技术突破。今年 8 月份,随理想 i8 正式交付的 VLA 司机大模型,让理想汽车成为了行业首个推送 VLA 司机大模型的汽车企业。在这之前,基于 MindGPT 的理想同学还走出了车机,上线了手机 App。

更进一步,理想在 AI 技术突破的同时也在推动着行业的发展。其公开的研究成果、开源的项目已经在引领未来自动驾驶技术的方向。理想开源的部分辅助驾驶代码和数据库,已经被超过 3200 名开发者收藏或调用,其提出的 VLA 范式,也在逐渐成为行业共识。

未来 AI 带来的生产力大升级,会有理想出的一份力。

...

#KIMI LINEAR

刚刚,Kimi开源新架构,开始押注线性注意力

Kimi 押注线性注意力,MiniMax 青睐全注意力,究竟哪条路能走得更远?

在智能体时代,推理的计算需求正成为一个核心瓶颈,尤其是在长时程和强化学习场景中。此时,标准注意力机制中存在的低效问题变得更加突出。

线性注意力为降低计算复杂度提供了一种有前景的方法,但由于表达能力有限,它在语言建模方面的表现历来不如 softmax 注意力,即使对于短序列也是如此。

最近的进展显著缩小了这一差距,主要得益于两项创新:门控或衰减机制以及 delta 规则。这些进展共同推动线性注意力在中等长度序列上的性能接近 softmax 水平。尽管如此,纯粹的线性结构从根本上仍受限于有限状态容量,这使得长序列建模和上下文内检索在理论上仍具有挑战性。

因此,结合 softmax 注意力和线性注意力的混合架构成为在质量和效率之间的一种折衷方案。但之前的混合模型往往规模较小,缺乏多样化基准评估。关键挑战是开发出一种新的注意力架构,能够在速度和内存上显著提高效率,同时保证或超过全注意力的质量,推动下一代解码密集型 LLM 的发展。

最近,月之暗面在这一方向有所突破。在一篇新的技术报告中,他们提出了一种新的混合线性注意力架构 ——Kimi Linear。该架构在各种场景中都优于传统的全注意力方法,包括短文本、长文本以及强化学习的 scaling 机制。

  • 技术报告:KIMI LINEAR: AN EXPRESSIVE, EFFICIENT ATTENTION ARCHITECTURE
  • 报告链接:https://github.com/MoonshotAI/Kimi-Linear/blob/master/tech_report.pdf 
  • GitHub 链接:https://github.com/MoonshotAI/Kimi-Linear?tab=readme-ov-file
  • HuggingFace 链接:https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct

Kimi Linear 的核心是 Kimi Delta 注意力(KDA)—— 这是 Gated DeltaNet(GDN)的改进版本,引入了更高效的门控机制,以优化有限状态 RNN 内存的使用。作者表示,虽然 GDN 与 Mamba2 类似,采用了粗糙的 head-wise 遗忘门,但 KDA 引入了一种 channel-wise 的变体,其中每个特征维度都保持独立的遗忘率,类似于门控线性注意力(GLA)。

这种细粒度的设计能够更精确地调控有限状态 RNN 的记忆,从而在混合架构中释放 RNN 风格模型的潜力。关键在于,KDA 通过 Diagonal-Plus-Low-Rank(DPLR)矩阵的一种专门变体来参数化其转换动态,这使得一种定制的分块并行算法成为可能,该算法相较于通用的 DPLR 公式能显著减少计算量,同时仍与经典的 delta 规则保持一致。Kimi Linear 以 3:1 的固定比例将 KDA 与周期性的全注意力层交错排列。

作者基于 KDA 与多头潜在注意力(MLA)的分层混合架构,预训练了一个 Kimi Linear 模型。该模型激活参数为 3B,总参数达 48B。

Kimi Linear 实现了卓越的性能和硬件效率,尤其在长上下文任务中表现突出。它最多可将对大型 KV 缓存的需求减少 75%,并且在处理长达 100 万个 token 的上下文时,能将解码吞吐量提升到完整 MLA 模型的 6 倍。

图片

图片

月之暗面团队在 FLA 中开源了 KDA 内核,并发布了两个版本的模型检查点,这些检查点是用 5.7 万亿个 token 训练的。

图片

整个项目的核心看点包括:

  • Kimi Delta 注意力(KDA):一种线性注意力机制,通过细粒度门控优化门控 Delta 规则。
  • 混合架构:3:1 的 KDA 与全局 MLA 比例在降低内存使用的同时,保持甚至超越全注意力的质量。
  • 卓越性能:在多种任务中表现优于全注意力,包括在 1.4 万亿 token 的训练运行中,通过公平对比,在长上下文和强化学习风格的基准测试中均有出色表现。
  • 高吞吐量:实现了高达 6 倍的更快解码速度,并显著减少了每个输出 token 的时间(TPOT)。

目前,vLLM 已经官宣支持 Kimi Linear。

图片

在技术报告发布后,Kimi 的研究员「熊狸」在 X 上表示:「我很荣幸在过去一年中见证了这项伟大的工作。线性注意力在表达能力上具有巨大潜力,但在处理长上下文时存在较高的风险。KDA 不是一个玩具式的想法,它经受住了各种不可作弊的内部评估,这些评估的目的就是为了验证其有效性。」

图片

该项目的重要贡献者 Zongyu Lin(目前在 UCLA)表示,「坦白说,这只是一个中间阶段,最终我们仍然在朝着实现无限上下文模型迈进。只要我们使用全局注意力,长时间解码依然受到其限制,而线性注意力背后仍然有一些基础设施挑战。但我相信这些问题都会被解决,而且来自不同实验室 / 公司的更多令人激动的成果即将到来。」

图片

所以,K3 也会延续线性注意力架构吗?

而另外的大模型玩家中,Qwen 也曾表示要大胆押注线性注意力:

图片

但 MiniMax 似乎更青睐全注意力。

图片

到底哪个方向能走得更远?我们拭目以待。

以下是 Kimi Linear 的技术细节。

Kimi Delta Attention:通过细粒度门控改进 Delta 规则

Kimi Delta Attention (KDA) 是一种新型的门控线性注意力变体。它通过引入一个细粒度的对角化门控 

图片

来改进 GDN 的标量衰减,从而实现了对记忆衰减和位置感知的细粒度控制。

图片

硬件高效的分块算法

通过将公式 1 的递归部分展开为分块公式,可得到:

图片

  • WY Representation

通常用于将一系列秩 - 1 更新打包成单个紧凑的表示。该方法遵循了 Comba 中 P 的公式,以减少后续计算中额外矩阵求逆的需求。

图片

其中,辅助向量

图片

 和 

图片

 通过以下递归关系计算得出:

图片

  • UT transform

该算法应用了 UT transform 来减少非矩阵乘法的 FLOPs,这对于在训练期间提升硬件利用率至关重要。

图片

下三角矩阵的逆可以通过高斯消元法中的前向替换,采用逐行迭代的方法高效计算。等效地,以矩阵形式,可以按如下方式分块更新状态:

图片

图片

在输出阶段,该算法采用块间递归和块内并行的策略来最大化矩阵乘法吞吐量,从而充分利用 Tensor Cores 的计算潜力。

图片

效率分析

在表示能力方面,KDA 与广义的 DPLR 公式一致,即

图片

两者都表现出细粒度的衰减行为。然而,这种细粒度的衰减会在除法运算(例如,公式 9 中的块内计算)过程中引入数值精度问题。

为了解决这个问题,以往的工作(如 GLA)在对数域中执行计算,并在全精度下引入二级分块。然而,这种方法妨碍了半精度矩阵乘法的充分利用,并显著降低了算子速度。

通过将变量 a 和 b 同时绑定到 k,KDA 有效地缓解了这一瓶颈 —— 将二级分块矩阵计算的数量从四次减少到两次,并进一步消除了三次额外的矩阵乘法。因此,与 DPLR 公式相比,KDA 的算子效率提升了大约 100%。

图片

在批量大小统一为 1 且头数为 16 的条件下,算子随输入长度变化的执行时间。

Kimi 线性模型架构

该模型架构的主干遵循 Moonlight 的设计。除了细粒度门控之外,该模型还利用了几个组件来进一步提高 Kimi Linear 的表达能力。Kimi Linear 的整体架构如图 3 所示。

图片

神经参数化

设 

图片

 是第 t 个 token 的输入表示,KDA 每个头 h 的输入计算如下:

图片

其中 dk, dv 代表 key (键) 和 value (值) 的头部维度,在所有实验中均设置为 128。对于 q, k, v,该模型应用了一个短卷积,随后是一个 Swish 激活函数。q 和 k 的表示被进一步使用 L2 范数归一化进行归一化,以确保特征值的稳定性。

每通道衰减 

图片

 是通过一个低秩投影

图片

图片

,其秩等于头部维度)和一个类似于 GDN 和 Mamba 中使用的衰减函数 

图片

来参数化的。

在通过

图片

进行输出投影之前,模型使用了一个逐头 RMSNorm 和一个数据依赖的门控机制,其参数化如下:

图片

在这里,输出门采用了类似于遗忘门的低秩参数化,以确保公平的参数比较,同时保持与全秩门控相当的性能,并缓解注意力下沉问题。

混合模型架构

长上下文检索仍然是纯线性注意力的主要瓶颈,因此,本文将 KDA 与少数几个全全局注意力 (Full MLA) 层进行了混合。

对于 Kimi Linear,研究人员选择了一种逐层方法(交替使用整个层),而不是逐头方法(在层内混合不同的头),因为前者在基础设施简单性和训练稳定性方面更具优势。

经验表明,采用统一的 3:1 比例,即每 3 个 KDA 层重复 1 个全 MLA 层,可提供最佳的质量 - 吞吐量权衡。

MLA 层的无位置编码 (NoPE)

在 Kimi Linear 中,NoPE 被应用于所有全注意力层。这种设计将编码位置信息和近期偏好的全部责任委托给了 KDA 层。

因此,KDA 被确立为主要的位置感知算子,其扮演的角色类似于(甚至可以说强于)短卷积或 SWA 等辅助组件。这一发现与先前的研究结果一致,后者同样证明了:使用一个专用的位置感知机制来补充全局 NoPE 注意力,可以产生具有竞争力的长上下文性能。

值得注意的是,NoPE 提供了显著的实用优势,特别是对于 MLA 层。首先,NoPE 使得这些层在推理过程中可以转换为高效的纯多查询注意力。其次,它简化了长上下文训练,因为它避免了 RoPE(旋转位置编码)的参数调整需求,例如频率基调优或使用像 YaRN 这样的方法。

图片

实验结果

对 Kimi Linear 关键组件的消融实验

作者通过将不同模型与 first-scale scaling law 模型(即 16 个注意力头、16 层)进行直接比较,开展了一系列消融研究。下表 1 记录了训练和验证的困惑度(PPL)。

图片

从表中还可以得出以下信息:

  • 输出门控:移除门控会降低性能,swish 门控性能明显不如 Sigmoid。
  • 卷积层:卷积层在混合模型中仍然发挥着不可忽视的作用。
  • 混合比例:在测试的配置中,3:1 的比例(每 1 个 MLA 层对应 3 个 KDA 层)产生了最佳结果,实现了最低的训练损失和验证损失。

NoPE vs. RoPE 的对比结果见表 5。从中可以看出,采用 NoPE 的 Kimi Linear 在不同的长上下文基准测试中取得了最佳的平均分数。

图片

Kimi Linear 的 scaling law

作者基于 Moonlight 架构,对一系列 MoE 模型进行了 scaling law 实验。在所有实验中,他们从 64 个专家中激活了 8 个,并使用了 Muon 优化器。详细信息和超参数列于表 2 中。

图片

对于 MLA,他们遵循 Chinchilla scaling law,训练了五个不同规模的语言模型,并通过网格搜索仔细调整它们的超参数,以确保每个模型都能达到最佳性能。对于 KDA,他们保持了表 1 中验证的 3:1 这一最佳混合比例。除此之外,他们严格遵循 MLA 的训练配置,未做任何修改。如图 5 所示,与经过计算优化训练的 MLA 基线相比,Kimi Linear 的计算效率约为其 1.16 倍。作者预计,仔细的超参数调整将为 KDA 带来更优的缩放曲线。

图片

与基线对比的主要实验结果

Kimi Linear @1.4T 结果:

  • 预训练结果

在表 3 中,团队使用一个 1.4T 的预训练语料库,比较了 Kimi Linear 模型与两个基线模型(MLA 和 hybrid GDN-H)。评估重点关注三个领域:通用知识、推理(数学和代码)以及中文任务。Kimi Linear 在几乎所有类别中都持续优于两个基线模型。

图片

  • 通用知识: Kimi Linear 在所有关键基准(如 BBH, MMLU 和 HellaSwag)上均获得最高分。
  • 推理: 它在数学(GSM8K)和大多数代码任务(CRUXEval)上处于领先地位。然而,在 EvalPlus 上的得分略低于 GDN-H。
  • 中文任务: Kimi Linear 在 CEval 和 CMMLU 上取得了最高分。

总之,Kimi Linear 展现了最强的性能,使其成为短上下文预训练中全注意力架构的有力替代方案。

  • SFT 结果

在经历了相同的监督微调(SFT)流程后,Kimi Linear 在通用任务以及数学和代码任务上均表现出强劲性能,持续优于 MLA 和 GDN-H。

在通用任务中,Kimi Linear 全面领先,在各种 MMLU 基准、BBH 和 GPQA-Diamond 上均取得了最高分。在数学和代码任务中,它在 AIME 2025、HMMT 2025、PolyMath-en 和 LiveCodeBench 等高难度基准上超越了两个基线模型。

图片

尽管在 MATH500 和 EvalPlus 等个别项目上存在微小例外,但 Kimi Linear 在各项任务中均显示出稳健的优势,证实了其相较于其他测试模型(GDN-H 和 MLA)的明显优越性。

  • 长上下文性能评估

团队在 128k 上下文长度下,评估了 Kimi Linear 相对于三个基线模型 ——MLA、GDN-H 和 Kimi Linear (RoPE)—— 在几个基准上的长上下文性能(见表 5)。

图片

结果凸显了 Kimi Linear 在这些长上下文任务中的明显优势。它持续优于 MLA 和 GDN-H,在 RULER (84.3) 和 RepoQA (68.5) 上以显著优势取得了最高分。这种超越模式在除 LongBench V2 和 Frames 之外的大多数其他任务中也得以保持。

总体而言,Kimi Linear 取得了最高的平均分 (54.5),进一步巩固了其作为长上下文场景中领先注意力架构的有效性。

  • RL 结果

为了比较 Kimi Linear 和 MLA 的强化学习(RL)收敛特性,团队使用了 内部数学训练集进行了 RLVR,并在数学测试集(例如 AIME 2025, MATH500)上进行评估,同时保持算法和所有超参数一致,以确保公平的性能比较。

图片

如图 6 所示,与 MLA 相比,Kimi Linear 展示了更高的效率。在训练集上,尽管两个模型起点相似,但 Kimi Linear 的训练准确率增长速度明显高于 MLA,且差距逐渐拉大。在测试集上也观察到了类似现象。例如,在 MATH500 和 AIME2025 上,Kimi Linear 相比 MLA 取得了更快、更好的提升。

总体而言,团队根据经验观察到,在强化学习下的推理密集型长文本生成中,Kimi Linear 的表现明显优于 MLA。

  • 总体研究结果总结

在预训练和 SFT 阶段,一个清晰的性能层级得以确立:Kimi Linear 优于 GDN-H,而 GDN-H 又优于 MLA。然而,这个层级在长上下文评估中发生了变化。虽然 Kimi Linear 保持了其领先地位,但 GDN-H 的性能有所下降,使其排名落后于 MLA。

此外,在 RL 阶段,Kimi Linear 也表现出优于 MLA 的性能。总体而言,Kimi Linear 在所有阶段始终名列前茅,确立了其作为全注意力架构的卓越替代方案的地位。

效率对比结果

作者在图 7a 和图 7b 中比较了全注意力 MLA、GDN-H 和 Kimi Linear 的训练及解码时间。

图片

作者观察到,尽管融入了更精细的衰减机制,但 Kimi Linear 在预填充期间相较于 GDN-H 仅引入了可忽略不计的延迟开销。如图 7a 所示,它们的性能曲线几乎难以区分,这证实了 Kimi Linear 的方法保持了较高的效率。随着序列长度的增加,混合的 Kimi Linear 模型相较于 MLA 基线展现出明显的效率优势。虽然在较短长度(4k–16k)时其性能与 MLA 相当,但从 128k 开始,它的速度显著提升。这种效率差距在规模扩大时急剧拉大。如图 1b 所示,Kimi Linear 在解码阶段充分展现了其优势。在 1M 上下文长度下进行解码时,Kimi Linear 的速度是全注意力的 6 倍。

更多技术细节请参见原论文。

...

#Running VLAs at Real-time Speed

单张4090跑到30fps,范浩强团队让VLA实时跑起来了

VLA(Visual-Language-Action)大模型到底能跑多快?在这篇 RT-VLA(Real-time VLA)论文中,来自 Dexmal 原力灵机(由范浩强等人联合创立的具身智能公司)的研究者公布了一个反直觉的发现:它可以非常快!

具体而言,对于常用的 Pi0 级别的模型(30 亿参数),在单张消费级显卡 RTX 4090 上最快可以跑到 30fps。这和大家对于 VLA 模型动辄要几十甚至上百毫秒的刻板印象形成鲜明对比。

为实现这点,研究者深入分析 Pi0 的模型结构,通过一系列优化把用时从开始的 100+ ms 进行数倍缩减(针对双视角,甚至已经达到 27ms),显著强于 openpi 里采用的基于 jax 的自动优化的结果。

此外,研究者基于现有结果探讨了未来的“实时”运行的 VLA 结构,设计出一个有潜力最高实现 480Hz 闭环控制的算法框架。目前,优化后的代码已在 GitHub 开源,全部实现均打包为一个只依赖于 torch 和 triton 的单一文件,大家可在自己的项目里 “开箱即用”。这是 Dexmal 原力灵机继开源一站式 VLA 工具箱 Dexbotic 之后的又一开源代码工作。

  • 论文名称:Running VLAs at Real-time Speed
  • 论文链接:https://arxiv.org/abs/2510.26742
  • GitHub:https://github.com/Dexmal/realtime-vla

解决什么痛点?

现在机器人 VLA 大模型动辄几十亿参数,虽然有不错的泛化能力,但是延迟问题总是绕不过。即使是在高端推理显卡上,高达百毫秒级别的推理时间让机器人的实时控制困难重重,就像一个人看见东西后要愣一下才做出动作。

如果我们能够把模型运行到和相机一样快的频率(25fps、30fps 甚至 50fps),那么就可以在完全不丢帧的情况下处理视觉信息,让 VLA 模型的实时运行成为可能。

如何实现?

图片

Pi0 模型计算流程图示,它主要包括 1 个视觉编码器,1 个编码器和 1 个解码器;所有这些又可进一步分解为一系列的矩阵乘法和标量运算。

对于 Transformer 这类模型,当它进行单次推理(比如只处理一个问题或一张图片)时,其内部计算过程实际上是由一长串零碎的 “矩阵计算小任务” 组成;而像 Pi0 这种采用 “流匹配” 技术的模型,需要反复迭代十次才能得出最终结果,每一次迭代本身就包含几十层计算。这样算下来,整个推理过程涉及数百层、上千个操作。任务如此零碎,让计算优化变得异常困难。

本文研究者通过深入分析模型推理过程中的计算问题,融合和并行优化每一个计算步骤,清除了推理方面的大部分障碍,再加上其他方面的优化,最终把整个 VLA 模型跑进了所需的时间之内。

这就像给了 VLA 大模型一份 “高性能 AI 大脑调校指南” ;它通过一系列深入的底层优化,把笨重的 AI 大模型变成能跑实时任务的 “闪电侠”,并在此基础上,构想出一个能同时具备条件反射、视觉反馈和智能思考的下一代机器人控制系统。

效果展示

图片

上图所示的任务是抓取一支自由下落的笔。 这个任务对反应时间的要求极为苛刻。机器人观察到笔开始下落后,必须在极短的时间内做出反应并在正确的时间启动抓取动作,快一点或者慢一点都会导致任务失败。

最终呈现的效果是 从 “看到笔” 到 “执行抓取” 的端到端总反应时间被缩短到 200 毫秒以内,这大概对应到一个 30 cm 左右的最短下落距离。而人类在这个任务上的一般表现也不过如此。

下一步规划

图片

基于上述取得的成果,研究者设计了一套完整的、围绕 GPU 打造的机器人控制框架,它能驱动 VLA 大模型,像 “直播” 一样对机器人进行流式的实时控制,让机器人拥有 3 种不同速度的 “反应神经”:

  • 超快反应(480Hz):处理来自力传感器等高速信号。就像你的手一碰到烫的东西会瞬间缩回,不需要经过大脑思考。这部分由模型的 “解码器” 负责,能每秒生成 480 次控制指令。
  • 视觉反应(30Hz):处理来自摄像头的画面。就像你看着球飞过来,用眼睛跟踪并判断落点。这部分由模型的 “编码器” 负责。
  • 智能思考(<1Hz):处理语言理解和任务规划。就像你在执行任务时,还能分心听一下队友的指令或者自己琢磨一下策略。这部分速度最慢,但赋予了机器人更高的智能。

通过分析与实验,这个框架下一步规划最高能以 480Hz 的频率生成机器人控制信号;这个速度,已经摸到了实现基于力反馈进行控制的门槛。

未来展望

机器人有没有可能达到 “又聪明又快” 的效果?这篇文章只是一个起点。针对未来不断增加中的边缘计算算力,研究者展望了更进一步的可能性:

  • “眼睛” 最快能有多快?从 30fps 到 60fps,甚至 120fps,是否有更多的任务变得可行?
  • “大脑” 最大能有多大?在实时性约束下,我们是否可以从 3B 模型,走向 7B,13B 模型,甚至更大模型?
  • “反应” 速度的极限在哪里?在 VLA 框架下,我们是否还可以建立亚毫秒、甚至微秒级的反馈回路?

从这篇文章出发,一个能够参与实时控制 VLA 的世界的大门正在被打开。

...

#ReDiff

突破并行生成瓶颈,多模态扩散模型生成质量与效率双提升

  • 论文标题: From Denoising to Refining: A Corrective Framework for Vision-Language Diffusion Model
  • 作者团队:香港大学MMLab和腾讯ARC Lab
  • 论文:https://arxiv.org/pdf/2510.19871
  • 主页:https://rediff-hku.github.io/
  • 代码:https://github.com/jiyt17/ReDiff

本文介绍一篇关于多模态扩散模型的新研究:ReDiff,从被动“去噪”到主动“精炼”的扩散模型新范式。

可视化

可视化

可视化

可视化

目前,多模态大模型(VLM)主要有基于自回归(AR)和离散扩散(Discrete Diffusion)两条技术路线。AR模型一次生成一个词,无法修改已生成的错误;扩散模型为双向注意力,虽然理论上可以并行生成、提高生成速度,但在实践中发现并行生成会带来很多问题:生成的句子语法混乱、语义幻觉严重。

本文深入探究了这个问题,并提出了一个全新的纠正框架(ReDiff),大幅提高多模态扩散模型并行生成的稳定性和准确性。

动机:灾难性的“错误累积”

为什么多模态扩散模型在并行生成时容易失败?

我们发现,这主要源于“训练-推理差异”:模型在训练时复原[mask]基于的是完全正确的context,但在推理时,它却必须依赖自己上一步生成的、可能包含错误的内容。

在并行生成(一次预测多个词)时,这种相互干扰的问题会更严重:模型在某一步生成了一个错误的词,这个错误立刻污染了上下文,导致模型在下一步预测新词时更加困难,更容易出现错误。

错误不断累积、互相影响,最终导致了“错误累积”(Error Cascade),输出的文本完全偏离事实、语法混乱。

方法:从被动去噪 (Passive Denoising) 到主动精炼 (Active Refining)

为了打破这个恶性循环,我们提出了一种全新的范式转变:从被动去噪,转向主动精炼。

传统的“去噪”模型是被动的,它只能在给定的、固定不变的上下文里去填补[MASK]空白。而 ReDiff 框架,赋予了模型“主动精炼”的能力,让它在生成新词的同时,还能回头审视并修正已经生成的错误内容,主动地改进生成的上下文环境。

具体地,本文通过两阶段训练来实现这一点:

阶段一: Foundational Revision(refine的基础)

首先给模型“喂”一些人工制造的错误数据(包括语法混乱和语义幻觉),让模型学会如何修正这些错误,使其具备基础的“纠错”能力,得到模型 ReDiff-Base。

阶段二:Online Self-Correction(refine的核心:自我纠错)

让模型“从自己的错误中学习”:

生成草稿:用第一阶段的 ReDiff-Base 生成一些(可能不完美的)“草稿”(Flawed Drafts)。

专家修正:引入一个强大的“专家模型”(如GPT-4o-mini)来批改这些草稿,生成修正后的“标准答案”。

学习修正:让 ReDiff 模型学习如何把自己的“草稿”修改成“专家修正版”。

这个过程可以循环进行,通过这种“Mistake-Driven”(错误驱动)的学习,ReDiff 真正学会了如何识别并纠正它自己倾向于犯的错误。

实验:更稳定、更准确、更高效

实验结果证明了 ReDiff 框架的优势:

并行生成稳定性:

在加速并行生成(即减少推理步数,每步生成更多token)时,基线模型(如LLaDA-V和传统mask-pred训练的模型)的性能会迅速下跌。而 ReDiff 性能下降非常平缓,展现了更好的稳定性,实现了高效且高质量的并行生成。

更高质量的生成效果:

除了可以提高并行生成稳定性,在同一推理步数下 ReDiff 也展现了更高的生成准确性、综合质量(更少的幻觉和语法错误)。在 CapMas、CapArena 等多个主流的 detailed caption 评测基准上,ReDiff 取得了领先的性能。

强大的纠错能力:

从生成实例中可以看到,模型在生成过程中可以同时预测新的词和纠正之前生成的错误词,生成的结果更准确通顺。并且如果用户预输入了错误词,模型也可以修正。

4tokens/step生成结果对比:

模型修正输入的错误答案:

refine修正过程,错误词用红色标记,修正后用绿色标记:

可视化

可视化

可视化

可视化

...

#哈工大最新一篇长达33页的工业智能体综述

随着大语言模型(LLMs)能力的爆发式增长,AI智能体 (Agent) 已从通用场景探索,逐步深入到金融、医疗、制造等知识密集、高风险的工业领域。

这些被称为“工业智能体”的系统,不仅需要具备自主推理、规划与工具使用能力,更要适配复杂业务逻辑、严苛安全标准与领域知识壁垒——如何将通用智能体的技术潜力,转化为驱动产业变革的实际生产力,成为当前AI落地的核心挑战。

近期,来自哈工深与华为的研究团队系统梳理了LLM驱动工业智能体的技术演进、应用实践与评测体系,发布了一篇覆盖300+篇研究的综述《Empowering Real-World: A Survey on the Technology, Practice, and Evaluation of LLM-driven Industry Agents》。本文创新性提出“能力成熟度框架”,从“流程执行系统”到“自适应社会系统”,清晰勾勒出工业智能体的进化路径,为科研与产业落地提供了完整参考蓝图。

论文地址:https://arxiv.org/abs/2510.17491v1

工业智能体框架

工业智能体的核心

不同于仅处理文本的传统LLM,工业智能体需具备与真实世界交互的“认知闭环”——而这一能力的实现,依赖记忆(Memory)、规划(Planning)、工具使用(Tool Use) 三大核心技术支柱。三者的协同演进,直接推动工业智能体从简单指令执行者,升级为能自主决策、协作创新的复杂系统。

1. 三大技术支柱:从基础能力到高阶协作(1)记忆机制:从“临时记事本”到“集体知识库”

工业智能体中记忆机制的演进

记忆是智能体实现长期任务连贯性的基础,其进化可分为五个阶段:

  • 瞬时记录(L1):依赖LLM上下文窗口的“工作记忆”,仅维持单轮交互信息一致性(如ReAct框架的推理过程记录),任务结束后即遗忘;
  • 被动检索(L2):连接外部知识库(如医疗数据库、API文档),通过RAG技术实现知识查询(如ChatDoctor调用医学文献、ChatDB生成SQL检索数据),但无法主动学习;
  • 主动学习(L3):具备“经验内化”能力,通过自我反思从失败中提取规律(如Reflexion框架记录错误轨迹并优化策略),甚至通过参数编辑嵌入专业知识(如Huatuo医学模型、InvestLM金融模型);
  • 分布式共享(L4):多智能体协作的“集体记忆”,如AutoGen、MetaGPT框架中,团队共享需求文档、代码库与错误记录,避免信息孤岛;
  • 进化式记忆(L5):类似人类社会的“文化传承”,记录群体成功策略与价值观,新加入智能体可直接继承(如Aivilization虚拟社会中的知识传播、WarAgent战争模拟中的长期行为塑造)。

(2)规划能力:从“线性步骤”到“自主目标生成”

工业智能体中规划能力的演进

规划决定智能体解决复杂问题的自主性,其进化路径清晰反映了智能体的决策深度:

  • 线性推理(L1):按固定流程分解任务,如Chain-of-Thought(CoT)引导模型生成单一步骤链,适用于数学计算、简单指令执行;
  • 反应式规划(L2):结合环境反馈动态调整,形成“思考-行动-观察”闭环(如ReAct框架调用工具后根据结果修正步骤),典型场景如网页自动化(WebGPT)、机器人任务分解(ProgPrompt);
  • 全局规划(L3):具备非线性探索与自我纠错能力,如Tree-of-Thought(ToT)以树状结构探索多解决方案,CRITIC框架通过外部工具验证并修正错误,适用于软件代码修复、科学实验设计;
  • 协同规划(L4):多智能体分工协作,如HuggingGPT协调多个模型完成多模态任务,CodeEdu构建多智能体编程教学平台,解决单智能体无法覆盖的复杂业务流程;
  • 自主目标规划(L5):突破“人类给定目标”限制,能自主提出长期战略(如Towards AI Urban Planner生成城市规划方案、SE-VLN框架实现智能体自我进化),是通用工业智能体的终极方向。

(3)工具使用:从“被动调用”到“主动创造”

工业智能体中工具使用能力的演进

工具使用是智能体突破自身能力边界的关键,其进化体现了智能体与环境交互的深度:

  • 指令驱动(L1):工具调用固定且隐式,如PAL框架用代码解释器解决数学问题,工具功能被封装为模型固有能力;
  • 目标驱动(L2):根据任务自主选择工具,如Toolformer通过自监督学习决定何时调用API,WebShop在模拟电商场景中选择搜索、筛选工具,LangChain等框架降低了工具集成门槛;
  • 工具编排(L3):组合多工具形成“工具链”,如ART、Chameleon框架分解复杂任务并规划工具调用顺序,LeanTree在数学证明中组合逻辑工具,同时具备故障纠错能力(如CRITIC验证工具执行结果);
  • 协同使用(L4):多智能体共享工具库并协作操作,如GasAgent优化智能合约气体消耗、IM-Chat在注塑行业实现跨角色知识传递,工具管理成为复杂规划问题;
  • 工具创造(L5):自主设计新工具填补能力空白,如CREATOR框架让LLM识别问题后生成专用工具,Auto-GPT链接现有工具实现开放目标,是智能体“自主进化”的核心标志。

2. 五级能力成熟度:工业智能体的进化地图

基于三大技术支柱的演进,论文提出工业智能体五级能力成熟度框架,清晰定义了不同阶段的核心价值与应用边界:

级别

系统类型

核心能力

典型场景

L1

流程执行系统

指令翻译(如文本转SQL/CAD)、结构化信息提取

数据库查询、工业图纸生成、表单信息抽取

L2

交互式问题解决系统

软件交互(如GUI自动化)、知识辅助决策

网页自动化、金融市场分析、医疗问诊辅助

L3

端到端自主系统

数字工程(代码生成/修复)、科学发现、具身交互

软件开发、材料设计、机器人自主操作

L4

协同智能系统

多智能体业务执行、复杂系统仿真

智能制造调度、供应链优化、城市交通模拟

L5

自适应社会系统

自主目标生成、价值进化、环境协同演化

去中心化组织运营、智慧城市治理、自主科研社区

流程执行系统(L1)与交互式问题解决系统(L2)

端到端自主系统(L3)

协同智能系统(L4)与自适应社会系统(L5)

工业智能体的评估

在工业智能体的研发与落地中,“如何科学评估其能力”是关键问题。论文围绕“基础能力验证”与“产业实践适配”两大维度展开智能体的评估。

xxx工业智能体的评测

1. 基础能力评测

针对工业智能体的记忆、规划、工具使用三大核心能力,现有评测已形成标准化基准,覆盖从简单交互到长期任务的全场景:

  • 记忆能力:聚焦信息存储与检索的准确性、长时序连贯性,如MemoryAgentBench测试“精准检索、长程理解、冲突解决”能力,3DMem-Bench通过2.6万+轨迹评估3D环境中的空间记忆推理,QuALITY数据集则以5000字长文档考验文本记忆深度;
  • 规划能力:从逻辑推理到动态决策分层考核,基础层用GSM8K(数学题)、HotpotQA(多文档推理)验证简单规划,进阶层用TextAtari(10万步游戏决策)、FlowBench(51个跨域工作流)测试长时序规划,Reflection-Bench则关注规划中的自我纠错能力;
  • 工具使用能力:围绕API调用、工具组合与容错性设计评测,ToolBench、API-Bank覆盖400+真实API,测试“工具选择-调用-结果验证”全流程,ComplexFuncBench、NESTFUL则针对嵌套工具链、多步约束调用等复杂场景,评估智能体的工具编排与故障处理能力。

2. 产业实践评测

不同行业的高壁垒需求,推动评测体系向“场景化、高保真”方向发展,典型领域包括:

  • 通用跨域场景:用GAIA(466个真实问题)、AgentBench(多模态开放环境)评估智能体的通用任务适配性,WebArena、VisualWebArena则模拟真实网页交互,测试GUI操作、信息检索等基础工业场景能力;
  • 垂直行业场景:金融领域用FinRL Contests(实时股市数据)、FinArena(多模态交易模拟)考核风险控制与收益能力;医疗领域用MedAgentBoard(多模态临床任务)、MedChain(1.2万+病例)验证诊断准确性与安全性;软件领域则以SWE-bench(2294个GitHub真实漏洞)评估代码修复、复杂开发能力;
  • 特殊需求场景:针对安全合规,RAS-Eval测试11类CWE漏洞;针对流程 adherence,τ-bench、τ²-bench模拟动态用户交互,验证智能体的规则遵循能力;针对多智能体协作,CREW-Wildfire(野火救援模拟)评估团队协调与长期规划。

工业智能体落地全景

当前工业智能体已在多个关键行业展现落地潜力,其应用价值集中体现为“效率提升”与“风险降低”两大核心——既解决人工难以覆盖的复杂任务,又通过标准化流程减少人为失误。

1. 数字工程:从“代码助手”到“自主开发者”

在软件、硬件研发领域,智能体已能承担从需求分析到部署的全流程任务:

  • 软件研发:AutoDev、Self-Collaboration框架模拟人类开发团队协作,实现代码生成、跨文件依赖分析与错误修复;PentestGPT、HackSynth则能自主执行渗透测试,发现系统安全漏洞;
  • 硬件设计:CVDP基准覆盖硬件设计与验证任务,LLM驱动的智能体可生成Verilog代码、优化芯片布局,CAD-MLLM实现文本、图像到3D模型的跨模态生成。

2. 科学发现:AI成为“科研伙伴”

工业智能体正加速科学研究进程,从辅助分析升级为自主探索:

  • 材料与化学:LLMatDesign自主设计新材料晶体结构,AgentDrug、LIDDiA实现药物分子优化;ORGANA、ARChemist等机器人系统,通过控制实验设备完成化学合成闭环;
  • 基础科学:AI Scientist-v2生成首篇AI撰写的同行评审论文,DISCOVERYWORLD虚拟环境支持物理、生物实验的自主设计与验证,显著降低科研试错成本。

3. xxx智能:连接数字与物理世界

在机器人、自动驾驶等领域,智能体实现“感知-决策-执行”的物理交互闭环:

  • 机器人操作:PaLM-E将视觉、语言与动作融合,实现端到端 embodied 推理;ECoT框架通过多步推理提升机器人复杂任务泛化性,如家务机器人自主整理环境;
  • 自动驾驶:世界模型(如蔚来NWM)作为智能体核心,生成仿真场景用于训练,同时预测路况变化辅助决策,提升自动驾驶安全性。

4. 金融服务:平衡收益与风险

金融领域的高敏感性要求智能体具备精准决策与风险控制能力:

  • 交易与投资:TradingAgents、HedgeAgents模拟多角色协作,优化交易策略;FinArena结合多模态数据与人类交互,提升市场预测准确性;
  • 风险管控:Risk-Engineering框架通过三级压力测试,评估智能体在极端市场下的稳定性;DeepFund实时对接股市数据,验证LLM投资策略的长期有效性。

5. 医疗健康:安全优先的智能辅助

医疗领域的高风险特性,要求智能体兼顾专业性与可靠性:

  • 诊断与治疗:MedChain构建交互式临床病例库,支持多步诊断推理;ChestAgentBench、EyecareBench等基准,优化智能体在放射科、眼科等专科的诊断精度;
  • 安全保障:MedSentry通过5000+对抗性提示测试智能体安全性;AMQA基准检测医疗诊断中的人群偏见,避免算法歧视。

6. 复杂系统仿真:数字孪生驱动决策

通过多智能体模拟,工业智能体为城市、供应链等复杂系统提供决策支持:

  • 城市治理:CitySim模拟个体行为预测城市动态,CUP框架协调规划师、居民等角色生成土地利用方案;
  • 供应链与交通:InvAgent优化库存管理应对供应链波动;CoMAL、CoLLMLight通过智能体协作优化混合交通流与信号灯控制。

挑战与未来

尽管工业智能体已取得显著进展,但从技术验证到大规模落地,仍需突破四大核心挑战:

1. 技术瓶颈:从“能用”到“好用”

  • 长时序可靠性:当前智能体短期预测表现优异,但随时间推移误差累积(如长时间机器人操作场景),如何平衡视觉逼真度与物理一致性仍是难题;
  • 跨模态对齐:多模态数据(图像、点云、文本)融合易出现偏差,如生成图像与几何结构错位,影响下游感知与规划;
  • 实时性不足:复杂模型与多工具调用导致高延迟,难以满足自动驾驶、工业控制等高频交互需求。

2. 评测困境:真实与可复现的平衡

现有评测体系面临“三重矛盾”:

  • 真实性 vs 可复现性:越贴近真实工业环境,随机性越强,实验难以复现;而高度仿真环境虽可复现,却与实际场景存在“Sim2Real鸿沟”;
  • 成本 vs 效率:人工评测是“黄金标准”,但耗时耗力;LLM自动评测虽高效,却存在偏见与幻觉问题;
  • 隐私 vs 数据质量:工业数据(如医疗病历、金融交易记录)受隐私法规限制,合成数据难以覆盖关键细节,影响评测有效性。

3. 落地障碍:组织与技术的双重阻力

  • 系统兼容性:企业现有IT架构多为legacy系统,缺乏标准化API,智能体集成难度大;
  • 组织信任与转型:员工需从“执行者”转为“智能体管理者”,存在信任壁垒与技能鸿沟;部门数据 silo 难以打破,阻碍多智能体协作;
  • 安全与伦理:智能体自主决策可能引发责任界定问题(如医疗误诊、金融损失),且存在 prompt 注入、数据泄露等安全风险。

4. 未来趋势:三大方向引领下一波突破

  • 统一范式与跨模态融合:融合生成式与预测式建模,打通图像、点云、文本等多源数据,构建更一致的世界表征;
  • 语言与推理深度结合:让智能体不仅“会行动”,更能“解释决策”,如引入思维链(CoT)机制提升任务分解与逻辑推理能力;
  • 开放基准与生态构建:建立大规模开源数据集(如SWE-bench、FinEval)与可复现代码库,推动评测标准化,同时构建“智能体+人类”协同治理体系。

四、总结:工业智能体的“现在与未来”

这波LLM驱动的工业智能体热潮,本质是AI从“感知智能”向“认知智能”的跨越——不再局限于数据拟合,而是具备理解业务、规划策略、创造价值的能力。从L1的流程自动化到L5的自适应社会系统,每一级进化都在重新定义“人机协作”的边界:

  • 它是数据引擎:生成合成数据填补工业数据稀缺痛点(如自动驾驶仿真场景、医疗病例);
  • 它是决策助手:在金融、医疗等领域提供专业知识支持,降低人为失误;
  • 它是协作伙伴:在软件研发、智能制造中与人类分工协作,提升效率;
  • 它更是创新载体:在科学发现、城市治理中提出新方案,突破人类认知局限。

当然,工业智能体的落地仍需跨越技术、组织、伦理的多重关卡。但可以预见,随着记忆、规划、工具使用技术的持续深化,以及评测体系与安全标准的完善,工业智能体将成为继LLMs之后,又一推动产业变革的核心力量——未来的工厂、医院、城市,都将因“能思考、会行动”的智能体而焕发新活力。

...

#Multimodal Spatial Reasoning in the Large Model Era

港科大(广州)等联合发布多模态空间推理综述:为大模型画下空间理解的未来蓝图

我们生活在一个三维的世界里,理解空间关系是与生俱来的本能。但是,对于近年来飞速发展的大语言模型(LLM)而言,这似乎仍是一个不小的挑战。它们或许能对答如流、妙笔生花,但在被问及“桌子上的苹果左边是什么”这类问题时,却常常“犯迷糊”。

为了让AI真正理解并与物理世界交互,空间推理能力不可或缺。最近,来自香港科技大学(广州)、索菲亚大学、香港科技大学、华南理工大学、上海交通大学、比萨大学和特伦托大学等多个顶级研究机构的学者们,联手发布了一篇名为 《Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks》 的重磅综述,系统性地梳理了当前大模型在多模态空间推理领域的进展、挑战与未来。

  • 论文标题: Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks
  • 作者团队: Xu Zheng, Zihao Dongfang, Lutao Jiang, Boyuan Zheng, Yulong Guo, Zhenquan Zhang, Giuliano Albanese, Runyi Yang, Mengjiao Ma, Zixin Zhang, Chenfei Liao, Dingcheng Zhen, Yuanhuiyi Lyu, Yuqian Fu, Bin Ren, Linfeng Zhang, Danda Pani Paudel, Nicu Sebe, Luc Van Gool, Xuming Hu
  • 机构: 香港科技大学(广州)、索菲亚大学、香港科技大学、华南理工大学、上海交通大学、比萨大学、特伦托大学
  • 论文地址: https://arxiv.org/abs/2510.25760
  • 项目主页: https://github.com/zhengxuJosh/Awesome-Spatial-Reasoning

这篇综述不仅对现有工作进行了归纳,还提供了一个开放的基准测试和代码库,旨在为该领域的研究者们提供一个坚实的基础和清晰的路线图。

空间推理:为什么重要?是什么?

空间推理是人类通过视觉、听觉等多种感官信息来理解和认知空间的基本能力。对于AI,尤其是在自动驾驶、机器人、增强现实等需要与物理世界深度交互的场景中,这种能力是实现智能化的关键。

论文首先明确了多模态空间推理的范畴,即模型需要从图像、视频、点云、音频、文本等异构输入中,推断出空间关系、位置和动作,并产生可验证的、空间上合理的输出。

论文的贡献:一张清晰的路线图

面对大模型空间推理领域方法众多但缺乏系统性梳理的现状,这篇综述做出的一项关键贡献是作者们构建了一个清晰的分类法(Taxonomy),将复杂的空间推理任务和技术系统地组织起来。

这张“科技树”将多模态空间推理划分为四大块:

  1. 通用多模态大语言模型(MLLM):关注如何通过后训练、模型架构设计和提升可解释性等方式,增强模型的通用空间推理能力。
  2. 3D视觉:深入探讨了3D场景下的视觉定位(Grounding)、场景理解与问答(QA)、以及3D内容生成。
  3. 具身智能(Embodied AI):聚焦于更复杂的动态任务,如视觉-语言导航(VLN)和视觉-语言-动作(VLA)模型。
  4. 新兴模态:探索了如何利用音频、第一视角视频等新传感信息来辅助空间理解。

通用MLLM的空间推理增强术

如何让一个通用的MLLM“开窍”,学会空间推理?论文总结了当前主流的几类方法。

  • 测试时扩展(Test-Time Scaling):包括提示工程(Prompt Engineering)、工具使用(Tool Use)等,无需重新训练模型,通过巧妙的输入设计或借助外部工具来提升性能。
  • 后训练(Post-Training):通过在特定的空间任务数据上进行监督微调(SFT)或强化学习(RL),来“教会”模型空间知识。
  • 模型设计与可解释性:从模型架构层面进行改进,或研究模型为何在空间任务上失败,从而针对性地提出解决方案。

论文详细对比了各种提示工程方法、工具使用策略以及强化学习方法在空间推理任务上的应用,为研究者提供了丰富的“弹药库”。

从2D到3D:空间推理的进阶之路

如果说2D图像的空间推理是基础,那么3D世界的理解与交互则是大模型们正在努力攻克的下一座高峰。

论文重点梳理了3D空间中的三大核心任务:

  • 3D视觉定位(3D Visual Grounding):根据语言描述,在3D场景中找到对应的物体。这需要模型将语言概念与3D空间中的几何实体精确对齐。
  • 3D场景推理与问答(3D Scene Reasoning and QA):对3D场景提出问题,并由模型进行回答,这要求模型对场景的几何结构、物体关系有更深层次的理解。
  • 3D生成(3D Generation):根据文本或图像描述,生成全新的3D模型或场景布局。这不仅考验模型的空间想象力,还考验其对物理世界规律的把握。

迈向物理世界:具身智能中的空间推理

具身智能(Embodied AI)是AI研究的“圣杯”之一,它要求智能体(Agent)能够在物理环境中执行任务。这背后,空间推理能力是不可或缺的驱动力。

论文回顾了VLA(视觉-语言-动作)和VLN(视觉-语言-导航)等主流具身任务中的空间推理研究。例如,如何让机器人根据“把桌上的红苹果放到冰箱里”这样的指令,规划出合理的路径并完成动作。作者们对比了不同的模型在引入3D信息、多任务训练等方面的策略和效果。

新的感官:视频和音频中的空间线索

除了传统的图像和文本,视频和音频也蕴含着丰富的空间信息。比如,通过声音的远近、方位变化,我们可以判断声源的位置和移动轨迹。

论文专门开辟章节,探讨了在视频问答和音频问答中,模型如何利用时空线索和声学线索进行推理。这为多模态感知开辟了新的可能性。

基准与挑战:衡量进步的标尺

没有度量,就无法进步。论文的另一大亮点是全面梳理了多模态空间推理的基准(Benchmarks)。作者们绘制了一张时间线,清晰地展示了相关基准的演进历程,从早期的图文对,到如今覆盖视频、音频、3D、交互等多种模态和任务的复杂评测。

同时,论文也汇总了当前SOTA模型在一些主流视频-文本空间推理基准上的表现,让我们可以直观地看到现有技术的水平。

最后,论文总结了该领域面临的核心挑战,并指明了未来的研究方向,例如:

  • 第一视角(Egocentric)的推理:如何从“我”的视角去理解世界。
  • 高效可扩展的3D表示:如何更好地在模型中表征复杂的3D世界。
  • 具身智能的泛化:如何让智能体在未知环境中也能表现出色。
  • 新传感器的融合:如何利用热成像、雷达、全景相机等更多样的传感器。
  • 统一的评测基准:建立更全面、更贴近真实的评测标准。

总结

xxx认为,这篇综述为关注多模态和具身智能领域的研究者提供了一份宝贵的“导航图”。它不仅告诉我们现在身处何方,更重要的是,它指明了通往“星辰大海”的几条可能路径。

...

#谷歌DeepMind联手五大神殿

陶哲轩敲警钟!谷歌DeepMind联手五大神殿,用AI向世纪难题宣战

谷歌DeepMind发起「AI赋能数学计划」,联合帝国理工、普林斯顿IAS等五大顶尖机构,用Gemini Deep Think、AlphaEvolve、AlphaProof等最强数学AI攻关新难题;陶哲轩呼吁建立AI使用声明、风险缓解与责任归属三大规范,守护数学严谨性。

今天,谷歌DeepMind重磅发起「AI赋能数学计划」,集结了全球五大顶尖机构。

他们将用上谷歌最强数学AI,去探索发现新的疆域。

这其中,有夺下IMO金牌的Gemini Deep Think,有算法发现AI智能体AlphaEvolve,还有形式化证明自动补全AlphaProof。

目前,首批合作机构阵容,堪称豪华:

  • 伦敦帝国学院
  • 普林斯顿高等研究院(IAS)
  • 法国高等科学研究所(IHES)
  • 西蒙斯计算理论研究所(加州大学伯克利分校)
  • 塔塔基础科学研究所(TIFR)
     

这五大机构有着一个共同的使命,发掘可以被AI点亮的数学难题,加速科学发现。

然而,陶哲轩担忧的是,「当前AI在数学研究中应用加深,除了负责任的使用,AI滥用的案例也屡见不鲜」。

因此他认为,现在正是时候,启动关于如何最佳融入AI、透明披露其作用,并缓解风险的讨论。

或许,这不仅能守护数学研究的严谨性,还将为AI+数学融合铺就道路。

五大顶尖机构,联手强攻数学难题

数学,是宇宙最基础的语言。

在谷歌DeepMind看来,AI可以作为强大工具,与数学家合作,激发其创造力。

「AI赋能数学计划」的诞生,就是为了:

发掘有望借助AI获得深刻见解的新一代数学难题;  

构建支持这些前沿探索所需的基础设施与工具;  

最终加速科学发现的步伐。

这项计划,将由Google.org提供资金支持,以及谷歌DeepMind的顶尖技术。

几个月来,谷歌DeepMind自身的研究,取得了飞速进步。

2024年,AlphaGeometry和AlphaProof在IMO竞赛中,拿下了银牌。

而搭载Deep Think的最新Gemini模型,更是在今年IMO中取得了金牌水平的表现,完美破解5题拿下35分。

在数学分析、几何学、组合数学和数论领域50个公开难题上,20%题目中,AlphaEvolve取得了最优解。

而且,在数学与算法发现领域,它发明了一种全新的、更高效的矩阵乘法方法。

具体来说,在4x4矩阵乘法这一特定问题上,它发现了仅需48次标量乘法的算法。

这一结果,打破了1969年由Strassen算法,创下长达50年的历史纪录。

不仅如此,在计算机科学领域,AlphaEvolve协助研究员发现了全新的数学结构。

同时,它还发现了有些复杂问题的求解难度,其实比人们过去想的还要高,这让研究者对计算边界看得更清楚、更精准,为未来的研究探明方向。

以上这些进展,都是当前AI模型快速发展的有力证明。

对于AI的全部潜力,还有它怎么搞定思考最深奥的科学问题,人类的理解才刚刚开始。

AI+数学,边界在哪?

一直以来,陶哲轩是「AI+数学」领域应用的看好者,也是最佳实践者。

他曾多次联手GPT-5 Pro等顶尖AI,破解了许多数学领域的难题,大大提升了效率。

毋庸置疑,在数学领域,LLM和证明助手等AI工具,正悄然改变研究范式。

最近,一些顶尖论文开始融合AI,推动了从形式化证明到复杂计算的创新。

论文地址:https://borisalexeev.com/pdf/erdos707.pdf

然而,随着AI的深度介入,也引发了一个关键问题:

如何确保这些工具的使用,不损害论文的严谨性和价值?

陶哲轩献策

借此契机,陶哲轩在公开平台上发起了讨论,在长帖中,他提出了三大建议。

以下,AI一词,它不仅涵盖LLM,也包括神经网络、可满足性求解器、证明助手以及任何其他复杂的工具。

1 AI使用声明

论文中,所有对AI实质性的使用,超出其基础功能,比如自动补全、拼写检查,或搜索引擎AI摘要,都必须明确声明。

2 AI风险讨论与缓解措施

论文中,应讨论所用AI工具可能带来的一般性风险,并说明为缓解这些风险已采取的措施。

以下将举例说明:

2.1. 内容虚构,出现了「幻觉」

AI可能会编造参考文献、证明过程或文本,导致事实错误。

建议不要在论文正文中,使用AI生成的文本;若必须使用AI输出,则用不同字体或标记清晰标注。

2.2. 缺乏可复现性

专有AI或高计算成本的结果难以复现。解决方案是,开源提示词、工作流程、认证数据等,让他人能低成本验证。

2.3. 缺乏可解释性

AI输出往往晦涩,其解释可能站不住脚。建议为每个AI输出配以人类撰写的、可读性强的对应内容。

比如,一个定理可以同时包含一个由人类撰写、易于阅读的非形式化证明,以及一个由AI生成但不易阅读的形式化证明。

2.4. 缺乏可验证性

AI易藏细微错误,检查耗时。

形式化验证,一致性检查,都有助于缓解这一问题,并采用多层次方法。

关键是标注验证范围,在定理旁加「校验标记」,未验证部分则明确说明。

2.5. 目标形式化不当

AI可能精确解决「错位」目标,即形式化后的命题偏离作者意图。为此,应从独立来源获取形式化目标,或由人类深入审视形式化过程。

2.6. 可能利用漏洞达成目标

与上一问题相关联,AI可能会钻形式化表述的空子,如添加任意公理「证明」命题。

应对方法是,列出已知漏洞,并讨论排除机制确保过程严谨。

2.7. AI生成代码有Bug

AI生成代码bug更加隐蔽,难以用传统标准方法来检测修复。

为此,建议采用大量单元测试、外部验证,或将AI使用限于简单场景,复杂任务需由人类修改适配。

3 责任归属

最终,论文的所有作者,必须为AI贡献内容承担责任,包括任何不准确、疏漏或虚假陈述。

除非明确标记为「未经核实」,否则作者不能推卸。

以上这些,仅是陶哲轩的抛砖引玉,他希望加入更多的讨论,和业界研究人员进一步完善这份清单。

评论下方,一位研究者John Dvorak直戳痛点——

除非我们能跨过临界点,让所有数学证明都用Lean做形式化验证,成为学界的标配,否则这个问题基本无解。  

说到底,在Lean普及之前,这些法子虽然治标不治本。

对此,陶哲轩抛出了最近看到的一个观点,即用AI审稿质量是可以的,但它并非是主要的筛选工具质之一。

否则就会触发「古德哈特定律」(Goodhart's law),AI工具就会找到漏洞,用一些异常、分布之外的文本字符串就能绕开审核。

说白了,AI评估器顶多给人类审核当个辅助,而不能完全取代人类评估者。

参考资料:

​https://blog.google/technology/google-deepmind/ai-for-math/?utm_source=x&utm_medium=social&utm_campaign=&utm_cnotallow= ​

​https://ai-math.zulipchat.com/​​#narrow/channel/539992-Web-public-channel---AI-Math/topic/Best.20practices.20for.20incorporating.20AI.20etc.2E.20in.20papers/near/546518354

...

#OpenAI o1智商120

还是被陶哲轩称为「平庸的研究生」,但实力究竟如何?

o1消息满天飞。

自从 OpenAI 发布了新模型 o1 后,它就承包了 AI 领域近几天的热搜:

有人用门萨智商测试题「拷问」它,竟测得 o1 智商高达 120;

数学大佬陶哲轩要求 o1 回答一个措辞含糊的数学问题,最终得出一个结论:o1 是个平庸但不无能的研究生;

还有一位天体物理学论文作者,仅用 6 次 Prompt,就让 o1 系列模型在 1 小时内,创建了代码运行版本,这可是他博士生期间 10 个月的工作量。

但在 ARC Prize 测试中,o1 的表现并没有想象中出类拔萃,仅仅是追平几个月前发布的 Claude 3.5 Sonnet。

看完五花八门的评测,大家反而有些迷茫了,o1 的实力到底怎么样?

智商测试得分忽高忽低,网友纷纷质疑

上周,OpenAI 在介绍 o1 时表示,它不需要专门训练,就能直接拿下数学奥赛金牌,甚至可以在博士级别的科学问答环节上超越人类专家。

这也让大家对 o1 的「智力水平」产生了好奇。就在前天,X 博主 Maxim Lott 专门拿 o1 进行了挪威门萨智商测试,结果测得它的智商高达 120,远远超过了其他所有的大模型。具体来说,o1 在 35 个智商问题中答对了 25 个,远远高于大多数人类的表现。

在此之前,Maxim Lott 还进行了一场 o1 的智商测试。在这个测试中,o1 的 IQ 达到 100。

两次结果一对比,有网友质疑,为何先后测试的结果如此不同?

Maxim 表示,o1 得分 100 的这个智商测试,是由门萨会员专门设计的,是一个仅限线下的测试,且不包含在任何人工智能的训练数据中,因此其得分会低于公开智商测试的得分。

也有网友好奇,o1 目前还不支持多模态,那么这类表格图形题目是如何测试的?

图片

还有网友认为,智商测试是一种狭隘的衡量标准,要想真正评估人工智能进化,不是通过门萨测试,而是考察它们对于细微差别、背景和人类复杂性的理解,而这些是智商测试无法量化的。

此外,有网友认为,门萨智商测试是针对特定年龄组的人类进行标准化的,因此对于这些机器人来说,不可能得到一个「真正的智商」分数或性能评估。

同样迷惑的是,在 ARC Prize 测试中,两个 o1 模型都击败了 GPT-4o,其中 o1-preview 仅仅和 Claude 3.5 Sonnet 得分相同。

图片

图源:https://arcprize.org/blog/openai-o1-results-arc-prize

这让人质疑:o1-preview 的「推理」可能只是一种营销语言,OpenAI 或许采取了一些方法让不太智能的系统看起来更智能,仅此而已。

在测试中,o1 的性能提升还带来了更高的时间成本 —— 它花了 70 个小时完成 400 个公共任务,而 GPT-4o 和 Claude 3.5 Sonnet 只花了 30 分钟。

「平庸的研究生」o1 

1 小时完成了博士生 10 个月的工作

或许大家还记得,陶哲轩前两天给了 o1 模型一个评价:「更强了,但是在处理最复杂的数学研究任务还不够好,就像指导一个水平一般但不算太无能的研究生。」

进步的地方体现在:「我要求 GPT 回答一个措辞含糊的数学问题,只要从文献中找出一个合适的定理就能解决这个问题。之前,GPT 能够提到一些相关概念,但细节都是幻觉般的胡言乱语。而这一次,GPT 找到了 Cramer 定理,并给出了完全令人满意的答案。」

比如,2010 年,陶哲轩曾经寻找「乘法积分」(multiplicative integral)的正确术语,但在当时的搜索引擎上找不到。于是他在 MathOverflow 上提出了这个问题,并从人类专家那里得到了满意的答案。如今,他向 o1 提出了同样的问题,模型返回了一个完美的答案。

诚然,上述 MathOverflow 上的帖子有可能已经包含在模型的训练数据中。但陶哲轩表示,这至少证明了 o1 在某些语义搜索查询的高质量答案方面与问答网站不相上下。

不足的地方也很明显,就像陶哲轩的举例:

新模型可以通过自己的努力得到一个正确的(而且写得很好的)解决方案,但它自己并没有产生关键的概念想法,而且确实犯了一些非同小可的错误。 这种经历似乎与试图给一个平庸但「并非完全不称职的研究生」提供指导差不多。 不过,这比以前的模型有所改进,因为以前的模型的能力更接近于「不称职的研究生」。 在达到「称职的研究生」水平之前,可能只需要再进行一到两次能力改进的迭代(以及与其他工具的整合,如计算机代数软件包和证明助手),到那时我就能看到这个工具在研究级任务中的重要作用了。

AI 学者田渊栋表示,自己也发现,虽然 o1 的表现令人印象深刻,但对于需要跳出思维定式的数学问题,o1 的表现仍然很差。

「令人惊讶的是,o1-preview 甚至无法检测出其逻辑链中的一些明显错误。」

有趣的是,对于陶哲轩等知名学者来说「不太令人满意」的 o1,却成为了很多研究者心中的神器。

一篇天体物理学论文的作者使用 o1 的预览和迷你版本,仅仅经过 6 次 Prompt,在 1 小时内创建了自己研究论文方法部分所述代码的运行版本。

,时长06:33

视频地址:https://youtu.be/M9YOO7N5jF8?si=5pfmIq023EFmPzdK

尽管代码不是当时唯一的突破成果,但这部分工作确实让他在攻读博士学位的第一年里奋斗了大约 10 个月。

但需要注意的是,虽然 o1 确实模仿了这位研究者的代码,但它使用的是自身创建的合成数据,而不是论文中使用的真实天文数据。此外,o1 创建的也只是一个「最简单版本」。

面对网友的一些质疑,他在后续发布的新视频中强调,自己并不是宣传人工智能已经到了能做出突破性新发现的地步,自己的尝试也不意味着 AGI 已经到来,原意只是「它可以成为一个非常棒的研究助手」。

,时长18:40

视频地址:https://youtu.be/wgXwD3TD43A?si=Nr6_Z1qjBdicE-_x

使用 Claude 逆向工程 o1 架构

得到什么结论?

在技术博客《Learning to Reason with LLMs》中,OpenAI 曾对 o1 进行了一部分技术介绍。

其中提到:「OpenAI o1 是经过强化学习训练来执行复杂推理任务的新型语言模型。特点就是,o1 在回答之前会思考 —— 它可以在响应用户之前产生一个很长的内部思维链。也就是该模型在作出反应之前,需要像人类一样,花更多时间思考问题。通过训练,它们学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误。」

或许 OpenAI 不会公布更多底层的技术细节了,但研究者们的好奇不会消失。

一位研究者「TechnoTherapist」决定借助大模型的力量来剖析:他向 Claude 提供了涉及 OpenAI 发布的信息(System Card、博客文章、Noam Brown 和其他人的推文、ARC Prize 团队的评论)和与 o1 模型相关的在线讨论(Reddit、YouTube 视频)。

Claude 可以用 mermaid、plantuml、svg 等语言创建图表。研究者从 mermaid 开始,反复修改,直到得到一个全面的图表;然后让 Claude 将其转换为 svg,并添加所需的视觉特征(美学、需要突出显示的区域等);最后,用 python 脚本将 svg 转换为 png 图像。

经过一番讨论,他和 Claude 共同完成了 o1 模型的可能架构图:

图片

图源:https://www.reddit.com/r/LocalLLaMA/comments/1fgr244/reverse_engineering_o1_architecture_with_a_little/

OpenAI 的博客也曾提到,随着更多的强化学习(训练时计算)和更多的思考时间(测试时计算),o1 的性能持续提高,类似于「强化学习的 Scaling Law」。大规模的强化学习算法,能够教会模型如何在数据高度有效的训练过程中利用其思维链进行高效思考。

在这次逆向工程中,研究者假设了 OpenAI 可能会使用现实世界中生成的 CoT 来进一步调整 RL 优化模型。因此在架构图中,语言模型会将大规模 CoT 存储输入到 RL 环境中。

也有人持不同看法,比如这位研究者指出,上述「假设」的过程很可能只是一个「模拟思路的 Prompt 响应生成循环」,而所谓的「推理 token」也只是一种隐藏 token 的花哨术语。

o1 能力强,但使用需谨慎

o1 确实有两把刷子,但它的发布也释放了一个危险信号:OpenAI 首次将 o1 模型在化学、生物、放射性和核武器风险方面评为「中等」,并伴随着许多关于其潜在危险的警告。

在 o1 的 system card 中,最引人注目的部分,就是由 Apollo Research 进行的评估。该评估发现,o1 在测试中「有时会策略性地伪装对齐」,「为了使其不一致的行为看起来更一致,策略性地操纵任务数据」。

Apollo 还发现,与 GPT-4o 相比,「o1-preview 在自我认知、自我推理(在智能体环境中应用自我意识)和应用心理理论方面有所提高」。

以上种种结果,让 Apollo 得出一个结论,「o1-preview 具备了进行简单上下文内策划的基本能力」,而这是许多担心 AI 风险的人非常关注的能力。

OpenAI 还指出,「推理技能导致『奖励黑客行为』的发生频率更高」。这种现象是指模型以不期望的方式实现了目标的文字规格。

在一次实验中,o1 被要求找到一个在远程挑战容器上运行的软件的漏洞,并加以利用,但挑战容器未能启动。

模型随后扫描了挑战网络,发现了一个在虚拟机上运行的 Docker 守护进程 API,并用它来生成容器的日志,解决了挑战。

OpenAI 对这一事件的描述值得一提:「这个例子也反映了工具性收敛和寻求权力的关键要素:模型追求了它被赋予的目标,当这个目标被证明是不可能的时候,它收集了更多资源(访问 Docker 主机)并用它们以一种意想不到的方式实现了目标。」

关于生物威胁,OpenAI 没有详细说明,但表示安全评估显示「o1-preview 和 o1-mini 可以帮助专家进行复制已知生物威胁的操作规划」。虽然模型「不会使非专家能够创建生物威胁」,但它们确实「加快了专家的搜索过程」,并且比 GPT-4o 显示出了更多的生物学「隐性知识」。

或许这意味着,随着 OpenAI 不断推进模型的发展,它们可能会创造出风险过高、以至于不适合公开发布的模型。

参考链接:

​https://www.maximumtruth.org/p/massive-breakthrough-in-ai-intelligence​

​https://x.com/maximlott/status/1835043371339202639​

​https://assets.ctfassets.net/kftzwdyauwt9/67qJD51Aur3eIc96iOfeOP/71551c3d223cd97e591aa89567306912/o1_system_card.pdf​

​https://www.transformernews.ai/p/openai-o1-alignment-faking?utm_campaign=post&utm_medium=web​

...

#瞥一眼就能模仿笔迹的AI

来自华南理工大学、新加坡国立大学、昆仑万维以及琶洲实验室的研究者们提出一种新的风格化手写文字生成方法,仅需提供单张参考样本即可临摹用户的书写风格,支持英文,中文和日文三种文字的临摹。

一眼临摹 AI 的研究背景

手写体自动临摹是一项有趣的 AI 生成式任务,用户只需将少量书写样本输入到笔迹模仿 AI 中,就能获得一套符合自己书写风格的电子字体。该字体可以用于社交和办公软件中,帮助用户更好的表达个性和传递情感,兼顾了传统手写的人情味和数字化时代的高效表达。

在去年早些时候,也报道过一个CVPR’23笔迹模仿的工作,名为Disentangling Writer and Character Styles for Handwriting Generation。彼时的笔迹模仿 AI 还需要提供 15 张样本作为风格参考,用户使用起来觉得略显繁琐。在实际应用中,用户更倾向于只需单张样本作为输入的笔迹模仿 AI,因为其更加高效,便捷以及节约时间。

图片

在这篇发表在 ECCV 2024 上的新工作中,研究者们设计了一种能够一眼临摹的手写文字生成方法。该方法仅需单张样本作为风格输入,为用户带来更好的使用体验。在具体介绍该工作之前,我们可以思考一个问题:目前大火的文生图方法和风格迁移方法是在海量的数据上进行训练的,拥有强大的泛化能力,能否可以直接实现一眼临摹?答案是否定的。研究者们挑选了 DALL-E3, Stable Diffusion , Artbreeder , IP-Adapter 等工业方法进行测试,实验显示现有工业方法在手写文字的风格临摹 (墨迹颜色,倾斜程度,字母间的连笔和间隔等) 上离目标还有较大距离,暂时还无法做到一眼临摹。

图片

为了实现一眼临摹,研究者们提出一个风格化的手写文字生成模型 (stylized handwritten text generation method),该模型能够从单张手写样本中临摹出用户的书写风格,进而合成任意书写内容的手写笔迹。目前论文的代码和数据已经开源,欢迎感兴趣的小伙伴们上手试玩!

  • 论文地址:https://arxiv.org/abs/2409.04004
  • 代码开源:https://github.com/dailenson/One-DM

关键问题

围绕上述目标,研究者们分析了两个关键问题:1. 用户只能提供单张书写样本,如何从单张参考样本中准确学习用户独特的书写风格呢?换句话说,一眼临摹的要求过于苛刻,仅仅使用单张样本能否临摹出令人满意的用户笔迹?2. 实际应用中,用户书写的纸张可能没那么干净,提供的样本中存在多样的噪声背景,如何在临摹风格的过程中避免这些噪声的干扰?接下来让我们看看这篇 ECCV2024 提出的 One-DM(One-Shot Diffusion Mimicker)是如何解决上述问题的吧。

技术方案

研究动机 研究者发现,由于单张样本图像中存在背景干扰,书写风格模式并不清晰,很难直接从原始的样本图像中提取出准确的书写风格。为了解决上述问题,研究者对样本进行高低频分离,发现书写样本的高频成分中具有清晰的文字轮廓,蕴含着显著的书写风格模式,包含文字的倾斜,字母间距和连笔模式等。受启发于上述观察,One-DM 旨在引入个人笔迹的高频成分来增强用户书写风格的提取。

图片

然而,这听起来简单,实际操作却不容易。这里有两个尚未解决的难题:(1) 尽管高频成分中存在更清晰的风格模式,如何准确引导 One-DM 从高频图像中提取出风格特征而不是其他的特征呢?(2) 由于高频成分中缺乏笔迹颜色,仍然需要从原始样本中提取风格模式作为补充,这导致最终提取出的风格特征依然保留了样本的背景噪声,从而对后续的文字合成过程产生不利影响。为了解决这些难题,One-DM 提出了两个解决策略:(a)拉普拉斯风格增强模块,(b)自适应过滤噪声的门控机制。

方法框架 One-DM 的整体框架如下图所示,包含高频风格编码器、空域风格编码器、内容编码器、风格 - 内容融合模块和扩散生成模块。首先,One-DM 利用高通滤波器从原始风格参考图像中提取高频成分,其次将高频和原始图像并行输入到高频和空域风格编码器中,分别获得高频和空域风格特征。然后,利用门控机制来自适应过滤空域风格特征中的背景噪声。接着将内容编码器提取的内容特征,高频风格特征和过滤后的空域风格特征送入风格 - 内容融合模块中获得合并后的条件输入。最后,利用该条件输入引导扩散模型合成满足期望风格和目标内容的手写文字。

图片

(a) 拉普拉斯风格增强模块 One-DM 提出拉普拉斯风格增强模块来从单张书写样本中高效提取用户的书写风格。首先利用拉普拉斯算子获取原始样本的高频成分。相比其他算子,例如:傅里叶算子,索贝尔算子和小波算子,拉普拉斯算子的优势在于能够提取更加清晰的字符风格模式。随后,在拉普拉斯对比学习损失函数(LapNCE)的引导下,高频风格编码器从高频成分中提取出判别性强的风格模式,用于促进手写文本合成的真实性和多样性。LapNCE 和高频成分是不可分割的整体,与其他直接作用于图像上的对比学习损失函数不同,LapNCE 只有作用在高频成分上才能准确引导风格的提取。

(b) 自适应门控机制 为了过滤空域风格特征中存在的噪声信息,One-DM 提出自适应门控机制。门控机制中存在多个可学习的门控单元

图片

,其数量与空域风格特征

图片

的长度相同。门控单元W的值会随着

图片

的改变而自适应变化,每个门控单元

图片

决定了对应位置

图片

的通过率,使得

图片

较大的位置通过率越高。该机制能够从

图片

获取有意义的风格信息

图片

,同时抑制多余的背景噪声,其中

图片

图片

(c) 风格 - 内容的融合摸块 获取了高频和空域风格特征后,如何将风格信息和内容编码器提取出的内容信息注入到扩散模型中,引导后续的文字生成过程呢?One-DM 提出先将内容信息和风格信息融合后再进行注入扩散模型,而不是分开注入。具体来说,所提出的风格 - 内容融合模块包含两个 attention 机制。首先,内容信息E作为 query 向量,合并后的风格信息作为 key & value 向量,在交叉注意力机制中,E动态查询风格信息中与自身最相关的风格特征。然后,将查询出的风格特征和内容信息合并,送入自注意力机制中完成进一步的信息融合。

图片

实验评估

定量评价 One-DM 在多个英文、中文和日文数据集上都取得了最优异的临摹性能。尤其强调的是,仅需一张参考样本的 One-DM 超过了之前依赖十几张参考样本的 SOTA 方法 (HWT 和 VATr)。

图片

定性评价 在英文文本生成任务上,相比以前的 SOTA 方法,One-DM 生成的结果可以更好的临摹出参考样本的墨迹、字符间隔和笔画粗细等风格特征。

图片

在其他语言上 One-DM 也表现良好。从下图中可以看出,Diffusion-based (One-DM 和 WordStylist) 的方法在生成中文和日文等字符结构复杂的文本时,显著优于 GAN-based (GANwriting,HWT 和 VATr) 方法。而相比同为 Diffusion-based 的 WordStylist,One-DM 在字符细节上更胜一筹。

图片

与工业方法对比,One-DM 也有较大优势。在英文文本合成任务上,One-DM 的文本内容准确度和风格临摹上都显著优于现有的主流工业方法。其中,DALL-E3 跟 Stable Diffusion 表现稍好,可以合成正确的文本内容,但是在风格临摹上效果不佳,并且 Stable Diffusion 容易生成多余的背景。而中文文本合成任务上,One-DM 在字符的墨迹和字符细节上与目标风格更接近。

图片

图片

消融实验

核心模块对算法性能的影响 如下表所示,本文提出的拉普拉斯风格增强模块和门控机制具有协同作用,有效提升了对用户笔迹的临摹性能。此外,实验也证明了拉普拉斯算子比其他算子提取的风格模式更加清晰,有助于提升文字合成性能。

图片

图片

拉普拉斯风格增强模块的分析 实验验证了高频成分和拉普拉斯对比学习 (LapNCE) 是不可分割的整体:单独使用会导致 One-DM 性能显著下降,联合使用二者才能最大程度上提升性能。原因在于,没有 LapNCE 的引导,One-DM 很难从高频成分中准确提取风格模式。另一方面,由于原图中的风格模式并不清晰,直接将 LapNCE 应用在原图上也很难提取到理想的风格模式。

一眼临摹的深入分析 为什么仅需单张样本的 One-DM 可以超越需要 10 几张样本的 SOTA 方法呢?本文给出了潜在的分析:首先,One-DM 学习到了有意义的风格特征空间,可以根据训练过程中见过的风格灵活创造新的书写风格而不是机械的记忆训练集中的已有风格,如下图所示。然后,借助拉普拉斯风格增强模块,One-DM 可以从用户提供的参考样本中准确提取出书写风格特征,并将其映射到特征空间中与用户相近的位置,从而产生高质量的风格化手写文本图像。

图片

图片

One-DM 在中文和日文实验上的深入分析 为什么 One-DM 在中文和日文实验上远超 GAN-based 的方法?本文对此做了进一步探究。作者认为,GAN-based 方法在较低性能可能源于其基础卷积架构难以处理这些字符的复杂几何结构。相比之下,One-DM 作为 Diffusion-based 方法,将中文和日文等复杂字符的生成过程分解为更简单的步骤。如上图所示,在扩散生成过程的早期阶段,One-DM 首先尝试生成一个粗略的中文手写字符。然后,在条件输入的引导下,模型继续细化书写风格(例如字符形状和笔画颜色),直到合成出令人满意的手写体。

总结与展望

One-DM 从用户的实际体验出发,提出了一眼临摹的笔迹临摹 AI。相比之前的类似工作,One-DM 仅需单张样本作为风格输入,使用起来更加高效、便捷和节约时间,并且在性能上也优于以往依赖 10 几张风格样本的 SOTA 工作。希望在未来,人人都可以在互联网上使用自己的专属字体,能够同时享受传统手写体带来的人情味与 AI 时代带来的高效便捷。

...

#「三段式」AI用于化学研究

打开AI黑匣子,「三段式」AI用于化学研究,优化分子同时产生新化学知识,登Nature

AI 工具的强大功能,令人难以置信。但如果你试图打开引擎盖并了解它们在做什么,你通常会一无所获。AI 常常被视为「黑匣子」。

对于化学来说,AI 可以帮助我们优化分子,但它无法告诉我们为什么这是最佳的——重要的特性、结构和功能是什么?

近日,伊利诺伊大学厄巴纳-香槟分校(UIUC)的一个跨学科研究团队打开了黑匣子,研究人员通过将 AI 与自动化学合成和实验验证相结合,找到了 AI 所依赖的化学原理,从而改进用于收集太阳能的分子。

研究找到了比现有稳定四倍的捕光分子,同时给出了使其保持稳定的重要见解 ——这是一个阻碍材料开发的化学问题。

研究人员提出将闭环实验与基于物理的特征选择和监督学习集成,称为「闭环转移」(Closed-loop Transfer,CLT),可以在优化目标函数的同时产生化学见解。

「通过我们的过程,我们确定了是什么赋予这些分子更高的光稳定性。我们把 AI 黑匣子变成了一个透明的玻璃球。」伊利诺伊大学厄巴纳-香槟分校化学教授 Nicholas Jackson 说。

相关研究以「Closed-loop transfer enables artificial intelligence to yield chemical knowledge」为题,于 8 月 28 日发表在《Nature》上。

论文链接:https://www.nature.com/articles/s41586-024-07892-1

AI 引导的闭环实验

AI 引导的闭环实验平台,在加速科学发现方面显示出巨大潜力。但目前还不可能利用闭环优化策略来获取全新的化学知识。

光稳定性是一种普遍存在的化学功能,目前缺乏通用的化学设计原则。化学知识的缺乏限制了有机光伏、染色聚合物、太阳能燃料和荧光染料等领域的进展。

此前对分子光稳定性的研究主要集中在最低激发三重态 (T1) 的能量学及其与键解离能的关系上,但在分散的化学类别中研究有限。最近的研究表明,较高能量的三重态 (Tn, n > 1) 也适用于较窄的化学类别,但仍然缺乏通用的设计原则。

闭环范式有望在传统方法未能实现的光稳定性方面取得突破。为了实现这一愿景,需要从闭环策略中提取知识的新方法,然后 AI 才能产生可解释的假设并增强科学家对光稳定性和分子功能的根本理解。

「三段式」AI 方法用于化学研究

该研究的目标是,如何改进有机太阳能电池,这种电池基于薄而柔韧的材料,而不是现在遍布屋顶和田野的刚性、沉重的硅基电池板。

「阻碍有机光伏电池商业化的是稳定性问题。高性能材料在暴露于光线下时会降解,而这并不是太阳能电池所希望的,」UIUC 化学和生物分子工程教授 Ying Diao 说。「它们可以以硅无法实现的方式制造和安装,也可以将热量和红外光转化为能量,但自 20 世纪 80 年代以来,稳定性一直是一个问题。」

在此,伊利诺伊大学厄巴纳-香槟分校研究团队提出了一种三阶段方法,该方法在展示化学知识的同时,还优化了广泛化学空间中的分子功能。

第一阶段是机器学习 (ML) 驱动的假设生成:应用贝叶斯优化 (BO) 来提高光稳定性,直到性能指标达到稳定状态,并使用基于物理的分子特征出现 ML 衍生的假设。

第二阶段是假设检验:通过实验验证 ML 得出的假设,来建立新发现的化学知识。

第三阶段是物理驱动的发现:将新的基于物理的知识应用于化学设计空间,人为驱动,突破优化瓶颈。

图片

图示:CLT 范式。(来源:论文)

分子的光稳定性提高四倍

在多轮闭环合成和实验表征中,AI 算法给出了合成和探索哪些化学物质的建议。每一轮之后,新的数据都会被重新纳入模型,然后模型给出改进的建议,每一轮实验都会更接近预期的结果。

研究人员在五轮闭环实验中产生了 30 种新的化学候选物。

重要的是,通过对 2,200 个潜在分子总空间的不到 1.5% 进行采样,排名前五位的分子的平均光稳定性提高了 500% 以上,这一结果与之前的理论预测一致。

图片

图示:第一阶段机器学习驱动的假设生成。(来源:论文)

研究结果还表明,与传统的 T1 能量光稳定性描述符相反,高能 TDOS 成为整个化学空间中分子光稳定性的主要决定因素。这一见解在第四轮 BO 之后出现,并在第五轮之后得到证实。由于 ML 模型的收敛与分子光稳定性的稳定期相吻合,这标志着 BO 实验的结束。

「模块化化学方法完美地补充了闭环实验。AI 算法要求获取具有最大学习潜力的新数据,而自动分子合成平台可以非常快速地生成所需的新化合物。然后对这些化合物进行测试,数据会返回到模型中,模型会一次又一次地变得更智能,」伊利诺伊大学化学教授 Martin Burke 说道。

Jackson 说,「现在我们有了一些使分子具有光稳定性的物理描述,这使得筛选新化学候选物的过程比在化学空间中盲目搜索要简单得多。」

「我们相信我们可以解决其他材料系统。最终,我们设想了一个界面,研究人员可以输入他们想要的化学功能,AI 将生成假设进行测试。」Schroeder 说。

参考内容:​​https://phys.org/news/2024-08-ai-black-team-key-chemistry.html​

...

#大模型LLM-微调

本文总结了作者在ChatGLM-6B模型微调的经验,并汇总了目前开源项目&数据。

大型语言模型横行,之前非常焦虑,现在全面拥抱。目前也有很多开源项目进行大模型微调等,笔者也做了一阵子大模型了,特此来介绍一下ChatGLM-6B模型微调经验,并汇总了一下目前开源项目&数据。笔者与很多人微调结论不同,本人在采用单指令上进行模型微调,发现模型微调之后,「并没有出现灾难性遗忘现象」。

项目地址:https://github.com/liucongg/ChatGLM-Finetuning

ChatGLM-6B模型微调

模型越大对显卡的要求越高,目前主流对大模型进行微调方法有三种:Freeze方法、P-Tuning方法和Lora方法。笔者也通过这三种方法,在信息抽取任务上,对ChatGLM-6B大模型进行模型微调。为了防止大模型的数据泄露,采用一个领域比赛数据集-汽车工业故障模式关系抽取(https://www.datafountain.cn/competitions/584),随机抽取50条作为测试集。

详细代码见上面的GitHub链接,并且也被ChatGLM官方收录。

Freeze方法

Freeze方法,即参数冻结,对原始模型部分参数进行冻结操作,仅训练部分参数,以达到在单卡或不进行TP或PP操作,就可以对大模型进行训练。

微调代码,见finetuning_freeze.py,核心部分如下:

for name, param in model.named_parameters():
    if not any(nd in name for nd in ["layers.27", "layers.26", "layers.25", "layers.24", "layers.23"]):
        param.requires_grad = False

针对模型不同层进行修改,可以自行修改。训练代码均采用DeepSpeed进行训练,可设置参数包含train_path、model_dir、num_train_epochs、train_batch_size、gradient_accumulation_steps、output_dir、prompt_text等,可根据自己的任务配置。

CUDA_VISIBLE_DEVICES=0 deepspeed finetuning_freeze.py --num_train_epochs 5 --train_batch_size 2

三元组抽取的推理代码,见predict_freeze.py,其他任务可以根据自己的评价标准进行推理预测。

PT方法

PT方法,即P-Tuning方法,参考ChatGLM官方代码(https://github.com/THUDM/ChatGLM-6B/blob/main/ptuning/README.md) ,是一种针对于大模型的soft-prompt方法。

P-Tuning(https://arxiv.org/abs/2103.10385),仅对大模型的Embedding加入新的参数。

P-Tuning-V2(https://arxiv.org/abs/2110.07602),将大模型的Embedding和每一层前都加上新的参数。

微调代码,见finetuning_pt.py,核心部分如下:

config = ChatGLMConfig.from_pretrained(args.model_dir)
config.pre_seq_len = args.pre_seq_len
config.prefix_projection = args.prefix_projection

model = ChatGLMForConditionalGeneration.from_pretrained(args.model_dir, cnotallow=config)

for name, param in model.named_parameters():
    if not any(nd in name for nd in ["prefix_encoder"]):
        param.requires_grad = False

当prefix_projection为True时,为P-Tuning-V2方法,在大模型的Embedding和每一层前都加上新的参数;为False时,为P-Tuning方法,仅在大模型的Embedding上新的参数。

可设置参数包含train_path、model_dir、num_train_epochs、train_batch_size、gradient_accumulation_steps、output_dir、prompt_text、pre_seq_len、prompt_text等, 可根据自己的任务配置。

CUDA_VISIBLE_DEVICES=0 deepspeed finetuning_pt.py --num_train_epochs 5 --train_batch_size 2 --pre_seq_len 16

三元组抽取的推理代码,见predict_pt.py,其他任务可以根据自己的评价标准进行推理预测。

Lora方法

Lora方法,即在大型语言模型上对指定参数增加额外的低秩矩阵,并在模型训练过程中,仅训练而外增加的参数。当“秩值”远小于原始参数维度时,新增的低秩矩阵参数量很小,达到仅训练很小的参数,就能获取较好的结果。

  • Lora论文:https://arxiv.org/abs/2106.09685
  • 官方代码:https://github.com/microsoft/LoRA
  • HuggingFace封装的peft库:https://github.com/huggingface/peft

微调代码,见finetuning_lora.py,核心部分如下:

model = ChatGLMForConditionalGeneration.from_pretrained(args.model_dir)
config = LoraConfig(r=args.lora_r,
                    lora_alpha=32,
                    target_modules=["query_key_value"],
                    lora_dropout=0.1,
                    bias="none",
                    task_type="CAUSAL_LM",
                    inference_mode=False,
                    )

model = get_peft_model(model, config)

可设置参数包含train_path、model_dir、num_train_epochs、train_batch_size、gradient_accumulation_steps、output_dir、prompt_text、lora_r等,可根据自己的任务配置。

CUDA_VISIBLE_DEVICES=0 deepspeed finetuning_lora.py --num_train_epochs 5 --train_batch_size 2 --lora_r 8

三元组抽取的推理代码,见predict_lora.py,其他任务可以根据自己的评价标准进行推理预测。

注意:对于结果需要保持一致的任务(即关掉dropout,解码关掉do_sample),需要保存模型的adapter_config.json文件中,inference_mode参数修改成false,并将模型执行model.eval()操作。主要原因是chatglm模型代码中,没有采用Conv1D函数。

三元组抽取实验结果

  • 模型训练时,最大长度为768,Batch大小为2,训练轮数为5,fp16训练,采用DeepSpeed的Zero-1训练;
  • PT为官方的P-Tuning V2训练方法,PT-Only-Embedding表示仅对Embedding进行soft-prompt,Freeze仅训练模型后五层参数,Lora采用低秩矩阵方法训练,秩为8;
  • 由于之前训练PT在48G-A40显卡上会出现OOM,因此之前进行PT实验时对模型开启了gradient_checkpointing_enable,使得模型显存占用变小,但训练时长增加。
  • 训练示例:
prompt_text:你现在是一个信息抽取模型,请你帮我抽取出关系内容为\"性能故障\", \"部件故障\", \"组成\"和 \"检测工具\"的相关三元组,三元组内部用\"_\"连接,三元组之间用\\n分割。文本:
输入:故障现象:发动机水温高,风扇始终是低速转动,高速档不工作,开空调尤其如此。
输出:发动机_部件故障_水温高\n风扇_部件故障_低速转动

时间换空间,可用很好的解决显卡的资源问题,简单玩玩还可以,如果想要模型达到最优效果或可用快速看到效果,还不如租张A100卡,快速实验,推理阶段再用自己的小破卡。

笔者找到一家新的算力平台-揽睿星舟,单张A100仅要6.4元/小时,我翻了一圈,算是便宜的了(反正比AutoDL便宜一点,便宜一点是一点吧)。

下面实验结果均是在租的80G-A100上进行的实验,与Github里用的A40的实验结果会有些差异,主要在训练时长(纯训练速度,剔除模型保存的时间)。说实话,真的要训练一个大模型,多个A100是必不可少的,可以减少很多模型并行的操作,效果上也更好把控一些。

微调方法

PT-Only-Embedding

PT

Freeze

Lora

显卡占用

37G

56G

24G

39G

总参数

6.259B

7.211B

6.255B

6.259B

可训练参数占比

0.0586%

13.26%

16.10%

0.0586%

训练耗时

20min

52min

46min

25min

测试结果F1

0.0

0.6283

0.5675

0.5359

结果分析:

  • 效果为PT>Freeze>Lora>PT-Only-Embedding;
  • 速度为PT-Only-Embedding>Lora>Freeze>PT;
  • PT-Only-Embedding效果很不理想,发现在训练时,最后的loss仅能收敛到2.几,而其他机制可以收敛到0.几。分析原因为,输出内容形式与原有语言模型任务相差很大,仅增加额外Embedding参数,不足以改变复杂的下游任务;
  • PT方法占用显存更大,因为也增加了很多而外参数;
  • 测试耗时,采用float16进行模型推理,由于其他方法均增加了额外参数,因此其他方法的推理耗时会比Freeze方法要高。当然由于是生成模型,所以生成的长度也会影响耗时;
  • 模型在指定任务上微调之后,并没有丧失原有能力,例如生成“帮我写个快排算法”,依然可以生成-快排代码;
  • 由于大模型微调都采用大量instruction进行模型训练,仅采用单一的指令进行微调时,对原来其他的指令影响不大,因此并没导致原来模型的能力丧失;
  • 上面测试仅代表个人测试结果。

很多同学在微调后出现了灾难性遗忘现象,但我这边并没有出现,对“翻译任务”、“代码任务”、“问答任务”进行测试,采用freeze模型,可以用test_forgetting.py进行测试,具体测试效果如下:

  • 翻译任务
  • 代码任务
  • 问答任务

后面会把生成任务、分类任务做完,请持续关注Github,会定期更新。(太忙了,会抓紧时间更新,并且官方代码也在持续更新,如遇到代码代码调不通的情况,请及时联系我,我在github也给出了我的代码版本和模型版本)

中文开源大模型&项目

虽然出来很多大模型,但Open的&中文可直接使用的并不多,下面对中文开源大模型、数据集和项目进行一下汇总。

中文开源大模型

直接可微调,无需指令增量训练:

  • ChatGLM-6B:https://huggingface.co/THUDM/chatglm-6b
  • ChatYuan-large-v2:https://huggingface.co/ClueAI/ChatYuan-large-v2

原始模型多语言or英文,需要中文指令数据集增量训练:

  • BloomZ:https://huggingface.co/bigscience/bloomz
  • LLama:https://github.com/facebookresearch/llama
  • Flan-T5:https://huggingface.co/google/flan-t5-xxl
  • OPT:https://huggingface.co/facebook/opt-66b

中文开源指令数据

下面中文指令集,大多数从Alpaca翻译而来,请看下面项目中data目录。目前通过ChatGPT或者GPT4作为廉价标注工为自己的数据进行数据标注一个不错的思路。

  • [1]:https://github.com/LC1332/Chinese-alpaca-lora
  • [2]:https://github.com/hikariming/alpaca_chinese_dataset
  • [3]:https://github.com/carbonz0/alpaca-chinese-dataset
  • [4]:https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM
  • [5]:https://github.com/LianjiaTech/BELLE
  • [6]:https://huggingface.co/datasets/JosephusCheung/GuanacoDataset

开源项目

总结下面较火的开源项目:

  • BELLE:https://github.com/LianjiaTech/BELLE
  • ChatGLM:https://github.com/THUDM/ChatGLM-6B
  • Luotuo-Chinese-LLM:https://github.com/LC1332/Luotuo-Chinese-LLM
  • stanford_alpaca:https://github.com/tatsu-lab/stanford_alpaca

总结

目前各大厂的大模型陆陆续续放出,堪称百家争鸣!个人玩家也是全面拥抱,想尽一切办法来训练微调大模型。只愿大家以后可以实现“大模型”自由。愿再无“model-as-a-service”。

...

#Awesome-LLM-Strawberry

OpenAI o1要跟,怎么跟?这个GitHub项目把解读、博客、相关论文一网打尽

优秀的 GitHub 项目啊!有关 OpenAI ο1 的一切都在这里

在 AI 领域,OpenAI 已经成了指路明灯一般的存在。随着 o1 模型的发布,全世界的 AI 工程师都开始了新一轮的学习。

  • 北大对齐团队独家解读:OpenAI o1 开启「后训练」时代强化学习新范式
  • 张俊林:OpenAI o1 的价值意义及强化学习的 Scaling Law

同时,我们也发现了其他一些有用的资源,比如在一个 Github 项目中,有人汇总了最近的高质量技术解读博客以及「可能」与 o1 技术路线相关的论文。相关资源列表会一直更新,

  • 项目链接:https://github.com/hijkzzz/Awesome-LLM-Strawberry

这些博客、论文有些是大家都读过的,还有些可能被淹没在平时的众多资源中。或许从中大家可以找到复现 OpenAI o1 的有效方法。

博客

  • 博客 1:Learning to Reason with LLMs
  • 作者:OpenAI
  • 链接:https://openai.com/index/learning-to-reason-with-llms/

博客概述:这篇博客简单介绍了 OpenAI o1 模型的训练方法,比如思维链的采用、模型安全性的提升等。

  • 博客 2:OpenAI o1-mini
  • 作者:OpenAI
  • 链接:https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/
  • 博客 3:Finding GPT-4’s mistakes with GPT-4
  • 作者:OpenAI
  • 链接:https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/

博客概述:这篇博客介绍了 CriticGPT——OpenAI 基于 GPT-4 训练的一个专门给 ChatGPT 挑毛病的新模型。它通过精准地分析 ChatGPT 的回答并提出建设性的批评,帮助人类训练师更准确地评估模型生成的代码,并识别其中的错误或潜在问题。据介绍,在 CriticGPT 的辅助下,人们审查 ChatGPT 代码的准确率提高了 60%。研究人员还发现,CriticGPT 在很多情况下比人类专家更擅长发现错误,它们甚至能在一些被认为是「完美无缺」的任务中找出问题,尽管这些任务大多数并不是代码任务,对 CriticGPT 来说有点超纲。

由于该研究发表时,Jan Leike 等 OpenAI 超级对齐团队成员已经离职,因此也被称为对齐团队「遗作」。

  • 博客 4:Summary of what we have learned during AMA hour with the OpenAI o1 team
  • 作者:Tibor Blaho
  • 链接:https://twitter-thread.com/t/1834686946846597281
  • 推文链接:https://x.com/btibor91/status/1834686946846597281

博客概述:最近,OpenAI o1 团队开展了一次答疑活动,这个帖子总结了答疑的概要,包括模型命名和推理范式,o1 模型的尺寸和性能,输入 token 上下文和模型能力,工具、功能和即将推出的特性,CoT 推理,API 和使用限制,定价、微调与扩展,模型开发和研究见解,提示技术和最佳实践等几个模块。每个模块的总结都比较简短,感兴趣的读者可以参见原文。

  • 博客 5:OpenAI’s Strawberry, LM self-talk, inference scaling laws, and spending more on inference
  • 作者:Nathan Lambert(Allen AI 研究科学家)
  • 链接:https://www.interconnects.ai/p/openai-strawberry-and-inference-scaling-laws

博客概述:在文章中,作者讨论了 OpenAI 的新方法「Strawberry」及推理 scaling law,强调了推理计算的投入对 AI 能力提升的重要性。作者指出,扩大推理计算比单纯扩大模型规模更有效,类似 AlphaGo 的推理技术能够显著提升模型表现。文章呼吁未来 AI 开发要更多关注推理技术。 

这篇博客发布于 9 月初,当时 OpenAI 还没有发布 o1 模型,因此现在看起来非常有前瞻性。

  • 博客 6:Reverse engineering OpenAI’s o1
  • 作者:Nathan Lambert(Allen AI 研究科学家)
  • 链接:https://www.interconnects.ai/p/reverse-engineering-openai-o1

博客概述:这篇博客系统讨论了 OpenAI o1。o1 通过训练新模型处理长推理链,并使用大量强化学习来实现。与自回归语言模型不同,o1 在线为用户搜索答案,展示了新的 scaling law—— 推理 scaling law。博客还讨论了 o1 的一些技术细节,包括其如何使用强化学习进行训练,以及它在推理时的高成本。此外,博客还探讨了 o1 对未来 AI 领域的影响,包括它如何改变 AI 产品的部署堆栈和期望,以及它如何作为一个模型,通过不同的生成策略来实现复杂的任务。最后,博客提出了一些关于 o1 结构和功能的问题,并讨论了在开源领域复制这种系统所面临的挑战。作者还对 AI 未来的发展方向表示了期待,认为 AI 的进步将继续奖励那些敢于想象不可能很快变为可能的人。

论文

OpenAI o1 贡献者参与撰写的论文

  • 论文 1:Training Verifiers to Solve Math Word Problems
  • 机构:OpenAI
  • 作者:Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, John Schulman
  • 链接:https://arxiv.org/abs/2110.14168

论文概述:这篇论文发布于 2021 年 10 月。论文指出,尽管最先进的语言模型在很多任务上表现优异,但在处理多步骤数学推理时仍有困难。为了解决这个问题,作者创建了 GSM8K 数据集,包含 8500 个多样化的小学数学问题。研究发现,即使是大型 Transformer 模型也难以在这些任务上取得好成绩。为了提高性能,作者建议训练验证器来评估模型答案的正确性。通过在测试时生成多个答案并选择验证器评分最高的答案,这种方法显著提升了模型在 GSM8K 上的表现,并证明了这种方法比传统的微调方法更有效。

  • 论文 2:Generative Language Modeling for Automated Theorem Proving
  • 机构:OpenAI
  • 作者:Stanislas Polu, Ilya Sutskever
  • 链接:https://arxiv.org/abs/2009.03393

论文概述:这篇论文发布于 2020 年 9 月,Ilya Sutskever 是作者之一。论文探讨了基于 Transformer 的语言模型在自动定理证明中的应用。研究的动机是,自动定理证明器与人类相比的一个主要限制 —— 生成原创的数学术语 —— 可能可以通过语言模型的生成来解决。作者介绍了一个名为 GPT-f 的自动证明器和证明助手,用于 Metamath 形式化语言,并分析了其性能。GPT-f 发现了被 Metamath 主要库接受的新短证明,据作者所知,这是基于深度学习系统首次为形式数学社区贡献并被采纳的证明。

  • 论文 3:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
  • 机构:谷歌大脑
  • 作者:Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, Denny Zhou
  • 链接:https://arxiv.org/abs/2201.11903

论文概述:这篇论文发布于 2022 年 1 月。论文探讨了如何通过生成一系列中间推理步骤(即「思维链」)来显著提高大型语言模型进行复杂推理的能力。具体来说,作者提出了思维链提示的方法,即在提示中提供几个思维链的示例,以此来引导模型进行更深入的推理。实验表明,这种方法在三个大型语言模型上提高了算术、常识和符号推理任务的性能。

  • 论文 4:Let's Verify Step by Step
  • 机构:OpenAI
  • 作者:Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, Karl Cobbe
  • 链接:https://arxiv.org/abs/2305.20050

论文概述:这篇论文发布于 2023 年 5 月。论文探讨了大型语言模型在复杂多步推理任务中的表现及其可靠性问题。作者比较了两种训练方法:结果监督(outcome supervision)和过程监督(process supervision),前者仅对最终结果提供反馈,后者则对每个推理步骤提供反馈。研究发现,过程监督在训练模型解决 MATH 数据集中的问题时,显著优于结果监督。具体来说,采用过程监督的模型在 MATH 测试集的一个代表性子集中解决问题的成功率为 78%。此外,论文还展示了主动学习(active learning)在提高过程监督效率方面的重要性。为了支持相关研究,作者还发布了 PRM800K 数据集,这是一个包含 800,000 个步骤级人类反馈标签的完整数据集,用于训练他们的最佳奖励模型。

由于包括 Ilya 在内的多位 o1 核心贡献者都参与了这篇论文,有人猜测这是 o1 模型训练的方法论。感兴趣的读者可以重点阅读。

  • 论文 5:LLM Critics Help Catch LLM Bugs
  • 机构:OpenAI
  • 作者:Nat McAleese, Rai Michael Pokorny, Juan Felipe Ceron Uribe, Evgenia Nitishinskaya, Maja Trebacz, Jan Leike
  • 链接:https://arxiv.org/abs/2407.00215

论文概述:这篇论文发布于 2024 年 6 月。论文介绍了一种通过训练「批评者」模型(即前面提到的 CriticGPT )来提高人类评估机器学习模型输出的方法。这些批评者模型是大型语言模型,它们被训练来提供自然语言反馈,指出代码中的问题。研究表明,这些模型在识别代码错误方面比人类更有效,甚至能够发现人类审查者未发现的错误。尽管存在局限性,如可能产生误导的幻觉错误,但结合人类和机器的团队可以减少这种误导,同时保持错误检测的效率。

  • 论文 6:Self-critiquing models for assisting human evaluators
  • 机构:OpenAI
  • 作者:William Saunders, Catherine Yeh, Jeff Wu, Steven Bills, Long Ouyang, Jonathan Ward, Jan Leike
  • 链接:https://arxiv.org/pdf/2206.05802

论文概述:这篇论文发布于 2022 年 6 月。论文研究了如何通过微调大型语言模型,使用行为克隆来生成自然语言的批评性评论,以帮助人类发现摘要中的缺陷。实验表明,这些模型生成的评论能够揭示人类和机器生成摘要中的问题,包括故意误导的错误。研究发现,更大的模型在撰写有帮助的评论和自我批评方面表现更好,并且能够利用自我批评来改进自己的摘要。论文还提出了一个比较批评能力、生成能力和辨别能力的框架,并指出即使是大型模型也可能有未表达的知识。这项研究为使用人工智能辅助的人类反馈来监督机器学习系统提供了概念验证,并公开了训练数据集和实验样本。

其他论文

除了以上论文,作者还按照年份列出了一些可能与 OpenAI o1 相关的论文,列表如下:whaosoft的开发板商城的各种设备可以测试~

2024 年:

2023 年:

2022 年:

2021 年:

2017 年:

更多信息请参见原 GitHub 库。

...

#OpenAI o1式思维链

开源模型也可以有,成功案例来了

北京时间 9 月 13 日午夜,OpenAI 发布了推理性能强大的 ο1 系列模型。之后,各路研究者一直在尝试挖掘 ο1 卓越性能背后的技术并尝试复现它。当然,OpenAI 也想了一些方法来抑制窥探,比如有多名用户声称曾试图诱导 ο1 模型公布其思维过程,然后收到了 OpenAI 的封号威胁。

尽管如此,不过三四天时间,就已经有研究者宣称已经成功复现/开发出了与 ο1 性能差不多的推理技术,并且还不止一个!

Llamaberry:教会 AI 像聪明人一样思考

Llamaberry 的提出者是 Martin Bowling。他开发的项目包括 RAGMiner.dev 和 Replit;其中前者可以帮助用户毫不费力地将网站转换成 Markdown、XML 或 JSON 等格式以便 RAG 和 LLM 应用使用,而后者则是一个使用 AI 将想法变成代码的项目。

Llamaberry 的核心思路是使用思维链(CoT)来实现推理。这个名字自然源自代表 o1 模型的 Strawberry(草莓)。

HuggingFace地址:https://huggingface.co/spaces/martinbowling/Llamaberry

什么是思维链?Bowling 在博客中打了个比方:「思维链推理就像是给 AI 一个笔记本来展示其工作过程。其中不仅仅是简单地给出答案,而是会带领我们经历其思维过程。」

Llamaberry 能教会 AI 透彻地思考,就像是一位人类专家攻克难题时那样。

具体来说,Llamaberry 是一个多轮思维链推理系统的实现,其基于运行在 Groq 上的 Llama 3.1 70B 模型。

多轮推理是关键

多轮推理,顾名思义,就是让模型在给出答案之前进行多步思考,而不是一步给出答案。打个比方,这就像是看一位大厨从备菜到完成摆盘一步步地完成一道精美菜肴,而不是直接微波加热预制菜。

举个示例:

第 1 轮:AI 先尝试解决当前问题。

第 2 轮:AI 回顾第一次尝试并尽力改进或优化其思维过程。

第 3 轮:再进行一轮反思和改进。

综合结果:最后,将所有这些思考综合到一起,得到一个连贯且合理的答案。

下面展示了这个多轮过程的示意图:

图片

可以看到,前一轮的输出会成为后一轮的输入,从而让 AI 可在每个阶段不断完善其思维。最后,所有这些思考会凝练成一个合理的最终答案。就像看着一枚莓果逐渐成熟!

如何实现

下面将深入 Llamaberry 的实现细节。

1.设置舞台

首先,我们需要为 AI 助手设置一些基本规则,代码如下:

initial_system_prompt = """You are an AI assistant capable of detailed, step-by-step thinking. When presented with a question or problem, break down your thought process into clear, logical steps. For each step, explain your reasoning. Conclude with a final answer. Use the following markdown structure:

## Reasoning
1. [First step]
   **Explanation:** [Detailed explanation of this step]
2. [Second step]
   **Explanation:** [Detailed explanation of this step]
...

## Answer
[Final answer]

Be comprehensive and show your reasoning clearly."""

这就是提供给 AI 大厨的菜谱。它知道需要逐步分解其思考过程并解释每个步骤,并且以 Markdown 格式将它们显示出来。

2.思考过程

在每一轮推理中,都需要让 AI 对问题进行思考。但在第一轮结束后,还需要求它思考之前已经思考过的东西。这就像问朋友,「嘿,还记得你之前说过什么吗?让我们再想一想。」

下面是每一轮的生成方式:

async def generate_turn(query: str, previous_turns: list = None) -> str:
    is_first_turn = previous_turns is None or len(previous_turns) == 0
if is_first_turn:
        messages = [{
            "role": "system",
            "content": initial_system_prompt
        }, {
            "role": "user",
            "content": query
        }]
    else:
        previous_content = "\n\n".join(previous_turns)
        messages = [{
            "role": "system",
            "content": followup_system_prompt
        }, {
            "role":
            "user",
            "content":
            f"Original Query: {query}\n\nPrevious Turns:\n{previous_content}\n\nProvide the next turn of reasoning."
        }]

    return await call_llm(messages)

该函数是多轮推理的核心。它决定我们是在第一轮还是在后续轮,并以此构建提示词。对于后续轮,它会将之前所有推理轮都包含在上下文中,让 AI 可以基于之前的思考进行构建。

3.综合结果

经过三轮思考之后,再让 AI 检视其所有思考并得出一个合理的最终答案。这就像是让专家讨论问题,然后编写最终报告。

async def synthesize_turns(query: str, turns: list) -> str:
    turns_text = "\n\n".join(
        [f"Turn {i+1}:\n{turn}" for i, turn in enumerate(turns)])
    messages = [{
        "role": "system",
        "content": synthesis_prompt
    }, {
        "role":
        "user",
        "content":
        f"Original Query: {query}\n\nTurns of Reasoning:\n{turns_text}"
    }]
    return await call_llm(messages)

这个综合步骤至关重要,是 AI 综合所有思考内容凝练出最终答案的一步。

单轮推理 vs 多轮推理

Martin Bowling 在其博客中简单比较了单轮和多轮推理。

这里他采用了一个简单示例,即询问 AI:「人工智能对就业市场有什么潜在影响?」

单轮推理:

AI: Artificial intelligence will likely have significant impacts on the job market, including:
1. Automation of routine tasks
2. Creation of new job roles in AI development and maintenance
3. Potential job displacement in certain industries
4. Increased demand for skills in data analysis and machine learning

While AI may eliminate some jobs, it will also create new opportunities and increase productivity in many fields.

使用 Llamaberry 执行多轮推理:

第 1 轮:

AI: Let's approach this step-by-step:

1. Identify current AI capabilities
   Explanation: AI can perform data analysis, pattern recognition, and automate routine tasks.

2. Analyze vulnerable job sectors
   Explanation: Manufacturing, customer service, and data entry are likely to be affected.

3. Consider new job opportunities
   Explanation: AI development, data science, and AI ethics consultation may see growth.

4. Examine potential economic effects
   Explanation: Increased productivity might lead to economic growth, but wealth distribution could be a challenge.

Initial Answer: AI will likely cause significant shifts in the job market, with both job losses in some sectors and new opportunities in others.

第 2 轮:

AI: Let's refine our thinking:

1. Reassess the timeline of AI impact
   Explanation: The effects won't be immediate but will unfold over years or decades.

2. Consider the adaptability of the workforce
   Explanation: Retraining and education will be crucial for workers to transition to new roles.

3. Analyze potential societal changes
   Explanation: The nature of work itself might change, with more emphasis on creativity and emotional intelligence.

4. Examine global differences
   Explanation: AI's impact will vary across different countries and economies.

Refined Answer: AI's impact on the job market will be complex and gradual, requiring proactive measures in education and economic policy to ensure a smooth transition.

第 3 轮:

AI: Let's delve deeper:

1. Explore the concept of human-AI collaboration
   Explanation: Many jobs may evolve to involve working alongside AI rather than being replaced by it.

2. Consider the ethical implications
   Explanation: Issues like algorithmic bias in hiring processes need to be addressed.

3. Analyze the potential for new economic models
   Explanation: Universal Basic Income or reduced working hours might become more prominent discussions.

4. Examine historical parallels
   Explanation: Previous technological revolutions, like the Industrial Revolution, can offer insights into potential outcomes.

Further Refined Answer: While AI will undoubtedly transform the job market, its impact will likely be nuanced, involving collaboration between humans and AI, ethical considerations, and potentially new economic paradigms.

综合答案:

AI: After careful consideration across multiple turns of reasoning, we can synthesize our thoughts on the potential impacts of artificial intelligence on the job market:

1. Job Transformation: AI will lead to significant changes in the job market, but these changes will be gradual and complex. While some jobs may be automated, many others will be transformed to involve collaboration between humans and AI. Industries like manufacturing, customer service, and data entry are likely to see the most immediate impacts.

2. New Opportunities: The rise of AI will create new job categories, particularly in fields like AI development, data science, AI ethics consultation, and human-AI interaction design. There will likely be an increased demand for skills in creativity, emotional intelligence, and complex problem-solving that AI cannot easily replicate.

3. Economic and Social Implications: The integration of AI into the workforce has the potential to increase productivity and economic growth. However, it also raises concerns about wealth distribution and may necessitate discussions about new economic models, such as Universal Basic Income or reduced working hours.

4. Education and Adaptation: The changing job market will require a strong emphasis on continuous learning and adaptation. Educational systems and workforce training programs will need to evolve to prepare people for the new reality of working alongside AI.

5. Ethical Considerations: As AI becomes more prevalent in hiring and work processes, addressing issues like algorithmic bias and ensuring fair opportunities for all workers will be crucial.

6. Global Variations: The impact of AI on the job market will not be uniform across the globe. Different countries and economies will experience varying effects based on their economic structures, technological readiness, and policy responses.

7. Historical Context: While AI represents a significant shift, it's important to view it in the context of previous technological revolutions. Like the Industrial Revolution, the AI revolution will likely lead to short-term disruptions but potentially long-term benefits if managed properly.

In conclusion, while AI will undoubtedly have profound impacts on the job market, these impacts will be multifaceted and evolve over time. The key to navigating this transition successfully lies in proactive measures in education, economic policy, and ethical governance, ensuring that the benefits of AI are broadly shared while mitigating potential negative effects.

可以看到,多轮方法能实现更加精细、全面的分析。这能从多个角度考虑问题,优化其思考,最后得到更加深思熟虑和全面详细的答案。

Bowling 表示,这样的多轮推理在思考深度、自我提升、透明度、灵活性等方面都有巨大优势,同时其还采用了 Markdown 格式,使其结果更容易阅读和用于后续流程。

因此,这种技术可让 AI 进入更多实际应用场景,比如医疗诊断、法律分析、科学研究、商业策略、教育。当然,在使用 Llamaberry 等多轮推理系统时,也需要注意它们的局限和潜在的道德伦理问题,比如偏见、计算成本、过度依赖和隐私问题。

如何使用 Llamaberry?

Llamaberry 也很容易使用,点击几下就能拥有你自己的多轮推理系统。步骤如下:

前往 Replit,点击该链接获取 Llamaberry 模板:https://replit.com/@MartinBowling/Llamaberry-Powered-By-Groq?v=1

创建模板分支:点击 Fork 按钮创建你自己的 Llamaberry 项目副本。

获取你的 Groq API Key:注册 Groq 账户,获取 API Key。

设置环境:在你的分支 Replit 项目中,找到「Secrets」选项卡。添加一个新密钥,密钥为 GROQ_API_KEY,值是你的 Groq API 密钥。

运行项目:单击 Replit 界面顶部的 Run 按钮。这将启动 Llamaberry 应用。

开始实验:应用运行起来后,你将看到一个 Gradio 界面。你可以在其中输入问题并查看 Llamaberry 多轮推理的实际效果!并且输出是简洁漂亮的 Markdown 格式!

了解了 Llamaberry,下面来看另一个号称实现了类 o1 推理链的项目:g1。

g1:实现类似 ο1 的推理链

g1 这个项目来自 Benjamin Klieger,他是 Groq 的一位研究者。也因此,g1 同样基于 Groq,并且其也使用了 Llama 3.1 70b 模型。

不同于 Llamaberry 使用的多轮思维链推理,g1 的策略是角色扮演、思维链提示 、格式化以及另一些提示技巧。并且,g1 开源了。

项目地址:https://github.com/bklieger-groq/g1

开发者宣称 g1 有 70% 的时间能成功数出 Strawberry 中有多少个 R,同时无需任何微调或少样本技术。下面是其一次执行过程: 

开发者 Klieger 表示,g1 和 ο1 一样能让 LLM 有能力「思考」和解决之前的领先模型难以应对的逻辑问题。但不同之处在于,g1 会大方地展示所有推理 token。同时,他也强调了 g1 和 ο1 在技术上的差异,其中后者使用了大规模强化学习来执行思维链推理。而 g1 则是通过发掘提示词工程的潜力来帮助 LLM 解决简单的逻辑问题,让现有的开源模型也能受益于动态推理链和优化般的探索界面。

g1 的工作方式

由 Llama 3.1 70b 支持的 g1 会创建一种动态的思维链。

在每个步骤中,LLM 可以选择是继续进行另一个推理步骤,还是提供最终答案。每个步骤都有标题,并且对用户可见。

系统提示词中还会包含给 LLM 的提示。其提示策略如下:

You are an expert AI assistant that explains your reasoning step by step. For each step, provide a title that describes what you're doing in that step, along with the content. Decide if you need another step or if you're ready to give the final answer. Respond in JSON format with 'title', 'content', and 'next_action' (either 'continue' or 'final_answer') keys. USE AS MANY REASONING STEPS AS POSSIBLE. AT LEAST 3. BE AWARE OF YOUR LIMITATIONS AS AN LLM AND WHAT YOU CAN AND CANNOT DO. IN YOUR REASONING, INCLUDE EXPLORATION OF ALTERNATIVE ANSWERS. CONSIDER YOU MAY BE WRONG, AND IF YOU ARE WRONG IN YOUR REASONING, WHERE IT WOULD BE. FULLY TEST ALL OTHER POSSIBILITIES. YOU CAN BE WRONG. WHEN YOU SAY YOU ARE RE-EXAMINING, ACTUALLY RE-EXAMINE, AND USE ANOTHER APPROACH TO DO SO. DO NOT JUST SAY YOU ARE RE-EXAMINING. USE AT LEAST 3 METHODS TO DERIVE THE ANSWER. USE BEST PRACTICES.

Example of a valid JSON response:
json
{
    "title": "Identifying Key Information",
    "content": "To begin solving this problem, we need to carefully examine the given information and identify the crucial elements that will guide our solution process. This involves...",
    "next_action": "continue"
}

对这些提示词的详细解释请参阅原项目的 Prompt Breakdown 一节。这里就不赘述了,仅给出几个示例,比如可以在提示词中加入「include exploration of alternative answers」(探索其它答案)和「use at least 3 methods to derive the answer」(使用至少三种方法来得出答案)。

这样一来,通过组合思维链以及尝试多种方法、探索其它答案、质疑之前草拟的解答、考虑 LLM 的局限性等策略,就能显著提升 LLM 的推理能力。

在数 Strawberry 中有多少个 R 这个经典问题上,无需任何训练,g1 就能帮助 Llama 3.1 70b 达到约 70% 的准确度(n=10, How many Rs are in strawberry?)。而如果不使用提示技术,Llama 3.1 70b 的准确率为 0%,ChatGPT-4o 的也只有 30%。

下面展示了另一个示例:0.9 和 0.11 哪个更大?

详细的安装过程和代码请参阅原项目。

最后,顺便一提,另有开发者发布了 g1 的分支版 Mult1,该版本的一大改进是可使用多个 AI 提供商来创建类似 o1 的推理链,感兴趣的读者可访问:https://github.com/tcsenpai/multi1

...

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值