我自己的原文哦~ https://blog.51cto.com/whaosoft/12815167
#OpenAI很会营销
而号称超强AI营销的灵感岛实测成效如何?
OpenAI 是懂营销的,连续 12 天发布,每天一个新花样,如今刚过一半,热度依旧不减。
毫无疑问,这是 AI 的时代,这是信息爆炸的时代。在这个信息爆炸的时代,营销必不可少,正如著名作家米兰・昆德拉写的那样:「企业只有两个职能:营销和创新。」
并且,营销也已经不再是一个简单的「推销」过程。随着社交媒体的崛起、短视频的风靡和消费者需求的多样化,企业和创作者们在海量内容中争夺用户的注意力,早已陷入了一场「内容大战」。另一方面,各式不一的平台也给企业和创作者带来了巨大的内容生产和分发压力,比如有些平台侧重图文内容,有些平台则更喜欢横版视频,另一些则倾向于竖版视频。

小红书、抖音、哔哩哔哩等都有不同的内容偏好
此外,到了运营阶段,还存在难以转化的问题。这些问题聚集在一起,构成了营销的四大痛点:创意难、生产难、分发难、转化难。

面对无穷无尽的创意、生产、分发和转化压力,谁能真正解锁营销的「终极密码」?
这是个问题,而这个问题的答案或许正是 AI。举个例子,如果我们想要通过短视频宣传一下谷歌前两天发布的突破性量子计算芯片研究。我们完全可以将相关信息提供 AI,让其完成从编写脚本到视频生产的全过程。最终,我们得到了如下视频:
,时长00:59
灵感岛数字人介绍谷歌量子计算芯片 Willow
这段视频的制作使用了灵感岛的数字人视频制作功能。我们只需向其上传讲解文本并选择合适的音色或直接上传讲解音频,便可以生成活灵活现的讲解视频。同时,灵感岛的数字人视频制作功能还配备了一些简单的视频编辑功能,让你可以轻松地完成配置背景、添加素材和字幕等操作。
实际上,数字人只是灵感岛大量功能的冰山一角 —— 他们已经围绕 AI 营销构建了一整套功能体系,可借助 AI 完成从创意灵感、内容生成、批量改写、视频制作到内容分发的所有环节,堪称全链路 AI 营销工具。
从创意到分发如何实现全链路 AI 营销
作为一个全链路 AI 营销工具,灵感岛具有各种各样辅助营销的能力,从文案创作到图片生成再到视频制作以及最后的内容分发,涉及各种常用模态,可说是无所不包。这里我们也仅能选择其中一些有代表性的功能进行介绍。
AI 文案创作:大模型助你生成爆款文案
所有内容最难的其实是创意和灵感,比创意灵感更难的是找到能出爆款的创意和灵感!那我们来看看灵感岛是怎么帮助运营一键 get 爆款配方的。
为了更清晰地展示灵感岛的能力,下面我们将基于一个实践案例来逐步揭示灵感岛的其它核心功能。我们将从一款虚构的产品(机 42」毛绒公仔)开始,借助灵感岛的 AI 制作各种营销材料。
机 42 的简短描述:机 42 毛绒公仔是倾情打造的官方周边,以呆萌治愈的设计和柔软舒适的触感,成为智慧与欢乐的象征。不论是陪伴日常、装饰家居,还是作为节日礼品,它都能带来温暖与愉悦,是送礼和收藏的绝佳选择。机 42 毛绒公仔采用优质短毛绒与环保 PP 棉填充,高约 30cm,重约 300g,符合国家玩具安全标准,适合儿童及成年人使用。
首先,带着我们的机 42 公仔产品,进入灵感岛的 AI 创作中心。我们首先想要为其撰写一篇长文介绍,这时候灵感岛那基于大型语言模型的全文生成能力就能帮上大忙了!

不得不说,这篇文章已经有了发布在微信公众号的水准,但我们还可以使用灵感岛的生成标题和内容润色对其进行进一步优化,比如下面我们就展示了如何将上面生成的前两段文本润色成更加「高大上」的版本。

据悉,灵感岛内部 AI 创意 Lab 已经研发了多款内容智能体,涵盖:账号人设、内容日历、爆款雷达、爆文复刻、视频拆解、一键爆款复刻,让内容策划工作者能把时间都放在调研用户需求和洞察上,而基于洞察后的内容生成,则会借助智能体和工具高效完成。
除此之外,灵感岛「AI 文字魔法师」还支持生成电商评估、小红书笔记和微博批量生成、文案提取、内容安全检查等众多实用功能。而如果你是内容工作者,还可以使用移动端的灵感岛 APP,能享受到 30 余种创作应用场景。

下面就展示了如何使用灵感岛生成一则介绍「机 42」的小红书文案。

可以看到,灵感岛非常出色地完成了任务,甚至可以说超出了预期。它不仅使用 Markdown 标出了需要加粗强调的内容,还添加了小红书爆款文案常用的 emoji 以及恰到好处的标签。
不仅如此,灵感岛还针对亚马逊、抖音等特定营销场景开设了专门的文案工作室,在可帮助完成 Listing 文案和标题的创作和优化等任务,为相关业务运营者提供强有力的助力。

下面展示了一个例子,如果我们想在亚马逊上出售我们的机 42 毛绒公仔,那么完全可以借助灵感岛来编写 Listing 文案。这也凸显了灵感岛在外贸营销中的巨大潜力。

AI 图片创作:一键创作产品宣传图
当然,要发小红书,光有文本可不够,我们还得有吸睛的图片。灵感岛配置了强大的图片工作室,支持从智能抠图、高清放大、智能消除到智能商拍的一系列图像处理任务。
首先,当然是给机 42 「拍」一张凸显其可爱的图片啦!这个过程非常简单,用户只需上传无背景或简单背景的商品图片即可。当然用户也可以自行设定场景等具体需求。
如果我们对生成的场景不满意,我们还可以使用灵感岛的参考生成和商品替换功能将产品放入到我们想要的场景之中。
灵感岛另一个值得重点关注的图片能力是图片翻译,其可以在不改变原图风格的情况下将图片中的文本替换成另一种语言。这项能力对从事外贸和跨境电商的企业来说具有非常重要的实际价值。
当然,灵感岛图片工作室还有模特换脸和背景、智能消除、一键扩图、去除水印和文字等更多功能等着你来挖掘。

AI 视频创作:从脚本到视频
现在,我们已经为机 42 准备好了各种图文,是时候进军短视频了。
在视频脚本创作方面,灵感岛为视频脚本的创作设置了 3 个主要场景:智能脚本工具、AI 行业脚本、短视频智能结构。
智能脚本工具可以根据用户设定的主题自动生成相应脚本,而用户也可以对生成的脚本进行进一步的编辑和优化。之后,用户只需按照脚本描述制作相应视频素材并上传,剩下的交给灵感岛的 AI 处理即可 —— 它能为你的视频合成相应的旁白、搭配合适的音乐、制作相应的剪辑效果并生成合适的封面。

而 AI 行业脚本可以让用户更加细化自己的需求,包括设置短视频带货或直播间引流等具体场景、优惠活动、适用人群、用户痛点等等。

又或者,如果你在网上看到一个想要模仿的爆款视频,你也可以将其导入到灵感岛的短视频智能解析,之后你便可以快速学习爆款视频的逻辑,然后再自己创作一条同样有爆款内容潜质的视频。
不仅如此,灵感岛还支持营销视频规模量产,并且他们还采用了去重算法来辅助提升视频效果。这可以帮助商家轻松高效地打造矩阵账号。
此外,灵感岛还搭建了一个视频热榜,可助力用户轻松把握当前热点。通过精准捕捉当前最热门的视频内容和趋势,用户可以快速把握社交媒体的脉搏,及时调整内容策略,抢占营销制高点。

数字人极速版,免费定制形象
数字人技术已经不新鲜了,但如何真的结合实际运营场景,并真的产生效果,是所有数字人平台和运营商努力的方向。灵感岛搭建了一个丰富的数字人形象库,具备超多主播人设风格,还支持多种语言、不同音色的语音,足以满足各种行业的不同需求。

并且,你不仅能使用灵感岛预先配置的数字人,也能定制自己的数字人!只需上传训练视频和音频以及必要的授权资料,你就能克隆出自己的数字版本!

在如何让数字人视频获得好效果上,灵感岛也做了深度优化工作,从脚本灵感、爆款视频模版、到数字人视频素材的灵活使用、智能剪辑工具,让数字人视频不仅可以替代核心主播或者创始人出演,同时还能真正给用户带去优秀内容,获取有效流量转化。
在技术层面,灵感岛的数字人依托四大核心技术,构建了卓越的数字人生成生态系统。首先是 LIP-Sync 音唇同步技术,可确保数字人说话时口型与语音完美契合;其次是 GAN 对抗神经网络,可为数字人提供逼真且富有表现力的视觉形象;再有 TTS 文本语音生成技术,赋予数字人自然流畅的语音表达能力;最后是 NLP 语义理解技术,使数字人能够准确理解和回应人类交互。这四项技术相互协同、缜密配合,显著提升了数字人的生成质量和自然性。

除了数字人短视频以外,数字人直播也在两年多的运营和磨合中,展现出了稳定的效果。通过精准的形象设计和个性化交互,能够为品牌创造更吸引人的销售场景。不同于传统直播间,数字人技术,叠加团队的运营支撑,可以 24 小时不间断地进行带货直播,帮助品牌快速搭建矩阵直播间、低成本测试直播方向、以及快速实现全员全国直播等场景需求。

同时,数字人技术还可以突破地域和语言限制,实现全球化品牌传播,为企业拓展国际市场,提供更多便捷和高效的解决方案。
内容分发:一站式管理自有与外部矩阵
内容分发是现代数字营销中的关键环节,灵感岛深谙其中精髓。通过创新的内容分发功能,用户可以实现从内容制作到多平台投放的无缝衔接。目前,灵感岛支持抖音、小红书、视频号和快手等主流社交媒体平台,为内容创作者和品牌提供了极大的便利。
这个内容分发平台最大的亮点在于其极致的用户体验。用户只需简单操作,就能同时管理多个社交媒体账户,大幅降低了内容传播的人工成本和技术门槛。虽然目前平台尚未正式开放功能给用户,但已经为用户描绘了未来智能化内容分发的蓝图。
灵感岛的这一功能体现了平台对内容创作生态的深入理解:内容创作不应止步于制作本身,更应该实现高效、精准的传播。结合天下秀本身优秀深度的红人账号资源,以及灵感岛 C 端的素人培养计划,可帮助企业构建有效的分发矩阵,深度解决内容到流量的全链路问题。
随着功能的逐步完善,相信这个内容分发平台将成为灵感岛的又一个核心竞争力,为用户提供更加流畅和高效的内容传播体验。
C 端和 B 端齐发力灵感岛深度构建国内 AI 营销生态
灵感岛是国内少有的同时面向 C 端创作者与 B 端企业,提供全链路 AI 营销服务的工具。
从上面的功能介绍和演示可以看出,灵感岛不仅适用于 C 创作者的日常创作需求,还特别契合 B 端商家和品牌的营销目标。这种 C 端与 B 端双线并行的模式再加上强大的 AI 模型与十多年红人营销数据的加持,是灵感岛成为国内最适合商家体质的 AI 营销工具,为各类企业提供了智能化营销的可能性。
灵感岛的表现之所以这么好,主要是两大核心支撑:
- AI 大模型技术。灵感岛已与火山引擎、豆包大模型、智谱等多家大模型厂商深度合作,可使用先进的生成模型实现高质量的智能化内容生成;尤其是在社交营销与短视频内容营销上,灵感岛正在通过合作来构建社交营销智能体全家桶。
- 天下秀十多年积累的海量红人营销数据。通过深度微调和自然语言处理技术,这些海量数据可用于打造出高质量、专业化的红人语言模型和多模态生成模型。
依托于这些技术,灵感岛顺势而生,并且一开始就成为了 AI 营销垂类应用的引领者。
作为国内红人营销的头部平台型公司,天下秀用灵感岛建立了 B 端企业和 C 端创作者之间的超级连接器。该公司表示:「通过 AI 进行双端赋能,一方面可让更多 C 端用户有机会成为内容创作者,另一方面也能让 B 端企业在内容、用户运营、投放都更加精细化,在营销前端以及后面的生成、制作、分发端都降本增效。」
C 端:已助力数十万创作者完成数千万内容创作
在 C 端,灵感岛提供的 AI 内容创作效率工具可帮助用户成为更优质的创作者。另一端,灵感岛又链接了品牌主、商家,可帮助创作者能够更方便、快捷地实现商业化变现。
自 2023 年 5 月灵感岛 APP 上线以来,其 30 余种创作应用场景已帮助数十万内容创作者创作了数千万条内容。这一成绩不仅体现了灵感岛的技术实力,更彰显了其对创作生态的深入理解。
灵感岛在 C 端的定位是「让人人都能创作,让创作更有价值」。通过降低创作门槛和提供高效工具,灵感岛已成为上千位行业知识者运营个人 IP 的得力助手,为专业创作者提供了全方位的支持和发展平台。通过智能工具和生态链接,灵感岛正在重塑内容创作的生态格局。
B 端:三大核心功能,助力企业实现效果效率双提升
在 B 端,灵感岛企业版于今年上线,其定位为「最适合商家需求的全链路 AI 营销工具」,并通过三大核心功能,帮助企业打造高效内容生态:
- AI 内容生成:支持批量生成高质量文案、图片和视频;
- AI 智能分析与分发:优化内容策略,实现精准投放;
- AI 智能分发:快速构建品牌矩阵分发体系,实现内容到流量全闭环。
相较于其它 AI 营销工具,灵感岛的主要优势体现在能够提供全链路 AI 营销服务。从文案生成到图片加工和视频创作再到最后的内容分发,这一切都可以在灵感岛这一个平台上完成。目前,灵感岛企业版的客户已包含多家一线品牌和数十家中小企业。
在数字人应用方面,灵感岛的成果同样令人瞩目。公司已帮助超 2 万家门店成功克隆数字人,打造出了万店流量矩阵,显著提升了它们的品牌营销的效率与效果。
另外,天下秀还向透露,目前该公司还有两大面向 B 端的功能正在布局中。一是前面已经提到的内容分发功能,二是面向外贸企业和跨境电商用户推出的海外短视频电商功能,这两个功能都将在近期上线。此外,灵感岛 12 月内还会推出 AI 视频小程序,其功能主要是针对数字人的相关视频制作,如文案提取、文案改写、数字人一键克隆、视频快速生成等,能够实现手机端智能化批量生产优质素材。灵感岛表示未来还会涉及到更广泛和高效的 AI 业务以及效果流量业务。
值得一提的是,灵感岛于 12 月 2 日成功通过北京市生成式人工智能服务登记,成为北京市首批获批的此类应用之一。这不仅是对其技术实力的认可,也确立了灵感岛在 AI 营销领域的领先地位。
站稳国内红人营销头部市场引领 AI 营销未来
自 2009 年创立以来,天下秀便一直深耕红人营销领域,并早已成长为「红人新经济第一股」。依托于其多年积累的海量红人营销数据,灵感岛是毫无疑问的国内 AI 营销超强工具。
在数字化浪潮和 AI 技术快速迭代的今天,天下秀通过灵感岛重新定义了营销生态。从内容生产到数字人创建,从智能分析到多平台分发,灵感岛构建了一个前所未有的 AI 营销闭环。这不仅是技术创新,更是对整个数字营销生态的颠覆性重构。
回望过去,天下秀在红人营销领域的积累为灵感岛奠定了坚实基础。展望未来,随着 AI 技术的不断进步,灵感岛有望成为连接创作者、品牌和用户的重要平台,推动营销模式的革命性变革。在这个充满可能的时代,天下秀正用灵感岛书写 AI 营销的崭新篇章。
想要更完整地体验灵感岛,请访问官网:
https://market.linggandaquan.com
....
#xxx
....
#xxx
....
#TypeScript
TypeScript超越Python成GitHub上使用最广语言,AI是主要驱动力
开发者最常使用的编程语言是什么?相信很多人都会不假思索地选择 Python。
但 GitHub 近日发布的《Octoverse 2025》报告却给出了一个不一样的答案:TypeScript。
根据 GitHub 的贡献者数量统计,2025 年 8 月,Python 的贡献者数量在连续霸榜 16 个月之后首次跌落到第二名,TypeScript 首次成为 GitHub 上使用最广泛的语言,以约 4.2 万名贡献者的优势超越了 Python。JavaScripst 紧随其后,四五六名则是名次超级稳定的 Java、C# 和 PHP。

GitHub 报告表示:「这一里程碑事件是过去十年来开发者转向类型化 JavaScript (typed JavaScript)趋势的集中体现,也标志着 TypeScript 正在成为现代开发的新默认选项。」
更具体而言,TypeScript 在 2025 年的贡献者数量增长了超过 100 万(同比增长 66%)。其主要驱动力一方面来自那些默认使用 TypeScript 搭建项目的开发框架,另一方面则来自 AI 辅助开发,因为 TypeScript 那更严格的类型系统让 AI 辅助开发受益匪浅。


不过,GitHub 也指出,Python 在 AI 和数据科学领域仍然保持着主导地位,拥有 260 万贡献者(同比增长 48%)。Jupyter Notebook 依旧是 AI 领域的首选探索性环境(相关仓库约 40.3 万个;在 AI 标签的项目中,同比增长 17.8%)。
JavaScript 的贡献者体量依然庞大(215 万),但随着开发者逐渐转向 TypeScript,其增长已经放缓。

总而言之,TypeScript 和 Python 两者目前共拥有超过 520 万贡献者(约占 2025 年 8 月 GitHub 所有活跃开发者的 3%)。类型化语言的崛起表明:AI 不仅在改变编码的速度,同时也在影响开发团队在「信任并采纳 AI 生成的代码进入生产环境」时,会选择哪些语言。
另外,根据 GitHub 统计,过去 12 月新增的软件库有 80% 都集中在 6 大核心语言:Python、JavaScript、TypeScript、Java、C++ 和 C#。

为什么 TypeScript 在 2025 年胜出?
TypeScript 在 2025 年 8 月以 2,636,006 名月度贡献者(同比增长 105 万;+66.6%)的成绩在 GitHub 上排名第一,并在新增仓库数量上处于领先地位。
原因是「类型(Type)」对 AI 系统的辅助:类型系统可减少代码的模糊性,并在(AI 生成的)代码进入生产环境前提早捕获大型语言模型(LLM)的错误。
另外,许多框架也默认内置 TypeScript。 Next.js 15、Astro 3、SvelteKit 2、Qwik、SolidStart、Angular 18 和 Remix 均默认(通过 npm create、pnpm dlx 或 bunx create 命令)生成 TypeScript 代码库。
并且类型系统也有助于在开发流程中更早地识别 LLM 生成的编译错误。2025 年的一项学术研究发现,LLM 生成的编译错误中有 94% 是类型检查失败。
TypeScript 的入门门槛也比较低。诸如 Vite、ts-node、Bun 和 IDE 自动配置等工具隐藏了(繁琐的)样板文件(boilerplate),因此初级开发者也可以快速启动类型化的技术栈。
Python 依然主导 AI 项目
即便 TypeScript 崛起了,但在所有 AI 标签的仓库中,Python 仍然是当之无愧的领导者。其中,Jupyter Notebook 的使用量在 2025 年几乎翻了一番,这充分证明了 Python 作为 AI 工作负载原型设计、模型训练和任务编排的首选语言的地位。

具体来看,Python 驱动了近一半的新增 AI 仓库(582,196 个;同比增长 50.7%),突显了它作为应用型 AI 工作(从训练、推理到编排和部署)的支柱地位。Jupyter Notebook 依旧是用于实验的首选探索性环境(402,643 个;同比增长 17.8%),但(贡献者)向 Python 代码库的转移表明,有更多项目正在摆脱原型阶段,进入生产技术栈。
前端和应用层语言在较小的基数上实现了急剧增长:TypeScript 增长 77.9%(85,746 个)和 JavaScript 增长 24.8%(88,023 个)。
这表明围绕模型 API 接口(model endpoints)构建的演示、仪表盘和轻量级应用正在崛起。
Shell 脚本(+324%)成为增长最快的类别,反映了团队如何将评估工具、数据准备和部署流程代码化。C++ 则跨越了 7,800 个仓库(+11%),稳步提醒着人们它在性能攸关的推理引擎、运行时和近硬件(hardware-close)系统中所扮演的角色。
其它趋势和要点
GitHub 还在报告中总结了其它一些趋势和要点。
今年,开源开发活动达到了创纪录的水平,公共仓库的贡献总量达到了 11.2 亿次(同比增长 13%)。2025 年 3 月是 GitHub 历史上新增开源贡献者数量最多的一个月。

印度增长迅猛,该国在 2025 年新增了超过 520 万名开发者,占 GitHub 2025 年新增 3600 万开发者总数的 14% 以上。这使得印度成为今年 GitHub 上新增开发者的最大单一来源国,延续了其自 2020 年以来的迅猛增长势头。

企业级技术栈保持稳固。Java 和 C# 今年的贡献者均增长了超过 10 万人,这表明即便 AI 正在重塑整个行业格局,它们在大型企业和游戏开发(game-dev)环境中的增长依旧稳定。
旧语言的实验性项目涌现。COBOL 语言也出现在 GitHub 的数据集中,拥有近 3,000 名活跃开发者。这很可能是由一些组织和爱好者所推动的,他们创建了许多 AI 辅助的教程仓库,旨在帮助实现遗留代码库的现代化。
性能和系统语言正随 AI 崛起(但增长不均)。C 语言同比增长约 20.9%,C++ 同比增长约 11.8%,这反映了市场对更快的运行时、推理引擎和硬件优化 Loop 的需求。
生成式 AI 正日益成为基础设施。现在有超过 110 万个公开仓库导入了 LLM SDK(同比增长 178%,对比 2025 年 8 月与 2024 年 8 月),由超过 105 万名贡献者支持,月度提交量(monthly commits)达到 175 万次(自 2023 年以来增长了 4.8 倍)。

AI 在开源领域的应用。半数(50%)的开源项目至少有一名维护者(maintainer)在使用 GitHub Copilot。
.NET 保持强劲。 C# 同比增长约 10.6%,与企业级和游戏 / 工具生态系统的(增长)保持一致。这表明 AI 功能正被集成到现有的 .NET 工作流中,而不是在驱动(开发者)进行彻底的语言转移。
增长最快的语言是 Luau。Luau 是 Roblox 的脚本语言,也是一个逐步类型化的语言,体现了整个行业向「类型灵活性」发展的趋势。

可复现性和依赖清洁(dependency hygiene)备受关注。 astral-sh/uv 和 NixOS/nixpkgs 的崛起,表明开发者对确定性构建(deterministic builds)、更快的安装速度以及直接运行的渴望。
以性能为中心的开发者工具赢得关注。 Ghostty、Tailwind CSS 和 uv 的共同点都是关于速度、紧凑的反馈循环和最小化的(开发)阻力。
更多详情请参阅原报告:
....
#Dingtalk DeepResearch
全球第二、国内第一!钉钉发布DeepResearch多智能体框架,已在真实企业部署
在数字经济浪潮中,企业对于高效、精准的信息获取与决策支持的需求日益迫切。从前沿科学探索到行业趋势分析,再到企业级决策支持,一个能够从海量异构数据源中提取关键知识、执行多步骤推理并生成结构化或多模态输出的「深度研究系统」正变得不可或缺。
然而,现有的研究系统,尽管各自在特定领域有所建树,却普遍面临着难以适应真实世界企业环境的挑战:
- 静态架构与缺乏适应性: 多数系统依赖静态提示或固定脚本,缺乏从真实世界反馈中学习和优化的机制,难以适应不断变化的业务需求和数据分布。
- 私有数据集成与动态优化不足: 现有的研究型智能体,如 OpenAI 的 GPT 代理,在集成公共信息源方面表现出色,但往往难以安全、高效地整合企业私有数据,也缺乏动态优化能力。
- 缺乏自动化评估与持续优化: 像 Anthropic 的 Claude Research Workbench 虽然强调安全性与人机协作,但缺少自动评估和连续优化机制,难以在部署环境中实现持续改进。
- 长短期记忆与动态演进机制缺失: 多数系统缺乏有效的长短期记忆能力,无法积累和重用历史经验,导致智能体在处理复杂、长期任务时效率低下且无法持续进步。
- 表格结构化推理与文本合成的脱节: 企业数据中包含大量半结构化或复杂表格,但现有系统往往难以将表格的精确符号推理与非结构化文本的生成合成有效结合。
- 缺乏评估驱动的闭环迭代: 许多系统缺少一个评估驱动的闭环优化流程,无法系统性地识别低性能案例、进行有针对性的改进并防止性能退化。
为了填补这些空白,阿里巴巴钉钉(Dingtalk)团队提出了 Dingtalk-DeepResearch,一个为复杂、演进的企业任务设计的统一多智能体智能框架,旨在整合深度研究生成、异构表格推理和多模态报告合成,从而提供一个适应性强、可部署、企业级的解决方案。
- 论文标题:Dingtalk DeepResearch: A Unified Multi Agent Framework for Adaptive Intelligence in Enterprise Environments
- 论文地址:https://arxiv.org/abs/2510.24760
Dingtalk-DeepResearch 在国际权威深度研究评测 DeepResearch Bench 中取得 48.49 高分(全球第二、国内第一),显著超越包括 OpenAI、Claude 在内的主流系统;并在 ResearcherBench 达到 0.7032 平均覆盖率(全球第三、国内第一)。


更关键的是,该框架已稳定部署于制造业、供应链等真实企业场景,能够在复杂异构表格、多阶段推理与多模态生成任务中保持行业领先的准确性和稳健性,实现了国际顶级基准与实际生产落地的双重突破。
总体架构:
构建企业智能的大脑
Dingtalk-DeepResearch 框架采用分层设计,旨在为企业提供一个全面而灵活的智能中枢:

Dingtalk-DeepResearch Agent Studio:这一层提供了专业的智能体,专门用于深度研究、表格数据处理和数据分析。同时,它也支持可定制的个人智能体,以满足不同用户的特定需求。这体现了框架的 flexibility 和个性化能力。
Dingtalk-DeepResearch Core:这一层作为框架的「大脑」,它集成了上下文压缩、推理与规划、长短期记忆和人机协作控制等关键功能。该核心还包括一个自演进引擎 (DingAutoEvaluator)和一套丰富的集成工具,支持代码执行、网络搜索、文件与表格检索及多模态处理。值得注意的是,它能与钉钉生态系统连接,并在用户授权下安全访问个人工作文档。所有这些能力均由经过 CPT、SFT 和 RL 训练的 LLM 驱动。
Dingtalk-DeepResearch Data Layer:这一层是一个统一的数据骨干。它整合了知识图谱、数据库、缓存以及包括对话、音视频、图、文本和表格在内的多模态数据集。该层汇集了业务、行业、个人及合成数据,为智能体检索和关联多样化的企业及行业数据提供了基础。
详细方法:
自适应智能的核心机制
Dingtalk-DeepResearch 的创新之处在于其独特的方法论,尤其是在文档生成、在线学习和表格推理方面。
大规模多阶段文档强化学习:构建文档生成专家
为了赋予 Dingtalk-DeepResearch 强大的文档生成能力,该框架设计了一个多阶段训练管道,结合了大规模奖励建模、结构化查询格式的监督微调以及在静态和实时内容流上的强化学习,并通过真实用户数据进行在线偏好优化。
- 阶段 1:奖励模型(Doc-RM)训练
此阶段的目标是训练一个文档专属的奖励模型(Doc-RM)。团队使用了约 80 万个人工标注的正负样本对 ,这些样本根据事实准确性、语义覆盖、逻辑结构和呈现清晰度进行评估 。该模型将作为后续强化学习阶段的评分骨干 。
- 阶段 2:结构化查询格式的冷启动监督微调 (SFT)
为使模型掌握特定的输出格式,团队使用了 3,200 个精选样本进行 SFT 。这些样本涵盖四大类格式:视觉呈现生成(如 Markdown 格式的 PPT)、结构化数据解释(如表格解析)、综合多章节叙述 和领域特定模板 。此阶段会奖励兼具内容准确性、逻辑结构和美观文本格式的输出 ,为后续 RL 调优奠定基础 。
- 阶段 3:静态文档集合上的强化学习 (RL)
利用训练好的 Doc-RM 作为奖励函数 ,智能体在大型离线文档库上进行强化学习。它通过检索静态文档、合成答案,并根据覆盖范围、事实正确性和连贯性获得奖励 ,从而在受控环境中建立稳定的合成能力基线 。
- 阶段 4:实时文档获取上的强化学习 (RL)
为处理时效性信息,RL 被扩展到实时内容检索 。团队设计了 10,000 个时间敏感查询 ,覆盖了需要避免「事后偏见」的场景(如财务预测)和需要最新信息的「过时信息」场景(如突发新闻)。系统通过实时搜索获取最新文档,并由 Doc-RM 结合定制的奖惩结构(强调时间正确性)进行评分 。
- 阶段 5:基于 Copilot 的真实用户交互在线直接偏好优化 (DPO)
在实际部署中,系统作为用户 Copilot 运行 。通过收集模型的原始输出和用户的编辑版本,系统会提取高影响力的差异 ,并将其构造成在线 DPO 数据集,从而持续向用户的特定偏好进行微调 。
通过这一多阶段方法,Dingtalk-DeepResearch 不仅获得了强大的文档生成能力,还实现了对不断变化的真实世界信息需求的自适应响应。
熵引导记忆检索自适应在线学习:无需微调 LLM 的持续演进
Dingtalk-DeepResearch 的一个显著特点是其熵引导、记忆感知的在线学习机制。该机制允许智能体在不微调底层 LLM 参数的情况下,持续适应不断演变的任务。系统并非依赖静态提示,而是从一个外部的 episodic memory bank 中动态选择和重用先前的案例 ,平衡了对高价值经验的利用和对多样化历史情境的探索。
智能体会根据当前任务状态计算存储案例的概率分布,该分布受其估计的 Q 值和温度参数的调节 。这鼓励了对替代案例的探索,减轻了对早期经验的过拟合 。同时,记忆感知组件通过学习到的语义相似性来确保上下文相关性,从而准确地重新应用多步骤推理模式和工具调用序列 。
该机制被集成到规划器-执行器循环中 ,每次执行都会更新案例库,在线重新训练检索策略,并逐步提高推理性能 。此外,该系统将这种记忆驱动的范式扩展到个性化层面,通过构建用户画像、文档交互历史和先前工作流的长期结构化记忆 ,智能体能够更深入地理解用户的工作风格和需求,从而提供日益相关和高效的辅助。
结构感知异构表格解析、检索与推理:企业级数据处理的利器
在企业环境中,表格数据往往与文本叙述混合,形式多样且结构复杂。Dingtalk-DeepResearch 的表格问答模块通过结合布局感知表格建模和异构检索-执行,实现了精确且可解释的推理。
- 数据摄入 (Data Ingestion)
系统在摄入半结构化表格时会保留其原始布局,而非扁平化为纯文本。表格被解析为捕获了标题、合并单元格和嵌套关系的层次化表示。同时,表格也以标准化模式存储在关系数据库中,其 Markdown 渲染版本则加入文本知识库。这种双存储方法保持了结构完整性,并同时支持符号查询和向量检索。
- 结构化解析 (Structural Parsing)
系统应用多模态检测器来区分标题和内容单元格 ,推断列类型(如离散、连续),并分析布局以识别嵌入的子表 。这些丰富的模式注解为精确推理奠定了基础 。
- 语义理解 (Semantic Understanding)
系统会将用户问题分解为感知文本和表格上下文的特定模态子查询 。查询词汇通过嵌入相似性和类型感知标记与数据库模式及文本实体对齐 。这种分解能确保表格相关子查询被直接用于符号执行,而文本子查询则交由文档检索器处理 。
- 表格推理 (Tabular Reasoning)
对于表格子查询,系统会调用 NL2SQL 生成器 ,在关系数据库上生成可执行的 SQL 语句,以执行聚合、过滤或多跳连接 。得益于评估驱动的开发范式,DingAutoEvaluator 会持续发现低准确度的案例 ,并将其反馈到专用训练循环中以重新训练 NL2SQL 生成器 ,从而提高其鲁棒性和执行可靠性 。
- 表格检索 (Table Retrieval)
系统采用混合的自顶向下和自底向上检索策略 。检索过程分两阶段:首先从文本知识库和 Markdown 渲染的表格中进行密集向量召回 ,然后使用模式感知的相关性模型进行语义重排序 。
这种紧密集成结构保留摄入、精确解析、上下文感知分解、符号 SQL 推理和自适应检索的方法,使 Dingtalk-DeepResearch 能够大规模处理真实世界中的异构数据,提供稳健的企业级表格问答能力。
DingAutoEvaluator:数据飞轮与持续优化的核心驱动
DingAutoEvaluator 是 Dingtalk-DeepResearch 实现持续演进的关键。它是一个自动化评估平台,作为数据飞轮和性能演进的核心驱动力,将开发范式从启发式迭代和零星手动检查转变为完全评估驱动的方法。
该过程始于不确定性感知案例挖掘。系统会持续监控模型在检索和生成层面的认知不确定性峰值 ,这些「灰色地带」的输出(即模型能力边缘的推理)会被自动识别并优先提交给专家标注者 。
随后,平台中精心策划的多个「教师模型」会根据一系列多维度评估指标全面检查框架的输出 。这个统一的测量框架 涵盖了 RAG、LLM、推理、智能体框架和知识库健康度等多个方面 。关键指标类别包括:
- RAG 评估:如上下文精度和答案忠实度。
- LLM 评估:如响应准确性和意图识别。
- 推理评估:如逻辑连贯性和思维一致性。
- 智能体框架评估:如任务依从性和工具使用正确性。
- 知识库评估:如知识过时率 。
这些指标不仅用于离线基准测试,还作为在线监控循环中的实时信号,为数据飞轮提供高价值案例,并为奖励建模和持续优化提供信号。
实验结果与案例展示:
能力验证与实际应用
论文通过多个实际案例展示了 Dingtalk-DeepResearch 的端到端能力,特别是在复杂表格数据解析、检索、推理以及多模态文档生成方面。
复杂表格解析、检索与推理案例
在案例 A 中,系统处理了一个包含库存、多周预测和多式联运计划的复杂表格。Dingtalk-DeepResearch 能够准确解析多节生产记录、发货计划和物流说明,实现精确的信息检索与合成。该方法可扩展到多个大型文件(如案例中 8 个相似的 1200 行文件),显示了其鲁棒性和实用性。

在案例 B 中,系统处理了一个 1200 行的周生产记录 103,并回答了关于 2025 年第一季度总产量的提问 104。系统清晰地展示了其端到端流程:
- 问题分解:将复杂问题分解为四个步骤,包括定位表格、识别时间范围、提取数据和汇总。
- 表格检索与模式链接:系统成功定位到「YF Seat Weekly Production Statistics on Dec 30, 2024」表格 106,并将「Q1 2025」链接到 13 个具体的周次列。
- SQL 生成与执行:系统生成了精确的 SUM 聚合 SQL 语句 108,并成功执行得出 total_production = 245036。

- 最终答案:基于执行结果,系统给出了「...2025 年第一季度...所有产品的总产量为 245036 件」的准确回答。

语义对齐的视觉-语言融合多模态文档生成
该框架还展示了其在 Kaggle 竞赛案例(厄瓜多尔超市销售预测)中的端到端自动化能力 。从源代码、数据处理、统计可视化到最终的分析报告,全部由 Dingtalk-DeepResearch 自动生成和执行,无需任何人工干预 。
这证明了系统在一个统一的深度研究工作流中,集成了代码合成、执行和多模态结果呈现的能力 。


结论:
面向未来的企业级自适应智能
Dingtalk-DeepResearch 提出了一种统一的多智能体智能框架,专为企业环境设计,其核心优势在于:
- 熵引导在线学习,实现无需频繁微调 LLM 的自适应能力。
- 大规模多阶段文档强化学习,显著提升文档生成的事实准确性、结构质量和用户对齐度。
- 结构感知异构表格推理,能够有效处理真实世界中复杂多样的表格数据。
- DingAutoEvaluator 自动化评估引擎,通过不确定性感知案例挖掘和多维度指标,形成数据飞轮,驱动模型的持续优化和防范性能退化。
Dingtalk-DeepResearch 已经成功部署在企业内部工作流程中,并即将作为钉钉的服务对外开放,这将为更广泛的企业用户提供适应性强、评估驱动、多模态推理的复杂任务解决方案。
....
#Yann LeCun离职,要创业?
突发
突然,却又在预料之内,Meta 经过人事地震之后,图灵奖得主 Yann LeCun 还是选择离开。

据《金融时报》刚刚援引知情人士的报道,Meta 首席人工智能科学家 Yann LeCun 计划离开这家公司,并创办自己的初创公司。
也就是,Yann LeCun 要正式自己创业了。
此外,文章报道称,他也正在就筹集资金进行早期洽谈。
就此消息,xxx也向熟悉的 Meta 团队成员进行了确认,得到的答复是不确定是否为真的,「他的内部 chat 还没有 deactivate」。
而在数天之前,PyTorch 之父 Soumith Chintala 也宣布将于 11 月 17 日正式离开 Meta,结束他长达 11 年的职业旅程。

当时,LeCun 还对他表示:「祝你在下一份工作中一切顺利。」

短短几天后,LeCun 也将开始自己的新旅程。
大调整下尴尬的 Yann LeCun
从今年 6 月扎克伯格斥资 143 亿收购 Scale AI 并任命 Alexandr Wang 领导的超级智能实验室以来,Meta 内部动荡不断。
一方面,Meta 四处高薪挖人,组建新团队;一方面,又对内大作手术,进行调整。
9 月,Information 就曾独家报道,Meta 对 FAIR 实验室施加了锁紧论文发表的新政策之后,LeCun 直接向同事透露了辞职意愿。

到了今年 10 月底,Meta 更是对内部的人工智能团队进行了大刀阔斧的裁员:裁减约 600 个职位,调整波及 FAIR、AI 产品以及基础设施团队,包括我们所熟知的田渊栋团队都被 Alexandr Wang 给裁撤了。
正是这种内部的矛盾,让即使身为图灵奖得主的 Yann LeCun 不得不离开大调整下的 Meta。
可以说,Meta 与 LeCun 的关系,从深度学习时代到大模型时代,发生了巨大变化。
2012 年,AlexNet 的惊人表现和 Google 对 DNN Research(Hinton 团队) 的迅速收购,点燃了科技巨头对深度学习人才的渴望。
扎克伯格将 AI 视为「下一个大事件」,并决心迅速建立 Facebook 自己的顶尖 AI 实验室。
扎克伯格的目标非常明确:他需要一位像 Geoff Hinton 一样的领军人物。这个人选就是 Hinton 的前博士后、当时在纽约大学任教的 Yann LeCun。LeCun 是深度学习领域的另一位「教父」,尤其以其在卷积神经网络(CNNs)上的开创性工作而闻名。
2013 年,扎克伯格亲自致电 LeCun,力邀其加盟,并给出了非常有诚意的让步:FAIR(Facebook AI Research)实验室可以设在纽约,LeCun 本人也可以保留在纽约大学的教职。
更重要的是,LeCun 坚持 FAIR 必须采用开放的研究模式,即像学术界一样公开发表论文。他认为这是吸引和留住顶尖人才的唯一途径,因为顶尖学者渴望的是同行认可和推动科学进步,而非仅仅是高薪。
扎克伯格同意了这一点,这与 Google Brain 当时逐渐形成的开放研究文化不谋而合。
如我们所见,FAIR 为 Meta(原 Facebook)提供了源源不断的核心技术、开源工具(PyTorch)和前沿探索。
而且在大模型竞争初期,FAIR 通过其 Llama 系列模型为 Meta 确立了独特的战略地位。
从 Llama 1 到 Llama 3,FAIR 开发了行业领先的开源大语言模型。 坚持开源策略,使 Meta 成为开放 AI 生态的领导者,对抗了 OpenAI 和 Google 的闭源模型。
但在 AI 竞争日益残酷的今天,从大模型竞争失败,到重新组建团队,再到裁员,FAIR 也不可避免地迎来了「理想主义」的退潮。
在这样一个「新旧冲突」加剧、学术自由受限、内部文化混乱的环境中,LeCun 的离开似乎不那么意外。
LeCun 之后又将给我们带来怎样的新惊喜?值得期待。
....
#UnrealZoo
大规模xx仿真平台UnrealZoo
你是否曾为搭建xx仿真环境耗费数周学习却效果寥寥? 是否因人工采集海量交互数据需要高昂成本而望而却步? 又是否因找不到足够丰富真实的开放场景让你的智能体难以施展拳脚?
来自北京师范大学、北京航空航天大学、北京大学等机构的联合研究团队,为xx智能(Embodied AI)研究带来了xx仿真环境平台 UnrealZoo!这是一个基于虚幻引擎(Unreal Engine)构建的近真实三维虚拟世界集合,旨在 1:1 还原开放世界的复杂性与多变性。
目前,UnrealZoo 已收录 100 余个高质量、高逼真、大尺度 3D 场景,从温馨室内家居到繁华城市街道,从静谧校园医院到壮丽自然景观,甚至涵盖大型工业工厂等专业场景,全方位满足不同研究需求。UnrealZoo 还内置了机器狗、无人机、汽车、人体、动物等多样化xx形态,搭配灵活易用的交互接口,无需复杂配置即可快速上手。无论是算法验证、数据合成还是智能体训练,都能在 UnrealZoo 一站式完成!
该工作已被 ICCV 2025 接收并入选 Highlight Award(本届共有 280 篇入选,占录用论文总数的 10%)。
- 标题:UnrealZoo: Enriching Photo-realistic Virtual Worlds for Embodied AI
- 论文链接:https://openaccess.thecvf.com/content/ICCV2025/html/Zhong_UnrealZoo_Enriching_Photo-realistic_Virtual_Worlds_for_Embodied_AI_ICCV_2025_paper.html
- 项目主页:http://unrealzoo.site
- 开源代码:https://github.com/UnrealZoo/unrealzoo-gym
- 作者单位:北京师范大学,北京航空航天大学,北京大学,澳门城市大学,新加坡国立大学,北京通用人工智能研究院
UnrealZoo 做了什么?
UnrealZoo 是一个基于虚幻引擎 UE5 开发的高保真虚拟环境集合,环境内提供了 100 + 的场景地图以及 66 个可自定义操控的xx实体,包括人类角色、动物、车辆、无人机等。不同智能体可以与其他智能体或者环境进行交互。
为支持丰富的任务需求以提供更好的使用体检,UnrealZoo 基于开源工具 UnrealCV 提供了一套易用的 Python 接口和工具,并优化了渲染和通信效率,以支持数据收集、环境增强、分布式训练和多智能体交互等各种潜在应用。
此外,研究团队还通过实验深入探索了 UnrealZoo 在视觉导航与主动目标跟踪等关键任务的应用潜力,揭示了扩充训练场景丰富度对模型泛化性的提升的必要性,以及当前基于强化学习(RL)和大型视觉 - 语言模型(VLM)的视觉智能体在开放世界中所面临的巨大挑战。完整的 UE5 场景已经在 Modelscope 开放下载。
Modelscope 地址:https://www.modelscope.cn/datasets/UnrealZoo/UnrealZoo-UE5
为什么要搭建 UnrealZoo?
随着xx智能(Embodied AI)的快速发展,智能体逐渐从简单的任务执行者向能够在复杂环境中进行感知、推理、规划与行动的系统进化。虽然现有模拟器如 Habitat、AI-Thor 和 Carla 等,已在家庭场景或自动驾驶等领域取得了一定进展,但它们的应用场景往往局限于特定任务和环境。这也阻碍了xx智能体在多变的开放世界中的适应性和泛化能力的发展。这些能力对于xx智能体在真实世界中的广泛应用至关重要。
为了弥补这一短板,xx智能研究迫切需要支持多样化和高保真虚拟环境的模拟平台,帮助智能体在更加复杂和动态的环境中进行训练。3D 场景的多样性与智能体形态的多变性将使智能体能够在更多种类的任务中进行学习,从而提升其空间智能和任务执行能力。而随着多智能体交互的加入,智能体不仅能独立完成任务,还能模拟和人类类似的社会智能行为,如合作、竞争与沟通,极大地提升其在真实世界中的应用潜力。
更重要的是,开放世界中的训练环境能够帮助研究人员评估智能体在应对多种不确定性、动态变化和复杂任务时的表现,进而避免因直接在现实中部署时发生故障或造成硬件损失。
基于以上原因,UnrealZoo 为智能体提供了一个近真实、多样化、灵活易用的仿真平台,推动xx智能从虚拟世界走向现实世界,助力更加广泛且真实的应用场景。


表 1:UnrealZoo (基于 UE4/5) 与其他主流虚拟环境的对比
本文贡献
提出了 UnrealZoo,这是一个基于「虚幻引擎」(Unreal Engine) 和「虚幻计算机视觉」(UnrealCV)的逼真虚拟世界的综合集合。UnrealZoo 具有各种复杂的开放世界和可玩实体,旨在推动xx人工智能及相关领域的研究。
这个高质量的集合包括 100+ 个不同规模的逼真场景,如房屋、超市、火车站、工厂、城市、村庄、寺庙和自然景观。每个环境都由艺术家精心设计,以模拟逼真的照明、纹理和动态,与现实世界的体验高度相似。还包括各种可玩实体,包括人类、动物、机器人、无人机、摩托车和汽车。这种多样性使研究人员能够研究智能体在不同表现形式中的泛化能力,或构建具有众多异构智能体的复杂 3D 社会世界。
为了提高可用性,研究团队进一步优化了「虚幻计算机视觉增强版」(UnrealCV+),并提供了一套易于使用的 Python API 和工具,包括环境增强、演示收集和分布式训练 / 测试。这些工具允许对环境进行定制和扩展,以满足未来应用中的各种需求,确保 UnrealZoo 随着xx人工智能智能体的发展而保持适应性。
贡献可以总结如下:
- 构建了 UnrealZoo,它包含 100 个高质量的逼真场景和一组具有多样化特征的可玩实体,涵盖了开放世界中对xx人工智能智能体最具挑战性的场景。
- 优化了 UnrealCV API 的通信效率,并提供了带有工具包的易于使用的 Gym 接口,以满足各种需求。
- 进行实验以证明 UnrealZoo 的可用性,展示了环境多样性对xx智能体的重要性,并分析了当前基于强化学习和基于视觉语言模型的智能体在开放世界中的局限性。
UnrealZoo 技术方案
1. 多样化场景收集
UnrealZoo 包含 100 + 个基于虚幻引擎 4 和 5 的场景,从虚幻引擎市场精心挑选,涵盖多种风格,包括古代到虚构的各类场景。场景按类别、规模、空间结构、动力学和风格等标签分类,以满足不同测试和训练需求,最大场景达 16 平方公里。

图 1 UnrealZoo 通过结合多样化的场景和可交互实体,丰富了高真实感虚拟世界。它支持训练具有泛化能力的xx智能体,用于导航、主动追踪以及社会交互等任务。

图 2 UnrealZoo 内不同类型场景的统计分布,涵盖多种风格, 如住宅、超市、火车站、工业工厂、城市、乡村、寺庙以及自然景观等。
2. 可交互智能体
🤖多样化的智能体类型


无人机第一视角

驾驶汽车第一视角

驾驶摩托车第一视角

四足机器人
UnrealZoo 内包含人类、动物、汽车、摩托车、无人机、移动机器人和飞行相机等七种类型,共 66 个实体,各具不同的动作空间和视点,支持多种功能,如切换纹理外观、捕获不同类型图像数据,可通过函数控制其属性和运动。
🏃♂️ 智能体在开放世界的探索

爬楼梯

攀爬高台

下蹲穿越

跑跳
智能体的基础移动能力。UnrealZoo 的运动系统基于 Smart Locomotion,赋予智能体在复杂三维空间中自由探索的能力。智能体不仅可以进行跑步、跳跃和攀爬等动作,还能够在多层次、动态变化的环境中自如移动。通过这些运动方式,智能体需要准确评估距离、高度和空间布局,做出合理的运动决策。这对智能体的空间感知提出了新的挑战,要求它们不仅能在平面上导航,还能理解和推理复杂的三维空间结构,从而提升其在开放世界中进行导航和互动的能力。

内置基于地图的自主导航系统
导航系统。基于 NavMesh 开发,支持智能体在环境中自主导航,能在不同场景中根据地形和规则实现智能路径规划和避障。
🧸丰富的交互系统

物体拿放动作

球体碰撞交互

上下车动作

车辆破坏模拟

开关门动作

坐下
智能体与环境的交互。UnrealZoo 的交互系统为智能体提供了与物体和环境的灵活互动能力。智能体可以通过抓取、推动、开关等方式与物体进行物理交互,如开关门、移动箱子、驾驶车辆等,物体的物理特性(如重量、材质)会影响交互效果。同时,智能体还能够感知和适应环境变化,利用传感器(如视觉、深度信息)在复杂地形中进行导航,并根据实时变化(如天气、时间变化)调整行动策略。这种物理与感知交互能力,使得智能体能够在不同的虚拟环境中完成各种任务,如操作、导航和任务执行。
,时长00:12
智能体之间的交互。UnrealZoo 还支持智能体之间的交互,使得多智能体环境中的合作与对抗成为可能。智能体可以共享信息,进行协作任务,或在竞技场中与其他智能体竞争。例如,在灾后救援任务中,多个智能体可以协调合作,完成物品搬运或场地清理任务;而在对抗场景中,智能体通过实时策略选择与其他智能体互动,增强了多样性与挑战性。这种多层次的交互功能为人工智能提供了更加动态和真实的模拟环境,推动了 AI 在实际应用中的发展。
3. 通用编程接口
为提升可用性,UnrealZoo 进一步优化了 UnrealCV,并提供了一套易于使用的 Python API 和工具(UnrealCV+),包括环境增强、示范采集以及分布式训练 / 测试。这些工具允许用户根据未来应用的需求自定义和扩展环境,确保 UnrealZoo 能够随xx AI 智能体的演进保持适应性。

图 3 UnrealZoo 的详细架构。灰色框表示 UE 二进制文件,包含场景和可交互实体。UnrealCV+ Server 作为插件嵌入到该二进制文件中。用户端通过 Gym 接口进行 api 调用,通过配置文件自定义任务,并包含一个工具包,其中包含用于环境增强、种群控制等功能的一组 Gym 封装器。
实验结果
1. UnrealCV+ 效果测试

UnrealCV 为研究使用虚幻引擎提供 Python 接口。

表 2 Unreal Engine 4.27 中使用 UnrealCV 和 UnrealCV + 的帧率(FPS)对比。报告的结果为 6 个典型环境的平均性能表现。
UnrealCV+ 是对原版 UnrealCV 的改进版本,专为高效交互而优化(代码已同步至 https://github.com/unrealcv/unrealcv)。原版 UnrealCV 主要用于生成计算机视觉合成数据,帧率(FPS)未针对实时交互优化。UnrealCV + 优化了渲染管道和服务器与客户端之间的通信协议,显著提高了 FPS,尤其是在大规模场景中通过并行处理物体级分割图和深度图。对于多智能体交互,UnrealCV + 引入了批量命令协议,允许客户端一次发送多个命令,服务器处理并返回结果,从而减少通信时间。为了提高稳定性,unrealcv + 用进程间通信(IPC)套接字代替了 TCP 套接字,以应对高负载下的服务器 - 客户端通信。
研究团队还开发了基于 UnrealCV 命令系统的高级 Python API,简化了环境交互,使初学者也能轻松使用和定制环境。
2. 视觉导航 / Visual Navigation
实验设置
- 复杂环境:在 UnrealZoo 的环境中中,3D 探索的独特优势为视觉语言导航任务带来了前所未有的挑战。在开放世界中,智能体不仅需要应对二维平面上的导航,更需要理解和适应三维空间结构。本文的导航任务引入了比传统室内场景或自动驾驶任务更高的复杂性。实验中,智能体被放置在开放世界环境中,需要通过一系列动作(如奔跑、攀爬、跳跃、蹲下)来克服无结构地形中的各种障碍,以到达目标物体。
- 评估指标:使用两个关键指标来评估视觉导航智能体:
- 平均回合长度(Average Episode Length, EL),表示每回合的平均步数。
- 成功率(Success Rate, SR),测量智能体成功导航到目标物体的百分比基线方法。
- 路径长度加权的成功率 (Success weighted by Path Length, SPL)
基线方法
- 在线强化学习(Online RL):在 Roof 和 Factory 环境中分别训练 RL 智能体,使用分布式在线强化学习方法(如 A3C)。模型输入第一人称视角的分割掩码和智能体与目标之间的相对位置,并输出直接控制信号进行导航。
- GPT-4o:使用 GPT-4o 模型来采取行动,利用其强大的多模态推理能力。模型输入第一人称视角的图像和智能体与固定目标之间的相对位置,根据预定义的控制空间推理适当的动作。
- 人类玩家:人类玩家使用键盘控制智能体,类似于第一人称视频游戏。玩家从随机起点导航到固定目标,基于视觉观察做出决策。
实验结果


图 4 xx导航智能体在 Roof 场景中的示例序列。基于强化学习(RL)的智能体学会了攀爬箱子和墙壁,并跳跃障碍物,以短路径到达目标位置。
- RL 智能体在较简单环境中表现较好,但在复杂环境中表现不佳(需要进行攀爬、跳跃等立体空间感知)。
- GPT-4o 在两种场景中都表现不佳,表明其在复杂 3D 场景推理中的局限性。
- 人类玩家在两个任务中都表现出色,显示出当前智能体与人类之间的显著差距。
3. 主动视觉跟踪 / Active Visual Tracking
实验设置
- 环境选择:利用 unrealzoo 的环境多样性,选择四个环境类别(室内场景、宫殿、荒野、现代场景)进行评估,每个类别包含 4 个独立环境。实验旨在捕捉环境合集中的广泛特征,确保对智能体追踪能力的全面评估。
- 评估指标:使用三个关键指标评估:
- 平均回合回报(Average Episodic Return, ER),提供整体跟踪性能的洞察;
- 平均回合长度(Average Episode Length, EL),反映长期跟踪效果;
- 成功率(Success Rate, SR),测量完成 500 步的回合百分比。
基线方法
- PID 方法:一种经典的控制方法,使用 PID 控制器通过最大化目标边界框与预期位置之间的 IoU 来调整智能体的动作。
- OpenVLA:通过对 OpenVLA 进行了微调,使其适应追踪任务。
- 离线强化学习(Offline RL):扩展自最近的离线 RL 方法,收集离线数据集并采用原始网络架构。通过收集不同数量环境的离线数据集来分析数据多样性的影响。
- GPT-4o:使用 GPT-4o 模型直接生成基于观察图像的动作,以跟踪目标人物。设计了系统提示来帮助模型理解任务并标准化输出格式。
实验结果
面对不同环境挑战的效果评估

图 5 Offline-RL 训练得到的智能体在四类环境中的平均成功率。智能体分别在三种离线数据集设置(1 个环境、2 个环境、8 个环境)下进行训练。结果表明,随着数据集中包含的环境多样性增加,智能体的泛化能力显著提升。然而,对于具有复杂空间结构的环境(如 Interior Scenes 和 Palace),成功率较低,突显了在障碍物规避和导航方面的挑战。

图 6 用于测试追踪智能体的 16 个环境概览,左侧的文本对应每一行的环境类别,每个环境下方的文本对应环境名称。
- 随着训练环境数量的增加,智能体在所有类别中的长期跟踪性能普遍提高。
- 在野外环境中(Wilds),使用 8 Envs. 数据集的成功率显著提高,表明多样化的环境数据对提高智能体在更复杂的开放世界环境中的泛化能力至关重要。
面对动态干扰的效果评估

- 动态干扰:在人群中进行跟踪时,智能体需要处理动态干扰。实验中,生成具有不同数量人类角色的群体作为干扰。
随着干扰数量的增加,离线 RL 方法保持相对稳定的成功率,而其余基线模型在动态环境中表现不佳,显示出其在动态干扰下的局限性。
跨实体泛化

- 跨实体泛化:将针对人类角色训练的智能体转移到机器人狗上进行评估。结果显示成功率下降,表明研究社区应更多关注跨实体泛化。
控制频率的影响

- 控制频率:使用时间膨胀包装器模拟不同的控制频率。结果表明,当感知 - 控制循环的频率低于 10 FPS 时,性能显着下降。高控制频率使 RL 智能体在社会跟踪中表现更好,强调了在动态开放世界中完成任务时构建高效模型的重要性。
总结
- 论文提出了 UnrealZoo,一个多样化的照片级虚拟世界合集,旨在推动xx AI 研究的发展。
- 通过提供高质量的虚拟环境和优化的编程接口,UnrealZoo 能够支持高效的单智能体和多智能体系统交互。
- 实验结果表明,智能体在开放世界的空间感知和导航能力仍然具有很大发展空间,多样化的训练环境对智能体的泛化能力和鲁棒性至关重要,而基于 RL 的方法在处理动态环境和社交互动方面表现出色。
- 未来的工作将继续丰富虚拟世界的场景、实体和交互任务,推动xx AI 在现实世界中的应用。
论文部分重要参考文献
[1] Weichao Qiu, Fangwei Zhong, Yi Zhang, Siyuan Qiao, Zihao Xiao, Tae Soo Kim, Yizhou Wang and Alan Yuille. Unrealcv: Virtual Worlds for Computer Vision. ACM MM. 2017.
[2] Aviral Kumar, Aurick Zhou, George Tucker, and Sergey Levine. Conservative Q-Learning for Offline Reinforcement Learning. NeurIPS 2020.
[3] Fangwei Zhong, Kui Wu, Hai Ci, Churan Wang, and Hao Chen. Empowering Embodied Visual Tracking with Visual Foundation Models and Offline RL. ECCV 2024.
[4] Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan P Foster, Pannag R Sanketi, Quan Vuong, Thomas Kollar, Benjamin Burchfiel, Russ Tedrake, Dorsa Sadigh, Sergey Levine, Percy Liang, and Chelsea Finn. OpenVLA: An Open-Source Vision-Language-Action Model. CoRL 2025.
[5] Shital Shah, Debadeepta Dey, Chris Lovett and Ashish Kapoor. AirSim: High-Fidelity Visual and Physical Simulation for Autonomous Vehicles. Field and service robotics: Results of the 11th international conference, 2017.
[6] Alexey Dosovitskiy, German Ros, Felipe Codevilla, Antonio Lopez and Vladlen Koltun. CARLA: An Open Urban Driving Simulator. CoRL 2017.
....
#AI六巨头罕见同台!
李飞飞激辩LeCun,黄仁勋:你们都错了
导读】AI革命真实不虚,但通往终局的地图,连绘制它的人都一无所知。近日,Yann LeCun、李飞飞、黄仁勋、Geoffrey Hinton、Bill Dally,以及Yoshua Bengio六位AI领域的顶尖人物,因共获伊丽莎白女王工程奖而齐聚一堂,展开了一场关于人工智能的巅峰对话。
人类群星闪耀之时!
当这6个人聚在一起,坐而论道的时候,你就知道事情并不简单!
这一次访谈非常宝贵,能把这6位AI天团巨佬凑在一起。
本周,英伟达CEO黄仁勋、Meta首席AI科学家Yann LeCun,以及顶尖计算机科学家Yoshua Bengio、Geoffrey Hinton、李飞飞和Bill Dally共同荣获本年度伊丽莎白女王工程奖。
在这次访谈中,大佬们各自分享了自己职业生涯中的顿悟时刻。
这些「啊哈」时刻不仅给他们指明了研究方向,也彻底改变了人类社会科技的前进方向。
并且这次6个人都围绕一个核心问题展开激辩:
我们人类,是真的处于一场真实的AI产业革命之中?还是AI是一个即将破裂的,史上最大的泡沫?
四十年等待,只为一个「顿悟」时刻
主持人说他们是这个星球上最杰出、最有影响力的6个人。
这绝非夸大其词。
这场AI革命从何而来?
答案不是某个天才的灵光一闪,而是一群人的漫长坚守。
思想的火花,在40年前就已点燃。
AI教父Geoffrey Hinton回忆起1984年,他用当时极其简陋的计算机,训练一个微型模型来预测序列中的下一个词。
「我发现它竟然能学到词语的含义!」他说。
这,就是今天所有大语言模型最原始的雏形。
一个在黑暗中被点亮的、穿越了40年时光的想法。
Yann LeCun则坦言,自己年轻时是个「懒惰」的工程师,不想一行行编程去创造智能,而是着迷于「让机器自己学会智能」。
这个看似偷懒的想法,正是机器学习的核心哲学。
但光有想法还不够,革命需要燃料和引擎。
时间来到2006年,当时还是年轻教授的李飞飞发现,所有算法都受困于一个问题:数据太少了。
一个孩子在成长中会看到海量的信息,而我们的机器却在数据荒中挨饿。
于是,她和团队做了一件在当时看来无比疯狂的事——耗时三年,手动标注了1500万张图片,创建了名为ImageNet的数据集。
这桶「燃料」被浇灌到AI领域后,瞬间引燃了整个行业。
与此同时,在英伟达,黄仁勋和他的同事们也在打造一台越来越强大的「引擎」。
他们最初为游戏设计的GPU,意外地被发现是进行深度学习计算的完美工具。
2010年,一个历史性的早餐上,斯坦福的吴恩达教授告诉英伟达的科学家Bill Dally,他用了16000个CPU在网上识别猫。
Bill Dally和同事回去后,用仅仅48个GPU就复现了实验。
那一刻,他顿悟了:「我们应该为深度学习制造专门的GPU。」
这些故事串在一起,就是一部AI诞生的「前传」:
思想的火花在AI寒冬中,早已点燃,只待数据的燃料和算力的引擎到位,一场革命便无可阻挡。
六人顿悟时刻(精华版)
Yoshua Bengio
- 读到Hinton早期论文。直觉:或许有如物理定律般的简单原则解释智能、建造智能机。
- ChatGPT出现两年半后警觉:机器理解语言、有目标、却难控。若更聪明或被滥用怎么办?于是转向安全与对策研究。
Bill Dally
- 90年代末「内存墙」顿悟:用「流」连接内核,做更多算术、少访存。为GPU计算奠基。
- 2010年与吴恩达早餐:Google用16000 CPU找「猫」。受其启发,2011年与同事用48 GPU复现。
- 结果惊人:下决心让GPU专用于深度学习,并持续优化。
Geoffrey Hinton
- 1984年做小型语言模型:用反向传播预测下一个词。模型自动学到词义特征及交互。思想与今天的LLM相同,只是很小、样本仅100。
- 阻碍在于算力与数据不足。但当时并不自知。
Jensen Huang(黄仁勋)
- 2010年左右同时收到多伦多、纽约大学、斯坦福的深度学习的早期信号。发现用「框架、结构化表示」开发软件,与芯片设计高度类比,可扩展。
- 顿悟:一旦算法在单卡并行奏效,就能扩到多卡、多机、数据中心。剩下的就是工程推演:数据多大、网络多大、能解什么问题。
Fei-Fei Li(李飞飞)
- 2006–2009年顿悟:难点不只在算法,而在数据。由此构建ImageNet:1500万图、2.2万类,众包标注。大数据驱动机器学习。
- 2018年任Google Cloud AI首席科学家:AI是「文明级技术」,影响所有行业与个体。回斯坦福共创HAI,提出「以人为本的AI」。
Yann LeCun(杨立昆)
- 本科即着迷「训练而非编程」的智能观。1985结识Hinton,从多层网络可训练性切入。
- 与Hinton曾辩论:监督vs无监督/自监督。
- ImageNet的成功一度让全域转向监督。
- 2016–2017再次强调自监督;LLM是典范。下一步是视频等非语言数据,自监督仍是关键挑战。
狂热的当下,我们正身处泡沫之中吗?
好了,历史讲完,回到当下最尖锐的问题:
英伟达市值冲上云霄,全世界都在谈论AI,这一切到底是真实的价值,还是又一个互联网泡沫?
对此,黄仁勋给出了一个堪称绝妙的回答。
在21世纪初的互联网泡沫时期,整个行业铺设了巨量的光纤,但其中绝大多数都是未被点亮的「暗光纤」,需求远远跟不上建设。
而今天,几乎你能找到的每一块GPU,都在被点亮并投入使用。
为什么?因为AI从根本上改变了「价值」的生产方式。
老黄表示,我们正在创造一个全新的行业,一个智能工厂。
过去的软件是「工具」,你买来使用即可。
而AI,第一次,成为了「生产力」本身。它不是内容,而是实时生成的智能。
你不能提前生产好智能,再把它存起来。
每一次你问ChatGPT问题,它都在为你「生产」答案。
这个生产过程,需要巨大的计算能力,就像工厂需要机器和电力一样。
因此,我们需要价值数千亿美元的「AI工厂」(数据中心),来服务于一个建立在智能之上的、价值数万亿美元的全新产业。
我们正处在构建这个产业的初期,怎么会是泡沫呢?
换句话说,这是继农业革命、工业革命之后,一场全新的「智能革命」的基建时期。
我们正处在为新世界铺设水电煤气管道的阶段,而需求,才刚刚开始。
不过李飞飞和LeCun当场还进行了一场「辩论」。
李飞飞强调AI仍然是一个非常年轻的领域,除了语言之外,还存在广阔的「空间智能」等前沿领域有待开拓。
Yann LeCun则指出,泡沫在于「认为当前的大语言模型范式最终能够发展到人类水平的智能」这一想法,他个人并不相信,并认为需要根本性的突破。
终极的未来,「人类级AI」还有多远?
这是整场对话最精彩的高潮。
当被问及「我们离那种与人类相当的智能还有多远」时,桌边的六位大脑,给出了六幅截然不同的未来图景。
「务实派」黄仁勋
这个问题不重要,而且它已经发生了。
已有足够「通用智能」转化为大量有用应用。
是否「人类级」并不重要;关键是持续应用解决重大问题。
他认为,我们已经拥有了足够强大的AI,可以解决大量现实问题。
纠结于一个学术上的「奇点」定义没有意义。
技术正在以惊人的速度进步,我们应该专注于应用它。
「协作派」Bill Dally
这压根就是个错误的问题。
他说,我们的目标从来不是创造AI来取代人类,而是「增强」人类。
就像飞机一样,它会飞,但它和鸟的飞行方式完全不同。
AI将是我们强大的助手,帮助我们处理我们不擅长的事(比如记住22000种物体),让我们能专注于创造、共情等独属于人类的领域。
AI 擅长分类、解难题;人类擅长创造、共情、社交。
是否「人类级」并不确定,但助力巨大。
「开拓派」李飞飞:
她认为我们甚至还没搞懂「智能」的全貌。
机器将在部分维度「超人」(如识别 2.2 万物体、翻译百种语言),但不会与人类智能同形。
像飞机会飞,但不像鸟。
人类智能仍是核心。
她提醒我们,人类的智能远不止语言。
我们在空间感知、与物理世界互动方面的能力,是今天最强的AI也望尘莫及的。
她说,AI作为一门学科才70多年,而物理学已经400多年了。
「还有广阔的前沿等待我们去征服。」
「怀疑派」Yann LeCun
靠现在这条路,走不到终点。
不会是单一时刻。不同能力会渐进扩展。未来 5–10 年或出新范式,整体会比想象更久。
他直言不讳地指出,当前的大语言模型范式,无法通向真正的人类级智能。
我们需要一些「根本性的突破」,才能造出哪怕和猫一样聪明的机器人。
「我们仍然缺失了某些非常重要的东西。」
「预言派」Geoffrey Hinton
他给出了一个具体的时间——20年。
这位AI教父用一个非常具体的标准定义了问题:「多久以后,你和一台机器辩论,它永远都能赢你?」
他的答案是:「我相当肯定,在20年内我们会做到。」
「敬畏派」Yoshua Bengio
充满不确定性,但警惕指数级加速。
他认为最终AI可做「几乎人类能做的一切」。
但时间高度不确定,人类应做好预案。
他认为未来难以预测,但有一个「游戏规则改变者」——当AI开始具备自己研究AI的能力时。
那时,AI将成为自己的「加速器」,自我迭代的速度可能会远超我们的想象。
AI时代杰出的6个人
虽然这些大佬都无人不知,无人不晓,但还是简单介绍一下他们。
这六位大佬覆盖了从硬件、体系结构、并行计算、基础理论与算法到大规模视觉数据等多个维度,他们的贡献协同推动了今日AI与工程系统的巨大飞跃。
Jensen Huang,黄仁勋,英伟达联合创始人兼首席执行官。从3D图形时代起便领导英伟达,并推动了人工智能计算平台的转型。
Yann LeCun,杨立昆,法国计算机科学家,现任Meta首席AI科学家,长期兼任纽约大学(NYU)教授。他是现代深度学习史上的重要人物之一。
Geoffrey Hinton,杰弗里·辛顿,被誉为「深度学习之父/人工智能教父」之一。老爷子可以说是现在AI领域第一人,任何介绍都多余。
Yoshua Bengio,约书亚·本吉奥,加拿大计算机科学家、蒙特利尔大学教授、蒙特利尔学习算法研究所(MILA)科学主任,被称作深度学习的关键人物之一。
Fei-Fei Li,李飞飞,在计算机视觉、大规模数据集建设和以人为本的AI方面影响深远。主导创建了著名的大规模视觉数据库ImageNet。
Bill Dally,比尔·达利,美国计算机科学家、教育家,曾任麻省理工学院教授、斯坦福大学系主任,后加入英伟达担任首席科学家和高级副总裁。他在高性能并行计算机体系结构、互联网络、路由/同步/通信机制等方面做出基础性研究。
参考资料:
https://www.youtube.com/watch?v=0zXSrsKlm5A
....
#StreamDiffusionV2
UC伯克利联合MIT、斯坦福提出,14B大模型实时跑出58帧,重新定义交互式视频生成
- 论文: StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation
- 作者: Tianrui Feng, Zhi Li, Shuo Yang, Haocheng Xi, Muyang Li, Xiuyu Li, Lvmin Zhang, Keting Yang, Kelly Peng, Song Han, Maneesh Agrawala, Kurt Keutzer, Akio Kodaira, Chenfeng Xu
- 机构: 加利福尼亚大学伯克利分校、麻省理工学院、斯坦福大学、First Intelligence、得克萨斯大学奥斯汀分校
- 论文地址: https://arxiv.org/abs/2511.07399
- 项目主页: https://streamdiffusionv2.github.io/
- 代码仓库: https://github.com/chenfengxu714/StreamDiffusionV2
最近,生成式AI正在重塑我们创造、设计和分享内容的方式,尤其是在直播行业。从风格迁移到虚拟主播,AI的应用越来越广泛。然而,现有的技术在实时视频生成方面,总是面临着一些棘手的挑战。今天,我们要聊的这篇论文,就是为了解决这些问题而来。来自加利福尼亚大学伯克利分校、MIT和斯坦福等机构的研究者们,共同推出了 StreamDiffusionV2,一个无需训练的流式推理系统,它让高质量、可交互的实时视频生成变得触手可及。
这个系统有多厉害呢?简单来说,它能在不使用TensorRT或量化等加速技术的情况下,让一个 140亿参数的大模型在四卡H100上跑到58.28 FPS,而一个13亿参数的模型更是能达到 64.52 FPS 的高帧率,并且首帧出图时间(TTFF)低于0.5秒。这对于需要即时响应的直播场景来说,无疑是一个巨大的突破。
现有技术的瓶颈
在深入了解StreamDiffusionV2之前,我们先来看看为什么现有的技术难以满足实时视频直播的需求。
当前的AI视频生成方案主要分为两类:基于图像扩散模型的方法和基于视频扩散模型的方法。
- 图像扩散模型:像StreamDiffusion一代等方法,虽然响应快、易于集成,但它们是逐帧生成图像,天生缺乏对时间维度的建模,导致生成的视频在时间上缺乏连续性,容易出现闪烁和抖动。
- 视频扩散模型:这类模型通过显式地建模时间依赖关系,大大提升了视频的时间一致性。然而,它们大多是为离线生成而设计的,追求的是吞吐量最大化,通常会一次性处理一个包含数十甚至上百帧的视频块。
这种“批处理”模式在直播场景下会带来几个致命问题:
- 无法满足实时服务等级目标(SLO):直播要求极低的首帧延迟(TTFF)和严格的每帧截止时间(DDL)。而一次性处理大量帧会导致TTFF变得非常长。论文中给出了一个估算TTFF的公式:
其中 是批大小, 是每批的帧数, 是模型参数量。可以看到,过大的 会直接导致TTFF飙升。例如,使用1.3B模型处理81帧的视频块,理论TTFF长达5.31秒,这在直播中是无法接受的。 - 长时程漂移:现有模型通常在固定长度的视频上训练和优化,其KV缓存、Sink Token等机制都是为有界的时间上下文设计的。在长达数小时的直播中,这些静态设置会逐渐累积误差,导致视觉内容“漂移”,一致性下降。
- 高速动态下的质量退化:现有模型大多在慢动作视频上训练,对快速运动的适应性很差。为了保证平滑,它们往往会过度平滑运动细节,导致在快速运镜或动作场景中出现模糊、重影等问题。
- GPU扩展性差:在实时流的严格延迟约束下,传统的并行策略(如序列并行)会因为通信开销过大而效果不佳,尤其是在处理短视频块时,计算负载被内存带宽限制,无法有效利用多GPU的算力。
上图展示了不同方法在生成视频时的效果对比,可以看出先前方法在长时间生成后出现的风格漂移和质量下降问题。
StreamDiffusionV2:为实时而生的系统设计
为了攻克上述难题,StreamDiffusionV2从系统层面进行了一系列协同优化,核心可以分为两大块:实时调度与质量控制 和 可扩展的流水线编排。
实时调度与质量控制
这部分是保证单GPU上实现低延迟和高质量的关键。
- SLO感知的批处理调度器 (SLO-aware Batching Scheduler) :不同于一次处理一个大视频块,StreamDiffusionV2将输入重构为 的形式,其中 保持一个很小的值(例如几帧),以保证每一步的延迟都足够低,满足DDL。同时,它会根据硬件的瞬时负载动态调整流批次大小 ,以最大化GPU利用率。当系统从内存带宽限制区过渡到计算限制区时,调度器会自适应地收敛到一个最优的批次大小 ,实现吞吐效率最大化。
- 自适应Sink Token与RoPE刷新 (Adaptive Sink and RoPE Refresh) :为了解决长时程漂移问题,系统会动态更新Sink Token。它会计算新视频块与当前Sink Token的相似度,并替换掉相似度最低的Token,从而让风格“锚点”与时俱进。同时,为了防止旋转位置编码(RoPE)因长时间累积导致的偏移,系统会周期性地重置RoPE的相位。
- 运动感知的噪声控制器 (Motion-aware Noise Controller) :这是保证高速运动场景下视频质量的核心。系统首先通过计算连续帧之间的差异来估计运动强度 :
然后,对一个短时间窗口内的最大运动强度进行归一化,得到 。这个值会动态地调节去噪强度。运动越快( 越大),去噪过程就越“保守”,以保留运动结构;运动越慢( 越小),去噪就越“激进”,以恢复更多细节。最终的噪声率 通过指数移动平均(EMA)进行平滑,以保证自然的过渡:
上图直观地展示了运动估计值(蓝色曲线)和对应的动态噪声率(红色曲线)之间的关系。
可扩展的流水线编排
这部分是为了在多GPU环境下实现近乎线性的性能扩展。
- 多流水线编排扩展 (Multi-Pipeline Orchestration Scaling) :研究者们设计了一种新颖的流水线并行方案。他们将DiT(Diffusion Transformer)模型的不同层块(Blocks)划分到不同的GPU上。每个GPU处理完自己的微步(micro-step)后,通过环形结构将结果传递给下一个阶段。这种方式允许多个阶段并发执行。
- 流水线并行与流批处理结合 (Pipeline-parallel Stream-Batch) :单纯的流水线并行还不够。为了让每个GPU都“忙”起来,该系统将前面提到的流批处理策略(Stream-Batch)应用到了流水线的每一个阶段。这意味着每个GPU内部也在处理一批流数据。这种设计保证了在严格的延迟约束下,所有设备都能被充分利用,从而在不牺牲延迟的前提下,实现了总帧率的显著提升。
上图对比了CausVid和StreamDiffusionV2在处理视频时的效果,可以看出StreamDiffusionV2在保持风格和运动一致性方面表现更优。
实验效果:又快又好
论文通过大量的实验验证了StreamDiffusionV2的强大性能。
性能测试
- 首帧时间 (TTFF) :在30 FPS的视频流中,StreamDiffusionV2的TTFF仅为 0.37秒,相比之下,CausVid和原始的Wan2.1-1.3B模型分别高出18倍和280倍,展示了其在交互式实时生成方面的巨大优势。
- 吞吐量 (FPS) :在4卡H100上,对于1.3B模型,480p分辨率下可达42.26 FPS;对于更大的14B模型,512x512分辨率下依然能达到 58.28 FPS。即使在消费级的4090 GPU上,也能在480p下实现近16 FPS的帧率。这些数据表明,该系统具有极高的效率和良好的扩展性。
质量评估
在质量方面,通过CLIP Score和Warp Error等指标的比较,StreamDiffusionV2也表现出色。相比于基于图像的方法,它在时间一致性上优势明显。相比于其他视频方法(如CausVid),它在保持同等语义相似度的同时,获得了更低的像素级Warp Error,意味着视频更稳定、更连贯。
消融实验进一步证明了各个模块的有效性。例如,运动感知的噪声控制器 显著降低了Warp Error,而 自适应Sink Token 则对维持风格一致性至关重要。
总结
总而言之,StreamDiffusionV2通过一系列精巧的系统级设计,成功地将强大的视频扩散模型适配到了对延迟和稳定性要求极高的直播场景中,填补了离线视频生成与实时流媒体应用之间的鸿沟。
这项工作不仅为个人创作者提供了更强大的工具,也为企业级平台的规模化部署铺平了道路,感兴趣的朋友不妨跑跑代码一试(当然对硬件的要求依然不低)。
....
#World Labs这样实现「空间智能」
遵循世界的 3D 特性,很多事就会变得自然而然。
说到斯坦福大学教授李飞飞(Fei-Fei Li),她提倡的「空间智能」最近正在引领 AI 发展方向。
李飞飞已经在人工智能历史上赢得了一席之地,她多年来一直致力于创建 ImageNet 数据集和竞赛,在深度学习革命中发挥了重要作用。
2012 年,一个名为 AlexNet 的神经网络引爆了 AI 研究界,它的表现远远超过所有其他类型的模型,并赢得了当年的 ImageNet 竞赛。自那时起,神经网络开始腾飞,其动力来自互联网上可用的大量免费训练数据和提供空前计算能力的 GPU。
自 ImageNet 以来的 13 年里,计算机视觉研究者们掌握了物体识别,并转向图像和视频生成。李飞飞与他人共同创办了斯坦福大学以人为本人工智能研究所 (HAI),并继续突破计算机视觉的界限。
就在今年,她创办了一家初创公司 World Labs,旨在生成用户可以探索的 3D 场景。World Labs 致力于为人工智能提供「空间智能」,即生成、推理和与三维世界互动的能力。
李飞飞昨天在人工智能顶会 NeurIPS 上发表了主题演讲,讲述了她对机器视觉的愿景。她表示,非常荣幸第一次在 NeurIPS 上演讲,50 分钟讲 180 页 PPT 是个很有趣的经历。

在演讲之前,李飞飞接受了 IEEE Spectrum 的独家采访,让我们看看她对空间智能有哪些新的见解:
Eliza Strickland:你为什么把你的演讲命名为「提升视觉智能的阶梯(Ascending the Ladder of Visual Intelligence)?」
李飞飞:智能具有不同层次的复杂性和精细度。在这次演讲中我想传达的是,在过去几十年,尤其是深度学习发生变革的十多年里,我们在视觉智能方面学会做的事情简直令人叹为观止。我们正在变得越来越擅长使用这项技术。同时,我也受到了 Judea Pearl 因果阶梯理论的启发,这一理论出自他 2020 年出版的书《The Book of Why》。
演讲还有一个副标题,即「从看到做到(From Seeing to Doing)」。这是人们没有足够重视的一点:从看到与交互和做事紧密相关,无论是对于动物还是对于 AI 智能体来说都是如此。这与语言背道而驰。语言从根本上来说是一种用来传达思想的交流工具。在我看来,它们是非常互补但同样深刻的智能模式。
Eliza Strickland:你的意思是我们对某些视觉刺激有本能的反应吗?
李飞飞:我不仅仅是在谈论本能。如果你观察感知的演变和动物智能的演变,你会发现它们是深深交织在一起的。每当我们能够从环境中获取更多信息时,进化的力量就会推动事物能力和智能向前发展。如果你不能感知环境,你与世界的关系就非常被动;无论你是捕食者还是被捕食者,都是一个非常被动的行为。
但是一旦你能够通过感知从环境中获取线索,进化的压迫感就会增加,这推动了智能的发展。
Eliza Strickland:你认为这就是我们创造越来越深层次的机器智能的方式吗?通过让机器更多地感知环境?
李飞飞:我不确定「深度」这个词是不是我该用的形容词。我认为我们正在创造更多的能力。我认为它将变得更加复杂,更有能力。解决空间智能问题确实是朝着全面智能(full-scale intelligence)迈出的一个基本且关键的步骤,这是绝对正确的。
Eliza Strickland:我看到过 World Labs 的演示。你为什么想研究空间智能并构建这些 3D 世界。
李飞飞:我认为空间智能是视觉智能的发展方向。如果我们真的想要解决视觉问题,并且将其与行动联系起来,有一个非常简单、显而易见的事实:世界是三维的。我们不是生活在一个平面世界中。我们的物理智能体,无论是机器人还是设备,都将生活在三维世界中。即使是虚拟世界也越来越变得三维化。
如果你和艺术家、游戏开发者、设计师、建筑师、医生交谈,即使他们在虚拟世界中工作,很多内容也是三维的。如果你花一点时间认识到这个简单但深刻的事实,毫无疑问,解决 3D 智能的问题是根本性的。
,时长01:12
Eliza Strickland:我很好奇 World Labs 中的场景是如何保持物体永久性并遵守物理定律的。这感觉像是一个令人兴奋的进步,因为像 Sora 这样的视频生成工具仍然在处理这些事情。
李飞飞:一旦你遵循世界的 3D 特性,很多事情就会变得自然而然。例如,在我们发布的一段视频中,有一个关于篮球的视频。由于场景是 3D 的,篮球会根据重力或其他物理规则正确落地并与环境交互。如果场景只是由 2D 像素生成的,篮球不会有任何物理反应,无法表现出落地或运动的效果。
Eliza Strickland:就像 Sora,球可能会去某个地方,然后消失。在推动这项技术发展的过程中,你面临的最大技术挑战是什么?
李飞飞:没有人解决了这个问题,对吧?这非常非常困难。在一个 demo 中,我们取了一幅梵高的画作,并围绕它生成了整个场景,风格一致:艺术风格、光线,甚至是那个街区会有什么样的建筑。如果你转过身来看到的是摩天大楼,那将完全不可信,对吧?而且它必须是三维的。你必须能够进入其中。所以它不仅仅是像素。
Eliza Strickland:你能说说你用来训练它的数据吗?
李飞飞:非常多。
Eliza Strickland:在算力方面是否存在很多挑战?
李飞飞:这需要大量的算力。是公共部门无法承担的那种计算能力。这也是我需要通过休学术假,以私营部门的方式来做这件事的部分原因。同时,这也是我一直倡导公共部门获得计算资源访问权的部分原因,我自己的经历强调了在足够资源支持下进行创新的重要性。
Eliza Strickland:赋予公共部门权力是一件好事,因为公共部门通常更愿意通过获取知识,为人类谋福利。
李飞飞:知识发现需要资源支持,对吧?在伽利略时代,最好的望远镜是让天文学家观察新天体的望远镜。Hooke 意识到放大镜可以变成显微镜,并发现了细胞。
每当有新的技术工具出现时,它都会帮助人们寻求知识。现在,在人工智能时代,技术工具涉及计算和数据。对于公共部门,我们必须认识到这一点。
Eliza Strickland:你希望联邦政府提供哪些资源?
李飞飞:过去五年来,斯坦福大学 HAI 一直在做这项工作。我们一直在与国会、参议院、白宫、行业和其他大学合作,创建国家人工智能研究资源中心 (NAIRR)。
Eliza Strickland:假设我们能让人工智能系统真正理解 3D 世界,这会给我们带来什么?
李飞飞:它将为人们释放大量创造力和生产力。我希望以更高效的方式设计我的房子。我知道许多医疗用途都涉及理解一个非常特殊的 3D 世界,即人体。我们总是谈论未来人类将创造机器人来帮助我们,但机器人在 3D 世界中导航,它们需要空间智能作为大脑的一部分。
我们还谈论虚拟世界,它将允许人们参观很多地方、学习概念或娱乐。这些都要使用 3D 技术,尤其是混合现实技术,我们称之为 AR [增强现实]。我很想戴着一副眼镜穿过国家公园,它能让我了解树木、道路、云朵的信息。我也想借助空间智能学习不同的技能。
Eliza Strickland:会是什么样的技能?
李飞飞:我举个蹩脚的例子,如果我在高速公路上爆胎了,我该怎么办?现在,我打开一个「如何换轮胎」的视频。但如果我能戴上眼镜,看看我的车发生了什么,然后得到指导,那就太酷了。但这是一个蹩脚的例子。你可以考虑烹饪,你可以考虑雕刻 —— 有趣的事情。
Eliza Strickland:你认为(这个方向)在我们这一代能走多远?
李飞飞:我认为这会是我们有生之年的事,因为技术进步的速度非常快。你已经看到了过去 10 年带来的变化。这肯定预示着接下来会发生什么。
参考内容:
https://spectrum.ieee.org/fei-fei-li-world-labs
https://x.com/drfeifei/status/1867286498086990325
....
#扩散模型=流匹配?
谷歌DeepMind博客深度详解这种惊人的等价性
扩散模型和流匹配实际上是同一个概念的两种不同表达方式吗?
从表面上看,这两种方法似乎各有侧重:扩散模型专注于通过迭代的方式逐步去除噪声,将数据还原成清晰的样本。
而流匹配则侧重于构建可逆变换系统,目标是学习如何将简单的基础分布精确地映射到真实数据分布。
因为流匹配的公式很简单,并且生成样本的路径很直接,最近越来越受研究者们的欢迎,于是很多人都在问:
「到底是扩散模型好呢?还是流匹配好?」
现在,这个困扰已得到解答。Google DeepMind 的研究团队发现,原来扩散模型和流匹配就像一枚硬币的两面,本质上是等价的 (尤其是在流匹配采用高斯分布作为基础分布时),只是不同的模型设定会导致不同的网络输出和采样方案。
这无疑是个好消息,意味着这两种框架下的方法可以灵活搭配,发挥组合技了。比如在训练完一个流匹配模型后,不必再局限于传统的确定性采样方法,完全可以引入随机采样策略。
链接:https://diffusionflow.github.io
在这篇博客的开头,作者们写道:「我们的目标是帮助大家能够自如地交替使用这两种方法,同时在调整算法时拥有真正的自由度 —— 方法的名称并不重要,重要的是理解其本质。」
扩散模型与流匹配
扩散模型主要分为前向过程和反向两个阶段。
前向过程用公式表示为:

其中 z_t 是在时间点 t 时的带噪声数据,x 代表原始数据,ε 代表随机噪声,a_t 和 σ_t 是控制噪声添加程度的参数。
若满足

,称为「方差保持」,意味着在每个时间步骤中,噪声的方差保持不变或接近不变。
DDIM 采样器的反向过程用公式表示为:

其中,

而在流匹配中,前向过程视为数据 x 和噪声项 ε 之间的线性插值:

采样
人们普遍认为,这两个框架在生成样本的方式上有所不同:流匹配采样是确定性的,具有直线路径,而扩散模型采样是随机性的,具有曲线路径。下面文章将澄清这一误解:首先关注更简单的确定性采样,稍后再讨论随机情况。
假设你想使用训练好的降噪器模型将随机噪声转换为数据点。可以先回想一下 DDIM 的更新

,有趣的是,重新排列项可以用以下公式来表达,这里涉及几组网络输出和重新参数化:


我们再回到公式(4)中的流匹配更新,和上述方程看起来很相似。如果在最后一行将网络输出设为

,并令

,可以得到

、

这样我们就恢复了流匹配更新!更准确地说,流匹配更新可以被视为重参数化采样常微分方程(ODE)的欧拉积分:

对于 DDIM 采样器而言,普遍存在以下结论:DDIM 采样器对于应用于噪声调度 α_t、σ_t 的线性缩放是不变的,因为缩放不会影响

和

,这对于其他采样器来说并不成立,例如概率流 ODE 的欧拉采样器。
为了验证上述结论,本文展示了使用几种不同的噪声调度得到的结果,每种调度都遵循流匹配调度,并具有不同的缩放因子。如下图,随意调整滑块,在最左侧,缩放因子是 1,这正是流匹配调度,而在最右侧,缩放因子是

。可以观察到 DDIM(以及流匹配采样器)总是给出相同的最终数据样本,无论调度的缩放如何。对于概率流 ODE 的欧拉采样器,缩放确实会产生真正的差异:可以看到路径和最终样本都发生了变化。

看到这里,需要思考一下。人们常说流匹配会产生直线路径,但在上图中,其采样轨迹看起来是弯曲的。
在下面的交互式图表中,我们可以通过滑块更改右侧数据分布的方差。

不过,在像图像这样的真实数据集上找到这样的直线路径要复杂得多。但结论仍然是相同的:最优的积分方法取决于数据分布。
我们可以从确定性采样中得到的两个重要结论:
- 采样器的等价性:DDIM 与流匹配采样器等价,并且对噪声调度的线性缩放不变。
- 对直线性的误解:流匹配调度仅在模型预测单个点时才是直线。
训练
对于扩散模型,学习模型是通过最小化加权均方误差(MSE)损失来完成的:

流匹配也符合上述训练目标:

网络应该输出什么
下面总结了文献中提出的几个网络输出,包括扩散模型使用的几个版本和流匹配使用的其中一个版本。

然而,在实践中,模型的输出可能会产生非常大的影响。例如,基于相似的原因,

在低噪声水平下是有问题的,因为

没有信息量,并且错误在

中被放大了。
因此,一种启发式方法是选择一个网络输出,它是

、

的组合,这适用于

和流匹配矢量场

如何选择加权函数
加权函数是损失函数中最重要的部分,它平衡了图像、视频和音频等数据中高频和低频分量的重要性。这一点至关重要,因为这些信号中的某些高频分量是人类无法感知的。如果通过加权情况来查看损失函数,可以得出以下结果:

即公式 (7) 中的条件流匹配目标与扩散模型中常用的设置相同。下面绘制了文献中常用的几个加权函数。

流匹配加权(也称为 v-MSE + 余弦调度加权)会随着 λ 的增加而呈指数下降。该团队在实验中发现了另一个有趣的联系:Stable Diffusion 3 加权 [9](这是流匹配的一种重新加权版本)与扩散模型中流行的 EDM 加权 [10] 非常相似。
如何选择训练噪声调度?
最后讨论训练噪声调度,因为在以下意义上,它对训练的重要程度最低:
1. 训练损失不会随训练噪声调度变化。具体来说,损失函数可以重写为

它只与端点(λ_max, λ_min)有关,但与中间的调度 λ_t 无关。在实践中,应该选择合适的 λ_max, λ_min,使得两端分别足够接近干净数据和高斯噪声。λ_t 可能仍然会影响训练损失的蒙特卡洛估计量的方差。一些文献中提出了一些启发式方法来在训练过程中自动调整噪声调度。这篇博文有一个很好的总结:https://sander.ai/2024/06/14/noise-schedules.html#adaptive
2. 类似于采样噪声调度,训练噪声调度不会随线性扩展(linear scaling)而变化,因为人们可以轻松地将线性扩展应用于 z_t,并在网络输入处进行 unscaling 以获得等价性。噪声调度的关键定义属性是对数信噪比 λ_t。
3. 人们可以根据不同的启发式方法为训练和采样选择完全不同的噪声调度:对于训练,最好有一个噪声调度来最小化蒙特卡洛估计量的方差;而对于采样,噪声调度与 ODE / SDE 采样轨迹的离散化误差和模型曲率更相关。
总结
下面给出了训练扩散模型 / 流匹配的一些要点:
- 加权中的等价性:加权函数对于训练很重要,它平衡了感知数据不同频率分量的重要性。流匹配加权与常用的扩散训练加权方法相同。
- 训练噪声调度的不重要性:噪声调度对训练目标的重要性要小得多,但会影响训练效率。
- 网络输出的差异:流匹配提出的网络输出是新的,它很好地平衡了
-

更深入地理解采样器
这一节将更详细地介绍各种不同的采样器。
回流算子
流匹配中的回流(Reflow)运算是使用直线将噪声与数据点连接起来。通过基于噪声运行一个确定性的采样器,可以得到这些 (数据,噪声) 对。然后,可以训练模型,使之可以根据给定噪声直接预测数据,而无需采样。在扩散技术的相关文献中,这同样的方法是最早的蒸馏技术之一。
确定性采样器与随机采样器
此前已经讨论了扩散模型或流匹配的确定性采样器。另一种方法是使用随机采样器,例如 DDPM 采样器。
执行一个从 λ_t 到 λ_t+Δλ 的 DDPM 采样步骤完全等价于执行一个到 λ_t+2Δλ 的 DDIM 采样步骤,然后通过执行前向扩散重新噪声化到 λ_t+Δλ。也就是说,通过前向扩散重新噪声化恰好逆转了 DDIM 所取得的一半进展。为了理解这一点,让我们看一个 2D 示例。从相同的高斯分布混合开始,我们可以执行一个小的 DDIM 采样步骤,左图带有更新反转的符号,右图则是一个小的前向扩散步骤:

对于单个样本而言,这些更新的行为完全不同:反转的 DDIM 更新始终将每个样本推离分布模式,而扩散更新完全是随机的。但是,在汇总所有样本时,更新后得到的分布是相同的。因此,如果执行 DDIM 采样步骤(不反转符号),然后执行前向扩散步骤,则整体分布与更新之前的分布保持不变。
通过重新加噪来撤消的 DDIM 步骤的比例是一个超参数,并且可以自由选择(即不必一定是 DDIM 步骤的一半)。这个超参数在《Elucidating the design space of diffusion-based generative models》中被称为 level of churn,可译为「搅动水平」。有趣的是,将搅动添加到采样器的效果是:减少采样过程早期做出的模型预测对最终样本的影响,并增加对后续预测的权重。如下图所示:

在这里,我们使用余弦噪声调度以及

预测将不同采样器都运行了 100 个采样步骤。忽略非线性相互作用,采样器产生的最终样本可以写成采样过程中做出的预测和高斯噪声 e 的加权和:

这些预测的权重 h_t 显示在 y 轴上,而 x 轴上显示不同的扩散时间 t。DDIM 会在此设置下对

预测赋予相等的权重,而 DDPM 则更注重在采样结束时所做的预测。另请参阅《Dpm-solver++: Fast solver for guided sampling of diffusion probabilistic models》以了解

中这些权重的解析表达式。
SDE 和 ODE 视角
前面,我们已经观察到扩散模型和流匹配算法之间的等价性。下面将使用 ODE 和 SDE 来形式化地描述正向过程和采样的等价性,以实现理论上的完整性。
扩散模型
扩散模型的前向过程涉及到随时间推移逐渐破坏一个数据,而该过程可使用以下随机微分方程(SDE)来描述:

其中 dz 是无穷小的高斯(即布朗运动)。f_t 和 g_t 决定了噪声调度。其生成过程由前向过程的逆过程给出,其公式为:

其中 ∇log p_t 是前向过程的分数。
请注意,这里引入了一个附加参数 η_t,它控制的是推理时的随机性。这与之前介绍的搅动(churn)参数有关。当离散化后向过程时,如果 η_t=0,则是恢复 DDIM;如果 η_t=1,则是恢复 DDPM。
流匹配
流匹配中 x 和 ε 之间的插值可以用以下常微分方程(ODE)描述:

假设该插值为

其生成过程只是在时间上反转这个 ODE,并将 u_t 替换为其对 z_t 的条件期望。这是随机插值(stochastic interpolants)的一个特例 —— 在这种情况下,它可以泛化成 SDE:

其中 ε_t 控制着推理时的随机性。
两个框架的等价性
这两个框架都分别由三个超参数定义:扩散的三个参数是 f_t、g_t、η_t,而流匹配的三个参数是 α_t、σ_t、ε_t。通过从一组超参数推导得到另一组超参数,可以显示这两组超参数的等价性。从扩散到流匹配:

从流匹配到扩散:

总之,除了训练考虑和采样器选择之外,扩散和高斯流匹配没有根本区别。
结语
读到这里,想必你已经理解了扩散模型和高斯流匹配的等价性。不过,文中重点介绍的是流匹配为该领域带来的两个新模型规范:
- 网络输出:流匹配提出了一种网络输出的向量场参数化方案,并且其不同于扩散文献中使用的方案。当使用高阶采样器时,网络输出可能会有所不同。它也可能影响训练动态。
- 采样噪声调度:流匹配利用了简单的采样噪声调度 α_t = 1-t 和 σ_t = t,并且更新规则与 DDIM 相同。
该团队最后表示:「如果能通过实证方式研究这两个模型规范在不同的真实应用中的重要性,那一定会很有趣。我们将此留给了未来的工作。」
....
#Insight-V
多智能体架构Insight-V来了!突破长链视觉推理瓶颈
本文的主要作者来自南洋理工大学 S-Lab、腾讯公司和清华大学智能视觉实验室。本文的共同第一作者为南洋理工大学博士生董宇昊和清华大学自动化系博士生刘祖炎,主要研究方向为多模态模型。本文的通讯作者为南洋理工大学助理教授刘子纬和腾讯高级研究员饶永铭。
大语言模型(LLMs)通过更多的推理展现出了更强的能力和可靠性,从思维链提示发展到了 OpenAI-o1 这样具有较强推理能力的模型。尽管人们为改进语言模型的推理做出了种种努力,但在多模态视觉语言任务中,高质量的长链推理数据以及优化的训练流程仍未得到充分的探索。
为了解决上述问题,来自南洋理工大学、腾讯、清华大学的研究者们提出一种能够进行长链视觉推理的多模态模型 Insight-V。Insight-V 提供了 1)针对复杂的多模态任务,可扩展地生成冗长且可靠的推理数据;2)建立有效的训练流程,以增强多模态语言模型的推理能力。
Insight-V 的核心创新点包括:1)一个用于生成长链、高质量推理数据的可扩展的数据生成流程;2)一个将视觉推理任务分解为推理和总结的多智能体系统;3)一个用于增强视觉推理能力的两阶段训练流程。这些设计赋予了 Insight-V 较强的视觉推理能力。
论文:https://arxiv.org/abs/2411.14432
代码:https://github.com/dongyh20/Insight-V
模型:https://huggingface.co/THUdyh/Insight-V-Reason
1. 介绍
现有的研究通过长链推理来提升语言模型(LLMs)的推理能力,已经取得了显著进展,这在很大程度上得益于结构化、高质量数据的可获取性以及成熟的训练流程。相比之下,多模态语言模型(MLLMs)进行长链视觉推理仍然是一项重大挑战,主要原因是缺乏大规模、高质量的数据集以及高效有效的训练策略。与纯文本数据相比,视觉推理数据不仅收集成本更高,而且由于缺乏有效的数据生成流程,还需要大量人力来进行详细标注和验证。此外,当前的多模态语言模型无法有效利用视觉线索进行精确的视觉推理,需要一种有效的训练程序,使多模态语言模型在保持清晰视觉感知的同时能够进行详细推理。

图 1:Insight-V 方法展示。
为了解决以上挑战,本文提出了一个视觉推理的多模态系统 Insight-V,能够实现结构化的长链视觉推理。如图 1 所示,Insight-V 由两个智能体组成,一个专门负责推理,另一个负责总结,这使得它在各类视觉推理基准测试中的性能有了显著提升。
Insight-V 的主要贡献包括:
- 一个用于生成长链、高质量推理数据的可扩展的数据生成流程。通过利用已有的模型构建数据生成流程,从而提供丰富的,可扩展的视觉推理训练数据。
- 一个将视觉推理任务分解为推理和总结的多智能体系统。通过将视觉任务分解为推理和总结,并利用不同的模型来分别解决不同的任务,来提升视觉推理能力。
- 一个用于增强视觉推理能力的两阶段训练流程,从而使 Insight-V 能够在视觉推理评测集上取得优异的性能。
我们提供了 Insight-V 的模型权重,在视觉推理任务上表现出色,在 7B 规模下取得了综合最好的结果,在部分数据集超过最先进的综合模型和商业模型,为多模态视觉推理的发展提供了一个值得探索的方向。
2. 方法概览
结构化推理数据构建

图 2:结构化数据构建。
现有的研究已经探索了将推理能力融入多模态大型语言模型(MLLMs)中。然而,训练 MLLMs 具备强大的推理技能仍然是一个相当大的挑战,尤其是由于数据方面的限制。为了解决这一问题,我们介绍了提出的数据生成流程,该流程旨在通过渐进式生成过程和多粒度评估来生成高质量的长链推理数据。如图 2 所示,这种可扩展的方法使我们能够生成高质量的数据,从而有效地提升模型的推理能力。
渐进式长链推理数据生成。我们通过调用能力强大的多模态综合模型,来收集单步推理结果。在每一步推理结束之后,模型根据历史的推理结果来生成针对下一轮推理的动作,如果动作为‘继续推理’,下一步模型继续执行单步推理;如果动作为‘总结’,下一步模型根据历史推理内容总结得出答案。
多粒度评估。我们通过两个步骤来对生成的推理数据进行评估。首先,我们直接使用真实答案来对推理数据进行过滤,过滤掉最终答案错误的数据。之后,我们使用一个推理步骤打分模型,来针对推理数据的质量进行打分,将推理数据分为不同质量的子集,以供最后训练数据集的构建。
模型设计
推理模型。我们提出了一种专门的推理智能体,其旨在针对输入查询生成一个详细的、逐步推进的推理过程。我们通过为每个问题选取得分最高的推理路径来构建推理数据集。在基于该数据集进行训练之后,模型转变为一个具有更强推理能力的推理智能体,使其能够生成更详细、结构化的推理过程。
总结模型。我们开发了一种对推理路径中的不准确之处具有较强适应性的总结模型,该模型可根据需要有选择性地纳入或忽略某些元素。这种方法在最大程度发挥推理模型效能的同时,将引入误导性信息的风险降至最低。我们利用所收集的数据集来完成总结任务,该数据集由两类数据组成:具有最优推理过程的数据和具有有缺陷推理过程的数据。此外,为了保留原有的多模态能力,我们用标准问答数据对数据集进行补充,以维持总结智能体在直接问答方面的性能。

图 3:训练流程。
训练策略
Insight-V 的训练策略简单直接。我们从一个已经训练好的多模态模型出发,利用这个模型的权重来初始化 Insight-V 当中的两个模型。
第一阶段,我们进行多智能体系统的监督微调。对于推理模型,我们利用精心整理的推理数据集来培养逐步推理的能力。对于总结模型,我们按照上文所述构建了一个数据集,并从用于基础模型的数据集中抽取了大约一百万对通用的图文组合,以保留其原有的视觉感知能力。
在第二阶段,我们利用强化学习算法来进一步提升模型的推理能力。我们使用迭代式直接偏好优化(Iterative DPO)。通过进行多轮直接偏好优化(DPO)训练和抽样,这种方法能使该模型在训练期间更好地模拟在线环境,从而进一步提升其性能。
3. 实验结果
视觉推理
我们在 7 个基准测试上开展了评估实验,涵盖了通用推理和特定任务推理评估。当应用于 LLaVA-NeXT 和我们的基线模型时,Insight-V 展现出了显著的有效性和通用性,大幅超越了其他最先进的大型语言模型(MLLMs)。在 MMStar 数据集中,Oryx 取得 61.5% 的平均准确率。在 MME 数据集上取得了 2312 的总分,并且在 MME 的感知和认知子任务上都取得了先进的结果。针对 7 个数据集的平均结果,Insight-V 表现出色,超越了一系列先进的模型。

基础视觉感知
为了更进一步测试 Insight-V 的通用性,我们在一些侧重评估模型基础视觉感知能力的数据集上进行了测试。结果表明,InsightV 在不影响一般视觉感知能力的情况下提升了推理能力,甚至在对感知能力要求更高的基准测试上也实现了性能提升。当 Insight-V 与 LLaVA-NeXT 模型结合时,在 TextVQA,DocVQA,OCRBench,AI2D 等测试集上都有显著的性能提升,当与我们构建的更强的基础模型结合时,在这些 benchmark 上也表现出了更好的结果。

分析实验
多智能体系统的有效性。针对 Insight-V 的设计,我们与其他可能的设计选择进行了对比,包括直接进行微调、多轮对话监督、只训练总结模型。结果显示,多智能体设计的表现优于其他配置,突出了推理和总结分解的关键作用。

数据 Scaling Law 实验。我们研究了数据扩展对于 Insight-V 的影响,尤其是对于推理模型的效果。结果表明,随着推理模型训练数据的扩展,推理模型的性能得到了显著的提升。推理模型得益于数据扩展,能为总结模型提供更有价值的见解。

强化学习算法的效果。我们探究了不同的强化学习策略对于推理模型效果的影响。我们对比了使用 RLAIF 数据进行训练,直接进行 DPO 以及 Insight-V 的多轮迭代式 DPO。结果显示,相比其他方法,迭代直接偏好优化(Iterative DPO)逐步增强了模型的推理能力,从而带来了性能的提升。

4. 案例分析

我们对 Insight-V 与思维链(Chain-of-Thought)以及通过直接监督微调学习进行了定性比较。对于 Insight-V 系统而言,其推理智能体能够提供一个更加连贯且结构化的推理过程,从而引导总结智能体得出正确答案;然而,其他方法在面对复杂推理任务时会显得吃力,无法解决这类具有挑战性的问题。
5. 总结
在本文中,我们介绍了 Insight-V,这是一种新颖的系统,它将用于长链、高质量推理数据的可扩展数据生成系统与有效的多智能体训练系统相结合,以增强多模态语言模型(MLLMs)的推理能力。通过开发该系统,我们提供了一种旨在提高推理性能的可扩展模型训练方法。我们在各种基准测试中的广泛评估证明了我们这种方法的有效性,为赋予多模态语言模型更强的推理能力铺平了道路。
....
#NeurIPS神仙打架
李飞飞180页PPT谈视觉智能,Bengio同OpenAI员工吵架,何恺明谈AI宿命论
我们无法忽视世界是三维的,解决三维智能是根本性的。
李飞飞最新采访来了,继续延伸她在NeurIPS有关视觉智能的话题。
她表示,解决空间智能问题是迈向全面智能化的基础和关键一步。
不过从现场传出的NeurIPS演讲PPT中竟然有写:AI将取代人类?!
这究竟是怎么一回事?!
有网友表示,当她看到这页时,她的表情be like:
有一说一,今年NeurIPS好不热闹,大佬们聚在一起,就是容易制造各种话题(Doge)。
比如,疑似Bengio和OpenAI o1的人吵起来了。
何恺明竟然探讨起了AI宿命论???
来来来,来看看一个吃瓜汇总。
李飞飞180页PPT谈视觉智能
今年李飞飞在NeurIPS演讲的话题是《从看到到做:攀登视觉智能的阶梯》。
她自曝准备了180页ppt,从各种路透图来看,确实是干货满满。
而在最新IEEE Spectrum采访中,她进一步揭示了相关细节。(该采访是在NeurIPS演讲前进行)
采访实录:
Q:为什么演讲题目是“攀登视觉智能的阶梯(Ascending the Ladder of Visual Intelligence)”?
李飞飞:我认为,直觉告诉我们,智能具有不同的复杂度和精密度。在演讲中,我想传达这样一种感觉:在过去的几十年里,尤其是过去十多年的深度学习革命中,我们在视觉智能方面所取得的成就令人惊叹。我们越来越擅长使用这项技术。我还受到了 Judea Pearl 的“因果关系阶梯”的启发。(收录于2020年出版的《the Book of Why》)
(这里插一嘴,Judea Pearl本人还特意纠正了一下,他表示因果关系阶梯所定义的等级是第一定律的数学结果,而不是一种判断性的建构。
李飞飞:演讲还有一个副标题,即“从看到到做(From Seeing to Doing)”。这是人们没有足够重视的一点:“看 ”都与互动和 “做 ”密切相关,无论是对于动物,还是AI Agents来说都是如此。这与语言是不同的。语言从根本上说是一种交流工具,用来传递思想。在我看来,这些都是非常互补但同样深刻的智能模式。
Q:你的意思是说,我们会对某些景象做出本能的反应?
李飞飞:我说的不仅仅是本能。如果你看一下感知力的进化和动物智力的进化,就会发现这两者之间有着深刻的联系。每当我们能够从环境中获得更多信息时,进化的力量就会推动能力和智力的发展。如果你不能感知环境,你与世界的关系就会非常被动;你是吃还是被吃,都是非常被动的行为。但是,一旦你能够通过感知从环境中获取线索,进化的压力就会真正增强,从而推动智力向前发展。
Q:你认为这就是我们创造更深入的机器智能的方式吗?让机器感知更多的环境?
李飞飞:我不知道 “深度 ”是不是我想用的形容词。我认为我们正在创造更多的能力。我认为它正变得越来越复杂,越来越有能力。我认为,解决空间智能问题是迈向全面智能化的基础和关键一步,这是绝对正确的。
Q:我看过世界实验室的演示。你为什么要研究空间智能并构建这些三维世界?
李飞飞:我认为空间智能是视觉智能的发展方向。如果我们真的要破解视觉问题,并将其与做事联系起来,那么有一个极其简单、一目了然的事实:世界是三维的。我们生活的世界不是平面的。我们的物理Agent,无论是机器人还是设备,都将生活在三维世界中。就连虚拟世界也变得越来越3D化。如果你与艺术家、游戏开发者、设计师、建筑师、医生交谈,即使他们是在虚拟世界中工作,其中大部分也是三维的。如果你能花点时间认识到这个简单而深刻的事实,那么毫无疑问,解决3D智能问题就是根本所在。
一旦你尊重了世界的三维性,很多事情就自然而然地发生了。例如,在我们发布在社交媒体上的一个视频中,篮球被投放到一个场景中。因为它是三维的,所以你可以拥有这种能力。如果场景只是 2D 生成的像素,篮球将无处可去。
Q:或者,就像Sora中那样,它可能会去到某个地方,但随后就消失了。在你尝试推进这项技术的过程中,最大的技术挑战是什么?
李飞飞:没有人解决过这个问题,对吧?这非常非常难。在世界实验室的演示视频中,你可以看到我们将一幅梵高的画作,以一致的风格生成了它周围的整个场景:艺术风格、灯光,甚至是那个社区会有什么样的建筑。如果你转过身去,它就变成了摩天大楼,那就完全没有说服力了,对吗?它必须是 3D 的。你必须进入其中。所以它不仅仅是像素。
Q:你能说说你用来训练它的数据吗?
李飞飞:很多。
Q:你们在计算负担方面遇到过技术挑战吗?
李飞飞:计算量很大。这是公共部门负担不起的计算量。这也是我很高兴能休假,以私营部门的方式来做这件事的部分原因。我的亲身经历强调了在获得充足资源的情况下进行创新的重要性。
知识的发现需要资源的支持,对吧?在伽利略时代,是最好的望远镜让天文学家观测到了新的天体。是虎克意识到放大镜可以变成显微镜,发现了细胞。每一次新技术工具的出现,都有助于知识的探寻。而现在,在人工智能时代,技术工具涉及计算和数据。我们必须认识到这一点。
Q:假设我们能让人工智能系统真正理解三维世界,这会给我们带来什么?
李飞飞:它将为人们释放大量的创造力和生产力。我希望能以更高效的方式设计我的房子。我知道,许多医疗用途都涉及到理解一个非常特殊的三维世界,那就是人体。我们总在谈论未来人类将创造机器人来帮助我们,但机器人是在三维世界中航行的,它们需要空间智能作为大脑的一部分。我们也在谈论虚拟世界,它能让人们参观景点、学习概念或娱乐。这些虚拟世界使用三维技术,尤其是混合技术,也就是我们所说的 AR(增强现实技术)。我很想戴着一副眼镜在国家公园里漫步,它能为我提供有关树木、道路和云彩的信息。我还想通过空间智能学习不同的技能。
Q:什么样的技能?
李飞飞:我举个蹩脚的例子,如果我在高速公路上爆胎了,我该怎么办?现在,我打开了一个 “如何换轮胎 ”的视频。但如果我能戴上眼镜,看到我的车发生了什么,然后在指导下完成这个过程,那就很酷了。但这只是个蹩脚的例子。你可以考虑烹饪,可以考虑雕刻—有趣的事情。
Q:你认为我们在有生之年能在这方面取得多大进展?
李飞飞:哦,我认为这将在我们有生之年实现,因为科技进步的步伐真的很快。你已经看到了过去 10 年所带来的变化。这无疑预示着下一步会发生什么。
今年NeurIPS好热闹
NeurIPS整个会议期间,可以说是好不热闹。
比如,Bengio和OpenAI的人吵起来了。
据在场的人爆料,在今年因果关系小组讨论中,OpenAI o1的主创表示,我们最终应该训练Agent来优化对世界的理解,来解决科学问题。
Bengio还有一位谷歌AGI安全研究员Tom Everitt则指出这样做很可怕!他们表示不应该制造这样强大的Agent,还有其他方法可以增强人类的能力,并进行科学研究,比如让模型学习因果图。
而就在刚才,Bengio还进一步回应了,再次强调了AI Agent潜在的风险。
如果我们不解决调整和控制问题,随着我们赋予系统越来越多的代理权,人工智能的风险将继续增长。在此之前,我们需要在科学和政策两方面取得重大进展。
而何恺明竟然探讨起了AI宿命论?!
据热心网友们的爆料,他是在被问到AI属于发明还是发现的时候。
他表示这要看你相不相信宿命论了。(Doge)
除此之外,他在演讲中探讨了AI未来的发展:Super-human AI?
据小红书网友爆料,他提到一个有意思的观点,他将人类比作大模型的传感器:
人类感知,理解,压缩了世界的所有的知识并用文本和语言记录下来。大语言模型吸取,学习这些内容并将其建模为一个强大而丰富的空间。但是就像你只用RGB观测宇宙一样,总会有紫外,红外这样看不到,看不清的东西。
好了,NeurIPS期间还有没有发生什么有意思的事情,欢迎小伙伴们跟我们爆料。
参考链接:
[1]https://spectrum.ieee.org/fei-fei-li-world-labs
[2]https://x.com/connoraxiotes/status/1866921924703498412
[3]https://x.com/kyliebytes/status/1866987524805234785
[4]https://www.xiaohongshu.com/explore/6759be860000000001029429
[5]http://xhslink.com/a/IFIoiN1IoRy1
[6]https://x.com/yoshua_bengio/status/1867274312941523193?s=46&t=iTysI4vQLQqCNJjSmBODPw
....
#预训练将结束,数据压榨到头了
Ilya Sutskever在NeurIPS炸裂宣判
「推理是不可预测的,所以我们必须从令人难以置信的,不可预测的 AI 系统开始。」
Ilya 终于现身了,而且一上来就有惊人之语。
本周五,OpenAI 的前首席科学家 Ilya Sutskever 在全球 AI 顶会上表示:「我们能获得的数据已经到头,不会再有更多了。」
OpenAI 的联合创始人兼前首席科学家 Ilya Sutskever 今年 5 月离开公司,创办了自己的人工智能实验室 Safe Superintelligence,成为头条新闻。自离开 OpenAI 后他一直远离媒体,但本周五在温哥华举行的神经信息处理系统会议 NeurIPS 2024 上,他罕见地公开露面了。
「我们所熟悉的预训练无疑会结束,」Sutskever 在台上说。
在人工智能领域里,BERT 、GPT 等大规模预训练模型(Pre-Training Model)近年来取得了巨大成功,已经成为技术进步道路上的一个里程碑。
由于复杂的预训练目标和巨大的模型参数,大规模预训练可以有效地从大量标记和未标记的数据中获取知识。通过将知识存储到巨大的参数中并对特定任务进行微调,巨大参数中隐式编码的丰富知识可以使各种下游任务受益。现在 AI 社区的共识是采用预训练作为下游任务的主干,而不是从头开始学习模型。
然而,在他的 NeurIPS 演讲中,Ilya Sutskever 表示,尽管现有数据仍能推动人工智能的发展,但这个行业里称得上可用的新数据上已经接近枯竭。他指出,这一趋势最终将迫使行业改变当前的模型训练方式。
Sutskever 将这一状况比作化石燃料的消耗:正如石油是有限资源一样,互联网中由人类生成的内容也是有限的。
「我们已经达到了数据的峰值,未来不会再有更多数据,」Sutskever 说道。「我们必须利用现有的数据,因为互联网只有一个。」
Sutskever 预测,下一代模型将会「以真正的方式表现出自主性」。另一方面,智能体(Agent)已成为 AI 领域的热词。
除了具有「自主性」,他还提到未来的系统将具备推理能力。与当今的 AI 主要依赖的模式匹配(基于模型以前见过的内容)不同,未来的 AI 系统将能够以类似于「思考」的方式逐步解决问题。
Sutskever 表示,系统的推理能力越强,其行为就越「不可预测」。他将「真正具备推理能力的系统」的不可预测性与高级 AI 在国际象棋中的表现进行了比较 ——「即使是最优秀的人类棋手也无法预测它们的动作。」
他说:「这些系统将能够从有限的数据中理解事物,并且不会感到困惑。」
在演讲中,他将 AI 系统的 Scaling 与进化生物学进行了比较,并引用了研究中不同物种之间的大脑与体重的比例关系。他指出,大多数哺乳动物遵循一种特定的 Scaling 模式,而人类科(人类祖先)的脑体比在对数尺度上展现出截然不同的增长趋势。
Sutskever 提议,就像进化为人类科大脑找到了一种新的 Scaling 模式一样,AI 可能也会超越现有的预训练方法,发现全新的扩展路径。
以下视频来源于
MLSys2024
,时长24:36
以下是 Ilya Sutskever 的演讲全文:

我要感谢大会组织者为这个奖项选择了一篇论文(Ilya Sutskever 等人的 Seq2Seq 论文入选了 NeurIPS 2024 时间检验奖)。太好了。我也想感谢我不可思议的合著者 Oriol Vinyals 和 Quoc V. Le,他们刚才就站在你们面前。
你这里有一张图片,一张截图。10 年前在蒙特利尔的 NIPS 2014 也有类似的演讲。那是一个更加纯真的时代。在这里,我们出现在照片中。顺便说一下,那是上次,下面这张是这次。
现在我们有了更多的经验,希望现在更聪明一点了。但是在这里,我想谈一下这项工作本身,也许还想做一个 10 年的回顾,因为这项工作中的很多事情是正确的,但有些则不太正确。我们可以回顾它们,看看发生了什么,以及它是如何把我们引向今天的。
所以让我们开始谈谈我们所做的事情。我们要做的第一件事就是展示 10 年前同一个演讲的幻灯片。总结起来就是三个要点。一个基于文本训练的自回归模型,它是一个大型神经网络,它是一个大型数据集,就是这样。
现在让我们再深入一些细节。

这是 10 年前的一张幻灯片,看起来不错,「深度学习假说」。我们在这里说的是,如果你有一个具有 10 层的大型神经网络,但它可以在几分之一秒内完成人类可以做的任何事情。

为什么我们要强调「人类可以在几分之一秒内完成的事情」?为什么是这件事?
好吧,如果你相信深度学习的教条,人工神经元和生物神经元是相似的,或者至少不是太不同,并且你相信三个真正的神经元是缓慢的,那么人类可以快速处理任何事情。我甚至指的是假如全世界只有一个人。如果全世界有一个人可以在几分之一秒内完成某些任务,那么 10 层神经网络也可以做到,对吧?
接下来,你只需将它们的连接嵌入到一个人工神经网络中。
这就是动机。任何人类可以在几分之一秒内完成的事情,那么 10 层神经网络也可以做到。
我们专注于 10 层神经网络,因为这是当年我们所知道的训练方式,如果你能以某种方式超越这个层数,那么你可以做更多的事情。但在那时,我们只能做 10 层,这就是为什么我们强调人类可以在几分之一秒内做的任何事情。
当年的另一张幻灯片说明了我们的主要思想,你可能能够识别两件事情,或者至少一件事情,你可能能够识别出这里正在发生自回归的事情。

它到底在说什么?这张幻灯片到底说了什么?这张幻灯片说,如果你有一个自回归模型,并且它预测下一个 token 足够好,那么它实际上会抓取、捕捉并掌握接下来出现的任何序列的正确分布。
这是一个相对较新的东西,它并不是第一个自回归网络,但我认为这是第一个自动回归神经网络。我们真正相信,如果你训练得很好,那么你就会得到你想要的任何东西。在我们的案例中,是现在看来很保守,当时看来非常大胆的机器翻译任务。现在我将向你们展示一些你们中许多人可能从未见过的古老历史,它被称为 LSTM。
对于那些不熟悉的人来说,LSTM 是可怜的深度学习研究者们在 Transformer 之前所做的事情。
它基本上是 ResNet,但旋转 90 度。所以这是一个 LSTM。LSTM 就像是一个稍微复杂的 ResNet。你可以看到 integrator,它现在被称为 residual stream。但是你有一些乘法正在进行中。这有点复杂,但这就是我们所做的。这是一个旋转 90 度的 ResNet。

那个老演讲中我想强调的另一个重点是我们使用了并行化,但不仅仅是并行化。
我们使用了流水线,每层神经网络分配一块 GPU。正如我们现在所知,流水线策略并不明智,但我们当时并不聪明。所以我们使用它,使用 8 块 GPU 获得了 3.5 倍的速度。

最后的结论,那是最重要的一张幻灯片。它阐明了可能是 Scaling Laws 的开始。如果你有一个非常大的数据集并且你训练了一个非常大的神经网络,那么成功就是有保证的。人们可以争辩说,如果一个人是慷慨的,这确实是正在发生的事情。

现在,我想提另一个想法,我认为这个想法真正经得起时间的考验。这是深度学习本身的核心思想。这就是联结主义的思想。这个想法是,如果你相信人工神经元有点像生物神经元。如果你相信其中一个有点像另一个,然后它让你有信心相信超大规模神经网络。它们不需要真的是人类大脑规模,它们可能会小一点,但你可以配置它们来完成我们所做的几乎所有事情。
但这与人类仍然存在差异,因为人类大脑会弄清楚如何重新配置自己,我们正在使用我们拥有的最好的学习算法,这需要与参数一样多的数据点。人类在这方面做得更好。

所有这些都导向了,我可以说是,预训练时代。
进而就是我们所说的 GPT-2 模型、GPT-3 模型,Scaling Laws。我想特别提到我的前合作者 Alec Radford,还有 Jared Kaplan 和 Dario Amodei,是他们的努力实现了这些工作。

这就是预训练的时代,这就是所有进步的驱动力,我们今天看到的所有进步,超大神经网络,在巨大的数据集上训练的超大神经网络。
但我们所知道的预训练路线无疑会结束。为什么会结束?因为计算机通过更好的硬件、更好的算法和逻辑集群不断增长,所有这些事情都在不断增加你的计算能力,而数据没有增长,因为我们只有一个互联网。

你甚至可以说数据是 AI 的化石燃料。它就像是以某种方式创建的,现在我们使用它,我们已经实现了数据的最大化利用,不能再更好了。我们想办法必须处理现在拥有的数据。我仍然会努力,这仍然让我们走得很远,但问题在于,只有一个互联网。
所以在这里,我会大胆第推测一下接下来会发生什么。
实际上,我都不需要推测,因为许多人也在猜测,我会提到他们的猜测。
- 你可能听过「智能体 Agent」这个短语,这很常见,我相信最终会发生一些事情,人们觉得智能体是未来。
- 更具体地说,但也有些模糊的合成数据。但合成数据是什么意思?弄清楚这一点是一个巨大的挑战,我相信不同的人在那里有各种有趣的进展。
- 还有推理时间计算,或者可能是最近(OpenAI 的)o1,o1 模型最生动地展示了人们在预训练后试图弄清楚该做什么事情。
这些都是非常好的事情。

我想提到生物学中的另一个例子,我认为这真的很酷。很多年前在这个会议上我也看到了一个演讲,有人展示了这张图,其中显示了哺乳动物身体大小和大脑大小之间的关系。在这种情况下,它是大规模的。那个演讲,我清楚地记得,他们说,在生物学中,一切都很混乱,但在这里,你有一个罕见的例子,动物身体的大小与它们的大脑之间存在非常紧密的关系。
出于偶然,我对这张图产生了好奇。

所以我去谷歌以图搜图了一下。
这张图片里,列出了多种哺乳动物,也有非灵长类动物,但大体一样,还有原始人。据我所知,原始人在进化过程中,像尼安德特人一样是人类的近亲。比如「能人」。有趣的是,他们的大脑与身体比例指数的斜率不同。很有意思。
这意味着有一个案例,有一个生物学找出某种不同尺度的例子。显然,有些事情是不同的。顺便说一下,我想强调一下这个 x 轴是对数刻度。这是 100、1000、10000、100000,同样以克为单位,1 克、10 克、100 克、一千克。所以事情有可能不同。
我们正在做的事情,到目前为止我们一直在做扩展的事,实际上我们发现如何扩展成了第一要务。毫无疑问在这个领域,每个在这里工作的人都会想出该做什么。但我想在这里谈谈。我想花几分钟的时间来对长期进行预测,我们所有人都要面临这样的事,对不对?

我们正在取得的所有进展,是惊人的进步。我的意思是,10 年前在这个领域工作的人,你们还记得一切都是多么无能为力。如果你是在过去两年里加入了深度学习这个领域,你或许都无法感同身受。
我想稍微谈谈「超级智能」,因为这显然是这个领域的发展方向,是这个领域努力构建的东西。
尽管语言模型现在拥有令人难以置信的能力,但它们也有点不可靠。目前还不清楚如何调和这一点,但最终,迟早会实现目标:这些系统将以真正的方式成为智能体。现在,这些系统并不是强大的有意义的感知智能体,实际上它们刚刚开始会推理。顺便说一句,一个系统推理的越多,它就变得越不可预测。
我们已经习惯所有深度学习都是非常可预测的。因为如果你一直在研究复制人类直觉,回到 0.1 秒的反应时间,我们的大脑会进行什么样的处理?这就是直觉,我们赋予了 AIS 一些这种直觉。
但是推理,你看到了一些早期的迹象:推理是不可预测的。例如,国际象棋对于最好的人类棋手来说都是不可预测的。因此,我们将不得不处理非常不可预测的 AI 系统。它们将从有限的数据中理解事物,并且不会感到困惑。
所有这些都是非常大的限制。顺便说一句,我没有说怎么做,也没有说什么时候会以及什么时候所有这些事情都会与「自我意识」一起发生,因为为什么「自我意识」不能是有用的呢?我们自己也是我们自己世界模型的一部分。
当所有这些东西结合在一起时,我们将拥有与今天存在的质量和属性完全不同的系统。当然,它们将拥有令人难以置信和惊人的能力。但是像这样的系统所带来的问题,我猜想它将非常与众不同。
我会说,预测未来肯定也是不可能的。真的,各种各样的事情都是可能发生的。谢谢大家。
Neurlps 大会上一阵掌声过后,Ilya 回答了几位提问者简短的问题。
提问:在 2024 年,请问您认为是否还有其他与人类认知相关的生物结构值得以类似的方式进行探索,或者还有您感兴趣的领域吗?
Ilya:我会这样回答这个问题:如果你或者某个人对某个具体问题有独到的见解,比如 “嘿,我们明显忽略了大脑在做某些事情,而我们并没有做到”,并且这是可以实现的,那么他们就应该去深入研究这个方向。我个人没有这样的见解。当然,这也取决于你关注的研究抽象层级。
很多人都渴望开发受生物启发的人工智能。从某种程度上来说,可以认为由生物启发的 AI 已经取得了巨大的成功,毕竟整个深度学习的基础就是由生物启发的 AI。但另一方面,这种生物启发其实非常、非常有限。基本上只是 “让我们使用神经元”—— 这就是生物启发的全部内涵。更详细、更深层次的生物启发却很难实现,但我不会排除这种可能性。我认为,如果有人拥有特别的洞察力,能够发现某些新的角度,这或许会非常有价值。
提问:我想提问一个关于自动更正的问题。
您提到推理可能是未来模型的核心发展方向之一,也可能是一个差异化的特点。在一些海报展示环节中,我们看到当前模型存在 “幻觉” 现象。我们目前分析模型是否出现幻觉的方法(如果我理解有误请您纠正,您才是这方面的专家)主要是基于统计分析,例如通过某些标准差的偏离来判断是否偏离均值。未来,您是否认为如果模型具备了推理能力,它能够像 “自动更正”(autocorrect)一样自我纠正,从而成为未来模型的一个核心功能?这样模型就不会出现那么多的幻觉,因为它能识别出自己生成幻觉内容的情况。这可能是一个比较复杂的问题,但您认为未来的模型是否能够通过推理理解并发现幻觉的发生?
Ilya:答案:是的。
我认为你描述的这种情况是非常有可能的。尽管我不确定,但我建议你去查证一下,这种情况可能已经在一些早期的推理模型中出现了。但从长期来看,为什么不可能呢?
提问:我的意思是,这就像微软 Word 里的自动更正(autocorrect)功能一样,它是一个核心功能。
Ilya:是的,我只是觉得称之为 “自动更正” 其实有点低估了它的意义。当你提到 “自动更正” 时,会让人联想到一些相对简单的功能,但这个概念远远超越了自动更正。不过,总的来说,答案是肯定的。
提问:谢谢。
接下来是第二位提问者。
提问:嗨,Ilya。我很喜欢那个神秘留白的结局。人工智能们是否会取代我们,还是说它们比我们更优越?它们是否需要权利?这是一个全新的物种。智人(Homo sapiens)孕育了这种智能,我觉得强化学习那边的人可能认为我们需要为这些存在争取权利。
我有一个与此无关的问题:我们如何创造正确的激励机制,让人类以一种方式来创造它们,使它们能享有与我们智人相同的自由?
Ilya:我觉得这些问题在某种意义上是人们应该更多思考和反思的。但对于你提到的关于我们应该创造什么样的激励机制的问题,我觉得我无法自信地回答这样的问题。这听起来像是在讨论创建某种自上而下的结构或治理模式,但对此我确实不太确定。
接下来是最后一位提问者。
提问:嗨,Ilya,谢谢你的精彩演讲。我来自多伦多大学。感谢你所做的一切工作。我想请教一下,你认为 LLMs 是否能够在分布外进行多跳推理的泛化?
Ilya:好的,这个问题假设答案是 “是” 或 “否”,但实际上不应该这样回答。因为我们需要先弄清楚:分布外泛化到底是什么意思?什么是分布内?什么是分布外?
因为这是一次关于 “时间检验” 的演讲。我想说,在很久很久以前,人们在还未使用深度学习时,是用字符串匹配和 n-grams 来做机器翻译的。当时人们依靠的是统计短语表。你能想象吗?这些方法的代码复杂度达到了数万行,真的是难以想象的复杂。而在那个时候,泛化的定义是:翻译结果是否和数据集中的短语表述字面上不完全相同。
现在我们可能会说:“我的模型在数学竞赛中取得了很高的分数,但也许这些数学题的某些想法曾经在互联网上的某个论坛中被讨论过,因此模型可能只是记住了这些内容。” 好吧,你可以说这可能是分布内的,或者可能是记忆化的结果。但我认为,我们对泛化的标准确实已经大幅提高 —— 甚至可以说是显著地、不可想象地提高了。
所以,我的答案是:在某种程度上,模型的泛化能力可能还远不及人类。我确实认为人类在泛化方面要优秀得多。但与此同时,AI 模型也确实在某种程度上能够进行分布外泛化。我希望这个答案对你来说算是有用的,尽管它听起来有些赘述了。
提问:谢谢。
参考内容:
https://www.theverge.com/2024/12/13/24320811/what-ilya-sutskever-sees-openai-model-data-training
....
#无人机:不是我想长腿
《Nature》论文说这样更省力
「这世界上有一种鸟是没有脚的,它只能一直飞,飞累了就睡在风里,这种鸟一辈子只能下地一次......」
这种神奇的无脚鸟,是王家卫在《阿飞正传》中留下的经典意象,也是这部电影最触人心弦的隐喻。而在现实世界中,「无人机」应该算是最接近无脚鸟的存在。
但却有这么一个研究团队,非要给「无脚鸟」装上脚。

在瑞士日内瓦湖畔,洛桑联邦理工学院(EPLF)不仅是机器人专家们的圣地,更是各种小鸟的「快乐大本营」。然而,小鸟们现在似乎不太热衷于飞行了,更喜欢在地面上悠哉游哉地散步,反正好吃的遍地都是。
「每当我在校园里遇到乌鸦时,我都会观察它们是如何行走、跳过或跃上障碍物,以及如何起飞的,」EPLF 智能系统实验室的博士生 Won Dong Shin 说道。「通过我的观察,即使只需要用翅膀就能起飞,但鸟儿们总是以跳跃作为起步。」
Shin 将他的发现转化成了论文,探讨了鸟类为何通过跳跃起飞,以及如何将这一特性应用到固定翼无人机上。这篇论文已被《Nature》接收并发表。
- 论文标题:Fast ground-to-air transition with avian-inspired multifunctional legs
- 论文链接:https://www.nature.com/articles/s41586-024-08228-9
传统的固定翼无人机通常需要跑道或弹射器才能起飞,而 Shin 开发的 RAVEN(Robotic Avian-inspired Vehicle for multiple ENvironments)无人机则采用了仿生鸟腿设计,让无人机能像乌鸦一样跳跃起飞,并在地面上灵活移动。

早在 2019 年,南非就有一家叫 Passerine 的创业公司提出了类似的设计,为货运无人机装上机械腿来帮助起飞。这个设计很受欢迎,因为无人机能飞得更远、续航更久,比在机身上安装多个螺旋桨要高效得多。

Passerine的无人机
「我们和 Passerine 都想让固定翼飞行器能够跳跃起飞,」Shin 解释说,「但我们的目标不太一样。Passerine 只关注如何让无人机起跳,而我们的 RAVEN 想做的不止于此。」
仿生设计的无人机
多功能腿部设计让 RAVEN 更接近真实的鸟类。虽然这些机械腿的复杂性和功能性还远不及真实的鸟腿,但通过模仿大自然的智慧,比如像弹簧一样能储存和释放能量的「人造肌腱」,以及能灵活抓握的机械脚趾,RAVEN 已经能像真正的鸟儿一样轻盈地行走、跳跃了。
尽管名叫「渡鸦」,但 RAVEN 的体型实际上和乌鸦差不多:翼展 100 厘米,机身长 50 厘米。它能以每 4 秒 1 米的速度行走,跨越 12 厘米的缝隙,并能跳上 26 厘米高的障碍物。


在跳跃起飞时,RAVEN 的腿部能将无人机推送到近半米的起始高度,并达到 2.2 米 / 秒的起速。

RAVEN 的脚趾设计特别有趣,当它没有脚趾时,RAVEN 就会狼狈地摔倒:

Shin 解释道:「加入一个被动弹性脚趾关节非常重要,这样可以实现多种步态模式,并确保 RAVEN 能够以正确的角度进行起飞。」
大多数双足机器人都采用可以直接控制脚部的角度的驱动器,但对于一个飞行机器人来说,出于重量的考虑,不能随便在各处加上驱动器。事实上,RAVEN 的重量为 620 克,其中 230 克来自于这双腿。

通过电机控制髋关节和踝关节的运动,形成了简化但仍具有鸟类特征的腿部结构,而踝关节和脚趾关节中的弹簧则有助于吸收力量和储存能量。
为什么要给无人机装上腿呢?
问题在于,无人机和鸟类不同,它不需要腿部也可以起飞。由于 RAVEN 本身重量轻、动力强,即使不用腿部,只要调整好角度也能从地面起飞。这就让人不禁思考:与其设计复杂的腿部机构,是否可以用几根简单的支撑杆来替代,一样能达到帮助起飞的目的呢?
研究人员对此进行了测试,发现非跳跃起飞的效果很差。高攻角和低起飞速度的组合导致飞行极不稳定,虽然能飞,但很勉强。
相比之下,跳跃起飞的能量效率整体上比静态起飞高出约 10 倍。正如论文总结的那样,「尽管跳跃起飞需要略高的能量输入,但在将驱动能量转换为飞行所需的动能和势能方面,这是最高效和最快速的方法。」
而且就像鸟类一样,相比反复短距离飞行,RAVEN 也可以利用腿部在地面上以更节能的方式移动。
Won Dong Shin 拿着 RAVEN
能否应用到更大型的无人机上?
当然,鸟类的腿部除了行走、跳跃之外还有很多其他用途。Won Dong Shin 希望 RAVEN 的机械腿也能逐渐扩展。最显而易见的就是用于降落:「鸟类利用腿部减速和缓冲冲击力,这一原理也可以应用到 RAVEN 的腿部设计上,」Shin 说道。
不过,要实现这一点,无人机还需要配备感知系统来计算和预测降落轨迹、时机和姿态。此外,游泳、栖息和抓取等功能也都需要全新的脚部设计。
至于如何将这一设计扩展到更大尺寸的无人机,Shin 指出,超过一定体型的鸟类就无法通过跳跃起飞。它们要么需要从高处跳下,要么需要借助跑道。因此,如何让这一设计适用于更大型、能够承载有效载荷的无人机仍是一个挑战。
Shin 强调,扩展工程系统通常比生物系统更容易,他对于 RAVEN 的腿部设计能够用于需要大量承重的快递无人机持乐观态度。
目前,研究团队正在开发一套视觉系统,用于避障和降落,同时也在研究能够让无人机通过狭窄缝隙的折叠翼。Shin 表示,「我也很想为 RAVEN 加入可以拍打翅膀的扑翼设计。这项改进将让无人机的运动方式更接近鸟类,并提供更多有趣的研究课题。」
参考链接:
https://spectrum.ieee.org/bird-drone
https://www.youtube.com/watch?v=-8DJ1a3sLIc&t=5s
https://www.youtube.com/watch?v=ewYISBNg-6k
....
#Correlation-Aware Graph Convolutional Networks for Multi-Label Node Classification
多标签节点分类场景下,阿里安全&浙大对图神经网络增强发起挑战
ACM SIGKDD(简称 KDD)始于 1989 年,是全球数据挖掘领域历史最悠久、规模最大的国际顶级学术会议。KDD 2025 将于 2025 年 8 月 3 日在加拿大多伦多举办。
近日,阿里安全交互内容安全团队与浙江大学软件学院周晟老师团队针对多标签分类场景的图神经网络增强技术的联合研究成果《Correlation-Aware Graph Convolutional Networks for Multi-Label Node Classification》被 KDD 2025 收录。这也是 NeurIPS 2024 之后,双方合作的第二篇顶会成果。
论文地址:https://arxiv.org/pdf/2411.17350
图神经网络(GNNs)已经在图数据挖掘的节点分类、链接预测的任务中都取得了巨大成功。对于节点分类任务,传统图神经网络主要关注各节点数据单标签类别的场景。而在现实世界中,许多节点属于多个类别,而不是单一类别,如社交网络中的用户多兴趣,风险用户往往关联了多个风险域,使得 GNNs 在处理多标签场景时可能会面临新的问题。
在这项工作中,我们分析了多标签分类场景对于 GNN 本身消息传递机制带来的潜在问题,将其归纳为节点特征和拓扑结构的模糊性,进而提出了 CorGCN 进行解决。
具体来讲,CorGCN 首先学习与多标签相关的节点特征并将它们分解为多个标签感知特征;基于此,进一步分解出多个标签感知图进行图增强;最终在标签感知图上进行关联增强的图卷积。
1. 研究背景
本研究重点关注于如何增强图神经网络在多标签节点分类的能力。在现实世界中,图上的节点更多情况下属于多个类别,而不是单一类别,使得 GNNs 在处理多标签场景时可能会面临着特征和拓扑结构的模糊性问题,这降低了图数据中信息传递的准确度,并影响了图数据中的标签相关性建模。
我们首先将多标签节点分类场景的特点归纳如下,图 1 给出示意和 PCG 数据集 [1] 上的分析实验。

图 1:(a)多标签节点分类区别示例;(b)-(c) PCG 数据集上的模糊特征和模糊拓扑。
(1)模糊特征(Ambiguous Feature):在单标签设置中,节点可以通过转换特征从邻域节点中聚合特定类型的标签模式。然而,在多标签设置中,与非图数据上的数据特征存在模糊问题类似,一个节点的特征可能与多个标签相关,特征所代表的模式是模糊的。因此,从这些模糊特征中聚合信息将影响节点表示的区分能力。图 1-(b) 展示了在现实世界的图中,分配相似特征的节点可能共享不同的标签数量。
(2)模糊拓扑(Ambiguous Topology):在单标签设置中,连接的节点通常共享相同的单一标签(也称为同配性假设 [2]),因此沿边传播的模式通常是确定性的。然而,在多标签设置中,连接的节点都有多个标签,沿边传播的模式通常是模糊的。这种模糊性使得我们难以确定应该从哪些连接的节点中聚合特定标签的信息。直接从所有邻居那里聚合信息将进一步累积模糊性,损害 GNN 学习到的表示的区分能力,最终影响特定标签的推断。图 1-(c) 展示了在现实世界的图中,连接的节点可能共享不同的标签数量。
因而,在模糊特征和模糊拓扑的情况下进行图神经网络的消息聚合也会具有以下问题需要解决:
标签独特性(Label Distinctiveness):如前所述,多标签图中的节点属性和边可能同时受到多个标签的影响。直接从这样的图中提取信息,混合节点标签可能导致标签独特性的丧失,导致对每个标签的探索不足。
标签相关性(Label Correlation):在多标签设置中,节点与多个标签的关联意味着这些标签之间存在相关性。现有多标签学习方法的成功也证明了充分利用这些标签间相关性可以显著提高表示的质量。
基于此分析,本文提出了基于标签关联感知图神经网络,从而为 GNN 更好地适配于多标签节点分类场景提供思路。
2. 研究方法
本研究论文提出了一种名为 Correlation-Aware Graph Convolutional Network(CorGCN)的方法,整体思路如图 2 所示,包括:
- 关联感知图分解(Correlation-Aware Graph Decomposition):首先学习与标签相关的节点特征,并将它们分解为多个标签感知特征。然后,基于分解后的特征,进一步分解出多个标签感知图进行图增强。
- 关联增强图卷积(Correlation-Enhanced Graph Convolution):每一层包括在每个标签感知图视图中的邻域内标签消息传递以及标签感知消息之间的标签间相关性传播。

图 2:CorGCN 的整体架构示意。
2.1 关联感知图分解(Correlation-Aware Graph Decomposition)
由于在多标签场景中,图的节点特征和拓扑结构存在不明确性,我们的目标是将它们分解成多个图。然而,直接进行分解会导致关键的多标签相关性属性的丢失。因此,我们需要基于已经包含了标签相关性的表示来进行分解,因此本阶段存在两个递进的步骤:节点特征分解和拓扑结构分解。
节点特征分解(Feature Decomposition):该模块首先建模节点-标签和标签-标签之间的相关性,然后基于此进行节点特征在不同标签空间的分解。
具体而言,首先对于 K 个标签分别初始化一个可学习标签表征 E^l,而 n 个节点的原始特征定义为 E^x。

这两类表征会利用对比学习和最终的分类损失进行相关性学习。随后我们通过相似度投影得到相关性建模后分解到 K 个标签空间的节点表征,每个节点的分解后表征为 E_i^proj。

拓扑结构分解(Structure Decomposition):基于关联感知分解的节点表征,该模块旨在为每个标签及其相关标签分解图结构(消息传递路径),以增强消息传播的图结构。
具体而言,利用原始图结构 A^0 在每个标签 k 的表征空间中进行中心节点与邻域信息的融合:

随后,基于融合后的标签 k 角度的表征,利用 top-k 相似度构造标签 k 的传播图 G^k,如下所示:

此外,结合相关标签感知的节点特征和原始图拓扑,可以获得多标签感知图 G_0 = (A_0, E_x) 以通过消息传递捕获相关结构模式,从而最终可以得到如下的感知相关性的分解图 CDG:

2.2 关联增强图卷积(Correlation-Enhanced Graph Convolution)
先前对于多标签节点分类的研究主要进行了统一的邻域消息传递。我们认为这种方法有两个主要的局限性:(1)以统一的方式传递来自邻域的模糊消息;(2)相关性忽视,即在传递消息时忽略了标签之间的相关性。因此,我们进一步为𝐶𝐷𝐺(Correlation-Enhanced Graph Convolution,相关性增强图卷积)配备了相关性增强的图卷积。
标签内消息传递(Intra-Label Message Passing):在每个标签视图的图中进行标签内消息传递。

标签间相关性传播(Inter-Label Correlation Propagation):在标签内消息传递之后,CorGCN 模型通过标签间相关性传播来模拟不同标签视图之间的相关性。

最终,基于标签内和标签间消息传播后得到的表征,模型进行最终的分类预测:

模型的训练目标与多标签分类模型一致采用交叉熵损失函数。
2.3 扩展到庞大标签空间(Extension to Large Label Space)
在一些现实世界的图结构中,节点可能存在于一个非常大的多标签空间中,例如复杂的现实世界社交网络和大型蛋白质相互作用网络。对于具有非常大标签空间的实际图结构,CorGCN 可以扩展到多标签节点分类,以实现高效学习。
具体而言,我们可以通过 K-means 聚类将预训练的标签表示凝练形成宏观标签表示,以减少标签表示的数量和图分解视图的数量,提高计算效率。
3. 实验评估
本文在 Humloc [1]、PCG [1]、Blogcatalog [3]、PPI [4] 和 Delve [5] 这五个数据集上进行了广泛的对比和探索性实验,验证了所提出的 CorGCN 的有效性。
对比实验
本研究的部分对比实验如表 1 所示,CorGCN 与 9 个代表性的基线模型(包含代表性 GNN 模型、图结构学习模型和多标签节点分类模型)的对比结果验证了 CorGCN 的有效性。

表 1:部分对比实验结果。
泛化性实验
如图 3 所示,通过泛化性实验分析可以发现模型能为多个代表 GNN 架构带来表现提升,进一步验证了 CorGCN 的广泛适用性。

图 3:GNN 架构泛化性实验。
4. 业务潜力
多标签节点分类在阿里风控场景具有重要意义。如在庞大的用户(节点)网络中,异常/风险用户往往可能具有多个风险域的风险信号,这些风险域往往不是相互独立的,业务之间具有关联性。挖掘多个风险域之间的相关性对于整体业务表现具有重要意义,这将作为未来的进一步研究。
5. 总结
在这篇论文中,我们针对当前图神经网络在进行多标签分类时面临的潜在问题进行了重点分析,提出了一种数据侧的图分解增强方式和模型侧的消息传播增强,以提高现有图神经网络在多标签分类场景的能力。在实验测试中,我们验证了所提出模型的有效性。详细内容可查看原文。
....
#OmniPT
AI病理助手来了!浙大OmniPT上岗,3秒锁定癌症病灶,准确率超95%
病理是疾病诊断的「金标准」,而我国面临病理诊断人才严重匮乏窘境。近年来癌症发病率不断攀升,如何借助 AI 赋能医生精准诊断,提高工作效率及医疗质量,成为当前世界病理学科的前沿热点。
近日,浙江大学发布了视觉与语言模型融合的人机交互 AI 病理万能助手 - OmniPT,该模型已在浙江大学医学院附属第一医院(以下简称「浙大一院」)病理科进行临床应用验证,病理诊断技术进入了智能化与个性化的新时代。
浙江大学在 AI + 医学交叉领域开展的技术突破、技术转化、临床验证等系列成果,以实际行动有力响应了科技创新引领卫生健康事业新发展的国家战略。
OmniPT 由浙大计算机学院宋明黎教授团队联合浙大一院共同开发,双方自 2020 年开展深度合作,2022 年 6 月联合申请到数字病理人工智能医疗器械临床试验中心(工信部 & 国家药监局联合审批)。在浙江大学和浙大一院双方领导的大力支持下,2024 年 8 月该中心获批人工智能医疗器械创新任务揭榜挂帅优胜单位。
世界卫生组织(WHO)发布《医疗卫生中人工智能的伦理治理》指南中指出,AI 应用部署落地临床需要满足人工智能伦理共识,确定医生决策和道德主体地位,医生需要确认诊断结果的安全与准确性。
OmniPT 的研发以临床落地应用为目标,围绕交互便捷性、诊断效率、诊断精准性、诊断可信性等痛点需求开展技术攻关,以病理科医生为主导,通过人机交互形式,大幅提升诊断效率及质量,有效缓解了病理人才匮乏的窘境。
2024 年 12 月 13 日,在第十七届中国病理医师年会上,浙大一院病理科章京教授详细介绍了人机交互 AI 病理万能助手 - OmniPT。面向临床病理诊断真实需求,依托数字病理人工智能医疗器械临床试验中心丰富数据和算力资源,通过多项关键技术突破,助力病理大模型在胃癌、结直肠癌和宫颈癌等高发病率癌种上开展临床应用,有效解决数字病理 AI 临床应用难题。

浙大一院章京教授在 2024 年中国病理医师年会上首次对外展示 OmniPT 的功能
精准与高效:技术突破解决临床应用难题
超大尺寸病理图蕴含多层级丰富信息,如何精准、快速给出可信诊断结果是病理大模型需要解决的核心难题。研发团队通过跨层级高效特征锁定、提示引导细节特征补全等关键技术突破,解决 GB 级超大尺寸病理图秒级推理、精准分析难题。
进一步地,通过多任务协同分析技术,将文本语义与视觉特征强关联,首次实现分类、分割、检测等多类型诊断任务全覆盖,为病理报告一键生成提供支撑。通过集成上述核心技术,病理万能诊断助手 OmniPT 有效满足临床人机交互诊断分析实时、精准、可信需求。
技术负责人冯尊磊副教授介绍:「以往医生在分析病理切片时,需要耗费大量时间逐一观察微观细节,而 OmniPT 可以在不影响推理速度的情况下,1~3 秒内准确锁定病灶区域,十余个癌种上取得 95% 以上诊断准确性。
此外,OmniPT 支持文本输入、视觉框选等多种便捷交互方式,能够实现从全局到局部多尺度病变特征精准锁定,给文本诊断结果提供视觉特征依据,有效解决临床应用可信诊断难题」。这一成果将进一步推动智能化病理诊断的临床应用进程,为患者提供更高质量的医疗服务。

人机交互病理万能助手 OmniPT 应用平台
前沿领域探索:从癌症诊断到肿瘤标志物挖掘
OmniPT 目前已在癌症分型、分级、血管及神经侵犯识别、预后标志物发现等多项核心任务中取得突破性进展。在肿瘤病理诊断中,OmniPT 可精准识别肿瘤微环境的各种细胞及组织,并进行精细化分析。
基于此,OmniPT 衍生出了预后分析能力,能够在多个癌种上达到 80~90% 预后精准预测,并从病理表型层面智能化挖掘预后关联多个新型标志物,有效辅助临床个体化治疗。
实验数据显示,OmniPT 的整体性能显著优于目前国际上发布的主流病理模型,为复杂病理诊断分析、肿瘤预后标志物挖掘提供了可靠的智能化解决方案。
总结而言,人机交互 AI 病理万能助手围绕可信性、实时性、精准性等临床痛点需求取得的核心技术创新,推动人机交互 AI 在病理临床实践场景从 0 到 1 的突破。研发团队积极开源共享研发核心技术,促进领域协同合作发展,提升我国 AI 智慧病理国际竞争力。
未来愿景:构建智能化病理生态
数据质控负责人张秀明医生表示:「高质量病理数据是 OmniPT 构建的基石,随着算力规模的提升和更多癌种数据样本的扩充,OmniPT 将在更广泛的临床场景中应用,为病理医生减负的同时,为患者带来更精准和高效的医疗体验。」
依托数字病理人工智能医疗器械临床试验中心,OmniPT 已在浙大一院病理科多个高发病率癌种率先应用,同步在神经病理(如阿尔茨海默病)等重大慢病领域开展结合液体活检、基因组学的多模态转化研究,未来将拓展到更多癌种及非肿瘤疾病中的应用。
进一步地,通过结合底层数字病理扫描设备以及病理远程诊断场景,OmniPT 将成为病理科高效、精准诊断智能助手,加快推动 AI 技术在真实临床场景应用建设进程。
....
#ReconDreamer
世界模型进入4D时代!单视角视频构建的自由视角4D世界来了
人工智能技术正以前所未有的速度改变着我们对世界的认知与构建方式。近期,李飞飞教授团队通过单张图片生成三维物理世界的研究,再次向世界展示了空间智能技术的巨大潜力。
单图生成三维世界,不仅让人们能以交互方式探索静态图像,更标志着 AI 在重建与理解物理场景方面迈入全新阶段。
近日,极佳科技、北京大学、理想汽车及中国科学院自动化研究所联合推出 ReconDreamer,实现了自动驾驶场景自由视角重建+生成。正如同李飞飞及其团队在「空间智能」模型中展现的革新一样,ReconDreamer 仅需要单视角输入视频,即可通过同时重建+生成构建逼真的 4D 世界,第一次实现了平移 6 米范围的高精度渲染,推动这一领域从静态跨越至动态,从单点扩展到全域通用。
- 论文链接:https://www.arxiv.org/abs/2411.19548
- 项目主页:https://recondreamer.github.io/
- 代码地址:https://github.com/GigaAI-research/ReconDreamer
- 论文标题:ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration
引言&方法概览
闭环仿真是实现大规模端到端自动驾驶落地的关键步骤,而场景重建是闭环仿真中的重要一步。现有的驾驶场景重建技术,如 NeRF 和 3DGS,受限于训练数据的分布,仅能有效重建与之相似的驾驶环境。这些方法在处理复杂驾驶操作(如变道、加速或减速)时,其重建效果往往不尽人意,尤其是在面对大幅变化的相机视角时表现欠佳。
由极佳科技领衔的 DriveDreamer4D 工作,通过利用预训练的世界模型扩展相机视角,一定程度上缓解了这些问题,但在大范围视野变化的渲染下仍有局限性。相比之下,ReconDreamer 则通过训练世界模型来减少传统三维重建算法中的伪影,并引入了一种渐进式的修复策略,确保在大幅度相机运动下的高质量渲染。
如下图所示,ReconDreamer 相较于 DriveDreamer4D 和 Street Gaussians,在大范围相机运动下展现了显著更优的渲染质量,不仅提升了驾驶前景(如车辆)和背景(如车道线)的时空一致性,还大大增强了动态驾驶场景中闭环仿真的精度和可靠性,为端到端自动驾驶系统的开发和测试提供了更为逼真和可靠的环境。

ReconDreamer 的整体框架如下图所示,首先用传统方法如 Street Gaussians 进行场景重建,然后采样新轨迹并进行渲染,为了消除渲染视频中的伪影和缺陷,创新性地利用视频生成世界模型 DriveRestorer 进行视频修复,然后将这些恢复的视频与原始视频一起用于优化重建模型。ReconDreamer 还提出了渐进式数据更新策略,从小位移渲染开始修复,逐步扩展到大范围渲染的修复,这个迭代过程会持续进行直到重建模型收敛为止。

为了训练 DriveRestorer,需要构建驾驶视频修复数据集。其构建过程如左下图所示,本文使用原始轨迹的 GT 视频来训练一个欠拟合的 3DGS 模型,并在 3DGS 训练过程中渲染低质量视频。这些低质量视频与它们对应的 GT 视频配对,形成了修复数据集。在训练过程中还利用 mask 让网络加强对天空、远处区域的关注。如右下图所示为修复数据集 pair 的可视化。

经过训练后,DriveRestorer 可以修复低质量视频,如下视频所示,左下角为修复前视频,右下角为修复后视频。
,时长00:02
此外,ReconDreamer 还提出了一种渐进式修复策略,其算法流程图如下所示,通过逐渐扩大渲染视角范围来逐步更新训练数据,以提升大范围相机运动时的渲染质量。

实验结果
在实验中,如下视频所示,可以看出当前最先进的三维重建算法 Street Gaussians 在大范围相机变换视角时(例如平移 6 米)渲染质量不佳,其车道线、天空、车辆都会模糊,甚至出现 “鬼影” 现象。而 ReconDreamer 可以提升复杂变道场景下的视频渲染效果,不仅消除了 “鬼影”,而且提升了交通元素的渲染质量,车辆和车道线都更加清晰。
,时长00:04
,时长00:04
,时长00:04
此外,ReconDreamer 可以实现大范围自由视角的变化渲染,例如 z 字漂移,横跨运镜等渲染操作。
,时长00:07
,时长00:16
在定量实验中,本文证明了 ReconDreamer 在大范围的相机运镜渲染(例如横跨 3 米,横跨 6 米,变道)等场景下,可以显著超越传统三维重建算法的性能,尤其是提升车辆和车道线渲染的时空一致性。

不仅如此,与最近的 DriveDreamer4D 相比,ReconDreamer 所提出的渐进式修复方案可以在大范围相机运镜下显著提升渲染性能,其对比结果如下所示。

此外,本文还通过 user study 证明用户更加偏好 ReconDreamer 的渲染效果,获得了超过 95% 的投票率。

总结
本项 ReconDreamer 工作是极佳科技研究团队之前 DriveDreamer、DriveDreamer-2 和 DriveDreamer4D 工作的延续。
DriveDreamer 是首个面向真实驾驶场景的世界模型,可以根据不同的控制条件生成自动驾驶周视视频,有效提升了 BEV 感知的性能;DriveDreamer-2 在此基础上,引入大语言模型,可以生成用户自定义的驾驶数据,进一步提升了长尾和 corner case 场景下的数据生成能力。针对端到端自动驾驶和闭环仿真对于场景重建的迫切需求,DriveDreamer4D 利用 DriveDreamer 系列工作的能力,用以生成新轨迹视频(例如变道、加减速),从而大幅提升了多种 4DGS 算法的重建效果。
ReconDreamer 则是通过训练世界模型 DriveDreamer-2 让其具备视频修复能力,再通过渐进式修复方案进一步提升了大范围视角变化时的渲染效果。
团队介绍
本篇论文的牵头完成单位为极佳科技,是一家空间智能公司,致力于将视频生成提升到 4D 世界模型,赋予 AI 大模型对于 4D 空间的理解、生成、常识和推理的能力,实现 4D 空间中的交互和行动,走向通用空间智能。通用空间智能对于影视游戏、元宇宙等虚拟空间的内容创作,以及自动驾驶、以及以太智联whao、xx智能等物理空间的数据生成和认知推理能力,都有巨大的价值和作用。极佳科技是国内最早开始探索和布局世界模型和空间智能方向的公司,在物理空间和虚拟空间两方面都已取得显著的技术和商业进展,获得了行业广泛的认可。
....
#视觉思考模型k1
Kimi又上新!抢先实测视觉思考模型k1,甚至比o1更聪明
用强化学习,改变大模型技术范式。
国产大模型,正在引领 AI 技术新方向。
今天上午,月之暗面 Kimi 正式发布了视觉思考模型 k1,并已经上线了最新版的网页版以及安卓和 iOS APP。用户只需要在对话框中输入 @,然后选择「Kimi 视觉思考版」即可开始自己的 AI 视觉推理之旅。这是继上个月 k0-math 发布之后,Kimi 在推理模型上跨出的又一大步。
它是 Kimi 的首个视觉思考模型,在 k0-math 的基础上,k1 的推理能力不仅大大提升,还突破了数学题的范围,进入了更广阔的天地。
据介绍,k1 模型基于强化学习技术打造,原生支持端到端图像理解和思维链技术,并将能力扩展到数学之外的更多基础科学领域。在数学、物理、化学等基础科学学科的基准能力测试中,初代 k1 模型的表现超过了全球标杆模型 OpenAI o1、GPT-4o 以及 Claude 3.5 Sonnet。

此外,k1 的图像理解能力还可以解决之前 kimi 数学推理模型 k0-math 无法解决的许多几何图形问题。在基础教育各阶段的几何和图形题专项基准能力测试中,k1-preview 成绩打平或超过了 OpenAl 的 o1 模型。

除了推理能力大幅提升,k1 的强大视觉能力也值得称道。它可以识别各种真实的拍题场景,处理各种复杂的状况,比如照片图像不清晰、多题一起拍、手写字迹干扰,甚至纯手写的题目。

更重要的是,k1 的强大推理能力与视觉能力还以一种端到端的方式组合到了一起,这意味着我们可以直接理解用户输入的图片信息并进行深度推理,而不像之前的多阶段方法那样容易出现信息丢失的问题。
这种视觉能力和推理能力的端到端有机结合范式带来了显著的收益,让 k1 在真实应用场景中的性能相比于 OpenAl 和 Anthropic 的视觉模型有了大幅提升:在仿真环境中的初级和高级的数学、物理、化学题目上,k1 的最低正确度分数(38.7 / 高级物理)也显著高于 OpenAl 和 Anthropic 的视觉模型的最高分数(32.0 / 高级化学)。

此外,k1 还展现出了其它一些涌现能力,包括古代文献分析、梗图理解、基于照片推断地点等等。这些涌现能力大大提升了 k1 在日常生活中的实用性。
k1 的分数表现着实不错,实际表现如何呢?下面我们直接略过官方示例,亲自动手检验一下 k1 的真实世界能力。
从做题到梗图理解:
k1 将强大视觉推理带入日常生活
现在,我们在最新版手机 APP 或网页版 Kimi+ 页面上找到「Kimi 视觉思考版」,即可拍照或传图体验。
Round1: 数学题
我们在网上找到了一个手写的高中数学题来检验 Kimi k1 的视觉和数学推理能力。

图源:YouTube 题中说题
龙飞凤舞的手写题目让 k1 「费了些功夫」,不过最终还是得到了正确答案:

有意思的是,k1 在解答这个数学题的过程中还展现出了一定的反思能力。

Round2: 物理题
我们又找了一道高一物理题。正确答案选 C。

k1 不仅可以用正确的方式完成任务,还完整展示了推理思维链 CoT,让我们不只看到答题结果,也能完整看到模型思索答案的全过程。
Round3:辅助学习化学
测了数学和物理题,化学自然也不能错过。这一次我们不暗示任何背景信息,直接给出图示,看看 k1 的表现如何。

结果可以说是有点惊喜了。
k1 不仅很快分析指出这是一个化学反应的图示,而且还详细地说明了该装置的具体实验目的以及图片中各种器皿和化学物质的作用。而且对于我们的进一步追问:「如果将稀盐酸换成稀硫酸会发生什么?」k1 也给出了超出预期的解答 —— 它不仅说明了反应过程和化学方程式,还指出了生成的硫酸钙可能阻碍反应充分完成的问题及相关原因。
我们还进行一些稀奇古怪的测试。比如让它识别不熟悉的瓜果蔬菜、解读看不懂的梗图以及分析古代文献等。
Round4: 不熟悉的水果
下图展示的奇葩水果名为刺角瓜,又被称为非洲角瓜、火参果等。

把它「喂」给 k1 进行识别。k1 很快就判断出这是非洲角瓜,但又经过一番反思,推翻之前的答案,最终猜出是火参果。

火参果和非洲角瓜本是同一种水果的不同称呼,因此我们继续提问:火参果是非洲角瓜吗?
这次,k1 经过 6 步推理和验证,终于给出正确答案。

Round5: 看不懂的梗图
当初苹果推出 iPhone16 时,网友拿这张梗图来嘲讽苹果创新「挤牙膏」,iPhone16 和 iPhone15 几乎没啥太大的区别。

k1 揣摩了这张梗图背后的各种幽默元素,比如讽刺那些总是追求最新产品的人,即使这些新产品并不总是有显著的改进;每年新产品发布时的代际差异;调侃人们对于品牌和型号的过度关注等。

对于微妙的谐音和双关语梗,k1 也能相当出色地把握。

k1 准确地理解了这张图背后多层趣味,比如通常推崇简朴的僧人在喝与现代性密切关联的咖啡所形成的反差感、咖啡因来自咖啡果以及佛教因果观的微妙联系。

Round6:古代文献分析
此外,Kimi 官方还展示了一个非常有趣的涌现能力,即能够识别和分析古老的科学手稿。官方的示例中,k1 成功分析出了一份出自伽利略之手的手稿。我们在这里找了一张《天工开物》中的图片,再次检验了它的这个能力。

此外,我们还让其做了进一步的原理解析。
实测下来,我们发现,k1 的整体表现确实超出了我们的预期。另外,如果明确指示 k1「一步步地」执行分析或推理,k1 往往能够发挥自己的更大实力。感兴趣的用户在实际使用时可不要忘记这个小技巧。
大模型的下个方向:
强化学习 Scaling
当前的 AI 领域中,有关大模型「Scaling Laws 终结」的观点正在兴起。上周五,OpenAI 前首席科学家 Ilya Sutskever 又喊出「预训练即将终结,互联网中的数据已被利用殆尽」,引发了人们的关注和思考。
大模型的未来应该走哪个方向?现在或许已经到了不得不做抉择的分叉口。

在月之暗面看来,规模的扩展是支撑 AI 技术在过去几年里发展的重要因素,但 Scaling 并不只意味着模型的体量,现阶段应该寻找新的有效扩展方向。
月之暗面选择的方向是基于强化学习来扩展。如果说大模型基本的预测下一 token 方式具有一定的局限性,只基于静态数据集无法探索较复杂的任务,那么加入强化学习的预测则可以在思考过程中生成更多数据,并实现思考能力的提升。
从模型训练的角度看,k1 视觉思考模型的训练分为两个阶段:先通过预训练得到基础模型,再在基础模型上进行强化学习后训练。在强化学习规模化(scaling)上取得的突破,是 k1 取得行业领先成绩的关键原因。
在数学这样的场景中,新形态的 AI 模型可以通过不断试错验证「积累经验」,在不用和外界交互的情况下锻炼思考能力。就像人类在遇到难题时,先分析问题、探索不同的解决方案、尝试各种方案、反思,不断改进策略的方式一样,基于强化学习技术的新一代模型,通过激励模型生成更详细的推理步骤,可以形成高质量的思维链 CoT,显著提升了解决更复杂、更难任务的成功率。
基于强化学习的「思考模型」,未来或许还能给我们带来更加强大的交互体验。
....
#从o1-mini到DeepSeek-R1
读懂推理模型的历史与技术
自 OpenAI 发布 o1-mini 模型以来,推理模型就一直是 AI 社区的热门话题,而春节前面世的开放式推理模型 DeepSeek-R1 更是让推理模型的热度达到了前所未有的高峰。
近日,Netflix 资深研究科学家 Cameron R. Wolfe 发布了一篇题为「揭秘推理模型」的深度长文,详细梳理了自 o1-mini 开始至今的推理模型发展史,并详细介绍了让标准 LLM 变成推理模型的具体技术和方法。
编译了这篇文章以飨读者,同时我们还在文末梳理了 17 篇我们之前发布的与推理模型相关的文章一并奉上。
原文地址:https://cameronrwolfe.substack.com/p/demystifying-reasoning-models
前些年,大型语言模型(LLM)已经形成了相对固定的流程。
首先,在来自互联网的原始文本数据上预训练语言模型。之后,对齐这些模型,也就是让它们的输出更符合人类的偏好,这会用到监督微调(SFT)和基于人类反馈的强化学习(RLHF)等技术。
不管是预训练还是对齐,都对模型质量至关重要,但驱动这一范式发展的大部分动力却来自 Scaling Law—— 使用更多数据训练更大的模型,就能得到更好的结果。

标准 LLM 的训练流程
近段时间,LLM 研究中出现了一个全新的范式:推理。与标准 LLM 相比,推理模型解决问题的方式完全不同。特别是,它们在提供问题的最终答案之前会花费一些时间「思考」。训练能够有效思考(例如,分解问题、检测思维中的错误、探索替代解决方案等)的模型需要新的策略,通常涉及大规模强化学习(RL)。此外,此类模型还会为通过强化学习和推理进行训练的范式涌现出新的 Scaling Law。

来自 [4]
本文将介绍有关推理模型的最新进展的更多信息。首先,我们将重点介绍 OpenAI 最早提出的几种(封闭式)推理模型。我们将在上下文中解释 LLM 推理能力的基本思想。之后,我们将探索最近提出的(开放式)推理模型,概述从头开始创建此类模型的必要细节。推理模型与标准 LLM 不同。但不用担心。LLM 的许多关键概念仍然适用于推理模型。我们将在整个过程中澄清它们之间的重要区别。
推理时代
就在 AI 发展看起来要放缓之际,推理模型开始普及,LLM 的能力开始陡然提升。OpenAI 首先发布了 o1-preview [4],随后是一系列蒸馏版(更小)模型,包括 o1-mini 以及 o3 的一些变体版本。其它公司也纷纷跟进,包括谷歌的 Gemini 2.0 Flash Thinking。这一节将探讨这些最早的封闭式推理模型及其工作原理背后的基本思想。
最早的推理模型:o1 和 o1-mini
OpenAI 发布 o1-preview [4, 5] 时明确了两件事:
- 推理模型可以非常准确地解决可验证的任务,比如数学和编程任务。
- 推理模型解决这些问题的方法与传统 LLM 的方法截然不同。
长思维链。推理模型与标准 LLM 的主要区别在于在回答问题之前会进行「思考」。推理模型的思考就是 LLM 输出的长思维链(有时也被称为推理迹线或轨迹)。长思维链的生成方式与任何其他文本序列无异。然而,这些推理轨迹表现出了非常有趣的特性 —— 它们更类似于搜索算法而不是原始文本生成。举个例子,推理模型可能会:
- 仔细考虑复杂问题的每个部分。
- 将复杂问题分解为更小的可解决部分。
- 批评其自身的(部分)解决方案并发现错误。
- 探索许多替代解决方案。
有关这些推理轨迹的一些具体示例,请参阅 OpenAI 博客:https://openai.com/index/learning-to-reason-with-llms/
值得注意的是,OpenAI 推理模型使用的长思维链隐藏在其内部,这意味着在与模型交互时,用户看不见它们。用户只能看到模型编写的长思维链摘要,如下所示:

推理模型的长思维链输出为我们提供了一种控制 LLM 推理时间计算的简单方法。如果我们想花费更多计算来解决问题,我们可以简单地生成更长的思维链。同样,不太复杂的问题可以用较短的思维链解决,从而节省推理时间的计算。
推理能力。最初的推理模型实际上在许多方面都不如标准 LLM,但它们将 LLM 的推理能力提高了几个数量级。例如,o1-preview 的推理表现总是优于 GPT-4o,甚至在大多数复杂推理任务上能与人类专家的表现相媲美。为了实现这些结果,o1-preview 使用最大化的推理时间计算以及 i) 单个输出样本(柱状图主干)或 ii) 64 个并行输出样本中的多数投票(柱状图增高部分)进行评估。

o1 系列模型与 GPT-4o 在多个推理任务上的比较,来自 [5]
o1-preview 之后,OpenAI 的 o1(preview 发布几个月后发布的 o1 的完整版本)在美国数学奥林匹克资格考试(AIME 2024)中名列前 500 名,在 Codeforces 上排名在竞赛人类程序员的第 11 个百分位之内。作为参考,GPT-4o 仅解决了 12% 的 AIME 问题,而 o1 解决了 74% 到 93% 的问题,具体取决于推理设置。有关 o1 和 GPT-4o 性能的更详细比较,请参见下图。

o1 明显优于 GPT-4o(来自 [5])
同样,o1-mini(o1 的更便宜、更快的版本)也具有令人印象深刻的推理能力,不过相比于完整版 o1 模型,其成本降低了 80%。虽然与 o1 相比,o1-mini 的世界知识有限,但它在编程任务方面尤其出色,而且考虑到其效率,其表现非常出色。
当前最佳的推理模型:o3 和 o3-mini

OpenAI o3 在 ARC-AGI 上的性能
在宣布和发布 o1 模型后不久,OpenAI 宣布了 o3——o1 系列中最新的模型。这个模型最初只是宣布(未发布)。我们能够在几个值得注意的基准上看到该模型的性能(由 OpenAI 测量),但实际上无法使用该模型。OpenAI 发布的指标非常惊人。事实上,o3 的表现让很多人感到震惊。o3 最显著的成就是:
- 在 ARC-AGI 基准测试中得分为 87.5%——AGI 的「北极星」,五年来一直保持不败 ——GPT-4o 的准确率为 5%。o3 是第一个在 ARC-AGI 上超过人类水平 85% 的模型。
- 在 SWE-Bench Verified 上的准确率为 71.7%,在 Codeforces 上的 Elo 得分为 2727,使 o3 跻身全球前 200 名竞争性程序员之列。
- 在 EpochAI 的 FrontierMath 基准测试中的准确率为 25.2%,相比之前最佳的 2.0% 的准确率大幅提高。
然而,公众无法访问 o3 模型来验证任何这些结果。在撰写本文时,完整的 o3 模型仍未发布,但 OpenAI 最近发布了该模型的较小版本 ——o3-mini [6]。
与 OpenAI 的其他推理模型相比,o3-mini 更具成本效益且更易于投入生产。例如,此模型支持函数调用、Web 搜索和结构化输出等功能。o3-mini 还具有多种设置,包括 low、medium 和 high,这指定了用于解决问题时执行的推理量。此设置可以直接在 API 请求中指定,并且该模型的表现非常惊人 —— 在许多情况下与 o1 相当,具体取决于推理工作量的级别。

o3-mini 性能详情(来自 [6])
在大多数情况下,推理工作量 low 的 o3-mini 与 o1-mini 的性能相当,而推理工作量 high 的 o3-mini 的性能则超过 OpenAI 发布的所有其他推理模型(包括完整版 o1 模型)。
与之前的推理模型相比,o3-mini 还具有更好的世界知识(即提高了事实性),效率明显更高,并且在人类偏好研究中得分更高。特别是,[6] 中提到,在内部 A/B 测试期间,「o3-mini 的响应速度比 o1-mini 快 24%,平均响应时间为 7.7 秒,而 o3-mini 为 10.16 秒。」o3-mini 是 OpenAI 的 o1 式推理模型中(迄今为止)发布的最高效的模型。

o3-mini 与 o1-mini 在 STEM / 非 STEM 提示词上的胜率(来自 [6])
其它模型提供方。OpenAI 发布 o1 式模型后,其他模型提供方也迅速跟进。例如,谷歌最近发布了实验性的 Gemini-2.0 Flash Thinking,它保留了 Gemini 模型的标志性长上下文 ——1M token 上下文窗口,并在关键可验证任务(例如 AIME 和 GPQA)上取得了可观的指标。然而,这个模型的性能仍然落后于 o1 和 o3-mini。

最近,Grok-3 的推理测试版发布,非常引人注目。如下所示,Grok-3 推理模型在 high 推理工作量下超过了 o3-mini 的性能,甚至在少数情况下接近完整的 o3 模型;例如,AIME'24 的准确率为 96%,而 o3 的准确率为 97%。使用大型新计算集群进行训练的 Grok-3 令人印象深刻(尤其是考虑到 xAI 的年轻)。在撰写本文时,Grok-3 的推理测试版是与 OpenAI 推理模型最接近的竞争对手。

推理模型的基准
在进一步了解推理模型的工作原理之前,让我们更深入地了解它们的性能。要真正了解这些模型的能力,我们需要做的不仅仅是查看指标 —— 我们需要检查这些模型正在解决的问题的具体示例。例如,考虑 GSM8K(如下所示),这是一个小学水平的数学基准。这些问题可能看起来微不足道,但 LLM 们多年来一直在努力准确地解决这个基准。

GSM8K 中的示例问题
随着推理模型的出现,这个基准已经完全饱和 —— 我们不再能用它来有意义地评估最佳推理模型。相反,我们开始用 LLM 解决更难的问题。

AIME 2024 中的示例问题
例如,考虑 AIME 2024 中的第 15 个问题,如上所示。这个问题相当复杂,超过了 GSM8K 中的算术推理问题。有(至少)六种不同的方法可以解决这个问题,所有这些方法都需要掌握高级数学技巧(例如导数、数论或拉格朗日乘数)。
此外,推理模型正在解决的复杂基准还不仅仅是数学!例如,GPQA [7] 包含来自多个科学领域的数百道多项选择题;例如,生物学、物理学和化学。所有这些问题都是由领域专家编写的,经过验证,它们既非常困难,又无法通过互联网搜索找到答案,这意味着即使有足够的时间和不受限制的互联网访问,非专家也很难解决这些问题。
「我们确保这些问题是高质量且极其困难的:拥有或正在攻读相应领域博士学位的专家的准确率达到 65%,而技能娴熟的非专家验证者准确率仅为 34%,并且他们即便可以不受限制地访问网络,也平均花费了超过 30 分钟的时间。」 - 来自 [7]
ARC-AGI 基准 —— 被描述为「迈向 AGI 的重要垫脚石」—— 涉及各种基于网格的谜题,其中 LLM 必须在输入输出网格中学习模式,并在最终输出示例中完美复制这种学习到的模式。大多数 LLM 都很难解决这些难题(例如,GPT-4o 的准确率仅为 5%),但推理模型在这个基准上表现相当不错 —— 准确率可达 30-90%,具体取决于计算预算。

至少可以说,这些是推理 LLM 开始解决的不同级别的(非平凡)问题。尽管这些基准测试难度很大,但现代推理模型的能力也很强 —— 据报道,OpenAI 的 o3 模型在 AIME 2024 上取得了近 97% 的分数。在人工检查其中一些问题后,我们可以真正理解这个结果的重要性。
推理模型基础
虽然上面介绍的推理模型显然令人印象深刻,但都是封闭模型。因此,我们不知道它们实际上是如何工作的。我们得到的唯一信息是上面的引文和如下所示的图表。

(来自 [5])
然而,从这些有限的信息中,我们可以得出一些有用的结论。主要而言,扩展推理模型涉及两个关键组件:
- 通过强化学习进行更多训练。
- 更多推理时间计算(即推理时间扩展)。
尽管 OpenAI 并未透露扩展推理模型这两个组件的方法背后的许多细节,但仍有大量关于此主题的研究发表。为了提供更多背景信息,让我们简要介绍一下其中一些工作,加上 OpenAI 分享的细节,可以让我们大致了解推理模型训练和使用的一些关键概念。
具有可验证奖励的强化学习
关于 o1 式模型,我们应该注意到的一个细节是,它们主要用于本质上可验证的问题并根据这些问题进行评估;例如数学和编程。但是,在这种情况下,「可验证(verifiable)」到底是什么意思?
首先,我们假设我们可以获取 i)问题的基本答案或 ii)可用于验证正确性的某些基于规则的技术。

通过精确字符串匹配验证数学问题
例如,我们可以为大多数数学问题定义一个基本答案 —— 在 GSM8K 中,这是使用 #### <answer> 语法完成的。然后,我们可以从 LLM 的输出中提取最终答案,并使用基本字符串匹配将此答案与 ground truth 答案进行比较;见上图。类似地,如果我们为编程问题准备了测试用例,我们可以简单地执行由 LLM 生成的代码并检查提供的解决方案是否满足所有测试用例。
「可验证奖励的强化学习(RLVR)可以看作是现有引导语言模型推理方法的简化形式或具有执行反馈的更简单形式的强化学习,其中我们只需使用答案匹配或约束验证作为二进制信号来训练模型。」 - 来自 [13]
说一个领域是「可验证的」并不意味着我们可以自动验证该领域问题的任意解决方案。相反,我们经常需要访问 ground truth 答案(通常从人类那里获得)进行验证。
但是,有些行为可以使用简单规则而不是 ground truth 来验证。例如,我们可以使用一组硬编码规则执行简单检查来确定推理模型是否具有正确的输出格式、是否遵循某些指令或是否产生特定长度的输出(例如,o3-mini 使用的 low、medium 或 high 推理工作量)。
验证复杂性。根据我们正在解决的问题,验证 LLM 的输出可能会变得非常复杂。即使对于数学问题,验证 LLM 的答案与基本事实之间的匹配也很困难。例如,解答可能以不同的形式或格式呈现,从而导致假阴性验证。在这些情况下,简单的字符串匹配可能还不够!相反,我们可以提示 LLM,让其告诉我们这两个解是否匹配,这已被发现可以大大减少不正确的验证 [14]。对于代码,实现验证也很困难 —— 它需要构建一个数据管道,并且其要非常有效地在训练设置中执行和验证测试用例。
神经验证。除了上面概述的可验证问题之外,我们还可以考虑较弱的验证形式。例如,创意写作是一项难以验证的任务。但是,我们可以:
- 训练神经奖励模型或验证器。
- 使用此模型对 LLM 输出进行评分。
- 使用预测分数作为奖励或验证信号。
这样的设置与基于人类反馈的强化学习(RLHF)非常相似。在这种情况下,会训练奖励模型根据模型响应的正确性或质量执行二元验证。但是,使用神经验证器会有奖励 hacking 的风险,尤其是在执行大规模强化学习时。模型的训练时间更长,并且会对奖励图景进行更多探索,从而增加了奖励 hacking 的风险。因此,许多最近的推理模型都避开了这种方法。
「我们在开发 DeepSeek-R1-Zero 时没有应用神经奖励模型,因为我们发现神经奖励模型在大规模强化学习过程中可能会受到奖励 hacking 攻击的影响,而重新训练奖励模型需要额外的训练资源,这会使整个训练流程变得复杂。」 - 来自 [1]
用可验证的奖励学习。我们现在了解了验证,但如何使用验证来训练 LLM?思路很简单:直接将验证结果用作使用强化学习进行训练的奖励信号。有很多不同的方法可以实现这个思路(例如,过程奖励或纯强化学习),但它们的共同主题是使用强化学习根据可验证的奖励学习。这是所有现代推理模型根基的基本概念。

(来自 [13])
对于使用强化学习从可验证的奖励中学习的方法,可以参考 Sasha Rush 的这个视频:https://youtu.be/6PEJ96k1kiw
推理时间策略:思路链和解码
我们可以通过两种基本方法来增加语言模型在推理时消耗的计算量:
- 生成更多 token(即更长的输出序列)。
- 生成多个输出。
在本节中,我们将更详细地介绍这些技术,探索如何通过思维链和不同的解码策略(如并行解码与顺序解码)在 LLM 中实际实现它们。

(来自 [8])
思维链。我们已经知道推理模型使用长思维链作为推理媒介。在 [8] 中提出,最简单的层面上,思维链只是 LLM 为其自身输出提供的一种解释。在大多数情况下,这些解释是在 LLM 生成最终答案之前编写的,允许模型在生成答案时将其解释用作上下文。
推理模型使用的长思维链与标准思维链有很大不同。标准思维链简洁易读。长思维链有几千个 token。虽然它可以用于解释模型,但长思维链并未针对人类可读性进行优化。相反,它是一种宽泛的推理轨迹,以详细的方式解决问题,并包含各种复杂的推理行为(例如,回溯和自我优化)。
「我们决定不向用户展示原始的思维链…… 我们努力通过教导模型从答案中的思维链中重现有用的想法来部分弥补 [这一决定]。对于 o1 模型系列,我们会展示模型生成的思维链摘要。」 - 来自 [5]
此外,推理模型会在逻辑上将其思维链与模型的最终输出分开。例如,OpenAI 不会向用户展示长思维链,而是提供 LLM 生成的长思维链摘要来补充推理模型的最终答案。由于思维链的长度,这种逻辑分离是有必要的。大多数用户只会阅读最终答案 —— 阅读整个推理轨迹将非常耗时。

(来自 [15])
并行解码。为了提高 LLM 最终输出的准确性,我们还可以使用并行解码技术。思路很简单:不使用 LLM 生成单个输出,而是生成多个输出并聚合这些输出以形成单个最终答案。这种聚合可以通过多种方式完成;例如,使用多数投票或共识、使用加权投票、使用神经奖励模型或验证器(即也称为 Best-of-N 或拒绝采样)或其他特定领域算法找到最佳输出。
这些方法的主要好处是简单又有效。并行解码很容易扩展:我们只需生成、验证和聚合大量输出,就能得到有意义的性能提升 [9, 10, 11]。o1 式模型显然使用了并行解码技术 —— 只需查看其博客中提供的图表细节(如下所示)!但是,并行解码技术本身无法解释最近发布的推理模型所表现出的一些更复杂的推理行为。

(来自 [5])
顺便说一句,我们还可以将拒绝采样的思想应用于训练(即训练与测试时间拒绝采样)。为此,我们只需:
- 采样几个输出或轨迹。
- 使用奖励模型(或其他评分机制)选择最佳输出。
- 使用这些输出进行训练。
在实践中,这种方法很常用;例如,LLaMA 模型在应用 RLHF 之前,会在其后训练过程中执行几轮训练时间拒绝采样。拒绝采样在实践中非常有效,与基于 PPO 的 RLHF 相比,它更容易实现和扩展。
自我优化。除了并行解码之外,还可以考虑为解码采用批评或自我优化策略。首先,LLM 生成初始响应。然后,为响应提供反馈(来自 LLM 或某些外部来源),LLM 可以根据反馈修改其响应。此循环可以重复任意次数;参见下图。

(来自 [15])
目前已有不同的优化方法,但它们可以大致分为两类:
- 外部式:反馈来自某些外部验证器或模块。
- 内部式:LLM 为其自身生成提供反馈。
优化的结果和实际效果有些复杂。有许多使用外部反馈(例如来自验证器 [16] 或代码解释器 [17])来优化 LLM 输出的成功案例。内部优化是否有效在很大程度上取决于 LLM 提供的反馈质量。内部优化可以很好地完成简单任务 [18]。然而,这种方法很难泛化到更复杂的任务(例如数学)[19]。
开放式推理模型:DeepSeek-R1 等
到目前为止,我们已经了解了 LLM 获得推理能力的基本概念。然而,我们所了解的所有模型都是封闭的 —— 我们无法知道这些模型究竟是如何创建的。幸运的是,最近发布了几个开放式推理模型。这些模型中最引人注目的是 DeepSeek-R1 [1]。除了与 OpenAI o1 相媲美的性能外,该模型还附带了一份完整的技术报告,其中提供了足够的细节,因此完全揭开了创建强大推理模型所需过程的神秘面纱。

(来自 [1])
DeepSeek-R1 背后的核心思想与我们迄今为止学到的知识非常吻合。该模型在可验证任务上使用强化学习进行训练,它学习利用长思维链来解决复杂的推理问题。有趣的是,强化学习训练过程是该模型强大推理能力的关键因素。该模型的多个版本 ——DeepSeek-R1-Zero 和 DeepSeek-R1—— 都已发布,具有相当的推理能力。正如我们将看到的,它是这类模型中第一个完全放弃了任何监督训练的模型,表明复杂的推理能力可自然地从使用强化学习的大规模训练中涌现。
「DeepSeek-R1-Zero 是一种通过大规模强化学习(RL)训练的模型,没有监督微调(SFT)作为初步步骤,它展示了非凡的推理能力。通过强化学习,DeepSeek-R1-Zero 自然地涌现出了许多强大而有趣的推理行为。」 - 来自 [1]
DeepSeek-v3。DeepSeek-R1-Zero 和 DeepSeek-R1 都始于一个强大的基础模型:DeepSeek-v3 [2]。除了具有开放权重和详细的技术报告 [2] 之外,该模型还超越了之前的开放 LLM 的性能,甚至与封闭模型的质量相当。

(来自 [2])
DeepSeek-v3 是一个 6710 亿参数的混合专家(MoE)模型。如果你不熟悉 MoE,可以参看博主的这篇长文解析,其中解释了 MoE 概念并提供了几个实例,包括 DeepSeek-v3:https://cameronrwolfe.substack.com/p/moe-llms
为了提高推理和训练效率,DeepSeek-v3 做出了以下设计选择:
- 使用多头隐注意力(MLA)。
- 采用优化的 MoE 结构(例如,细粒度和共享专家)。
- 在预训练期间使用多 token 预测目标。
- 放弃通常用于训练 MoE 模型的负载平衡损失。
- 通过采用 [2] 中提出的新型量化训练策略,在整个训练过程中将精度降低到 FP8。
出于这些原因,与其他模型相比,DeepSeek-v3 的训练非常经济:该模型在性能和效率方面都表现出色。该模型的几个先前版本已经发布,这些版本启发了 DeepSeek-v3 做出的一些设计决策,例如 DeepSeek-v2 和 DeepSeek-v2.5。
DeepSeek-R1-Zero
DeepSeek 提出的第一个推理模型是 DeepSeek-R1-Zero。该模型采用了一种有趣的训练策略,即教模型纯粹通过大规模强化学习进行推理,而无需任何 SFT。该模型会自然探索并学习利用长思维链通过强化学习解决复杂的推理问题。DeepSeek-R1-Zero 是第一个公开的研究成果,表明无需监督训练即可开发推理能力。

(来自 [22])
使用 GRPO 的强化学习。DeepSeek-R1-Zero 的训练从 DeepSeek-v3 [2] 基础模型开始。他们是直接通过强化学习微调这个基础模型。特别是,[1] 中的作者选择了上图中所示的组相对策略优化(GRPO)[3] 作为他们的强化学习算法。选择用于 LLM 训练的强化学习算法是一个开放且活跃的研究课题。传统上,研究人员使用 PPO 来训练 LLM,但最近有一种趋势是采用更简单的强化学习算法(例如 REINFORCE 或 GRPO)进行 LLM 训练。[1] 中给出的选择 GRPO 的主要原因是:
- 降低强化学习训练成本。
- 不再需要批评模型,该模型(通常)与策略模型(即 LLM 本身)大小相同。
定义奖励。与大多数使用 LLM 的传统强化学习工作不同,DeepSeek-R1-Zero 不使用神经奖励模型(即基于 LLM 的奖励模型,这些模型通过偏好数据进行训练)。相反,作者使用了基于规则的奖励系统,它 i)避免奖励 hacking,ii)节省计算成本,iii)更易于实现。特别要指出,目前使用的奖励有两种:
- 准确度奖励:评估模型的响应是否正确。
- 格式奖励:强制模型以一定格式输出。
DeepSeek-R1-Zero 完全是在可自动验证的任务上进行训练的,例如数学和编程问题。对于具有确定性结果的数学问题,该模型可以以指定的格式提供答案,使我们能够通过基本的字符串匹配进行验证。同样,可以通过在预定义的测试用例上执行 LLM 在沙箱中生成的代码来验证编程问题。
如前所述,当模型的输出格式正确时,格式奖励会提供积极的训练信号。[1] 中使用的格式只是将模型的长思维链(或思考 / 推理过程)放在两个特殊 token 之间:<think> 和 </think>。然后,在推理过程完成后,模型会在 <answer> 和 </answer> 标签之间单独生成答案;如下所示。

(来自 [1])
通过强化学习进行学习。尽管没有使用 SFT,但 DeepSeek-R1-Zero 在整个强化学习训练过程中的推理能力都有了明显的进步。随着训练的进行,模型在 AIME 2024 上的表现如下图所示。

(来自 [1])
可以看到,模型的性能逐渐提高,最终达到与 o1-preview 相当的水平。训练完成后,DeepSeek-R1-Zero 在 AIME 2024 上的表现从最初的 15.6% 提高到了 71.0%(或在使用 16 票多数投票时为 86.7%)!这样的结果与我们在封闭式推理模型中看到的性能趋势是一致的 ——DeepSeek-R1-Zero 在强化学习训练后实现了令人印象深刻的性能,并且可以通过并行解码策略进一步提高其性能。
下表给出了 DeepSeek-R1-Zero 和 o1 模型之间的完整性能比较。DeepSeek-R1-Zero 在大多数情况下与 o1-mini 的性能相当或超过 o1-mini,并且在几个任务上的表现与 o1-preview 相当。然而,OpenAI 的推理模型在编程领域表现更好 ——DeepSeek-R1-Zero 显然是一个较弱的编程模型。我们很快就会看到,这个问题在 DeepSeek-R1(后续模型)中得到了解决。

(来自 [1])
发生了什么?显然,DeepSeek-R1-Zero 从 [1] 中介绍的强化学习训练过程中获得了出色的推理能力。然而,模型学习过程的动态也相当明显!因为没有进行 SFT 式训练,所以可以在整个强化学习训练过程中密切监控模型推理策略的进展。如下所示,DeepSeek-R1-Zero 学会了利用更多的「思考时间」,即生成越来越长的思维链,从而可以随着训练的进行改进其推理过程。该模型自然学会了利用更多的测试时间计算来解决更难的问题!

(来自 [1])
[1] 的作者还观察到在强化学习训练过程中自然涌现的几种有趣趋势。例如,该模型通过重新审视和评估其推理过程的先前组成部分,发展出反思自身解决方案的能力。同样,该模型在解决问题的过程中开始显式地测试和探索替代解决方案或方法。这种行为不是现实编程在模型中的,而是在强化学习训练过程中自然涌现的!
在最基本的层面上,[1] 中构建的强化学习环境允许模型探索不同的策略来得出正确的(由验证确定的)最终解答。在探索过程中,模型做到以下两点就能获得奖励:
- 使用了正确的推理模板或结构。
- 给出的最终解答是正确的。
仅凭这些奖励,模型就能学会如何解决复杂的推理问题。我们不需要显式地教模型如何分解问题、寻找解决方案、执行回溯或评估自己的思路。相反,我们只需在训练过程中为模型提供正确的激励(或奖励)。然后,LLM 可以通过基于强化学习的「自我进化」过程自主学习解决问题所需的行为。
DeepSeek-R1
DeepSeek-R1-Zero 表明,LLM 可以使用没有 SFT 的纯强化学习获得出色的推理能力,但这个模型有一些小错误。例如,它的可读性很差,并且它会错误地将语言混合在一起。简而言之,DeepSeek-R1-Zero 非常擅长推理,但它缺乏一些已良好对齐的 LLM 的理想属性。为了解决这些问题,[1] 中的作者提出了一种新的多阶段训练过程,将一些「冷启动」 SFT 数据与其他一些技巧整合到了训练中。此训练流程得到的 DeepSeek-R1 是一款既已对齐又能进行复杂推理的 LLM。
与 DeepSeek-R1-Zero 类似,DeepSeek-R1 的基础也是 DeepSeek-v3。然后,DeepSeek-R1 经历四个阶段的训练,包括两个 SFT 阶段和两个强化学习阶段。SFT 阶段的目的是在每个强化学习阶段为探索提供更好的起点。该训练流程是 [1] 的主要贡献之一 :它提供了一种有效的方法,可将推理式训练与 LLM 的标准后训练方法相结合。下面更深入地介绍下 DeepSeek-R1 使用的训练方法的每个阶段。
第一阶段:冷启动(或面向推理的 SFT)。在进行强化学习训练之前,R1 通过 SFT 在一小组长思维链示例数据集上进行训练,[1] 中将其称为「冷启动」数据。我们可以使用几种不同的方法来收集这些冷启动数据:
- 通过提示词调用一个模型(例如 DeepSeek-v3)生成长思维链数据,可以使用少量示例,也可以指示模型生成详细答案并进行反思和验证。
- 使用 R1-Zero 模型生成大量长思维链输出,然后让人类进行后处理并选择模型的最佳输出。
[1] 结合了这些方法,收集了「数千个冷启动数据」。基于这些数据再使用 SFT 对 DeepSeek-V3 直接进行微调。因为这里使用的是长思维链数据,所以这是一个面向推理的微调过程。从这个冷启动数据中,模型可以学习一个可行的(初始)模板来解决推理问题。
用于面向推理的 SFT 的数据可将人类先验引入 DeepSeek-R1 的训练过程。我们可以显式地选择模型在此阶段学习的数据风格和模式。例如,[1] 中提到,他们将这些数据结构化为包含每个长思维链的摘要,从而教会模型在提供最终答案之前总结其整个推理过程。这些数据是强化学习训练过程的种子 —— 模型通过匹配 SFT 训练数据的风格开始自我探索。
第二阶段:面向推理的强化学习。在 SFT 之后,就是重复 R1-Zero 提出的大规模强化学习训练过程了,这是为了增强底层模型处理推理密集型任务的能力。DeepSeek-R1 的唯一变化是增加了语言一致性奖励,其在计算中是作为模型输出中采用所需目标语言编写的部分。[1] 中发现这种语言一致性奖励会略微降低模型的推理能力。但是,语言一致性可提高最终模型与人类偏好的整体对齐程度 —— 模型的输出更加流畅和可读。
第三阶段:拒绝采样。在面向推理的强化学习收敛之后,再使用最终模型来收集大量且多样化的 SFT 数据集。然而,与最初的冷启动 SFT 阶段不同,这里收集的不仅仅是面向推理的数据。也就是说是用通用数据扩充推理数据,以便模型可以从更广泛的问题和领域中学习。
为了收集更多的推理数据,DeepSeek-R1 团队:
- 整编一组多样化的基于推理的提示词。
- 使用第二阶段的模型生成候选轨迹。
- 执行拒绝采样,即根据每个轨迹的质量和正确性过滤并选择最佳轨迹。
这与前文介绍的训练时间拒绝采样过程相同!有趣的是,在这个阶段,不仅仅是依赖基于规则的技术来进行验证。还会通过使用 DeepSeek-v3 作为生成奖励模型或弱验证器来整合来自不可验证域的额外数据。在应用启发式过滤(例如,删除带有多语言混合或长段落的输出)后,他们最终得到了一个包含 60 万个推理轨迹的集合。
此阶段的 SFT 数据集包含大量非推理数据(例如,写作或翻译示例)。这些数据来自 DeepSeek-v3 所用的相同的训练后数据集。但是,通过要求 DeepSeek-v3 生成长思维链来解释复杂查询的输出,这些数据得到了增强 —— 不过,更简单的查询没有任何思维链。最终,他们总共收集了 20 万个非推理示例样本,加起来得到了一个包含 80 万个样本的 SFT 数据集。
第四阶段:通用 RLHF。DeepSeek-R1 最后训练阶段的目标是使模型与人类偏好对齐,同时继续磨练其推理能力。与前一阶段类似,这里会使用基于推理的数据和通用数据的组合来训练模型。具体来说,训练的方法是使用强化学习并针对每种类型的数据使用不同的奖励组合:
- 基于规则的奖励(与 R1-Zero 相同),用于基于推理的问题。
- 针对一般数据使用神经奖励模型 —— 使用人类偏好对进行训练,正如 RLHF 一样。
DeepSeek-R1 经过调整,在通用数据上更有帮助且无害。这是 LLM 研究中使用的两个非常常用的对齐标准。每个标准都使用单独的神经奖励模型进行建模,该模型通过人类偏好的(监督)数据集进行训练。有用性奖励仅针对模型的最终答案进行衡量(即排除长思维链),而无害奖励则考虑模型的整个输出轨迹。通过结合规则和基于偏好的奖励,DeepSeek-R1 可以与人类偏好对齐,同时保持强大的推理性能。

(来自 [1])
它的表现如何?如上所示,R1 在大多数推理任务上的表现与 o1 相当甚至超过 o1。与 R1-Zero 不同,R1 还具有相当强的编程能力。在通用任务上,由于其混合训练管道,R1 继续表现良好。总的来说,R1 是一个非常强大的模型,似乎与 OpenAI 的 o1 不相上下,并且可以高精度地解决各种任务(包括传统任务和推理导向任务)。
关于这个模型(和其他推理模型)的一个有趣的观察是,与标准 LLM 相比,它在指令遵循基准(例如 IF-Eval)上表现不佳。目前,推理模型在遵循指令方面似乎比标准 LLM 更差。在未来,我个人认为这种趋势可能会逆转。理论上,推理模型应该能够利用它们的思维过程来更好地解释和遵循人类用户提供的提示词。例如,审议对齐(deliberative alignment)便采用了类似思想的方法。
SFT 是必要的吗?R1-Zero 展现了在没有 SFT 的情况下训练出强大推理模型的能力,而完整的 R1 模型使用多个 SFT 阶段来获得更强大的最终模型。因此,我们可能会开始怀疑:我们是否应该使用 SFT?

对推理模型来说,SFT 是否有必要?
对于标准 LLM,SFT 为 RLHF 提供了高质量的起点。如果我们将 RLHF 直接应用于基础模型,学习过程的效率就会大大降低。SFT 的数据要么是合成的,要么是人类手动创建的。通常,收集 SFT 的数据是昂贵的(无论是在时间还是金钱方面)—— 我们必须为 LLM 从头开始手动编写一个好的响应!
由于它们的思维链较长,为推理模型收集此类 SFT 数据更加困难。要求人类手动创建长思维链数据将耗时且昂贵!我们唯一的选择是合成这些数据,但是:
- 可能很难使用模型生成这种特定风格的输出。
- 很难正确验证这种长输出。
考虑到为推理模型收集 SFT 数据的额外复杂性,[1] 中的作者首先尝试了完全避开 SFT!从这些实验中,我们看到推理能力自然地从纯强化学习中涌现 —— 这是一个令人难以置信的发现!然而,由此产生的模型有几个缺点(例如混杂使用多种语言)。
而当在强化学习之前执行一些 SFT 训练(即「冷启动」)时,可为强化学习提供更好的先验,这 i)可以消除强化学习训练初始阶段的不稳定性,ii)能加快训练速度,iii)能提高模型质量。因此,SFT 并非完全必要,但如有数据,它仍会很有用!
蒸馏模型

知识蒸馏过程图示
除了 DeepSeek-R1,DeepSeek 还发布了一系列基于 R1 蒸馏得到的密集模型。人们早已发现,蒸馏过程可以显著增强更小、更高效的模型的推理能力。完整版 DeepSeek-R1 是有着 6710 亿参数的混合专家模型,非常大,因此这些蒸馏模型在实践中非常有用 —— 它们的性能与 R1 相当,但成本更低且更易于使用。此外,这些蒸馏模型的发布与封闭推理模型(例如 o1-mini 和 o3-mini)的最新趋势一致。

(来自 [1])
蒸馏 R1。为了创建这些模型,他们首先选择了几种不同大小的 Qwen-2.5 [20] 和 LLaMA-3 [21] 模型。然后,通过 SFT 使用在 DeepSeek-R1 训练流程第三阶段整编的 80 万个监督训练样本对这些基础模型进行训练 —— 就这么简单!
这是一个简单的知识蒸馏流程,但结果却非常惊艳。如上所示,经过蒸馏的 Qwen2.5-14B 模型的表现优于 QwQ-32B-Preview,后者是 R1 发布之前最好的开放式推理模型。此外,即使是最小的蒸馏模型也比未针对推理进行优化的标准封闭式 LLM 表现更好(例如 GPT-4o),而 320 亿和 700 亿参数的蒸馏模型在大多数基准测试中的性能都超过了 o1-mini。
蒸馏与强化学习。虽然我们在上面的讨论中看到蒸馏是有效的,但我们可能想知道:如果将 DeepSeek-R1 使用的大规模强化学习训练过程直接应用于这些较小的模型,那么能获得更好的结果吗?
有趣的是,[1] 中提到,使用上述蒸馏方法基于 R1 蒸馏 Qwen2.5-32B 基础模型比通过大规模强化学习直接训练该模型表现更好,如下所示。

(来自 [1])
换句话说,大型模型发现的推理模式对于提高这些较小、密集模型的推理能力至关重要。但是,[1] 中的作者确实提出了以下补充观点:
- 通过增加强化学习训练,蒸馏模型的性能可能得到进一步提升。
- 「超越智能的边界」,即创建超过 DeepSeek-R1 等模型性能的新推理模型,仍然需要强大的基础模型和大规模的强化学习训练。
其他蒸馏推理模型。鉴于通过蒸馏训练高质量推理模型很简单,研究界在 R1 提出后发布了各种各样的推理模型。其中一些最吸引人的版本是:
- Sky-T1 和 Sky-T1-Flash:https://novasky-ai.github.io/posts/sky-t1/
- Bespoke Stratos:https://www.bespokelabs.ai/blog/bespoke-stratos-the-unreasonable-effectiveness-of-reasoning-distillation
- LIMO:https://arxiv.org/abs/2502.03387
- S1:https://arxiv.org/abs/2501.19393
- RedStar:https://arxiv.org/abs/2501.11284
当然,还不止这些!当前推理模型发布的步伐让人想起了 LLM 研究的后 LLaMA 时代。在发布强大的开放基础模型(即 LLaMA)之后,我们看到了基于该模型的各种模型变体(例如,Alpaca、Vicuna、Koala 等等)。现在,我们可以使用强大的开放推理模型,因为我们看到了非常相似的趋势!该领域的研究非常有趣,值得单独写一篇文章。敬请期待!
主要的新趋势
我们现在已经了解了各种推理模型,从 o1 或 o3 等封闭模型开始,到 DeepSeek-R1 中对这些模型的完整复现。随着我们对这项研究的了解,开始出现了一些共同的趋势。这些趋势对推理模型和标准 LLM 的研究做出了一些重要区分。罗列如下:
长思维链(和推理时间扩展)。推理模型和标准 LLM 之间的关键区别在于它们的输出结构。推理模型不会直接生成最终答案(带有可选的简明解释),而是生成一个较长的思维链,其详细描述了模型的推理过程。这个较长的思维链长度不一,从而在推理时可实现可控的计算成本:较长的思维链 = 更多的 token = 更多的计算。这样,在推理时使用更多的计算(生成较长的思维链)已成为一种工具,可让用户动态调整模型的推理能力。
通过强化学习进行自我进化。显然,LLM 使用较长的思维链执行复杂推理策略的能力是个新方向并且激动人心。从最近的研究中,这些特殊能力发展的关键因素是大规模强化学习训练。我们在 [1] 中看到,如果模型得到正确的激励,这种推理能力就会在强化学习期间自然涌现出来 —— 通常是通过确定性和可靠的基于规则的奖励。此外,我们可以通过使用更多的计算进行强化学习训练来进一步提高模型的推理能力 —— 这是我们可以利用的另一个 Scaling Law!
使用更少的监督。与标准 LLM 相比,推理模型对人类监督的依赖程度较低。特别是,强化学习训练期间的奖励主要来自基于规则的系统,而不是依赖于人类的偏好。当然,推理模型仍然有几个领域依赖于人类的监督;例如,基础模型使用人类整理的数据进行训练,验证依赖于人类提供的 ground truth 标签。然而,像 R1(尤其是 R1-Zero)这样的推理模型仍然在大力发展,证明推理能力可以自主发展起来。
蒸馏是有效的。我们可以基于强大的大型推理模型,使用简单的策略将这些模型的能力蒸馏给更小、更密集的模型!这一发现导致了该领域研究的爆炸式增长,我们很可能会在不久的将来看到更多高效和蒸馏的推理模型发布。该领域的一个关键问题是较小的模型能否泛化,还是说难以完全匹敌其教师模型的广度。
需要解决的新问题。最重要的是,推理模型的出现也带来了各种有趣的新问题。我们还需解决的问题有:
- 如何为长思维链实现安全训练?
- 通用任务能力 / 推理能力之间的最佳平衡是什么?
- SFT 在训练推理模型中的最佳作用是什么?
- 如何最大限度地减少长思维链中的「过度思考」?
- 如何实现推理模型的高效托管?
正如本文开头所述,推理模型是一种真正新型的 LLM,它将迫使我们重新思考现有的框架。多年来一直使用的技术(例如,少样本提示)对于这些新模型来说已经过时了。LLM 研究领域正在再次自我重塑。
与推理模型相关的深度报道
前面就是 Cameron R. Wolfe 博士发布的《揭秘推理模型》 全文了。下面我们简单梳理了之前发布的推理模型相关内容:
- 「DeepSeek 接班 OpenAI」,最新开源的 R1 推理模型,让 AI 圈爆了
- Sebastian Raschka:关于 DeepSeek R1 和推理模型,我有几点看法
- 两万字长文深度解密 DeepSeek-R1、Kimi 1.5,强推理模型凭什么火出圈?
- 从想太多到想不透?DeepSeek-R1 等长推理模型也存在「思考不足」问题
- 哥德尔 - Prover 超过 DeepSeek-Prover,金驰、陈丹琦团队造出当前最强形式化推理模型
- 817 样本激发 7 倍推理性能:上交大「少即是多」定律挑战 RL Scaling 范式
- 450 美元训练一个「o1-preview」?UC 伯克利开源 32B 推理模型 Sky-T1,AI 社区沸腾了
- 训练 1000 样本就能超越 o1,李飞飞等人画出 AI 扩展新曲线
- 8 卡 32B 模型超越 o1 预览版、DeepSeek V3,普林斯顿、北大提出层次化 RL 推理新范式
- 200 多行代码,超低成本复现 DeepSeek R1「Aha Moment」!复旦大学开源
- 执行推理时能对齐语言模型吗?谷歌 InfAlign 带来一种对齐新思路
- 刚刚,DeepSeek 官方发布 R1 模型推荐设置,这才是正确用法
- 啊!DeepSeek-R1、o3-mini 能解奥数题却算不了多位数乘法?
- 扩散模型也能推理时 Scaling,谢赛宁团队重磅研究可能带来文生图新范式
- 重磅发现!DeepSeek R1 方法成功迁移到视觉领域,多模态 AI 迎来新突破!
- 开源 22 万条 DeepSeek R1 的高质量数据!你也能复现 DeepSeek 了
- OpenAI:强化学习确实可显著提高 LLM 性能,DeepSeek R1、Kimi k1.5 发现 o1 的秘密
....
#ESA 算法(Efficient Selective Attention)
稀疏注意力再添一员,华为诺亚推出高效选择注意力架构ESA
当 DeepSeek 的 NSA 与月之暗面的 MoBA 以稀疏注意力掀起长序列技术热潮,行业对 “效率革命” 的追逐迎来关键一跃 —— 华为诺亚方舟实验室正式发布全新 ESA 算法(Efficient Selective Attention)。
论文地址:https://arxiv.org/pdf/2502.14477
通过稀疏化注意力的创新设计,ESA 突破了大模型在长文本处理中的瓶颈。ESA 不仅实现了数倍序列长度的拓展,还引入独创的动态计算范式,结合邻域影响力有效避免了单纯选择 top-ranked token 所带来的性能损失。通过对关键 token 的精确选择,ESA 在优化长序列处理效率的同时,提升了计算性能,为大模型在长序列任务中的应用带来了新的可能性。
在大语言模型的推理过程中,长序列模型的训练需要极高的算力和海量数据支持,理想的解决方案是通过短序列的训练成果外推到长序列。然而,随着序列长度的增加,注意力计算的复杂度呈平方级增长,这使得高效且准确的长序列推理成为了一大挑战。为此,研究人员提出了多种方法,以应对这一挑战。
ESA 方案正是在这一背景下提出的创新外推解决方案。ESA 通过对 query 和 key 的低维压缩,有效减少了 token 选择的计算复杂度。该方案通过灵活高效地选择关键 token 进行注意力计算,大幅度降低了 LLMs 在处理长文本时的计算负担,且在性能上与全注意力外推方法相当,甚至在高倍外推场景下优于全注意力算法,实现了上下文长度的有效扩展。
1. 高效外推
当大模型训练长度有限,随着序列长度的增长,一方面会出现 OOD (out-of-distribution) 的问题,另一方面注意力计算量会迅速增大。现有的研究表明,注意力矩阵具有稀疏性,对于长序列而言,稀疏程度进一步扩大。选择性注意力(Selective Attention)利用了稀疏性这一特性,选择部分 token 来计算注意力,结合外推的位置编码能将短序列模型应用到长序列任务上的同时,显著降低计算量。在计算稀疏注意力时细粒度的 token 选择方法能够更加灵活、精准地定位到关键信息。然而,token 粒度选择会引入巨大的计算开销。这引出了一个核心的问题:如何在选择性注意力方法中平衡灵活性与效率。针对这一挑战,ESA 方法通过将 query 和 key 进行低维压缩,显著降低 token 选择的计算复杂度,在外推场景下实现 token 粒度动态稀疏注意力机制。
具体而言,ESA 包括以下两个核心步骤:
高效选择:ESA 引入了一种基于 query 感知的 token 粒度选择机制,基于压缩后的 query 和 key 计算 token 的重要性分数,同时考虑周围 token 的影响(邻距影响力),以避免直接选择 top-ranked token 导致的性能下降。
注意力计算:在选择关键 token 后,ESA 使用被选中的 token 的完整的 query 和 key 进行注意力计算,而非对所有前序 token 进行计算,从而大幅降低复杂度。
2.ESA:基于 token 粒度的高效选择性注意力
ESA 的主要创新点在于通过 token 粒度选择性注意力机制,在保持模型准确率的同时显著降低计算复杂度。具体来说,与现有的长序列外推方法不同,ESA 提出了一种基于 token 的细粒度选择注意力,能够在 prefilling 和 decoding 阶段动态选择最关键的少量 token,而不是固定 block 选择或者永久丢弃不重要的 token。首先,ESA 将 query 和 key 经过简单的一层 MLP 压缩到原有维度的大约 3.2%,在低维空间计算重要性分数,显著降低计算复杂度;其次,根据重要性分数选择 topk 的 token,控制 key 的长度是固定的,这样将注意力计算由原有的平方复杂度降低为线性复杂度。虽然选择 token 是平方复杂度,但是由于将 query 和 key 压缩到了更低维的空间,使得对于算力要求大大降低。

ESA 算法示意图
ESA 的具体实现方式如下:输入序列的 token 被分为 4 部分,注意力包括全局注意力和 window 的局部注意力,初始 token 和 ESA 选择的 topk 中间 token 拼接起来计算全局注意力,localtoken 用于计算 window 的注意力,两部分注意力进行融合计算最终的注意力。ESA 按照 chunked-prefill 缓存 key 和 value,即基于当前 chunk 的 query 选择重要的中间 tokens,计算 token 的重要性时兼顾当前的所有 query;在解码阶段,只需要考虑当前的一个 token 的 query 即可。如果计算中间某个 token 重要性,需要计算和当前所有 token 的重要性,其中单个 token 的重要性用 query 和 key 的点积表示:

这里 H 是 head 的数量,为了降低复杂度 ESA 整合了所有的 head。为了进一步降低计算复杂度,不要求准确计算重要性分数,而是更关注相对大小,ESA 将 query 和 key 分别通过一层 MLP 进行压缩。ESA 采取 offline 的方式学习 MLP 的权重:

ESA 使用一个小的校准数据集用模型进行推理,保存中间的 query、key 和 value,用于训练降维 MLP,只增加了极少量的降低 query 和 key 大小的网络权重,且无需对模型微调。
为了确保分数的相对大小,避免某个 token 在重要性分数中占据主导地位,ESA 对分数进行修正:

进一步的,作者发现仅选择 topk 的 token 模型在大海捞针任务中只能检索到部分信息,提出了邻距影响力的概念,即对于某个中间的 token,其重要性分数不仅取决于自身的分数,还受到周围 token 的影响,更新后的分数为:

在选择完重要 token 后,ESA 使用完整的 query、key 和 value 计算注意力,最终的注意力输出如下所示:

ESA 的计算复杂度降低主要来源于低维的 query 和 key 计算重要性分数以及选择完成以后的线性注意力计算复杂度,经过理论计算,一步 attention 计算在长序列场景下能降低为原有的:

实际实验中我们将 query 和 key 压缩为原有的 3.2%,一步 attention 计算量在输入序列足够长时理论能降低至 1.6% 左右。
3. 实验结果
论文选择开源训练集 Pile 的 2 条 Books3 样本收集用于训练降维 MLP 的 qk 样本,query 和 key 从 4096 压缩为 128,压缩比例约为 l3.2%,注意力计算的窗口长度约为 6k。为了将开源的短序列模型应用到长序列中,ESA 沿用了 Infllm 的外推位置编码设置,使用 Llama-3-8B-Instruct 和 Mistral-7B-Instruct-v0.2,在多个公开的长序列基准测试中验证了 ESA 的性能,包括 Longbench、InfiniteBench、NeedleBench 等。作者对比了 full attention 的外推方法和同类型的基于 window 的外推方法,且同类型方法的 window 长度一致。实验结果表明,ESA 通过高效灵活选择重要的 token,总体性能在外推倍数足够大时候优于 full attention 的方法,且均明显优于同类型的方法,尤其在 multi needles 检索场景下例如数星星和 NeedleBench,在其他同类型方法失效的时候,ESA 仍然有较高的准确率。



ESA 不对每个 head 单独选择 token,而是将所有 head 整合到一起计算重要性分数,有利于降低计算复杂度,提升效率,为了验证这一操作对算法的影响,作者做的对比实验如下所示,可以看出这样的整合对于算法影响有限。

论文研究了邻距影响力的超参数影响,结果如下所示,对不同的测评集该参数的影响不同,取值较小有利于 multi needles 类型的检索任务,取值较大则有利于 single needle 类型任务,这可能是由于单针检索任务只需要关注 ground truth 所在的片段即可,增大邻距影响力有利于 attention 集中到较长的片段上。

4. 总结
ESA 有效平衡了长序列外推场景下的选择性注意力中的灵活性和计算效率,用于在不进行模型参数增量微调的情况下扩展上下文长度。ESA 的核心思想是在每个步骤中选择固定数量的最重要 token 来计算注意力,利用注意力矩阵的稀疏性。当输入序列足够长时,ESA 通过将 query 和 key 压缩为低维表征,有效降低选择 token 的计算复杂度。实验评估表明,ESA 能够有效处理长度为训练长度 4 倍甚至 25 倍的各种长序列任务。未来的研究需要探索更准确、更高效的选择重要 token 的方法,以及软硬件协同的高效外推方案。
....
#DuMo
模型安全武装,复旦新研究实现SOTA扩散模型风险概念擦除效果
论文第一、第二作者为复旦大学视觉与学习实验室的硕士生韩枫和博士生陈凯。通讯作者为陈静静副教授。研究团队专注于 AI 安全的研究,近年来在 CVPR,ECCV,AAAI,ACM MM 等顶会上发表过多篇 AI 安全的研究成果。
文生图模型生成图片过于露骨?不妨直接给图像穿上衣服。
复旦大学团队设计的风险概念移除网络 DuMo 不仅实现上述功能,同时尽可能保证人物以及其他属性不受影响。达到现有最好的指哪擦哪效果。

同时,DuMo 也可避免文生图模型模仿艺术家风格,从而制作一些侵犯版权的照片。

随着生成式人工智能技术的快速发展,扩散模型图像生成能力已达到了令人惊叹的高度。然而,这一技术也伴随着安全隐患,例如生成含有敏感、不当或侵犯版权的内容。
现有方法一般通过一种名为概念陈擦除的微调方法以实现模型去毒。
复旦大学研究团队提出了一种全新的双编码器调制网络(DuMo),通过创新性的架构和算法,实现了对扩散模型中特定风险概念的精准擦除,在擦除效果和精确度方面均达到 SOTA 水平,研究成果已被顶级会议 AAAI 2025 收录。
论文:DuMo: Dual Encoder Modulation Network for Precise Concept Erasure
论文链接:https://arxiv.org/abs/2501.01125
DuMo:擦除风险内容,保护生成能力
当前的概念擦除技术普遍面临两个挑战:一是难以有效擦除风险概念,二是擦除过程中,微调后模型对其他安全概念的生成能力被破坏。DuMo 在这两个方面取得了突破,成功地解决了「擦除」和「保护」之间的矛盾。
具体而言,U-Net 特征分为主干网络特征,和跳跃连接特征。其他方法都对 U-Net 的主干特征进行了修改,会对安全概念的生成产生不良影响,破坏其结构完整性 [1]。此外,跳跃连接特征的潜力没有得到充分挖掘,这限制了模型在执行概念擦除时的能力,同时也影响了模型的生成效果 [2]。

DuMo 通过对 EPR 擦除模块和时间 - 层级调制机制(TLMO)的两阶段微调以实现上述效果:
1、基于跳跃连接的 EPR 擦除模块
DuMo 采用了创新性的「基于先验知识的擦除模块」(EPR)。EPR 擦除模块是由一份 U-Net Enoder 的副本和零卷积组拼接得到的。零卷积组的卷积层参数被初始化为零,而且原始 U-Net 主干的参数被冻结,其包含的模型先验知识被全部保留,只有跳跃连接特征被修改,从而最大程度避免对安全概念的结构和生成质量产生负面影响 [1]。第一阶段微调过程中 DuMo 将不安全概念(例如「裸露」)对齐到目标概念(例如,空文本 「 」)以达到概念擦除的效果

2、时间 - 层级调制(TLMO)机制
作者观察到,EPR 模块在不同的跳跃连接层和去噪时间步上,对图像中的低频结构元素和高频细节部分表现出不同的擦除偏好。通过将跳跃连接层和时间步分组,DuMo 发现不同层级和时间步对图像的影响不同,因此采取了特定的调整策略。

DuMo 设计了一个独特的时间 - 层级调制(TLMO)策略,针对扩散模型的生成过程中的不同时间步和网络层级,使用微调得到的调制系数,自动调整 EPR 模块不同输出的擦除强度。

同时在第二阶段的微调过程中,除了损失函数中原有的项外,还添加了一个正则项,用于将微调后的模型噪声(对应空文本)与原始模型进行对齐。这些机制大幅减少对安全概念的影响,从而在擦除风险概念的同时,保证安全概念的生成质量和细节。

实验验证:擦除能力与生成保留的双赢
DuMo 在裸露内容擦除、卡通概念移除和艺术风格擦除三个任务上进行了全面验证,其表现优于当前所有主流方法。
裸露内容擦除
在风险性最高的「裸露内容擦除」任务中,DuMo 在 I2P 基准数据集上的表现令人瞩目:
- 裸体部位检测数量仅为 34 个,是现有最佳方法。
- 生成图像的质量指标(FID)与 CLIP Score 均达到顶尖水平,生成能力显著优于其他方法。

在擦除裸露概念后,DuMo 还能很好的保持图像的结构。如第一行人物的姿势和第二行人物位置与背景。

卡通概念移除
针对「Snoopy」等流行卡通概念的擦除任务,DuMo 实现了更好的平衡:
- 单概念擦除任务中,LPIPS_da(擦除效果 - 生成能力保留平衡性)提升了 0.096;
- 多概念擦除任务中,LPIPS_da 进一步提升了 0.142,证明其对复杂任务的优异适应性。

艺术风格擦除
在艺术风格移除任务中,DuMo 精准擦除了「梵高」和「伦勃朗」等风格特征,同时对其他艺术家风格的破坏降到最低:
- 实现了 SOTA 级别的风格擦除效果;
- 定量指标 LPIPS_da 表现显著优于对比方法。

在擦除梵高风格的实验中,其他艺术家风格图片的生成也不受影响。

参考文献
[1] Si, C.; Huang, Z.; Jiang, Y.; and Liu, Z. 2024. Freeu: Free lunch in diffusion u-net. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 4733–4743.
[2] Luo, W.; Hu, T.; Zhang, S.; Sun, J.; Li, Z.; and Zhang, Z. 2024. Diff-instruct: A universal approach for transferring knowledge from pre-trained diffusion models. Advances in Neural Information Processing Systems, 36.
....
#「知识蒸馏」+SFT,可得「推理」否?
DeepSeek R1 的技术报告验证了知识蒸馏+SFT的方法能够让小模型获得优越的推理能力。这种看似极具性价比的方案引发了大量关注和剖析。由于业界对蒸馏的工艺和上限尚未形成共识,因此也带来了对该技术更为系统的探索工作。
目录
01. 「知识蒸馏」+SFT 做推理模型,到底是「正经方法」还是「投机取巧」 ?
极具性价比的蒸馏+SFT 真的能提高大模型的推理能力吗?...
02. 蒸馏+SFT 虽实用,但 bug 也不小?
知识蒸馏+SFT 的局限性由何而来?...
03. 蒸馏也有 Scaling Law?
什么才是蒸馏效果提升的关键?蒸馏存在什么情况下才有性价比?...
01 「知识蒸馏」+SFT 做推理模型,到底是「正经方法」还是」投机取巧」 ?
1、蒸馏技术在大模型领域广泛使用,且近期在 DeepSeek R1 的技术报告中取得了尤为明显的成效。
① 在 R1 的技术报告中,DeepSeek 团队展示了他们如何通过蒸馏将 R1 模型的推理能力迁移到更小的密集模型中,并让这些模型获得优越的推理能力。
② 研究者将 DeepSeek-R1 作为教师模型,通过其生成的 800K 样本作为训练属于,用其对 6 个在 AI 社区中广泛使用的规模较小的密集模型(Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B 和 Llama-3.3-70B-Instruct)进行 SFT,并得到了 DeepSeek-R1-Distill-Qwen-7B 等 6 个蒸馏后的模型。
③ 蒸馏后的模型在推理任务上表现出色。例如,DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 基准测试中达到了 55.5%的 pass@1 分数,超过了 QwQ-32B-Preview。
2、R1 所采用的「蒸馏」方法指利用较强模型蒸馏出高质量样本,进而用于较小模型的 SFT,从而使较小的模型获得更强能力的操作。
① 这种方法通过教师采样生成序列,以 SFT 的方式训练学生模型,因此也被称为硬蒸馏(Hard Distillation)或「蒸馏+SFT」。
3、这种蒸馏技术在 o1 模型复现工作和 LLaMA 系列等工作中均被验证过有效性,虽然存在版权争议,但在工业应用场景被视为一种性价比极高的方案。
① 此前,有工作发现 Claude、豆包、Gemini、llama 3.1、Phi 4、DPSK-V3、Qwen-Max、GLM4-Plus 等多个模型大多存在不同程度的蒸馏。
② 这种技术的性价比体现在用强大的模型生成高质量数据,让企业打造更精细化的垂直业务模型,或是让研究者通过数据复现更强的推理模型,推动学术进展。
4、以 R1 工作为代表的成果证明了高质量数据除了让蒸馏得到的小模型获得领域知识,还能进一步提升推理能力,因此引发了许多探索。
① 上海交大的研究者在 LIMO 工作中论述了小模型的推理能力可以通过精心设计的少量样本激发出来,而不是简单地通过大量的数据训练获得。
② 该工作假设预训练阶段已经全面编码了领域知识的基础模型中,复杂的推理能力可以通过极少量但精心设计的认知过程示例(即高质量 CoT)来激发。
③ 该工作用 817 条精心设计的训练样本微调 Qwen2.5-32B-Instruct 得到的 LIMO 模型实现了 AIME 2024 基准测试中准确率从 6.5%到 57.1%的提升,在 MATH 500 基准测试中实现了从 59.2%提升至 94.8%。
④ 李飞飞的 s1 工作同样采用少量高质量数据微调 Qwen2.5-32B-Instruct,实现超过 o1-preview 的推理能力。
02 蒸馏+SFT 虽实用,但 bug 也不小?
DeepSeek R1 的技术报告虽然展示了蒸馏 SFT 对小模型推理能力提升的有效性,且需要比强化学习更少的计算资源。但该工作同样强调如果要超越智能的边界,可能仍然需要更强大的基础模型和更大规模的强化学习......
....
1525

被折叠的 条评论
为什么被折叠?



