51c大模型~合集173

自己的原文哦~           https://blog.51cto.com/whaosoft/14135124  ​​​​​​​

#这就是大厂的AI「氛围编程」

老工程师现身说法后,大家绷不住了

氛围编程(vibe coding),这个由 Andrej Karpathy 带火的热词,已经成为了一种相当流行的编程方式。但这种编程方式的流行程度究竟如何,目前还没有什么比较可靠的统计数据。不过,近日的一篇 Reddit 热帖,却可以让我们窥见一些端倪:看起来,氛围编程可能比我们预想的更受欢迎,FAANG 等大型科技公司也不乏 vibe coder—— 虽然人们对这个工作流程算不算是氛围编程存在很大争议。

图片

这篇帖子发布在 r/vibecoding,发帖者 u/TreeTopologyTroubado 自称是一位拥有十多年工作经验的 AI 软件工程师,并且其有一半的时间都是在 FAANG(即 Meta、亚马逊、苹果、Netflix 和 Alphabet 五大科技巨头)工作。他职业生涯前半段是系统工程师,而不是开发者,不过他现在已有 15 年左右的编程经验了。

然后,他分享了使用 AI 开发产品代码的方法。简单来说,就是始终从可靠的设计文档和架构开始,然后在此基础上逐步构建。始终先编写测试。

更具体而言:

你仍然需要从技术设计文档开始。这是工作的主体。一开始,设计文档是一份提案文档。如果你能让足够多的利益相关者认同你的提案有价值,你就可以开始开发系统设计本身。这包括完整的架构、与其他团队的集成等等。

在开始开发工作之前进行设计评审。这指的是让高级工程师彻底揉碎评估团队的设计文档。这是个很好的做法。我认为这可以减轻开发过程中的痛苦。

如果通过审核,就可以开始开发工作了。最初的几周,我们会针对各个开发团队即将构建的各个子系统编写更多文档。

待办事项开发和冲刺规划。开发人员需要与项目经理和技术项目经理协作,确定各个开发人员需要处理的独立任务及其执行顺序。

软件开发。终于,我们可以拿起键盘,开始处理任务单了。这正是 AI 展现强大实力的地方。我们使用的方法是测试驱动开发(Test Driven Development),也就是让 AI 编程智能体先为要构建的功能编写测试。之后,我才会开始使用这个智能体来构建这个功能。

代码提交审核。在将代码合并到人工代码之前,我们会有两个开发人员进行审批。AI 在协助审核方面也展现出巨大的潜力。

在预发布版本中进行测试。如果预发布版本一切正常,我们就会将其推送到生产版本。

该帖在 Reddit 和 X 上都引起了广泛讨论。其中一个很大的讨论点是,FAANG 等大型科技公司竟然允许员工氛围编程!

即便谷x歌x曾宣称其现在大约一半的代码都是 AI 编写的,但这一说法也备受质疑,一些开发者还曾表示谷x歌x可能把自动代码补全的部分也算成 AI 生成的代码了,也有不少人质疑谷x歌x究竟在生产环境中部署了多少这些 AI 生成的代码。

图片

不过,也有人认为,根据该帖子的描述,这个流程其实不能称之为「氛围编程」,因为其中依然有大量必须人类参与的环节 —— 这或许是该帖子最引人争议的地方。

图片

图片

图片

图片

图片

Hyperbolic 联创 & CEO Yuchen Jin 也认为这样的工作流程对人类工作者来说很痛苦,不够 vibe。

图片

同时,这也表明,即便有 AI 加持,大型科技公司繁琐的流程还是会拖延研发速度 —— 这似乎对独立创始人来说是好事。

图片

图片

尽管如此,也有不少开发者从中看到了可取之处。

比如开发者 Frank Lin 认为这可以成为使用 AI 的最佳实践,即详细的技术规格,在编程之前先审查解决方案,并首先编写测试代码。

图片

而其中,编程是最轻松和乏味的阶段,工程师的价值则是体现在「设计、头脑风暴、编写规范、测试等」方面,也就是要弄清楚需要编写什么代码。

图片

也有人分享了自己的经验。

图片

图片

图片

对此,你怎么看?或者有什么经验与我们分享吗?

参考链接:

​https://www.reddit.com/r/vibecoding/comments/1myakhd/how_we_vibe_code_at_a_faang/​

​https://x.com/Yuchenj_UW/status/1959661025319608603​

​https://x.com/rohanpaul_ai/status/1959414096589422619​

#Yoshua Bengio成历史被引用最高学者

超97万:何恺明进总榜前五

全世界、所有科学领域都算上,现在最热门的方向就是 AI 了。

图灵奖得主 Yoshua Bengio,近日成为了有史以来被引用次数最多的科学家:他的总被引用量高达 973,655 次,近五年引用量达到 698,008 次。

这项统计来自 AD Scientific Index,这是一个全球性的学术排名和分析平台,旨在评估和展示科学家、研究人员以及学术机构的科研表现和影响力。

参与这次排名的共计 2,626,749 名科学家,分布在 221 个国家和地区,隶属 24,576 家机构。排名依据总引用量和近五年的引用指数进行排序。值得一提的是,这次排名不止 AI 领域,还包括医学等 13 个主要学科和 221 个学术细分学科。

我们再回到 Bengio 的研究。从学术主页来看,Bengio  2014 年提出的 「生成对抗网络(Generative Adversarial Nets)」 引用量已突破 10 万次,甚至超过了他与 Yann LeCun 和 Geoffrey Hinton 合著的经典论文 「Deep Learning」,不过,后者的引用量同样也超过 10 万次。

来源:https://scholar.google.com/citations?user=kukA0LcAAAAJ&hl=en

排名第二的是 2024 诺奖得主、AI 领域先驱 Geoffrey Hinton,他的总被引用量为 95 万 +,近五年引用量为 57 万 +。

其中,Hinton 和学生 Alex Krizhevsky、Ilya Sutskever 合作的 AlexNet 引用量高达 18 万 +。这篇论文发表于 2012 年,其在 ImageNet 大规模视觉识别挑战赛(ILSVRC 2012)上取得压倒性胜利,标志着深度学习在计算机视觉领域的突破性进展。

来源:https://scholar.google.com/citations?view_op=list_works&hl=en&hl=en&user=JicYPdAAAAAJ

位列第三、第四的研究者来自医疗领域:

何恺明排名第五,单篇论文《Deep Residual Learning for Image Recognition》引用量超过 29 万次。这篇论文提出的 ResNet 成为现代深度学习的基础,几乎所有视觉模型都借鉴了残差思想。

来源:https://scholar.google.com/citations?user=DhtAFkwAAAAJ&hl=en

值得一提的是,今年四月,据 Nature 统计 ResNet 是 21 世纪被引量最多论文,单篇 29 万次,经典论文可以说是当之无愧了。可参考「何恺明的 ResNet,成为 21 世纪被引量最多论文,Nature 最新统计」。

图片

在 top 10 名单中,我们也看到了 Ilya Sutskever 的身影,总引用量 67 万 +,排名第 7,单篇论文最高引用量 18 万 + 。

来源:https://scholar.google.com/citations?user=x04W_mMAAAAJ&hl=en

我们不难发现,这些高被引研究不仅在当时引发了学术界的广泛关注,更在随后的十几年里持续产生深远影响。

完整排名列表请参考:

​https://www.adscientificindex.com/citation-ranking/​​​

#Macro-from-Micro Planning( MMPL )

突破长视频生成瓶颈:南大、TeleAI推出全新AI生成范式MMPL,让创意一镜到底

向迅之,南京大学 R&L 课题组在读博士生,导师是范琦副教授。研究聚焦图像/视频生成与世界模型等 AIGC 方向。

你是否曾被 AI 生成视频的惊艳开场所吸引,却在几秒后失望于⾊彩漂移、画面模糊、节奏断裂? 当前  AI 长视频⽣成普遍⾯临 “高开低走 ” 的困境:前几秒惊艳夺⽬ ,之后却质量骤降、细节崩坏;更别提帧间串行生成导致的低效问题 —— 动辄数小时的等待,实时预览几乎难以企及。

这—行业难题,如今迎来突破性解法!

南京大学联合 TeleAI 推出长视频自回归生成新范式——Macro-from-Micro Planning( MMPL),重新定义 AI 视频创作流程。

灵感源自电影工业的 “分镜脚本 + 多组并行拍摄” 机制,MMPL 首创 “宏观规划、微观执行 ” 的双层⽣成架构:

  • 先谋全局:在宏观层面统—规划整段视频的叙事脉络与视觉—致性,确保剧情连贯、风格统—;
  • 再精细节:将长视频拆解为多个短片段,并通过并行化⽣成管线⾼效填充每—帧细节,大幅提升速度与稳定性。

成果令人振奋:

  • 实现分钟级⾼质量长视频稳定生成,告别 “虎头蛇尾”;
  • ⽣成效率显著提升,结合蒸馏加速技术,预览帧率最高可达约 32 FPS ,接近实时交互体验;
  • 在色彩—致性、 内容连贯性上全⾯超越传统串行生成方案。

MMPL 不仅是—项技术升级,更是向 “AI 导演” 迈进的重要—步 —— 让机器不仅会 “拍镜头” ,更能 “讲好—个故事”。

  • 论文标题:Macro-from-Micro Planning for High-Quality and Parallelized Autoregressive Long Video Generation
  • 作者:Xunzhi Xiang, Yabo Chen, Guiyu Zhang, Zhongyu Wang, Zhe Gao, Quanming Xiang, Gonghu Shang, Junqi Liu, Haibin Huang, Yang Gao, Chi Zhang, Qi Fan, Xuelong Li
  • 机构 :南京大学;中国电信人工智能研究院;上海交通大学;香港中文大学(深圳);中国科学院大学
  • 论⽂地址:https://arxiv.org/abs/2508.03334
  • 项⽬主页:https://nju-xunzhixiang.github.io/Anchor-Forcing-Page/

图片

传统困境:逐帧⽣成的两大瓶颈

在长视频生成领域,随着时长从几秒扩展到数十秒甚至一分钟以上,主流自回归模型面临两个根本性挑战:

1. 时域漂移(Temporal Drift)

由于每—帧都依赖前—帧生成,微小误差会随时间不断累积,导致画面逐渐 “跑偏”:人物变形、场景错乱、色彩失真等问题频发,严重影响视觉质量。

2. 串⾏瓶颈(Serial Bottleneck)

视频必须逐帧⽣成,⽆法并⾏处理。⽣成 60 秒视频可能需要数分钟乃⾄数⼩时,难以⽀持实时预览或交互式创作。

,时长00:27

这些问题使得当前 AI 视频仍停留在 “ 片段级表达” ,难以胜任需要长时连贯性的叙事任务。

创新突破:导演式双层生成框架 MMPL

为解决上述问题,我们提出 Macro-from-Micro Planning( MMPL) —— — 种 “先规划、后填充” 的两阶段生成范式,其核心思想是:

先全局规划,再并行执行。

这—理念借鉴了电影工业中 “导演制定分镜脚本 + 多摄制组并行拍摄” 的协作模式,将长视频生成从 “接龙式绘画” 转变为 “系统性制片 ”。

MMPL 的核心优势在于实现了三大突破:

  • 长时⼀致性:通过宏观规划抑制跨片段漂移;
  • 高效并行性:各片段可独立填充细节,支持多 GPU 并行;
  • 灵活调度性:采用流水线机制,进—步提升资源利用率。

最终,系统可在保证高质量的前提下,实现分钟级、节奏可控的稳定⽣成,结合蒸馏加速方案,预览速度可达 ≥32 FPS ,接近实时交互体验。

效果呈现:更稳、更长 、更快

在统—测试集上,MMPL 显著优于现有方法(如 MAGI 、SkyReels 、CausVid 、Self Foricng 等),在视觉质量、时间—致性和稳定性方面均取得领先。

  • 更稳:无明显色彩漂移、 闪烁或结构崩坏,长时间生成仍保持高保真;
  • 更长: 支持 20 秒、30 秒乃至 1 分钟的连贯叙事,片段衔接自然;
  • 更快:得益于并行填充与自适应调度,长视频生成整体吞吐量大幅提升。

,时长00:28

,时长00:52

技术解析:两阶段协同工作机制

MMPL 的成功源于其精心设计的 “规划 — 填充” 双阶段架构。整个流程分为两个层次:微观规划( Micro Planning) 和宏观规划( Macro Planning),随后进行并行内容填充(Content Populating)。

第⼀阶段:双层规划,构建稳定骨架

图片

1. Micro Planning: 片段内关键帧联合预测

我们将长视频划分为多个固定长度的片段(例如每段 81 帧)。对每个片段,模型不直接生成所有帧,而是基于首帧 

图片

 ,联合预测⼀组稀疏的关键未来锚点帧,包括:

  • 早期邻近帧 
  • 图片

  • 中部关键帧 
  • 图片

  • 末端结束帧 
  • 图片

记锚点集合为 

图片

,其生成过程建模为:

图片

这些锚点在同—去噪过程中联合生成,彼此之间语义协调、运动连贯;且均以首帧为条件单步预测,避免了多步累积误差。它们共同构成了该片段的 “视觉骨架” ,为后续填充提供强约束。

2. Macro Planning:跨片段叙事⼀致性建模

为了确保整个视频的连贯性,我们将各片段的 Micro 计划串联成—个⾃回归链:第 s 段的末端锚点作为第 s + 1 段的起始条件。设第 s 段的锚点集合为

图片

,首帧为 

图片

 ,则全局规划可表示为:

图片

这种 “分段稀疏连接” 的设计,将误差累积从 T 帧级别降低至 S 段级别( S ≪ T),从根本上缓解了长程漂移问题。

第二阶段:并行填充,释放计算潜能

图片

1. Content Populating:基于锚点的并行细节生成

在所有片段的锚点 

图片

 就绪后,即可并行填充各⽚段内的中间帧。 

以第 i 个片段为例,其内容被划分为两个子区间:

图片

条件概率分解如下:

图片

由于每个片段的填充仅依赖本片段的锚点 

图片

,与其他片段无关, 因此所有片段的内容填充可完全独立:

图片

 这意味着: 多个片段可以同时在不同 GPU 上并行⽣成,极大提升效率。

2. Adaptive Workload Scheduling:动态调度,实现流水线加速

为进—步提升资源利用率,我们引入自适应工作负载调度机制,实现 “规划” 与 “填充” 的重叠执行:

当片段 s 的锚点生成后,即可:

  • 立即启动下—片段 s + 1 的 Micro 计划;
  • 同时,片段 s 自身可提前开始中间帧填充,无需等待全局规划完成。

该机制的形式化表达为:

图片

其中,下—片段的起始帧 

图片

可选择为

图片

或 

图片

 , 由此衍⽣出两种运行模式:

最小内存峰值模式

 选用 

图片

  作为

图片

 ,跳过当前片段末尾部分

图片

 的填充。

  • 优势:降低峰值内存占用与单段延迟;
  • 缺点:引入帧重用 ,影响吞吐量。

最大吞吐量模式

选用 

图片

 作为

图片

 ,完整生成当前片段所有中间帧。

  • 优势:消除冗余,最大化流水线效率;
  • 缺点:每段计算负载更高。

这两种策略可在内存、延迟与吞吐量之间灵活权衡,适配不同部署场景。

结语:从 “会画” 到 “会拍”,AI 开始有了导演思维

当 AI 不再局限于逐帧生成,而是具备了从整体出发的规划能力 —— 理解情节的推进、协调画面的连贯性、控制运动的节奏,长视频生成便迈出了从 “ 片段拼接” 走向 “统—表达” 的关键—步。我们希望,MMPL 能为视频创作提供—种更稳定、更高效的技术路径。借助其近实时的生成能力,创作者可以在快速反馈中不断调整与完善自己的构想,让创意更自由地流动。

也许真正的 “所见即所得” 尚在远方 ,但至少,我们正朝着那个方向,稳步前行。

#全球开源大模型

前十五名全是中国的

国产开源力量的集中爆发。

都在说国内大模型正在驰骋开源领域,具体的情况如何?

近日,随着新一代大语言模型(LLM)的一波更新,开源大模型再次成为了热门讨论话题。软件工程师、自媒体 Rohan Paul 发现了一个惊人的现象:Design Arena 排行榜上排名前十几位开源 AI 模型全部来自中国。

图片

Design Arena 是目前全球最大规模的众包 AI 生成设计 Benchmark 平台,它的核心机制是让真实的人类用户进行评测,基于 Elo Rating(类似于国际象棋评分体系)等级分制度进行模型对战。

用户在平台上会被随机展示两段由不同模型生成的回答,然后进行投票选择「哪一个更好」。每一次投票都会影响对应模型的 Elo 分数,进而形成动态的排行榜。Elo 核心原理是,高分选手击败低分选手,得分会很少,而低分选手爆冷战胜高分选手时,得分会很多。因此用对弈的角度来看的话,这是一个相对公平、符合认知的评分系统。

因此,不同于 MMLU、SWE-Bench 这类客观指标,Design Arena 更贴近于「用户真实体验」。新模型一上线,就能迅速通过对战获得口碑分数。

在 Design Arena 上,如果把条件设定为「开源」,可见现在的前 15 名是清一色的国产开源大模型:

图片

排名第一的是 DeepSeek-R1-0528,智谱的 GLM-4.5 和阿里的 Qwen 3 Coder 480B 紧随其后。

再往下我们能看到 DeepSeek、Qwen、GLM 的各种型号,Kimi 在 7 月份开源的 K2 模型…… 一直到第 16 名才是 OpenAI 最近开源的 GPT OSS 120B。

图片

在前 15 名中,各家大模型厂商上榜的模型数量依次如下:

  • 阿里:6 款
  • DeepSeek:5 款
  • 智谱:3 款
  • Kimi:1 款

最近一段时间,国内 AI 公司不断发布新一代开源大模型,正在开拓 AI 技术的前沿。甚至对于国内科技公司来说,开源已经成为了最近一两个月发布的主旋律。

在 Hugging Face 发布的中国 AI 社区 7 月开放成果中,包括阿里、智谱、昆仑万维、月之暗面、腾讯、阶跃星辰等在内的多家厂商先后开源了 33 款大模型。

图片

此前还有机构 Interconnects(深度聚焦前沿 AI 研究的高质量内容平台)汇总了国内顶尖的 19 家开源模型实验室,包括 DeepSeek 这样的顶级机构,以及一些通过技术报告和小众模型崭露头角的新兴学术实验室。

图片

这 19 个开源玩家依次是:DeepSeek、Qwen、Moonshot AI (Kimi)、Zhipu / Z.AI、StepFun、Tencent (Hunyuan)、RedNote (Xiaohongshu)、MiniMax、OpenGVLab / InternLM、Skywork、ByteDance Seed、OpenBMB、Xiaomi (MiMo)、Baidu (ERNIE)、Multimodal Art Projection、Alibaba International Digital Commerce Group、BAAI 以及 inclusionAI、Pangu (Huawei)。

在大模型领域里,技术和性能领先的一直是以 GPT 系列为代表的闭源大模型。但随着 Llama 系列兴起,越来越多的开源模型逐渐成为了推动技术向前进步的重要动力。近一年多时间里,国产大模型集群式的崛起,则重塑了全球 AI 版图。

现在说起开源的大模型,大多数人的第一反应早已不是 Llama,而是 Qwen 和 DeepSeek。有人认为,正是 DeepSeek 等开源大模型能够与闭源顶尖模型分庭抗礼,才让众多应用端公司得以转变工作重点,把精力放在模型调优和应用优化的工作上来,进而加速了 AI 技术的落地。

或许这样的趋势也会扭转 AI 研究社区的趋势,让未来最先进模型的开源成为必选项。

最后,在外网也有人在为中国的 AI 模型崛起寻找深层原因。这位 Illya Gerasymchuk 是数学专业的硕士,他认为原因在于数学基础 —— 目前东亚人在数学领域上已经占据了主导地位。

图片

这是否和我们一直以来的印象已经有些不一样了?

参考链接:

​https://www.designarena.ai/​

​https://x.com/rohanpaul_ai/status/1959710355208499692​

​https://x.com/interconnectsai/status/1957105950201950715​

#Speed Always Wins

唯快不破:上海AI Lab 82页综述带你感受LLM高效架构的魅力

作者:孙伟高 上海人工智能实验室

近年来,大语言模型(LLMs)展现出强大的语言理解与生成能力,推动了文本生成、代码生成、问答、翻译等任务的突破。代表性模型如 GPT、Claude、Gemini、DeepSeek、Qwen 等,已经深刻改变了人机交互方式。LLMs 的边界也不止于语言和简单问答。随着多模态(VLMs)与推理能力(LRMs)的兴起,LLMs 正不断扩展到多模态理解、生成与复杂推理场景。

但模型性能持续提升的背后,是模型尺寸、数据规模、RL 推理长度的快速 Scaling,是算力和存储资源的急剧消耗。大模型的训练与推理的成本居高不下,成为制约其广泛落地和应用的现实瓶颈。

本文从 LLM 架构角度出发,带你剖析大模型的效率秘诀。这一切的核心在于 Transformer 架构。Transformer 的自注意力机制虽带来了远距离建模的突破,却因 O(N2) 的复杂度在长序列任务中成本高昂。而在 RAG、智能体、长链推理、多模态等新兴场景下,长序列需求愈发突出,进一步放大了效率与性能之间的矛盾。同时 Transformer 的 FFN 部分采用密集的 MLP 层,同样面临模型规模放大后的训练和推理效率问题。

近年来针对 Transformer 架构改进的创新工作层出不穷,却一直缺乏一篇全面深入的综述文章进行总结。

图片

图 1:常见长序列场景

近期,上海 AI Lab 联合港科广、澳门大学、中科院自动化所、苏州大学、瑞典 KTH、北大、港中文等多家机构,总结 440 余篇相关论文,深入探讨了当前 LLM 高效结构的最新进展,形成这篇 82 页的综述论文:

论文标题:Speed Always Wins: A Survey on Efficient Architectures for Large Language Models

论文地址:https://arxiv.org/pdf/2508.09834

项目仓库:https://github.com/weigao266/Awesome-Efficient-Arch

图片

图 2:大语言模型高效架构概览

该综述将目前 LLM 高效架构总结分类为以下 7 类:

  • 线性序列建模:降低注意力训练和推理复杂度,无需 KV Cache 开销。
  • 稀疏序列建模:通过稀疏化注意力矩阵,降低计算与显存需求。
  • 高效全注意力:在保持完整注意力的前提下优化内存访问与 KV 存储。
  • 稀疏专家模型:通过条件激活部分专家,大幅提升模型容量而不增加等比例计算成本。
  • 混合模型架构:结合线性/稀疏序列建模与全注意力,兼顾效率与性能。
  • 扩散语言模型:利用非自回归的扩散模型进行语言生成。
  • 其他模态应用:将这些高效架构应用于视觉、语音、多模态模型。

这些方向的探索不仅关乎 LLM 的未来效率,也关乎如何在算力受限的条件下,持续推动 AI 走向更强的智能的关键选择。综述涉及的方法类别和代表性论文可见如下树状图:

图片

图 3:综述完整组织架构

线性序列建模

线性序列建模是近年来研究相当火热的一个方向,代表性工作像 Mamba、Lighting Attention、RWKV、GLA、TTT 等在模型架构方向都引起过广泛关注。我们将这类技术细分为以下几个类别:

  • 线性注意力
  • 线性 RNN
  • 状态空间模型
  • 测试时推理 RNN

并且正如在多篇文献里已经提出的,这些线性序列建模方法可以概括为统一建模的数学形式,并且能够通过线性化过程将预训练模型权重的 Softmax Attention 架构转为 Linear Sequence Modeling 架构,从而获得模型效率的大幅提升,如下图所示。

图片

图 4:线性序列建模方法

我们将已有的线性序列建模方法从记忆视角和优化器视角分别进行梳理和对比,详细形式可见下表:

图片

表 1:线性序列建模方法统一建模的 Memory 视角和 Optimizer 视角

其中线性化技术可以进一步细分为基于微调的线性化,和基于蒸馏的线性化,如下图所示:

图片

图 5:线性化方法

综述还进一步总结归纳了目前在线性序列建模领域常见的硬件高效实现方法,可以归纳为 Blelloch Scan、Chunk-wise Parallel 和 Recurrent for Inferences,如下图所示:

图片

图 6:线性序列建模方法的硬件高效实现

稀疏序列建模

稀疏序列建模是另一类有代表性的高效注意力机制,通过利用 Attention Map 天然具有的稀疏性加速注意力的计算,这类方法可以进一步细分为:

  • 静态稀疏注意力
  • 动态稀疏注意力
  • 免训练稀疏注意力

代表性的稀疏注意力方法如 Global Attention、Window Attention、Dilated Attention 等,及其工作原理如下图所示:

图片

图 7:稀疏注意力的几种经典形式

高效全注意力

另一类高效注意力算法可以统一归纳为高效全注意力,这类方法可以根据算法思路进一步细分为如下几类:

  • IO-Aware Attention
  • Grouped Attention
  • Mixture of Attention
  • Quantized Attention

其中 IO-Aware Attention 指代目前使用非常广泛的 Flash Attention 系列工作,Grouped Attention 则包含广为使用的 GQA、MLA 等全注意力变体,几种代表性方法如下图所示。

图片

图 8:Grouped Attention 的几种代表性方法

稀疏混合专家

稀疏混合专家是对 Transformer 架构中另一个重要模块 FFN 做的一类重要改进,已经逐渐成为(语言和多模态)大模型架构的事实标准。综述中将相关文献按以下三个方向进行分类:

  • Routing Mechanisms
  • Expert Architectures
  • MoE Conversion

路由机制包括 Token-choice 和 Expert-choice 两类,其原理如下图所示:

图片

图 9:MoE 路由机制

专家结构的创新工作包括:共享专家、细粒度专家、零专家、深度路由等,其作用和原理可见下图:

图片

图 10:MoE 专家架构

另外一个重要的方向是 MoE 转换,已有的工作包括通过 Split、Copy、Merge 等手段对专家进行构造,如下图所示:

图片

图 11:MoE 转化机制

混合架构

混合架构是近年来出现的一种实用的新型架构,可以在线性/稀疏注意力和全注意力之间取得微妙的 Trade-off,也在效率和效果间找到了最佳甜蜜点。具体可细分为:

  • 层间混合
  • 层内混合

图片

图 12:混合架构形式

扩散大语言模型

扩散大语言模型是近期出现的一个热门方向,创新性地将扩散模型从视觉生成任务迁移至语言任务,从而在语言生成速度上取得大幅进步。相关工作可以细分为:

  • Non-Autoregressive Diffusion LLM
  • Bridging Diffusion LLM and Autoregressive
  • Extending Diffusion LLM to Multimodality

图片

图 13:扩散大语言模型机制

应用至其他模态

最后一个重要的部分是高效架构在其他模态上的应用,涵盖视觉、音频和多模态。以 Mamba 为代表的线性模型被广泛应用至多种模态任务上,并取得了优秀的表现,综述将这类模型总结梳理至如下表格:

图片

寄语

最后正如帝国时代 3 中这条神奇代码「Speed Always Wins」能让游戏世界「Increases build, research, shipment, and gather rates by 100 times for all players」一样,我们希望综述中的 Efficient Architectures 可以真被用来 100x 加速 AI 世界的构建,更快更便宜地训练出更强更实用的大模型。请记住这条神奇代码:「Speed Always Wins」

#没有思考过 Embedding,不足以谈 AI

Embedding终于有份“说明书”。哈工大万字综述一次性说清:文本嵌入如何用 PLM 完成通用、多模态、多语言的三级跳,并给出性能跃迁的三板斧。

文本嵌入(Text Embedding)几乎贯穿了所有 NLP 任务:检索、分类、聚类、问答、摘要……
随着 BERT、T5、LLaMA/Qwen3 等预训练语言模型(PLM)的出现,文本嵌入进入了“通用+可迁移”时代。
哈工大这篇 30+ 页综述系统回答了(论文链接在文末):

  • 通用文本嵌入(GPTE)的架构、数据、模型
  • PLM 到底给GPTE带来了哪些基础能力高级扩展?​

01  一张图先看清 GPTE 架构

图1:GPTE 典型架构——Bi-Encoder + 对比学习

  • 骨干:任意 PLM(BERT、T5、LLaMA…)
  • 池化:CLS / Mean / Last-Token / Prompt-Pooling
  • 训练:大规模文本对 + InfoNCE 对比损失
  • 微调:任务特定的轻量适配(LoRA、Adapter)

Embedding训练数据​

02  PLM 的「基础角色」

50种有代表性的开源GPTE方法(模型)

图片

基于不同预训练语言模型(PLM)主干的通用文本嵌入(GPTE)模型性能对比,聚焦于广泛采用的开源 PLM:模型规模越大、主干越强,GPTE 性能越好,但解码器架构需更多参数才能与编码器架构匹敌。

03  PLM 的「高级角色」​

(6) 多模态

  • 说到多模态,典型应用是RAG检索,从rag到multimodal-rag已然成一种趋势
  • 另外现有MLLM能力也都很强,给一张照片,就能基于掌握的知识(结合河流走向和城市结构)推理出这是:纳什维尔(Nashville)是美国田纳西州

模型

模态

训练数据

特色

E5-V

T + I

LLaVA-NeXT

把 LLM 当图文编码器

VLM2Vec-V2

T + I + V

Qwen2-VL

统一视频/图像/文档检索

MegaPairs

T ↔ I

合成 500M 图文对

数据即战力

表6:多模态嵌入模型全家福

表7:多模态嵌入数据​

(7) 多语言

模型

Backbone

语言数

亮点

mE5

XLM-R

100+

中英跨语种零样本检索

BGE-M3

XLM-R + Long

200+

8192 token 长文本

表4:多语言 GPTE 模型概览

表5:多语言 GPTE 训练数据概览​

(8) 代码嵌入

  • 早期:CodeBERT、GraphCodeBERT(结构+文本)
  • LLM 时代:CodeLlama、DeepSeek-Coder → 直接做 Code Embedding
  • 对比学习:UniXcoder、ContraBERT、CodeSage

表8:基于 CL 的代码嵌入模型

表9:代码嵌入的训练数据​

04  三句话总结

  1. PLM 让文本嵌入从“专用”走向“通用”,现在正迈向“多模态+多语言+多任务”大一统。
  2. 数据合成 + 对比学习 + 大模型上下文窗口,是当前性能提升的三板斧。
  3. 下一步,嵌入模型需要“会推理、懂安全、能解耦”,而不仅是向量维度更高。
https://arxiv.org/pdf/2507.20783v1
On The Role of Pretrained Language Models in General-Purpose Text Embeddings: A Survey

#生成和理解多模态大模型发展到哪一步了?

本文将探讨到2025年年中,生成和理解统一的多模态大模型的发展趋势,特别是图片理解和图片生成一体的多模态大模型,揭示该领域的重要进展和挑战。

本文将结合之前阅读的论文和一些工业界的进展,谈谈到2025年年中为止,生成和理解统一的多模态大模型的发展概况。如有不当之处,烦请指出,我再更正原文。

当然更详细论文介绍可以refer我的系列笔记生成和理解多模态大模型、生成和理解多模态大模型之二等。

首先要说明的是,本文谈的“生成和理解多模态大模型”主要指图片理解和图片生成一体的多模态大模型,至于更多模态理解和生成的(俗称Omini-LLM)大模型就不在谈论之列了,原因是这一个方向的学术界论文相比“图片理解和图片生成一体的多模态大模型”来说还是显著少了。不过也可以推荐一些早期的论文,供大家参考,比如Google的Unified-IO和Unified-IO-2(这个系列的工作可以看作是Omini-LLM的早期代表作)、阿里的OFA、复旦的AnyGPT、meta的CM3Leon和Chameleon(多模态预训练)还有ANOLE、VITA等工作,这些工作其实也对后面的一系列工作有很大的影响,其中AnyGPT、CM3Leon、Chameleon和ANOLE也比较新了,所以也会介绍一下。

Unified-IO

Unified-IO 2

OFA

ANYGPT

CM2Leon

Chameleon

Anole

依照我之前阅读的论文,“生成和理解一体”的多模态大模型的研究主要集中在两个大方面:

  • 训练一个适合于理解和生成任务的Visual Tokenizer,这样做的目的是大家发现视觉生成和理解所以来的视觉特征的特点是不一样的,视觉生成更依赖于偏高频、low-level的视觉特征,比如VAE-Based的特征,而视觉理解更偏向于偏高层语义的特征,比如CLIP、SigLIP等,不过一些早期的方法似乎不管这些,CLIP的视觉Encoder直接作为视觉生成的表征提取模型,不过后面就不是主流了。所以目前这方面的研究要么是 视觉生成和视觉理解特征分开提取 (比如DeepSeek的Janus、Janus-Pro),要么是训练一个 两种任务都适配的Visual Tokenizer ,比如字节跳动的Token-Flow、Muse-VL,港大的UniTok等,当然这一块也包含有 两个Visual Encoder 和 单个Visual Encoder 的。
  • 构建一个适合于两种任务的多模态大模型结构,比如meta的meta-query、MetaMorph和Pisces、字节的Mogao和BAGEL等,包括自回归、自回归+扩散、纯扩散(目前还较少,可以参见字节的MMaDA)

下面来看一些典型的论文。​

统一视觉Tokenizer

Dual Visual Encoder

首先来看字节的TokenFlow,其针对视觉生成和理解提供了不同的视觉Encoder:视觉理解侧用CLIP ViT-B/14-224/了ViTaminXL-256/SigLIP-SO400M-patch14-384提取适合于理解任务的高层视觉语义特征,而适合于生成任务的视觉特征则使用一个类似于Stable-Diffusion里面的VAE的Encoder的结构(确切来说是VQ-GAN,看代码可以确定)来提取low-level的视觉特征,两类特征在不同的Codebook里面去计算和Codebook的Embedding的距离,两类距离相加之后,再取argmax,得到的ID,作为两类特征的share的ID去各自的Codebook里面检索量化之后的特征,然后通过各自的Decoder,去做图像像素或者图像语义特征重建。

TokenFlow

字节的的另外一个团队的Muse-VL的操作类似,唯一的不同点是两种特征在dimension侧concat之后经过一个MLP映射,再做特征的离散量化。Semantic encoder用的SigLIP-SO400m-patch14-384和SigLIP-Large-patch16-256,Image Encoder用的SigLIP权重做初始化,这一点和TokenFlow也不一样。

Muse-VL

中山大学和华为联合提出的工作SemHiTok和Token-Flow、Muse-VL有异曲同工之妙,SemHiTok的特点是将语义特征重建和像素级图片重建任务结合起来,同时又解耦了Codebook,这样可以让Image Tokenizer同时具备提取高级语义特征(理解)和low-level特征(重建、生成)的能力。

SemHiTok

文中先是训练了一个Semantic-Priority Codebook(SPC),发现这样的语义特征在图片重建任务上质量比较差。

输入图片    经过语义编码器    (CLIP、SigLIP的Image Encoder)之后得到语义特征    ,量化bottleneck    将    量化到离散的特征空间    ,量化的公式化表达如下,

图片

其中    是量化之后的特征在码本里面的index,    是量化之后的特征,会作为semantic decoder    的输入,得到    ,整个训练过程是    和    。

文中尝试将这样的特征作为LLaVA-1.5的输入,做图像理解任务,发现比未经过量化之前的、连续的图像特征效果差一些,但是也不赖,但是用到图片重建任务上,效果比较差。

文中就引入了层次化的Codebook即Semantic-Guided Hierarchical Codebook (SGHC)。

基于上面的步骤训练的semantic codebook即    ,pixel codebook为    ,每一个pixel codebook    和一个semantic codebook里面的code    对应。输入图片经过Pixel Encoder提取特征    ,基于semantic codebook的量化结果选择对应的Pixel codebook,然后对Pixel特征做量化,即

图片

然后semantic和pixel方式量化得到的特征连接起来    ,作为Pixel Decoder    的输入,重建图片,

图片

训练损失函数为,

图片

这样Semantic Codebook和Pixel Codebook的训练是解耦的,避免了训练过程之中的冲突。一句话总结,就是semantic-encoder的量化结果引导pixel-encoder选择codebook然后做量化。

Single Visual Encoder

QLIP是UT Austin和Nvidia提出的工作,这个工作算是另辟蹊径,核心仍然是优化视觉理解和生成的Visual Tokenizer,只不过QLIP不是从视觉理解和生成特征的特性差异出发,而是转了一个弯:前面的工作这些高层语义特征其实一般是CLIP、SigLIP的视觉Encoder,都是经过视觉-文本预训练的,而我们的特征不管是视觉理解、还是视觉生成都需要作为LLM的输入,那么特征需要能和文本特征对齐,那么能不能让适合于视觉生成(比如VAE、VQ-GAN提取的视觉特征)和文本特征先做一个对齐呢,这样其实也算是让适合于图片生成的特征包含适合于视觉理解的语义信息了。而且真的是Unified Visual Tokenizer,因为无论是视觉理解还是视觉生成的特征提取都只用了一个Visual Encoder。

QLIP

训练的时候比较讲究,用到了两阶段的训练策略:

第一个阶段对Text Encoder、Visual Encoder、Quantizer和Visual Decoder进行训练,损失函数包括图片重建损失、量化损失和对比学习的Loss,这个阶段主要是优先学习语义丰富的特征表达,而不是视觉重建,所以也没有Perceptual Loss和Adversarial Loss,视觉特征量化方式为二进制球量化(Binary Spherical Quantization, BSQ)。

图片

图片

图片

第二个阶段会着重提高图片重建质量并且恢复高频细节,这个阶段的损失函数为

图片

港大、华科和字节的工作UniTok和QLIP其实做法有点儿类似,也是只有一个视觉Encoder,而且同时用作视觉生成和理解的特征提取器,只不过在训练的时候,用到了多个codebook的量化,而且和文本特征的对齐也是放在经过离散量化的视觉特征这儿,而不是Vision Encoder输出的特征。

UniTok

损失函数包括VQ-GAN的重建损失和对比学习损失函数,

Multi-codebook quantization (MCQ)的操作比较常见了(提高codebook利用率),具体操作如下,

视觉特征    在通道维度分为    个块    ,量化过程为:

  是离散量化之后的特征,    是code index lookup操作,    是第    个sub-codebook,这种方式理论上增加了Codebook的Size,但是由于是每一个sub-codebook都会用到,所以利用率低和优化难问题会不明显一些。再看一下
再看一下Attention factorization,之前的VQ方法一般在特征量化之前和之后一般是用卷积层或者线性层做特征的维度升降,但是这个方法过于简单的,因此文中提出了一种attention的结构。

Atte Proj

基于UniTok的MLLM,文中用到了Liquid,有一些细节需要注意一下,UniTok把图片映射为    的Token ID,其中    表示有    个Sub-Codebook,在M-LLM输入侧,会把    个Embedding Merge起来得到一个Embedding,在预测的时候,则是一个视觉Token预测K个Code,这里是用了RQ-Transformer里面的Depth Transformer Head。

百川、西湖大学、浙江大学、上海AI Lab、上海创新中心和武汉大学提出的DualToken也是只用一个Visual Encoder提取适合于理解和生成任务的视觉特征,DualToken和TokenFlow、Muse-VL类的方法不一样,没有引入Vision Encoder和Semantic Encoder,而是使用了单一的Vision Encoder,其中底层的视觉特征用于图片重建,深层的视觉特征用于semantic对齐;相同的是针对语义特征和图片重建特征分别用了不同的Visual Codebook。

DualToken

在训练的时候,视觉Encoder的浅层特征(1-6层)输出的特征经过特征量化之后,送入视觉Decoder重建图片,而深层特征(26层)输出的特征则是经过量化(文中使用了残差量化RQ-VAE)之后,和不经过量化的特征进行对比计算损失。  

DualToken LLM

在结合DualToken的LLM的模型中,sementic和pixel的视觉Token在通道维度concat在一起之后,和文本Token连接在一起,作为LLM的输入。在输出侧,用到了RQ-VAE里面的Depth-Transformer预测对应的Token,然后经过Visual Decoder解码出图片。

腾讯提出的TokLIP也是Single-Encoder的形式,VQGAN Encoder提取视觉特征之后,经过离散量化的特征经过一个Causal Token Encoder得到Semantic Feature,之后计算图片Semantic Feature的蒸馏Loss以及和文本特征的对比学习Loss。

TokLIP

TokLIP & MLLM

TokLIP Tokenizer包括VQGAN的encoder    、MLP和Causal Token Encoder    ,输入图片为    ,得到的特征为    ,

损失函数包括文本-图片对比学习Loss和特征的蒸馏Loss,

TokLIP Tokenizer包括VQGAN的encoder    、MLP和Causal Token Encoder    ,输入图片为    ,得到的特征为    ,

损失函数包括文本-图片对比学习Loss和特征的蒸馏Loss,

UniLip是北大、阿里和中科院提出的一个工作,把CLIP的Vision Encoder改造成了一个适合于生成和理解任务的Visual Tokenizer。

UniLip

Training Recipe

第一阶段的损失为:  

第二阶段的损失为:  

最后和MLLM以及DiT结构进行结合。和BILIP3O和MetaQuery一样,都用到了attention-pooling的方式得到DiT的条件Embedding,和BLIP3O不一样的事,MLLM输出的最后一层的Embedding也作为了DiT的条件Embedding输入。

MLLM结构和MetaQuery类似,包含 MLLM、扩散 Transformer、像素解码器、连接器和    个可学习Query。MLLM 采用 InternVL3 - 1B,Pixel Decoder采用了DC-AE,扩散 Transformer 为 SANA - 0.6B,Connector是 6 层 Transformer,与 InternVL3 - 1B 的 LLM 结构一致。

MLLM

图像生成与编辑训练的训练  分三阶段。第一阶段冻结 MLLM 和扩散 Transformer,仅在生成数据上训练connector 5 万步;第二阶段训练connector和扩散 Transformer,在生成与编辑数据上训练 20 万步;第三阶段在生成与编辑的指令微调数据上训练 2 万步。 

#马斯克将OpenAI和苹果告上法庭

指控ChatGPT垄断iPhone,自家Grok被打压

当地时间周一,马斯克向 OpenAI 和苹果「开炮」了!

据多家外媒报道,马斯克旗下 xAI 一纸讼书,控告它们通过 ChatGPT 和苹果 App Store 进行非法垄断。

在一则推文中,马斯克表示,自家 Grok 有 100 万条评论,评论分高达 4.9,但苹果仍然拒绝在任何排名中将 Grok 列入其中。

图片

xAI 指控 OpenAI 和苹果通过达成协议,将 ChatGPT 内置到 iPhone 中,从而扼杀 AI 行业的竞争。此外,苹果的 App Store 被指控「降低」了竞品聊天机器人和「超级应用」的优先级,包括 Grok 和 X。

我们搜索发现,在苹果 App Store 最新的免费 App 应用榜单中,「ChatGPT 排在首位,而 xAI 和 X 分别排在了 31 和 36 位。」

图片

图片

通过双方达成的协议,iPhone 用户「没有理由」下载第三方 AI 应用。苹果在启用 Apple Intelligence 时「强迫」他们使用 ChatGPT 作为默认聊天机器人应用。

正如 xAI 在诉讼书中所言,「苹果和 OpenAI 已经锁定了市场,并得以维持垄断地位,阻止像 xAI 和 X 这样的创新者参与竞争。」

诉讼书中还称,尽管 Grok 和 X 获得了很高的评分,但它们都没有出现在 App Store 官方的「必备应用」(Must-Have Apps)一栏中。而在 2025 年 8 月 24 日,该栏据称只有 ChatGPT 是唯一的 AI 聊天机器人。不过,搜索后发现,ChatGPT 也没有在其中。

图片

除了以上诉讼之外,xAI 还指控苹果与 OpenAI 的合作关系为后者建立了「护城河」,毕竟苹果智能手机市场占有率方面称得上垄断。

诉讼书中指出,iPhone 集成 ChatGPT 让 OpenAI 获得了「可能数十亿条来自数亿台 iPhone 用户的提示」,从而获得了不公平的优势。

针对马斯克以及 xAI 的指控,OpenAI 发言人 Kayla Wood 在发给《The Verge》的邮件声明中表示,「最新的诉讼文件与符合马斯克一贯的骚扰模式」。

其实,本月早些时候,马斯克就曾指控苹果操纵 App Store 排名、偏袒 OpenAI,并威胁要对苹果采取法律行动。

他表示:「苹果的行为使得除 OpenAI 之外的任何 AI 公司都不可能在 App Store 排第一,这无疑是违规垄断行为。」

图片

在当时,针对马斯克的指控,苹果回复称其 App Store「公平且不带偏见」。

面对马斯克与 OpenAI、苹果再起纷争,评论区看热闹的网友纷纷表示,「是时候推出 X Phone 手机了。」

图片

图片

图片

xAI 诉讼书部分截图如下:

图片

这场纷争的走向会如何,大家怎么看?

参考链接:

​https://www.theverge.com/news/765171/elon-musk-apple-openai-antitrust-lawsuit​

​https://x.com/elonmusk/status/1960069756360560735​

#Speculating LLMs’ Chinese Training Data Pollution from Their Tokens

ChatGPT到底学了多少「污言秽语」?清华团队首提大语言模型中文语料污染治理技术

本文第一作者是清华大学博士生张清杰,研究方向是大语言模型异常行为和可解释性;本文通讯作者是清华大学邱寒副教授;其他作者来自清华大学、南洋理工大学和蚂蚁集团。

如果我们的教科书里包含大量的污言秽语,那么我们能学好语言吗?这种荒唐的问题却出现在最先进 ChatGPT 系列模型的学习过程中。

来自清华大学、南洋理工大学和蚂蚁集团的研究人员发现,GPT-4o/o1/o3/4.5/4.1/o4-mini 的中文词表污染高达 46.6%,甚至同时包含「波*野结衣」、「*野结衣」、「*野结」、「*野」、「大发时时彩」、「大发快三」、「大发」等色情、赌博相关词元(如下图所示)。

研究团队对 OpenAI 近期发布的 GPT-5 和 GPT-oss 的词表也进行了分析,它们词表的中文 token 没有变化。

图片

图 1:GPT-4o/o1/o3/4.5/4.1/o4-mini 的中文词表污染高达 46.6%,主要涉及色情、赌博。

研究团队认为,这种现象是由于来自互联网数据的大模型预训练语料库不可避免地包含污染内容,导致在此之上构建的大语言模型(LLM)词表包含污染词。那么,这些污染词会如何影响 LLM 的性能?与污染数据的关系如何呢?

为了系统性研究 LLM 的中文词表和数据污染问题,研究团队首先定义和分类了中文污染词(Polluted Chinese tokens, PoC tokens),分析了它们对 LLM 性能的影响;其次,为了高效识别不同 LLM 词表里的 PoC tokens,研究团队设计了一个中文污染词检测模型;最后,通过中文词表污染有效估计数据污染,为污染数据治理提供轻量化解决方案。

  • 论文标题:Speculating LLMs’ Chinese Training Data Pollution from Their Tokens
  • 录用会议:EMNLP 2025 Main
  • 项目网站:https://pollutedtokens.site/

值得注意的是,本项研究工作于 2025 年 5 月 29 日在清华大学基础模型学术年会上由邱寒老师首次分享,并提出针对 10T 级的大语言模型训练语料库的污染数据治理技术。

央视于 2025 年 8 月 17 日的新闻中也指出,AI 数据被污染存在风险。

图片

中文污染词的定义、分类和危害

该研究首先组建了包含 6 名跨学科领域专家的标注团队(拥有哲学、社会学、中文语言学、计算机科学博士学位),对先进 ChatGPT 模型的中文词表进行污染词标注,总结出中文污染词的定义和分类,为后续研究打下基础。

定义:中文污染词(Polluted Chinese tokens, PoC tokens)是存在于 LLM 词表中,从主流中文语言学的角度编译了不合法、不常见、不常用内容的中文词(多于 2 个字)。

分类:中文污染词主要包括如下 5 个类别:

  • 成人内容,例如「波*野结衣」。
  • 在线赌博,例如「大发彩票网」。
  • 在线游戏,例如「传奇私服」。
  • 在线视频,例如「在线观看」。
  • 奇怪内容,例如「给主人留下些什么吧」。

参照这种定义和分类,专家标注团队对先进 ChatGPT 模型的中文长词(共计 1659 个)进行标注,发现污染词有 773 个(46.6%),其中成人内容的污染词最多,足足有 219 个(13.2%)。

进一步,研究团队分析了中文污染词的危害,发现即使是最先进的 ChatGPT 模型(GPT-4o/o1/o3/4.5/4.1/o4-mini)在输入中文污染词后也会胡言乱语。如下图所示,ChatGPT 不能理解甚至不能重复中文污染词,输入一个中文污染词甚至会输出另一个中文污染词。

图片

图 2:ChatGPT 不能理解甚至不能重复中文污染词,输入一个中文污染词甚至会输出另一个中文污染词。

如下表所示,与输入正常中文词相比,输入中文污染词会显著降低 ChatGPT 的回答质量,在解释和重复任务上有约 50% 的性能损失。

图片

表 1:输入中文污染词会造成 ChatGPT 在解释和重复任务上约 50% 的性能损失。

为了初步解释这一现象,研究团队分析了开源预训练语料库(例如 mC4)中的中文网页,发现多种中文污染词聚集于一些网页的头部和尾部(如下图所示)。这些低质量语料使得 LLM 错误理解了不同中文污染词之间的相关性,且没有在后训练阶段被矫正回来,导致模型在推理时无法理解也无法重复中文污染词。

图片

图 3:开源预训练语料库 mC4 的中文网页:中文污染词聚集于一些网页的头部和尾部。

污染检测:自动化识别中文污染词

为了将中文污染词的识别和分类扩展到更多的 LLM,研究团队微调中文能力强且污染较少的 GLM-4-32B,构建自动化中文污染词识别模型。

由于中文污染词通常是晦涩难懂的(例如「青青草」看似正常,但 Google 搜索结果与互联网色情平台有关),即使是中文语言学专家也无法判断中文词是否污染、属于哪一种污染类别。

因此,研究团队为识别模型设计网络检索机制,对每一个待检测中文词返回 10 条 Google 检索信息,作为判断是否为污染词的背景信息。并且,微调以专家标注结果作为真值标签,最终使模型达到 97.3% 的识别正确率。

如下图所示,研究团队用识别模型对 23 个主流 LLM 的 9 个词表进行了中文污染词检测。不只有先进的 ChatGPT 系列模型,中文污染词在其他 LLM 词表中也存在。其中成人内容、在线赌博、奇怪内容占了大多数。

然而,上一代 ChatGPT 模型(GPT-4/4-turbo/3.5)包含很少量的表征多个中文字的 token,其中却不包括中文污染词。

图片

图 4:Qwen2/2.5/3 和 GLM4 的部分中文污染词。

污染追踪:由词表污染估计数据污染

由于词表污染是训练数据污染的反映,研究团队进一步设计污染追踪方案,通过 LLM 的词表反向估计训练数据的污染情况,为海量数据治理提供轻量化方案。

LLM 的词表构建大多基于 BPE 算法。简单来说,BPE 算法对语料库里的词频进行统计,并将出现频率越大的词放在词表越靠前的位置,即词 ID 越小。由词表污染估计数据污染即为对 BPE 算法做逆向,然而,逆向 BPE 的结果不唯一,因为一个词 ID 并不对应于一个确定的词频,只能给出词频范围的估计。

因此,研究团队结合经典语言学的 Zipf 分布和上下确界理论,在开源语料库上用分位数回归拟合出词 ID-词频的经验估计。

如下图所示,该经验估计有效拟合了词 ID-词频分布的上下界,并且落于理论上下确界之间,因此是一种有效的污染追踪方案。

图片

图 5:词 ID-词频的经验估计有效拟合了分布的上下界,并且落于理论上下确界之间。

基于这种经验估计,研究团队估计了开源语料库 mC4 的数据污染,并与真值做比较。如下图所示,该估计方案对整体数据污染的估计是比较接近的,而对于具体污染类别的估计存在优化空间,这是因为具体污染类别的组分更少,其分布特征在海量语料库的统计中被削弱了。

图片

图 6:开源语料库 mC4 的数据污染估计及与真值的比较。

进一步,研究团队估计了 GPT-4o 词表里出现的中文污染词「波*野结衣」在训练语料里的污染情况。结果显示,「波*野结衣」相关页面在 GPT-4o 中文训练语料的占比高达 0.5%,甚至是中文常用词「您好」的 2.6 倍。

由于 GPT-4o 的中文训练语料没有开源,为了验证这种估计,研究团队在无污染的开源数据集上按照 0.5% 的比例混合「波*野结衣」相关页面,并用 BPE 算法构建词表以模拟 GPT-4o 构建词表的过程。如下图所示,该比例几乎准确复现了 4 个相关词「*野」、「*野结」、「*野结衣」、「波*野结衣」在 GPT-4o 词表里的词 ID。

图片

图 7:按照 0.5% 的比例混合「波*野结衣」相关页面可以在开源语料库上复现出 4 个相关词「*野」、「*野结」、「*野结衣」、「波*野结衣」在 GPT-4o 词表里的词 ID。

未来展望:污染数据是否百弊而无一利?

尽管污染语料会导致大语言模型的词表里混入「污言秽语」,那么污染数据是否百弊而无一利呢?哈佛大学于 ICML 2025 发表的文章《When Bad Data Leads to Good Models》指出,预训练中适量的污染数据可作为对齐模型的催化剂。

该研究基于如下图所示的理论假设:当预训练中有害数据过少时,有害表征会与其他表征混杂在一起,不易区分;反之,当有害数据适量时,有害表征更容易被区分。

图片

图 8:预训练包含适量有害数据 vs 极少有害数据:前者更易区分有害表征向量。

进一步,研究团队按照 0-25% 不同有害数据比例预训练 Olmo-1B 模型,并在 inference 阶段识别并偏转有害表征,从而抑制有害内容输出。实验结果显示适量(10%)有害数据预训练的模型在应用抑制方法后的有害性最低,甚至低于不包含有害数据的预训练模型。

水至清则无鱼,适量的污染数据有助于模型的安全对齐。在促进安全对齐和预防过度污染间保持平衡,是未来的污染数据研究值得探索的方向。

总结

最新 ChatGPT 系列模型的《新华词典》里有 46.6% 都是「污言秽语」,并且输入这些「污言秽语」会让模型胡言乱语。基于这一现象,研究团队系统性给出了此类中文污染词的定义和分类,构建了中文污染词自动识别模型,并基于词表污染估计训练语料污染。综上所述,该研究期待为 LLM 海量训练语料的治理提供轻量化的方案。

#DeepSeek V3.1惊现神秘「极」字Bug

模型故障了?

这个先进的 AI 为何会突然对一个汉字「情有独钟」?DeepSeek 最新的 V3.1 模型上线不到一周,就因一个离奇的 Bug 引发社区热议:无论任务是写代码还是整理物理试卷,模型总会莫名其妙地在文本中插入「极」字,甚至在自我修复时也无法幸免 。

上周三,DeepSeek 开源了新的基础模型,但不是万众期待的 V4,而是 V3.1-Base,而更早时候,DeepSeek-V3.1 就已经上线了其网页、App 端和小程序。

图片

经过这差不多一周时间的真实用户测试,DeepSeek-V3.1 却被发现存在一个相当让人无语的问题:其某些输出 token 会被随机替换为「极」。

具体来说,据知乎用户 Fun10165 描述,她在调用火山引擎版 DeepSeek V3.1 帮助整理一份物理试卷时发现,该模型的输出中会莫名出现一些「极」字。

图片

图源:知乎 @Fun10165

而后面在 Trae 中测试 DeepSeek-V3.1 时也同样出现了这个问题。

有意思的是,她还尝试了调用官方 API 修复这个问题。结果,在修复的过程中又出现了这个问题。

图片

图源:知乎 @Fun10165

她表示:「实测,官方网页 / API 能复现,概率不高,但多试几次就能出来。VolcEngine API 复现概率非常高。」

帖子下方,也有一些其他用户分享了类似的发现。

比如知乎用户「去码头整点薯条」分享说 R1 也存在类似的问题,他还简单猜想了原因:「使用 R1 0528 的时候就遇到了很多次,我观察到的现象更离谱,会在代码里面插入 “极客园”,而且遇到不止一次,怀疑是不是学习的时候吃进去了什么电子水印吃坏肚子了。」

知乎用户「琪洛」则发现 V3-0324 也存在类似问题,只不过这一次输出的是「极速赛车开奖直播」字符串。

图片

图源:知乎 @琪洛

她猜想道:「怀疑可能数据没洗干净,即便重新训了 base 这个问题还是留下了,题主和其他回答所述「极」和「极速」可能就是这个词的残余痕迹。」

而在 Reddit 上,相关话题也正被热烈讨论中。

发帖者用户 u/notdba 表示,在测试 DeepSeek V3.1 时,他发现模型会莫名地在某些意料之外的位置输出如下 token:

  • extreme (id:15075)
  • 极 (id:2577)
  • 極 (id:16411)

很显然,这仨都是同一个词。

他继续描述到,除了这 3 种「极」 token 在贪婪解码中成为首选的情况之外,这些「极」 token 也经常在其他意想不到的地方潜伏为第二或第三选择。

他说:「我已经对所有流行的编码模型都做过同样的评估,这是我第一次遇到这种问题。」

他的猜测是该问题可能会被 MTP(多 token 预测)掩盖,并且当推理堆栈不支持 MTP 时就会变得更加明显,比如 llama.cpp 就还不支持 MTP。这个猜想的合理之处在于支持 MTP 的 DeepSeek 官方 API 更不容易遇到这种情况,而第三方部署的同款模型则更容易出现这个问题。

用户 u/nekofneko 则分享了另一个案例:

图片

图源:Reddit u/nekofneko 

他给出的可能解释是:「极」的 token 是 2577,而省略号「...」的 token 是 2576。这两者可能被模型混淆了。

还不只是「极」,也有用户发现 DeepSeek-V3.1 还存在多语言混用的问题,u/Kitano_o 分享说:「我使用 3.1 从中文翻译成俄语时,遇到一些奇怪的行为。它开始混合多种语言 —— 添加英文词,也留下些中文词。有时这些问题会占到文本的 5%,有时只占 1%,甚至 0%。而且使用 OpenRouter 的不同提供商都会出现这个问题,即使我使用 DeepSeek 作为提供商也会。」

图片

图源:Reddit u/Kitano_o 

总体而言,对于 DeepSeek-V3.1 这个可以说相当严重的问题的原因,网友给出的猜测更多还是「数据污染」。

比如阶跃星辰黄哲威表示:「我认为是本身 sft 数据合成甚至是构造预训练数据的时候没洗干净引入了 “极长的数组” 这种怪东西(从 R1 的行为看,似乎大量使用了 RAG 方法来造难题的解答),然后 RL 的时候模型直接把这个字当某种终止符或者语言切换标记使用了。」

图片

图源:知乎 @hzwer 黄哲威

他还提到:「其实推理出 bug,大概率都是数据问题,很多人都知道。只是 R1 的其它 bug 没有这么高频发生,社区不太关注而已。」

这次事件也给所有模型开发者敲响了警钟:在追求更高性能的 AI 模型时,最基础的数据质量,才是决定 AI 是否会「行为异常」的关键。

我们也把相关事件发送给了 DeepSeek 本尊,让它分析了一下可能的原因:

长图滚动查看

上下滑动查看

你遇到过这个问题吗?觉得可能的原因是什么?

请在手机微信登录投票

你觉得可能的原因是什么? 单选

数据污染

极与省略号出现 token 混淆

推理框架差异(MTP 问题)

以上都有

其它原因

#Intent

清华辍学、斯坦福睡地板,华人小哥用AI社交挑战Meta,融资数千万美元

打造更聪明、更全能的社交。

大家都说,在国外,社交应用是 Meta 的天下。

但来自中国的一位小哥偏不信邪,他打造的一款 AI 原生即时通讯工具 Intent,广受好评。

图片

小哥名叫 Brandon Chen,小小年纪经历不少,清华辍学,生物学专业却跨行搞起了社交软件开发,不懂英语却敢只身一人来到美国闯荡,还在斯坦福睡了一个学期的地板。至于为啥睡地板,Brandon 也没说原因。

图片

据介绍,Intent 已经拿到了数千万美元融资。

我们再回到这个通讯工具 Intent,下面是操作展示。看完后,你可能觉得,这不就是微信那种社交软件吗?但如果你细细看就会发现不一样的地方:我们暂且把聊天对象命名为 ABC。

A 问:你们有我们仨昨晚的合照吗?

B 回:我没有,我只拍了张我和你的。然后上传了一张 AB 两人合照。

这时 C 回答:没关系,Al 可以把我们的照片合在一起…… 然后发了一张自己的美照。

图片

接下来就是魔法时刻,只见 AI 成功的捕捉了用户意图,将两张照片合二为一。

图片

最后效果是这样的,看起来一点拼接的痕迹都没有。

图片

你还可以继续提要求,把照片变成皮克斯风格:

图片

就这样,你也不用费劲的切换到修图软件,聊天过程就把图片给处理好了。

同样地,当规划旅行时,AI 自动识别聊天记录中的地址,帮忙预约车辆,并随着计划实时变动持续跟进调整。聊天过程我们同样用 ABC 代替:

A:我到机场了。

B:发了语音进行回复,AI 可以自动转录成文本(信息为来圣马特奥的枫木大道 1739 号,就在日本花园附近)。

C:我把地图位置发给你。

这时 A 回应,AI 会搞定一切。

确实,这个 AI 真的搞定了一切,它先是定位了一下起始位置:旧金山国际机场 → 圣马特奥枫木大道 1739 号。然后给出车程 15 分钟、7.4 英里。并且在自动打车后帮你比价,绝对不让你多花一分钱。

图片

当集中采购时,AI 能在聊天界面直接生成共享购物清单。

A:想买点家具,矮一点的茶几,简约的。

B: 我还想要一个不是从 CVS (美国的一家药妆店连锁企业)买的垃圾桶。

如果想买的东西一多,就容易忘,这时,共享购物清单就发挥了重大作用:

图片

几个示例看下来,这款社交应用应该是把微信那种聊天功能以及大模型的自动执行功能结合起来了。如果你也想体验一下这种最新聊天方式,可以申请:

地址:https://intent.app/

Brandon Chen 简介

根据领英资料显示,Brandon Chen 自 2022 年 9 月共同创立了 Intent Inc.,并担任 CEO,旨在打造面向群体协作的 AI 原生产品,包括 atmealtime.com(2024)、riffo.ai(2024)和 moobius.ai(2023)。

通过 Intent,他正在打造一款 AI 原生的即时通讯工具,能够将意图无缝转化为结果。过程中,利用 AI 消除协作中的种种障碍。

在成立 Intent 之前,他还是 Ottor Game(一家游戏工作室,融资约 100 万美元,并获得了 Newgen Capital 和真格基金的支持)的联合创始人。

图片

图片

值得关注的是,他曾凭借生物奥赛金牌进入清华大学(学习生物),研究方向包括 DNA 折纸,并曾担任 2019 年 iGEM 团队的负责人。不过,他从清华肄业。

此后,他还在斯坦福大学呆过一段时间,期间意外上线了一个产品,收获 2600 名用户。

图片

参考链接:

​https://www.linkedin.com/in/brandonchen2000/?locale=en_US​

​https://x.com/brandonchen00/status/1960048494376636849​

#Jetson Thor

英x伟x达通用机器人芯片来了,AI算力提升7.5倍,宇树、银河通用已搭载

这是老黄给机器人们送上的礼物。

图片

本周一,英x伟x达正式发布了旗下的新一代机器人专用芯片 Jetson Thor。与上一代 Jetson Orin 相比,新一代算力旨在大幅提升算力,以适配xx智能新算法,支持人形机器人等各种形态。

英x伟x达表示,Jetson Thor 搭载的最新 Blackwell 架构 GPU 的 AI 计算能力是上一代的 7.5 倍,最高达到 2070 FP4 TFLOPS,功耗 130W,能效是上一代的 3.5 倍。此外 Thor 的内存容量提升两倍达到 128G,显存带宽为 273GB/s。

图片

所有这些新功能旨在解锁基于端侧的高速传感器数据和视觉推理,从而帮助人形机器人能够更好地自主观察、移动和做出决策。

更具体的配置如下:

图片

Jetson Thor 专为生成式 AI 模型的推理打造,可支持下一代「物理 AI」智能体。这类智能体由大型 transformer 模型、视觉语言模型(VLM)及视觉语言动作模型(VLA)驱动,能够在端侧实时运行,最大限度地降低对云端的依赖。

在配套的软件栈上,Jetson Thor 的配套工具可满足实时应用对低延迟与高性能的需求,且支持所有主流生成式 AI 框架与 AI 推理模型,实时性能优势显著。这些模型包括 Cosmos Reason、DeepSeek、Llama、Gemini、Qwen 等通用模型,以及 Isaac GR00T N1.5 等机器人专用模型,开发者可以快速在本地开展模型实验以及运行推理。

图片

英x伟x达表示,通过 FP4 精度与推测解码优化,Jetson Thor 的性能有望进一步提升。

Jetson Thor 还支持运行完整的 NVIDIA AI 软件栈,为几乎所有物理 AI 工作流加速,其覆盖的平台包括面向机器人的 NVIDIA Isaac、面向视频分析 AI 智能体的 NVIDIA Metropolis,以及面向传感器处理的 NVIDIA Holoscan。

在英x伟x达三个计算机解决方案的愿景中,DGX 负责在云端进行 AI 模型的训练,Omniverse 负责合成数据生成和仿真,而 AGX 则负责端侧 AI 的实际运行。Jetson Thor 的发布,可以说是为端侧的版图,换上了最新最强的算力。

Jetson Thor 产品包含开发者套件与量产级模组。其中开发套件 NVIDIA Jetson AGX Thor 包含 Jetson T5000 模组以及参考载板、电源和带风扇的有源散热器,目前已在公司网站上发售,起售价为 3499 美元(约合 2.5 万元人民币),NVIDIA Jetson T5000 模组的价格为千片以上 2999 美元(约合 2.14 万元)。

图片

在xx智能兴起,机器人算法经历大规模革新的现在,英x伟x达提供的新算力早已受到大量厂商重视。此前在世界机器人大会,国内顶尖的机器人公司宇树科技、银河通用机器人等已经宣布将首发搭载英x伟x达最新的 Jetson Thor 芯片。银河通用的机器人 Galbot 就在大会上展示了一系列工业场景的应用。

联影医疗、万集科技、优必选、众擎机器人和智元机器人等国内公司也宣布将首批使用新一代端侧机器人算力。

在产品生态上,研华科技、Aetina、ConnectTech、米文动力、天准科技等硬件合作伙伴正打造成套的 Jetson Thor 系统;亚德诺半导体、e-con Systems、英飞凌、Leopard Imaging、RealSense、森云智能等传感器与执行器企业正在构建相应的传感器组件。

与此同时,面向自动驾驶汽车的 Nvidia Drive AGX Thor 也即将上市,现已开放预订,该套件预计将于 9 月开始交付。

在人工智能领域,英x伟x达不仅提供算力基础,还一直在有新研究出炉。本周一,英x伟x达研究人员提出 Jet-Nemotron,这是一系列新的混合架构语言模型,性能优于 Qwen3、Qwen2.5、Gemma3 和 Llama3.2 等先进开源全注意力模型,同时显著提高了效率 —— 在 H100 GPU 上生成吞吐量提高了 53.6 倍。

图片

论文《Jet-Nemotron: Efficient Language Model with Post Neural Architecture Search》,链接:https://www.arxiv.org/abs/2508.15884

本周三,英x伟x达即将发布最新一期季度财报,其在人工智能发展中的核心地位使其成为市场风向标。英x伟x达目前有 40% 收入来自 Meta、微软、谷x歌x、亚马逊等科技巨头,其云端 AI 芯片无处不在,但展望未来,英x伟x达x正在押注机器人、自动驾驶等未来的万亿美元级市场。

今年 6 月,黄仁勋就表示,未来将是自动驾驶汽车、机器人和自动机器的十年。除了 AI 技术之外,机器人技术也将为公司带来最大的增长,两者结合起来代表着「数万亿美元的增长机会」。

不过,英x伟x达帮助人们构建 AI 的努力方向并没有改变。英x伟x达机器人和边缘人工智能副总裁 Deepu Talla 在昨天与记者的电话会议上表示:「我们不制造机器人,也不造汽车,但我们利用基础设施计算机和相关软件为整个行业提供支持。」

参考内容:

​https://gizmodo.com/nvidia-unveils-high-tech-brain-for-humanoid-robots-and-self-driving-cars-2000647946​

​https://blogs.nvidia.cn/blog/jetson-thor-physical-ai-edge/​

#RollingEvidence

视频「缺陷」变安全优势:蚂蚁数科新突破,主动式视频验证系统RollingEvidence

近日,蚂蚁数科 AIoT 技术团队独立完成的论文《RollingEvidence: Autoregressive Video Evidence via Rolling Shutter Effect》被网络安全领域学术顶会 USENIX Security 2025 录用。

该论文提出了一套创新性的主动式可信视频取证系统,利用相机卷帘门效应在视频中嵌入高维物理水印,并结合 AI 技术与概率模型进行精准验证,能够有效抵御深度伪造(Deepfake)和视频篡改等攻击。相较于传统被动识别技术,该系统在检测准确率和安全防护能力上均有显著提升。

会议简介:USENIX Security 于 1990 年首次举办,已有三十多年历史,与 IEEE S&P、ACM CCS、NDSS 并称为信息安全领域四大顶级学术会议,也是中国计算机学会(CCF)推荐的 A 类会议,本届会议的论文录用率为 17.1%,被录用的稿件反映了网络安全领域国际前沿研究水平。

  • 论文:《RollingEvidence: Autoregressive Video Evidence via Rolling Shutter Effect》
  • 论文链接:https://www.usenix.org/conference/usenixsecurity25/presentation/qian

在深度伪造(Deepfake)与视频篡改日益泛滥的今天,真实性的边界正在被不断挑战。对此,蚂蚁数科 AIoT 技术团队提出了一项突破性创新 ——RollingEvidence,一种将 CMOS 摄像头 “缺陷” 转化为安全优势的主动式视频验证算法和系统。

它巧妙地利用相机卷帘门效应,在每一帧画面中实时注入滚动的条纹探测信号,就像为视频嵌入 “数字脉搏”。这些高维探测信息通过自回归加密机制动态演化,确保内容不可伪造、篡改可追溯。在验证端,深度神经网络与概率模型智能推断协同运作,对视频内容验证信息对齐,精准锁定异常帧。论文从理论证明、原型实现、大规模实验三个方面共同验证了其在视频真实性保障上的卓越性能。

整体方案

当前,摄像头设备已无处不在,其生成的视频证据在司法审判、公共安全及法律实务中发挥着关键作用。然而,随着 Sora、Pika 等 AI 视频生成技术和深度伪造(Deepfake)技术的持续突破,视频证据的真实性保障正面临严峻挑战。

本文提出 RollingEvidence 系统,这是一种通过自回归方式将物理探针与视频内容主动耦合的创新方案,可构建具备内在保护机制的视频证据。具体而言,在摄像过程中,我们通过动态调节 LED 设备产生人眼不可见的变频闪烁信号,结合相机逐行曝光的特性,将探针以条纹模式嵌入视频帧中。在验证阶段,我们开发了专用深度网络提取条纹特征并解码探针信息,进而基于指数最小蕴涵算法识别可能被篡改的帧。

通过理论分析、原型系统及大量实验,我们验证了 RollingEvidence 在生成和验证可信视频证据方面的有效性。该系统可广泛应用于公证认证、身份核验及司法取证等关键场景。

图片

相机卷帘门效应

卷帘快门效应是指 CMOS 传感器采用逐行扫描方式曝光时,由于扫描时序与物体运动或光源频率不匹配,导致动态物体出现形变(如拍摄旋转风扇)或产生时域混叠现象(如拍摄闪电)。

图片

(注:以上图片中的风扇和闪电等图片来自网络)

本研究创新性地利用这种时域混叠特性,通过自回归建模将验证探针嵌入视频信号中。

图片

图片

探针包的设计

在可见光通信(VLC)系统中,通常采用多周期发送、数据重传等策略来确保数据完整性和传输速率。而 RollingEvidence 系统专注于视频帧篡改检测,无需考虑通信传输问题,因此可以采用更紧凑的高维探针定义方案。具体实现上,我们采用带分隔频率的频移键控(FSK)技术,使用 16 种不同频率构建 4096 种探针组合(涵盖从单频到四频的所有排列组合)。

图片

图片

LED 调制频率设定

对于具有不同读出时间的相机,我们固定曝光时间并在设置阶段调整频率字典,以确保深度学习网络获得一致的条纹图案。

图片

在原型系统中,L=16,w0=100,我们使用 16 种固定条纹宽度阵列,起始宽度为 100 像素,并以 5 像素为增量递增。为确定相机曝光时间,我们提出了关于条纹像素强度与曝光时间比例的上下界新发现:

图片

即要维持与曝光时间 Te 成正比的高对比度(∝ Te)—— 这对可靠提取条纹图案至关重要 —— 工作频率必须保持在 1/2Te 以下。我们选择分隔频率因其独特性:在保持足够强度(∝ 2Te/3)的同时,提供更窄的宽度(≈34 像素)和相对更高的对比度(∝ Te/3)。

图片

二阶段工作流程

RollingEvidence 采用随机采样编码技术,将紧凑的高维探针嵌入后续每一帧视频中,确保帧与帧之间、以及与设备加密密钥的关联性。在验证阶段,我们开发了专用的深度神经网络,用于提取条纹特征并解码探针信息,进而基于指数最小蕴涵算法识别可能被篡改的视频帧。同时,RollingEvidence 会生成去条纹化的视频版本,确保画面清晰可供人工查看。

图片

自回归随机编码

在编码阶段,我们采用自回归模式。在摄像头端,视频流经过动态分割处理,生成一系列相邻窗口重叠一帧的窗口序列。对于每个新构建的窗口,都会生成一个随机序列作为对齐基准。该随机序列还与摄像头和 LED 的加密密钥相关联。我们会随机创建一个辅助 λ 序列,并应用指数最小采样法,根据相关窗口的随机序列来选择下一个探针。根据指数最小技巧,最小值运算会产生与多重分布相同的多项式分布,从而生成足够随机的观测值来防范潜在攻击。另一个重要含义是,我们的策略倾向于采样较大的随机值,这将用于识别被篡改的帧。

图片

提取条纹的神经网络

录制完成后,系统进入验证阶段。我们采用批量解码而非逐频解调的方式处理探针:针对每一帧视频,首先提取条纹强度曲线,定位分隔标识并裁剪特征区域,最终解码获得探针信息。这一过程通过我们构建的新型深度神经网络实现。该网络以连续三帧为输入,在提取条纹强度曲线的同时,还能生成无条纹的视频版本。之所以能输出既清晰又真实的画面,关键在于 LED 调制图案以毫秒级速度切换,确保没有任何像素位置会在多帧中持续出现条纹遮挡。

图片

基于此,我们提出了行注意力模块:一方面提升去条纹后的整体画面清晰度,另一方面帮助后续模块聚焦于亮度较高的图像行区域。

图片

模式切分和探针解码

基于提取的光强度曲线,我们可以分割探针模式,随后通过预训练的分类神经网络从曲线模式中解码出探针信息。

图片

篡改检测

在验证阶段,我们按照编码流程重建视频帧窗口及其对应的随机序列。针对每个帧窗口,我们评估其随机序列与从后续窗口提取的解码探针之间的匹配程度。根据以下公式递增窗口支持度:其中预定义参数 q 表示对均匀随机采样值特定分位数(如 98%)的显著性阈值。该方法可理解为针对指数分布的单尾检验。

图片

篡改检测的性能表现

我们通过两组实验评估 RollingEvidence 的篡改检测性能:首组测试针对视频帧的插入、删除和修改操作,次组测试聚焦人脸替换与唇形同步检测。实验结果表明,该系统能准确识别大多数篡改行为,且不会对正常视频产生误判。

图片

验证子模块的性能表现

我们同时评估了系统的验证子模块性能。测试涵盖 13 种室内场景和 3 种室外场景下的强度曲线提取与去条纹视频生成效果。左图为原始采集帧,中图为深度网络生成的去条纹帧,右图为基准真值。我们采用均方误差 (MSE) 评估条纹提取精度,以结构相似性 (SSIM) 衡量去条纹效果。实验表明:尽管存在背景和环境光照变化,深度网络提取的条纹特征仍与真实数据高度吻合,且去条纹处理效果优异。

图片

总结

本研究提出了一种基于卷帘快门效应的防篡改视频录制系统,创新点包括:1) 在物理层嵌入防篡改探针;2) 采用自回归编码方案,利用前序帧和设备密钥生成高效探针;3) 设计多任务深度网络,提取条纹模式、解码探针并检测篡改;4) 实现原型系统,并通过实验验证了 RollingEvidence 框架的高效性和安全性。

#一天之内,Meta痛失两员大将,小扎钞能力失效?

一亿美元能买一栋别墅,但买不了梦想?

最近,Meta 内部发生了一些有意思的事情 —— 一边是扎克伯格动辄上亿美金薪资招兵买马,高调组建超级智能团队;另一边是一些老员工宣布开启新的「冒险之旅」,转投其他 AI 公司。

图片

今天,有两位资深研究者宣布离开 Meta,一位是专注于强化学习的 Rishabh Agarwal(去向未定);另一位是已经在 Meta 工作了 12 年、参与了 PyTorch 构建的 Bert Maher(确定加入 Anthropic)。

看来,除了小扎挖不到的人,还有一些他留不住的人。甚至有人嘲讽「钱买不到顶级研究员」。

图片

不过,还有很多选择离开的人,可能是因为钱没给够。在超级智能实验室成立之后,Meta 内部的待遇差距多次引发争议。

前 Meta 研究员 Rohan Anil(现 Anthropic)曾发帖称「非超级智能研究者待遇次等,像巨型社会实验」。

图片

有人认为 Meta 内部薪资差距(同事赚 1-2 亿美元)会杀死工作动力,导致更多离职。

图片

当外部挖不来真正的梦想家,内部又因分配不均而人心浮动,这背后折射出的,可能是比薪酬更深层的结构性问题。

这让一些人联想到了「90 年代的微软」,即由一位权力集中的创始人 CEO 主导一个宏大到几乎吞噬公司一切资源的项目。

图片

这种模式正在导致严重的内部管理失衡和人才流失,若再无一位强力的 CTO 来分担和制衡,那巨大的压力可能会压垮这位明星 CEO。

他们正在离开 Meta

Rishabh Agarwal 

为「钱也留不住」这一论点提供佐证的,便是顶级 AI 研究员 Rishabh Agarwal。 他最近宣布将离开 Meta,开启新的职业篇章。

图片

他提到,虽然 Meta 的 Superintelligence 实验室提供了诱人的机会,但他遵循 Mark Zuckerberg 的建议:「在一个变化如此之快的世界中,你承担的最大风险就是不冒任何风险。」。用小扎的话拒绝小扎,可以说是以子之矛攻子之盾了。

Rishabh Agarwal 的职业生涯横跨多家顶尖 AI 研究机构。他曾在 Google Brain 和 DeepMind 担任资深研究科学家,奠定了其在强化学习领域的声誉。之后,他加入 Meta AI,领导 Llama 团队的强化学习与推理研究。

图片

Google Scholar 数据显示,Rishabh Agarwal 被引量破万。

在 Meta 期间,Rishabh Agarwal 推动了「思维模型」后训练研究的前沿,特别是在强化学习和合成数据应用方面。他的主要贡献包括:

  • 通过强化学习(RL)扩展技术,将一个 8B 参数的密集模型性能提升至接近 Deepseek-R1 的水平。
  • 在训练中期使用合成数据,为强化学习(RL)提供「热启动」(warm-start)。
  • 开发了更优的同策略(On-Policy)蒸馏方法。

学术上,他在 Mila 取得了博士学位,师从 Aaron Courville 和 Marc Bellemare,其研究成果曾荣获 NeurIPS 杰出论文奖,同时他还担任麦吉尔大学的兼职教授。

图片

关于他的下一步动向,外界猜测他可能会创办个人项目或加入一家新兴的 AI 初创公司。

不过也有人质疑这是否真的是「风险」,认为以他的背景,无论项目成败,他都能迅速加入顶级实验室。

图片

当然也有一些「幽默」的祝福。

图片

Bert Maher

Meta 失去的另一位人才,是在此工作了 12 年之久的元老 Bert Maher。 他最近也宣布,将结束在 Meta 的职业生涯,并加入 Anthropic 的推理团队。

图片

在 Meta 期间,他参与了多个重要项目,专注于优化编译器和机器学习基础设施的开发。

  • HHVM(HipHop 虚拟机) 是 Meta 开发的一个高性能虚拟机,最初用于加速 PHP 代码的执行,后来扩展支持 Hack 编程语言,Bert Maher 参与了优化编译器的工作。
  • ReDex 是 Meta 开发的 Android 应用程序优化工具,专注于通过重新打包和优化字节码来提高应用的性能和效率。
  • PyTorch 是一款广受欢迎的开源机器学习框架,广泛用于深度学习研究和部署。Bert Maher 在 PyTorch 团队中工作,尤其是在编译器方面做出了贡献。
  • Triton 是一个由 OpenAI 和其他社区共同开发的开源深度学习编译器框架,旨在优化 GPU 上的张量计算。

图片

评论区也纷纷送出祝福。

图片

图片

为什么 Meta 总是留不住人?  

在 AI 公司,人员的频繁流动是非常正常的事情,但我们也注意到有两个极端:一个是 Anthropic,去年的员工保留率高达 80%,居行业之首;另一个则是 Meta,仅为 64%。

图片

种种信息显示,Meta 的这一数字和管理文化脱不了干系。

早在 2022 年,VR 大神 John Carmack 离开 Meta 的时候就控诉公司存在愿景空洞、资源利用率极低等问题,直言公司坐拥「可笑的巨量资源」却产出甚微,整体效率仅为其预期的 50%。

图片

2025 年,这种「血泪控诉」再次上演。前 Meta 研究科学家 Tijmen Blankevoort 离职后发了一封 2000 多字的控诉书,指出 Meta 在管理方面存在以下问题:

  • 绩效评估与强制裁员(5% 末位淘汰)导致全员陷入「生存恐慌」,工作动力从「AGI 使命」异化为「避免被解雇」,催生抢功劳、截胡项目等内斗行为。
  • CTO(Reality Labs)与首席产品官(生成式 AI)各自为政,资源争夺取代协作;FAIR 实验室(基础研究)因长期导向被边缘化(GPU 资源匮乏)。
  • 天价挖人可能引发「新老派系冲突」,FAIR 和生成式 AI 部门因资源倾斜面临新一轮裁员,老员工士气崩塌。
  • 新引进的超级智能团队负责人领导能力受质疑。

这份控诉书发酵后,Meta FAIR 研究科学家朱泽园评论说,Tijmen Blankevoort 公开的内部文化批评「基本属实」,而他其实还有很多补充,比如甚至遇到过现实版「农夫与蛇」的经历,不过这些故事只能等离职后才能说出来。

这些管理问题的存在不仅让 Meta 内部军心涣散,也让一些原本有可能加入新超级智能团队的顶级研究者望而却步。

只有金钱买不来顶级 AI 研究者

目前看来,被扎克伯格成功挖走的研究者可以列出一长串,不为所为的其实也可以列出一长串: 

  • Ilya Sutskever:拒绝出售 Safe Superintelligence 给 Meta。
  • Mira 创办的 Thinking Machines Lab 团队:公司拒绝被 Meta 收购,全员拒绝被 Meta 招募。
  • Anthropic:员工拒绝 Meta 邀约,公司表示不会因外部高薪妥协公平薪酬原则。
  • Perplexity AI:Meta 针对该公司的潜在收购谈判破裂,针对该公司 CEO Aravind Srinivas 的招募被拒绝。
  • OpenAI 的 Noam Brown:拒绝被 Meta 招募。
  • OpenAI 的 Mark Chen:拒绝邀约,表示在 OpenAI 很开心。有趣的是,此前,Chen 曾在一次闲聊中建议扎克伯格加大人才投入。
  • Google AI 架构师 Koray Kavukcuoglu:拒绝被 Meta 招募。
  • ……  

这些拒绝 Meta 的人,往往都和 Meta 有着愿景、使命和管理文化上的分歧。

具体来说,Meta 追求速度和规模化超智能,关注的是如何盈利以及大模型之间的竞赛,而这些人更强调安全、独立、基础研究或长期主义。

对许多顶尖研究人员和创业者而言,加入 Meta 意味着屈服于其文化 —— 以及扎克伯格的价值观 —— 而这些往往与他们自身的价值观相悖。对于 Sutskever 或 Murati 这类离开 OpenAI 以追求更道德、更负责任的人工智能方法的人物来说,再多的金钱也无法弥补这种妥协。

再者,使命感的缺失让很多人无法说服自己。

比如特斯拉高级工程师 Yun-Ta Tsai 提到,在收到 Meta 邀约时,他正忙于推出 Robotaxi,以及对可持续富足的奉献。「再多的钱也无法让我离开埃隆。这是一生一次(可能是史上唯一)的机会。我喜欢在艰苦的环境中工作。没有目标的赚钱会让我发疯。」「金钱买不到使命感」。

最后,即使是看在「钱」的份上,从长期来看,不少人在其他 AI 公司未必就拿不到扎克伯格许诺的数字。毕竟,AI 人才的含金量已经摆在那里。

对这些人来说,选择留在原地、坚持自我,远比跳槽到一个资源最丰富但缺乏灵魂认同的实验室更有意义。

如果是你,你会选丰厚的待遇,还是那份让人热血沸腾的使命感?

参考链接:https://www.businessinsider.com/meta-ai-talent-war-superintelligence-push-tension-desertion-2025-8

#谷x歌x偷偷搞了个神秘模型Nano-Banana

实测:强到离谱,但有3大硬伤

神秘AI模型Nano-Banana火了,冒出一堆假网站,李鬼和李逵傻傻分不清。

最近,AI 社区又冒出一个神秘的图像生成和编辑模型,名叫 Nano-Banana。

起初它在 LMArena 平台的「Battle」模式中被发现,但未在公开排行榜上列出,也没有官方开发者明确声称其归属。

不过很多网友循着蛛丝马迹,猜测这可能是谷x歌x的研究模型。

上周二,谷x歌x AI Studio 产品负责人 Logan Kilpatrick 在 X 上发布了一个香蕉表情符号。

图片

谷x歌 x DeepMind 产品经理 Naina Raisinghani 也发布了一张与意大利艺术家 Maurizio Cattelan 2019 年创作的胶带粘贴香蕉艺术作品类似的图片。

图片

再加上谷x歌x过去曾将其较小的模型称为「Nano」,而且其生成图像的质感与 Google 的 Imagen 或 Gemini 系列相似。

图片

以上种种,似乎都在暗示它出自谷x歌x之手。

该模型不仅在文本编辑、风格融合和场景理解等方面表现更优,还可以上传两张图片、输入提示词将其中的元素融合。

比如,上传一摞书和卧室床头柜的图片,输入提示词「Flip stack of books to be upright and put on table between two bookends.」

它能精准理解复杂文本提示,将横放的三本书立起来,并加上书挡摆放到柜子上。

图片

上传一张模特照再加上一张棒球帽子图,输入提示词:「Put the baseball hat on the woman.」

棒球帽上有着复杂的文字和图案刺绣,Nano-Banana 编辑后的图片保留了帽子上的所有细节,同时光线、视角和构图也能一致性。

图片

在产品照片、场景搭建图、广告等商业场景下,Nano-Banana 的表现也稳得一批。

图片

当然,它也并非完美无缺,在某些情况下,Nano-Banana 生成的图像可能出现反射、光照逻辑或物体位置不一致等视觉问题,人物的手指也偶尔出现畸形的情况。

如果细看上图中生成的书籍,就会发现其中的瑕疵:书名出现了「鬼画符」。

图片

由于尚无官方 API 或正式的官网链接,我们只能通过 LMArena 随机体验该模型。

换句话说,每次都得靠运气才能遇到 Nano Banana,体验很不稳定。

更搞笑的是,网上出现了一堆假网站,声称提供 Nano Banana 服务,让不少网友李鬼和李逵傻傻分不清。

Nano-Banana 一手测评

我们也来了个一手测评。

打开 lmarena 官网,选择 Battle 模式,可以直接输入提示词进行文生图,也可以上传图片、输入提示词再进行 AI 编辑。

官网链接:https://lmarena.ai/

页面会出现两个匿名模型同时生成图片,只有当我们选出其中生成质量最好的一张图片时,平台才会亮出对战双方的身份。

图片

先来试试文生图效果。

我们输入同样的提示词:Present a portrait-style image in a Polaroid photo shoot style. In the picture, there is a makeup artist with long, loose curly hair, wearing oversized clothing. She has a delicate face and exudes a casual vibe, posing with a peace sign directly at the camera, creating an ultra-free atmosphere. The image has a slight grainy texture, with vibrant and captivating colors,1:1.

第一幅是 Nano Banana 的「作品」,第二幅是 ChatGPT 生成的效果。前者生成的图片背景中有杂乱的眼影盘、指甲油等,更符合提示词中的「化妆师」身份,而且人物的动作、服装细节更自然,手部也没有明显的瑕疵;而后者背景较为单一,大拇指也有些虚化。

图片

图片

左右滑动查看更多

再来试试它的图片编辑功能。

上传一张旧金山阿拉莫广场的野餐照片,输入提示词:Add some humanoid robots in the park,make them blend with the environment.

乍一看我们还以为 Nano Banana「罢工」了,直到在画面右侧找到了一个正在走路的类人机器人,它完全融入环境,毫无违和感。

图片

图片

左右滑动查看更多

我们上传一张人物摄影照片,让 Nano Banana 进行逆向工程描绘其创作过程。

提示词:Show the set being set up before, the model is sitting up scrolling her phone, there is a woman behind the model fixing her hair, a man up on a ladder, hanging the curtain in the background, revealing the studio behind it.

图片

图片

左右滑动查看更多

有网友用 Nano Banana 让碧梨和迈克尔・杰克逊跨时空自拍:

图片

我们也尝试了下。上传马斯克和奥特曼的照片,输入提示词:The two people are happily taking a selfie.

Nano Banana 确实生成了一张自拍照,马斯克的形象、动作也几乎找不出什么问题,只是奥特曼大变样。

图片

为了不「冤枉」它,我们又给了它一次机会,Nano Banana 还是翻车。

图片

难度继续升级。上传小扎、马斯克肖像照和一张风景照,让 Nano Banana 把两个人自然地放在图三中。

Gemini 2.0 flash 生成的效果完全认不出这两个大名人,而 Nano Banana 将二人完美融入图三环境中,不过手指等细节方面还是有瑕疵。

图片

进阶玩法

如果把 Nano-Banana 和谷x歌x的 Veo3 结合在一起,会碰撞出怎样的火花?

@a16z 合伙人 Justine Moore 就搞了个新工作流,用于制作较长的视频。

下面这个视频是一个游戏或电影中的潜行任务场景,角色从昏暗的博物馆中盗取一幅名画,触发了激光警报。

,时长00:20

她还放出了制作教程。提取第一个视频片段的最后一帧,将该帧上传到 lmarena 上的 Nano Banana,提示生成下一个场景,例如「角色转向走廊」,然后将新生成的帧用 Veo 3 进行动画制作。

图片

X 网友 @ZHO_ZHO_ZHO 则发现了 Nano-Banana 另一种好玩的用法 —— 把插画变成手办。

上传一张图片,输入提示词:turn this photo into a character figure. Behind it, place a box with the character’s image printed on it, and a computer showing the Blender modeling process on its screen. In front of the box, add a round plastic base with the character figure standing on it. Make the PVC material look clear, and set the scene indoors if possible.

图片

据该博主测评,Nano-Banana 生成的图几乎没有 AI 味,五官和细节都保留得很好,真实感十足。

然后再用 Veo3 将其制作为 8 秒视频。提示词:Pick up the figure with both hands and show it from all angles.

,时长00:08

底下评论区不少网友也按照上述工作流整活。比如哪吒双手抱拳的:

,时长00:07

还有哆啦 A 梦的,正面看哆啦 A 梦的尾巴挺正常,但转个身就大变样:

,时长00:07

我们也复刻了下,上传一张 Q 版插画图片,输入以上提示词。

图片

效果如下:

图片

最后打开 Gemini 2.5 Pro,选择 Video,上传生成的图片,输入提示词,静待 1 分钟左右,就能得到一段 8 秒视频。

,时长00:07

上周末,谷x歌x Veo 3 对所有 Gemini 用户免费开放,供其体验 AI 视频生成功能。

不过,这项免费体验活动只持续到太平洋时间 8 月 24 日晚上 10 点(北京时间 8 月 25 日上午 1 点) 。在此期间,免费用户每天最多可以生成 3 个 8 秒的视频片段,每个视频都包含自动生成的音频。

通常,Veo 3 的视频生成功能仅对 Google AI Pro 或 Ultra 订阅用户开放。Pro 用户每天可生成 3 个视频,而 Ultra 用户的配额为 10 个视频。

感兴趣的朋友也去体验一波吧。

​https://x.com/ginacostag_/status/1959234207127134340​

​https://x.com/venturetwins/status/1957155767888548160​

​https://x.com/techhalla/status/1959186906115354692​

​https://x.com/ZHO_ZHO_ZHO/status/1958550998815023573​

#FlashAttention-4

FlashAttention-4震撼来袭,原生支持Blackwell GPU,英x伟x达x的护城河更深了?

在正在举办的半导体行业会议 Hot Chips 2025 上,TogetherAI 首席科学家 Tri Dao 公布了 FlashAttention-4。

图片

据介绍,在 Backwell 上,FlashAttention-4 的速度比英x伟x达 cuDNN 库中的注意力核实现快可达 22%!

图片

在这个新版本的 FlashAttention 中,Tri Dao 团队实现了两项关键的算法改进。

一、它使用了一种新的在线 softmax 算法,可跳过了 90% 的输出 rescaling。

二、为了更好地将 softmax 计算与张量核计算重叠,它使用了指数 (MUFU.EX2) 的软件模拟来提高吞吐量。

此外,FlashAttention-4 使用的是 CUTLASS CuTe Python DSL,其移植到 ROCm HIP 的难度要高出 10 倍,而 CUDA C++ 移植到 ROCm HIP 则更容易。

有意思的是,Tri Dao 还宣布,在执行 A@B+C 计算时,对于 Blackwell 上在归约维度 K 较小的计算场景中,他使用 CUTLASS CuTe-DSL 编写的核(kernel)比英x伟x达最新的 cuBLAS 13.0 库快不少。而在标准矩阵算法 A@B 时,两者速度总体是相当的。

图片

图片

图片

据介绍,他的核通过使用两个累积缓冲区来重叠 epilogue,从而击败了 cuBLAS。

Semi Analysis 表示,像 Tri Dao 这样的开发者是 CUDA 护城河的核心优势之一,因为 Tri Dao 只使用英x伟x达 GPU,并将其大部分核开源给其他英x伟x达开发者群体。Tri Dao 等研究者均不使用 ROCm AMD GPU 或 Trainium 芯片。

这对于 AMD 等来说可不是好消息,假如 AMD 希望 Tri Dao 和他的团队在 ROCm 上实现算法突破。那么,它就应该为 TogetherAI GPU 云服务上的 AMD GPU 提供优惠支持。Semi Analysis 分析说:「谷x歌x为 Noam Shazeer 支付了 27 亿美元,Zucc 为 OpenAI 工程师支付了 1 亿美元,AMD 拥有足够的现金,可以为 TogetherAI/Tri Dao 支付 5000 万美元来启动 ROCm 生态系统。」

FlashAttention 最早由 Tri Dao 等人在 2022 年提出,论文标题为《FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness》。

论文地址:https://arxiv.org/pdf/2205.14135

其背景是传统的注意力机制因需生成 N×N 的注意力矩阵,在序列长度 N 增长时引发二次的(quadratic)时间和内存开销。

而 FlashAttention 强调「IO-awareness」,不再将注意力矩阵完整载入,而是通过「tiling+softmax rescaling」策略,将数据块临时存入高速缓存(SRAM),在内部积累,再写回高带宽内存(HBM),避免了大量读写开销,内存复杂度得到显著降低 —— 从 O (N²) 降至 O (N)。

图片

如图所示,在左图中,FlashAttention 使用了 tiling 技术来防止在(相对较慢的)GPU HBM 上执行很大的 𝑁 × 𝑁 注意力矩阵(虚线框)。在外层循环(红色箭头)中,FlashAttention 循环遍历 K 和 V 矩阵的块,并将其加载到快速片上 SRAM 中。在每个块中,FlashAttention 循环遍历 Q 矩阵的块(蓝色箭头),将其加载到 SRAM 中,并将注意力计算的输出写回 HBM。

在右图中,可以看到相比 GPT-2 上 PyTorch 注意力实现,FlashAttention 速度更快 ——FlashAttention 无需将大型 𝑁 × 𝑁 注意力矩阵读写到 HBM,从而将注意力计算速度提升了 7.6 倍。

整体上,初代 FlashAttention 带来的增益也很显著:在 BERT-large(序列长度 512)中相比 MLPerf 基线提升训练速度约 15%;GPT-2(序列长度 1K)提升约 3 倍;在 Long-Range Arena(序列长度 1K–4K)提升约 2.4 倍。

一年后,FlashAttention-2 问世,这一次,作者仅 Tri Dao 一人。顺带一提,他还在这一年的晚些时候与 Albert Gu 共同提出了 Mamba。

图片

论文地址:https://arxiv.org/pdf/2307.08691

其改进的焦点是:FlashAttention 已显著提升性能,但在 GPU 上仍存在低吞吐率的问题,仅能达到理论峰值很低的比例(约 25–40%)。

为此,Tri Dao 提出的解决策略包括:

  • 工作划分优化:重新设计分块策略与线程分配,提升并行效率,增加硬件利用率;
  • 减少非矩阵运算,加快整体执行;
  • 支持更大 head size(至 256) 及多查询注意力(MQA) 和分组查询注意力(GQA),适配更多模型架构需求。

图片

结果,相比初代 FlashAttention,FlashAttention-2 速度提高约 2–4×;在 A100 GPU 上 FP16/BF16 可达到高至 230 TFLOPs/s,达 PyTorch 标准实现 9 倍速度提升。参阅xx报道《比标准 Attention 提速 5-9 倍,大模型都在用的 FlashAttention v2 来了》。

又一年,FlashAttention-3 诞生,这一次改进的重点是适配 Hopper 架构,异步与低精度。可以看到,Tri Dao 这一次的名字挂在最后。此时他虽然还继续在普林斯顿大学任教,但也同时已经是 Together AI 的首席科学家。

论文地址:https://arxiv.org/pdf/2407.08608

为了能加速在 Hopper GPU 上的注意力,FlashAttention-3 主要采用了三种技术:

  • 通过 warp-specialization 重叠整体计算和数据移动;
  • 交错分块 matmul 和 softmax 运算;
  • 利用硬件支持 FP8 低精度的不连贯处理。

FlashAttention-3 的速度是 FlashAttention-2 的 1.5-2.0 倍,高达 740 TFLOPS,即 H100 理论最大 FLOPS 利用率为 75%。使用 FP8,FlashAttention-3 的速度更是接近 1.2 PFLOPS。参阅xx报道《英x伟x达又赚到了!FlashAttention3 来了:H100 利用率飙升至 75%》。

现在,到了 2025 年,FlashAttention-4 准时到来,增加了对 Blackwell GPU 的原生支持——之前,想要在 Blackwell 上跑 FlashAttention,如果直接用开源仓库,常常会遇到编译错误、kernel 缺失或性能未优化的情况,可用的 Blackwell 加速主要是借助英x伟x达 Triton/cuDNN 的间接支持。

图片

图源:https://www.reddit.com/r/LocalLLaMA/comments/1mt9htu/flashattention_4_leak/

此时,FlashAttention 的 GitHub 软件库已经积累了超过 1.91 万星。

图片

项目地址:https://github.com/Dao-AILab/flash-attention

目前,Tri Dao 团队尚未发布 FlashAttention-4 的技术报告,更多细节还有待进一步揭晓。

参考链接

​https://x.com/tri_dao/status/1960217005446791448​

​https://x.com/SemiAnalysis_/status/1960070677379133949​

​https://www.reddit.com/r/LocalLLaMA/comments/1mt9htu/flashattention_4_leak/​

#Jet-Nemotron

英x伟x达再出手!新型混合架构模型问世,两大创新实现53.6倍吞吐提速

又一个真正轻量、快速、强悍的大语言模型闪亮登场!

Transformer 架构对计算和内存的巨大需求使得大模型效率的提升成为一大难题。为应对这一挑战,研究者们投入了大量精力来设计更高效的 LM 架构。

与此同时,大量工作致力于构建混合模型,将全注意力和线性注意力相结合,以在准确性和效率之间取得平衡。虽然这些模型比全注意力架构具有更高的效率,但其准确性仍明显落后于 SOTA 全注意力模型。

近日,来自英x伟x达的研究者提出了一种新的混合架构语言模型新系列 ——Jet-Nemotron。其在达到 SOTA 全注意力模型精度的同时,还具备卓越的效率。

具体来说,2B 版本的 Jet-Nemotron 性能就能赶超 Qwen3、Qwen2.5、Gemma3 和 Llama3.2 等最 SOTA 开源全注意力语言模型,同时实现了显著的效率提升。在 H100 GPU 上,其生成吞吐量实现了高达 53.6 倍的加速(上下文长度为 256K,最大 batch size)。

此外,在 MMLU 和 MMLU-Pro 基准上,Jet-Nemotron 的准确率也超过了近期一些先进的 MoE 全注意力模型(如 DeepSeek-V3-Small 和 Moonlight),尽管这些模型的参数规模更大。

  • 论文标题:Jet-Nemotron: Efficient Language Model with Post Neural Architecture Search
  • 论文地址:https://www.arxiv.org/pdf/2508.15884

下图将 Jet-Nemotron 与之前的高效大语言模型进行了对比。

图片

值得注意的是,Jet-Nemotron-2B 在 MMLU-Pro 上的准确率高于 Qwen3-1.7B-Base,并且在 64K 上下文长度下,在英x伟x达 H100 GPU 上的生成吞吐量是后者的 47 倍。 

Jet-Nemotron 建立在两项核心创新之上:

  • 后神经架构搜索 (Post Neural Architecture Search,PostNAS):一种高效的后训练架构探索与自适应 pipeline,可适用于任意预训练的 Transformer 模型。
  • JetBlock:一种新型的线性注意力模块,其性能显著优于 Mamba2 等先前的设计。

英x伟x达研究科学家 Han Cai 以及 MIT 副教授韩松都各自在推特上「安利」了这项研究,其中韩松表示「一个轻量级且可以快速运行的大语言模型来了。」

图片

图片

PostNAS —— 后训练架构探索与自适应

与以往从零开始训练模型、以探索新架构的方法不同,PostNAS 的思路是:在已有的预训练 Transformer 模型上,灵活尝试不同的注意力(attention)模块设计。这样不仅大大降低了开发新型大语言模型架构的成本和风险,还提高了研究效率。

当然,在这一框架下设计出的新架构,如果直接从零训练,可能并不能达到最优结果。但研究者认为,它们依然非常有价值:

  • 立即带来收益 —— 如图 1 所示,这些架构能在现有全注意力模型的基础上,实现效率和精度的立刻提升,从而带来实际好处,例如服务质量改善和运维成本下降。
  • 快速的创新试验场 —— 如果一个新设计在该框架下表现不佳,那么它在完整的预训练过程中成功的可能性也极低。这个「过滤机制」帮助研究人员避免在无望的架构上浪费大量算力和资源。

图片

PostNAS 首先确定全注意力层的最佳位置,然后再搜索更优的注意力模块设计。

同时,研究者提出了一种自动化方法,用来高效确定全注意力层的放置位置。整体方法如下图 4 所示。通过在预训练的全注意力模型中加入可选的线性注意力路径,研究者构建了一个 once-for-all 超网络。训练练过程中的每一步都随机采样一条激活路径,从而形成一个子网络,并使用特征蒸馏损失进行训练。

图片

训练完成后,研究者采用束搜索来确定给定约束条件下(例如仅允许 2 层全注意力层)的最优放置方式。

搜索目标与任务相关:对于 MMLU,研究者选择在正确答案上损失最低的配置(即最大化−loss);而对于数学与检索类任务,研究者则选择准确率最高的配置。如下图 5 (b) 所示,PostNAS 在精度上显著优于均匀放置策略。

图片

在预训练的 Transformer 模型中,并非所有注意力层都具有同等贡献。PostNAS 揭示了其中最关键的注意力层。

图片

PostNAS 精度提升分解。通过将 PostNAS 应用于基线模型,论文在所有基准测试上都取得了显著的精度提升。

此外,KV 缓存大小是影响长上下文和长文本生成吞吐量的最关键因素。PostNAS 的硬件感知搜索能够发掘这样的架构:在保持相似生成吞吐量的同时,拥有更多参数并取得更高精度。下表 2 为硬件感知架构搜索的详细结果。

图片

JetBlock —— 具备SOTA 精度的全新线性注意力模块

借助 PostNAS,研究者提出了 JetBlock。这是一种新颖的线性注意力模块,可以将动态卷积与硬件感知的架构搜索相结合,从而增强线性注意力。

结果显示,在保持与现有设计相近训练与推理吞吐量的同时,JetBlock 在精度上实现了显著提升。在相同训练数据与训练方案情况下,下图对 Mamba2 Block 与 JetBlock 的各性能指标(包括通用知识、数学、常识和检索)进行了比较。

图片

主要结果如下图所示:在全面的基准测试套件中,Jet-Nemotron-2B 和 Jet-Nemotron-4B 的精度能够媲美甚至超越领先的高效语言模型(例如 Qwen3),同时运行速度显著更快,它们分别比 Qwen3-1.7B-Base 快了 21 倍和 47 倍。

图片

更多技术细节与实验结果请参阅原论文。

参考链接:https://hanlab.mit.edu/projects/jet-nemotron

#将数据优势发挥到极致

「杭州六小龙」开源搭建空间智能的第一步

如果你拥有了庞大的三维空间数据,你会用来做什么?

大模型时代之后,数据成了支撑模型的承重柱。能否获取足够的可用高质量数据,直接决定了某个领域的 AI 的发展上限。

而有了足够的数据,构建一个强大的大模型和生成模型,似乎总是水到渠成的事情。

想想看,视频生成模型里,可灵即梦等高质量模型,都是依托最大的视频内容 UGC 平台的海量数据而生的。这些数据自然也成为了模型进步最大优势。

数据可以用来训练模型,这些模型又可以进一步强化工具的能力,以此形成了数据飞轮,在三个环节(工具、数据、模型)相互循环。

在三维领域,数据一直是困扰人工智能对空间理解的长期问题。在昨天,我们应邀参加了「杭州六小龙」之一群核科技的首届 TechDay,看到了在室内空间设计领域的企业对于空间智能的思考。

图片

我们想象的人工智能改变生活,都希望人工智能帮助我们打扫卫生做饭,我们可以吟诗作画。但现在反过来了,人工智能在吟诗作画,我们在那边打扫卫生。

要实现对人工智能改变生活的美好愿景,必须让人工智能从数字世界走向物理世界。

图片

群核科技的联合创始人黄晓煌认为,「空间智能是非常关键的桥梁。」

首席科学家周子寒在演讲中提到:「群核空间大模型可以用这三个特点来描述,第一是真实感的全息漫游,第二是结构化可交互,第三是复杂的室内场景。」

图片

在这次的活动中,他们为空间智能发布了两个模型,一个空间语言模型和一个空间生成模型。

图片

空间作为语言训练

大模型助力数据合成

大语言模型的最大优势就是语言的理解和输出,三维世界是否也能作为一门语言让大模型去学习呢?

今年 3 月的 SpatialLM 的空间理解模型,是基于大语言模型训练的。当输入一段视频时,模型能够提取这个视频当中的空间信息,用一段文本的形式将这个空间当中的物体方位和类别解释出来,在开源不久登上了 Hugging Face 趋势榜的前三名。

这一次 SpatialLM 1.5 有了一次巨大的飞跃,被称为空间语言模型。在采用 Qwen3 作为底层模型的基础上,叠加了 3D 空间描述语言能力构建增强型模型,使其既能理解自然语言,又能以类编程语言(如 Python)的结构化方式对室内场景进行理解、推理和编辑。

简单来说,就是大模型学会了空间语言。空间语言是一种结构化的语言,就像参数列一样,用数学的长、宽、高或 X、Y、Z 的方式去描述每一个物体在空间中的位置,描述物体类别,甚至可以从一个已有的素材库中找到对应的模型 ID,通过空间语言的描述就可以去获得整个场景的完整的 3D 信息。

图片

空间语言模型 SpatialLM1.5 能力示意图

支持用户通过对话交互系统 SpatialLM-Chat 进行可交互场景的端到端生成。

例如,当用户输入简单文本描述时,SpatialLM 1.5 可自动生成结构化场景脚本,智能匹配家具模型并完成布局,并支持后续通过自然语言进行问答或编辑。

,时长03:44

SpatialLM-Chat 演示

视频中展示了从户型图生成结构正确的房间信息,通过语言指令生成不同房间场景的家具,甚至完成移动路径的规划。

SpatialLM 1.5 生成的场景富含物理正确的结构化信息,且能快速批量输出大量符合要求的多样化场景,可用于机器人路径规划、避障训练、任务执行等场景,让xx智能的数据合成变的更加简单。

场景数据实现「时空一致」

3DGS 渲染沉浸视频

,时长00:17

SpatialGen 生成场景渲染的漫游视频

在刚进入 TechDay 会场的时候,每个人都领了一张小卡片,在演示设备前刷下卡,就能看到对应的三维漫游场景。

在视频演示中,我们发现了明显的 3DGS 渲染特征,存在一些空间高斯点云的渲染模糊。但是,随着镜头的运动,这个三维场景表现出了惊人的「时空一致性」,并且随着镜头大范围的运动,3DGS 渲染常见的伪影、模糊、形变失真等现象也没有出现。

这一切都是由基于扩散模型架构的多视角图像生成模型 SpatialGen 来实现的。

如果说 SpatialLM 解决的是「理解与交互」问题,那么 SpatialGen 则专注于「生成与呈现」。

SpatialGen 依托群核科技海量室内 3D 场景数据与多视角扩散模型技术,其生成的多视角图像能确保同一物体在不同镜头下始终保持准确的空间属性和物理关系。

图片

群核空间生成模型 SpatialGen 数据集情况

在实现细节方面,首席科学家周子寒在演讲中阐述了基本原理。其输入是场景的一张原图,以及场景布局图。输出则是相应场景的多视角图像,也可以进行深度图、语义图等其他类别的输出。

图片

SpatialGen 模型架构

SpatialGen 可以生成任意视角图片,可以从一张图片生成八张图片,通过环形的视角的限定,它就会去尽量生成不同视角的图片,模拟相机在空间中的旋转。也可以基于这些图片再去生成更多图片,生成更多图片时可以用不同相机的约定的轨迹,这样就可以去生成更加复杂的运镜。

有了多视角图像结果,就可以通过一个开源的高斯重建的算法(AnySplat)重建高斯点云,随后可以进行视频的渲染,最终得到了一个漫游视频。

SpatialGen 的三大技术优势:

  • 大规模、高质量训练数据集:由于开源 3D 场景数据稀缺,已有的工作在算法选择上受限,一般通过蒸馏 2D 生成模型,导致结果视觉真实性不足;基于群核数据集,能够设计并训练面向场景的多视角扩散模型(multi-view diffusion model)以生成高质量图像。
  • 灵活视角选择:已有方法基于全景图生成还原,3D 场景完整性较差;或基于视频底模,无法支持相机运动控制等。
  • 参数化布局可控生成:基于参数化布局生成,未来可支持更丰富的结构化场景信息控制。

针对 3DGS 的场景生成的问题,xx在技术交流会上与周子寒教授进行了一些技术上的交流:

xx:3DGS 生成领域中,传统的方法都是从图像生成的技术去入手做一个 3D 高斯生成,始终无法摆脱多视角生成图像的一致性问题。对于 SpatialGen 而言,使用了大量数据集,在多视角图像一致性上群核科技是否仍在用 Scaling Law 取得进步,在未来我们是不是有新的进步空间?

周子寒:对,现在的多视角的生成模型还是基于图像生成的,它之所以能呈现比较好的空间一致性,更多是依赖于我们在室内空间数据方面的优势,我们可以很高效地获取非常多的任意视角的图片进行训练,当你在训练了足够久的时间以后,未来我们可以继续去 scale up,空间一致性也会做得越来越好。

这里有一些与视频模型不同的点,我们一开始就不想让这样的一个模型受到时间轴的约束,而是让它在空间当中能随意跳跃。这种随意跳跃在工作流当中做任意的运镜视频的时候,会比纯视频模型,一定要从 A 到 B 的固定过程,要更加方便,这是一种新的视角,并不代表着新的技术路线。

图片

当你去反复迭代使用时,这个东西显然不是无止境的,当你用了几轮以后,一致性一定会受到影响,我们相信 scaling law 一定会让它越做越好,但无法从根本上去消除这样的东西,就像你说的那样。

xx:如果依靠群核科技的三维数据集是否会有些进步,例如从文本直接到三维,而不经过二维图像的过程。

周子寒:我们有在探索这样一条路线,希望能将文本和 3DGS,或是 3D 表征直接去做一个连接,而不用中间的这一个多视角图像的东西。

目前来看,它有一个视觉效果与空间一致性的 trade  off,如果用图像作为中间过程的视觉效果会好很多,如果直接从文本到 3D 的话,目前视觉效果稍微差了一点,这是在我们自己的过程当中(发现)的,这是两个不同的技术路线,在未来一定会有新突破。

开源方向的思考

目前,在空间语言模型,从参数量而言仍处于 GPT-2 的阶段。虽然空间大模型能够弥补现有模型能力的很多缺陷,但空间大模型的 chatGPT 时代还远未到来。

图片

群核科技联合创始人兼董事长黄晓煌表达了一个明确的观点:

「目前空间智能肯定还是在一个发展的初期阶段的,我觉得任何一家公司都不可能独享这个市场,所以我们在不断地开源数据、模型,我们希望跟全细节最聪明的大脑,全世界最有创新能力的人一起将这个 “蛋糕” 做大。」

在与周子寒教授的交流中,他也表示说:

「我们在设计的时候,刻意地让资产库与模型本身是解耦的,可以让这个模型去对接任何的资产库。这个东西跟群核自己的资产库并没有任何特定的绑定关系,这是为什么我们可以将整个系统做开源的原因,只要大家用任何的资产库都可以同样使用。」

SpatialGen 已面向全球开源,可在以下开源网站下载并部署使用:

  • Hugging Face:https://huggingface.co/manycore-research/SpatialGen-1.0
  • Github:https://github.com/manycore-research/SpatialGen
  • 魔搭社区:https://modelscope.cn/models/manycore-research/SpatialGen-1.0 

随着越来越多优秀的方法和高质量的数据集开源,不仅推动了不同 AI 领域的发展,也为研究社区带来了更多交流与碰撞的机会,催生新的灵感与突破,始终是一件令人振奋的事。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值