51c大模型~合集116

我自己的原文哦~     https://blog.51cto.com/whaosoft/13756452

#SnakeBench

超过o1-mini、逼近o3-mini,DeepSeek-R1在新的贪吃蛇基准上拿下1801分

ARC Prize,曾在去年底 OpenAI 12 天连发的最后一天赚尽了眼球,其发布已经 5 年的基准 ARC-AGI 首次迎来了得分达到优良等级的挑战者:o3 系列模型。参阅报道《刚刚,OpenAI 放出最后大惊喜 o3,高计算模式每任务花费数千美元》。

自那以后已经过去了两个多月,AI 领域早已经迎来了巨大的改变,其中尤其值得提及的便是 DeepSeek-R1 模型。凭借开源和低成本等优势,这款性能强大的推理模型不仅已经成为国内 AI 或云服务商的标配,还正被集成到越来越多的应用和服务中,甚至原来很多原本与 AI 没有直接关联的应用也以接入 DeepSeek 为卖点进行宣传。

那么,DeepSeek-R1 的 ARC-AGI 成绩如何呢?根据 ARC Prize 发布的报告,R1 在 ARC-AGI-1 上的表现还赶不上 OpenAI 的 o1 系列模型,更别说 o3 系列了。但 DeepSeek-R1 也有自己的特有优势:成本低。

图片

来源:https://arcprize.org/blog/r1-zero-r1-results-analysis

上周六,ARC Prize 又发布了一个新的基准,这一次 DeepSeek-R1 不仅超过了 o1-mini,与 o3-mini 的差距也非常小。

图片

这个新基准名为 SnakeBench,是一个 1v1 的对抗性基准。其思路很简单:将两个 LLM 放在一起进行贪吃蛇比赛。如下展示了一局 o3-mini 与 DeepSeek-R1 的对抗。

图片

官方网站:https://snakebench.com

项目地址:https://github.com/gkamradt/SnakeBench

SnakeBench:缘起

ARC Prize 的推文表示,SnakeBench 的设计灵感来自著名 AI 研究科学家 Andrej Karpathy 的一条推文,其中涉及到了让 AI 智能体在游戏中进行对抗以进行评估的思路。(这条推文还涉及到另一个使用游戏来评估 LLM 的基准 TextArena,感兴趣的读者可访问:https://www.textarena.ai )

图片

ARC Prize 表示,使用游戏作为评估环境可以检验 LLM 的多种能力,包括:

  • 实时决策
  • 多重目标
  • 空间推理
  • 动态环境

模型的表现

ARC Prize 报告说他们目前已经使用 50 个 LLM 进行了总共 2800 场比赛,为这些模型的「贪吃蛇实时策略和空间推理」能力排了个座次。

图片

具体过程是怎样的呢?

首先,以文本格式提供两个 LLM 角逐的棋盘,其中会通过提示词明确说明所用的 XY 坐标系。因此需要明确,这里提供的并非真正的 2D 表示 —— 这种信息转译可能会丢失某些空间推理信息。下面展示了一个提示词示例:

图片

在游戏进行时,首先随机初始化每条蛇。然后要求两条蛇(LLM)同时选择下一步动作。当一条蛇撞到墙、撞到自己或撞到另一条蛇时,游戏结束。之后,根据游戏结果计算每条蛇的 Elo 评分。

以下为完整榜单:

图片

据介绍,整体来说,Big Llama、o1、o3、Sonnet 3.5 和 DeepSeek 的表现最好,而其它 LLM 总是会撞墙。下面展示了几局效果最好的比赛:

图片

ARC Prize 官网还详细列出了这四局比赛的完整详情,下面展示了其中第二局(DeepSeek-R1 vs o3-mini)的详情。在这里,不仅可以看到 LLM 每一步的选择,而且还能看到 LLM 为每一步选择给出的理由。当然,对于 DeepSeek-R1 模型,我们还可以清楚地看到其完整的思考过程。

图片

Dry Merge CTO Sam Brashears 还注意到了一个非常有趣的回合。此时,o3-mini 和 DeepSeek 同时与一个苹果相邻,而它们竟然同时认为对方不会冒险吃这个苹果,于是决定自己去吃,结果导致双双毙命。

图片

此时,DeepSeek 想的是:「如果我向右移动到 (8,7) ,同时如果蛇 1 也向左移动,则有与蛇 1 相撞的风险。但是,为了保证分数,吃到苹果优先于规避风险。」

而此时 o3-mini 也有类似的想法:「尽管我们的敌蛇(蛇 2)的头位于 (7,7) 处,也有可能想吃这个苹果,但没有强烈的迹象表明它会冒险用自己更长的身体与我正面碰撞。因此,吃到苹果的直接好处大于风险。」

图片

以下是 ARC Prize 总裁 Greg Kamradt 总结的几点关键发现:

图片

  • 推理模型占据主导:o3-mini 和 DeepSeek 赢得了 78% 的比赛。
  • LLM 经常误解以文本格式提供的棋盘布局。这会导致模型错误地定位蛇头的位置,或者导致蛇撞到自己的尾巴。
  • 较低档的模型(包括 GPT-3.5 Turbo 和 Haiku)表现不佳,而只有 GPT-4、Gemini 2.0 和 o3-mini 表现出足够的策略游戏推理能力。这说明基本的空间推理仍然是 LLM 面临的巨大挑战。大多数模型都无法跟踪自己的位置,并且会犯明显的错误。
  • 上下文很关键。为了让 LLM 做出正确选择,需要让其加载大量信息,包括棋盘位置、苹果位置、其它蛇的位置等。

有趣的是,这种 LLM 对抗竞技显然很容易复现,CoreView 联合创始人兼 CTO Ivan Fioravanti 便基于 Ollama 让 deepseek-r1:32b 与 qwen2.5-coder:32b 进行了贪吃蛇比赛。

图片

另外也有用户分享了自己让具有视觉能力的 LLM 玩贪吃蛇的经历,不过不同于 SnakeBench 的结果,反倒是 Gemini 表现最好。

图片

参考链接

​https://x.com/arcprize/status/1890464921604719103​

​https://x.com/GregKamradt/status/1890466144533749866​

#MambaQuant

首个Mamba系列模型量化方案,精度近乎无损还适用于标准LLM!

首个针对Mamba系列模型的综合性PTQ设计,实验表明,MambaQuant能够将权重和激活值量化为8位,且基于Mamba的视觉和语言任务的准确率损失均小于1%。

宣传一下我们被人工智能顶会ICLR-2025录用的文章,MambaQuant:

值得一提的是,该工作对transformer-based LLM模型的量化也有很大提升,例如在Llama2 7B模型上超过了Quarot,是个很通用的方法!

Abstract

Mamba是一种高效的序列模型,可与Transformer相媲美,在各类任务中展现出作为基础架构的巨大潜力。量化技术常用于神经网络,以减小模型大小并降低计算延迟。然而,将量化应用于Mamba的研究尚少,现有的量化方法虽然在CNN和Transformer模型中效果显著,但对Mamba模型却不太适用(例如,即使在W8A8配置下,QuaRot在Vim-T模型上的准确率仍下降了21%)。我们率先对这一问题展开探索,并识别出几个关键挑战。首先,在门投影、输出投影和矩阵乘法中存在大量异常值。其次,Mamba独特的并行扫描操作进一步放大了这些异常值,导致数据分布不均衡且呈现长尾现象。第三,即使应用了Hadamard变换,权重和激活值在通道间的方差仍然不一致。为此,我们提出了MambaQuant,这是一种训练后量化(PTQ)框架,包含:1)基于Karhunen-Loève变换(KLT)的增强旋转,使旋转矩阵能适应不同的通道分布;2)平滑融合旋转,用于均衡通道方差,并可将额外参数合并到模型权重中。实验表明,MambaQuant能够将权重和激活值量化为8位,且基于Mamba的视觉和语言任务的准确率损失均小于1%。据我们所知,MambaQuant是首个针对Mamba系列模型的综合性PTQ设计,为其进一步的应用发展奠定了基础。​

Introduction

为了建立一套针对Mamba模型的综合量化方法,我们首先研究其中涉及的潜在限制和挑战:❶Mamba模型的权重和激活值中都存在显著的异常值。我们观察到,线性层的权重中存在异常值,尤其是在用于语言任务的 Mamba-LLM 的门投影层(图1a)中。我们还发现,线性层的某些输入在通道维度上表现出显著的方差。这种情况在用于视觉任务的 Vim 的输出投影层(图1b)中尤为明显。❷并行扫描(PScan)进一步放大了激活值的异常值。为了在每个时间戳获得隐藏状态,PScan算子(Smith等人,2022)会对一个固定的参数矩阵不断进行自乘运算。在这种情况下,值较高的通道会被放大,而值相对较低的通道则会被削弱。这种通道间明显的数值差异会直接扩展到激活值上(例如,如图1(c)所示的矩阵乘法的输入变量,以及图2所示)。

最近,基于 Hadamard 的方法因其能够使最大值均匀化以及具有等价变换特性,在 Transformer-based LLMs (T-LLMs) 的量化中取得了显著成功。例如,使用 QuaRot 将 LLAMA2-70B 量化为 4 位时,能保持 99% 的零样本性能。然而,将这种方法直接应用于 Mamba 模型会导致准确率大幅下降(例如,即使在 8 位量化的情况下,在 Vim上平均准确率仍然下降超过 12%)。为了解决上述问题,我们发表了MambaQuant这篇文章,(据我们所知)这是首个在Mamba系列模型上实现了高准确率W8A8/W4A8量化的工作,主要贡献包括:

  1. 在离线模式下,我们提出基于 Karhunen - Loève 变换(KLT)的增强旋转。此技术将 Hadamard 矩阵与 KLT 矩阵相乘,使旋转矩阵能够适应不同的通道分布。
  2. 在在线模式下,我们引入平滑融合旋转。这种方法在 Hadamard 变换之前进行平滑处理。额外的平滑参数被灵活地整合到 Mamba 模块的权重中,以避免额外的内存空间和推理步骤成本。

因此,量化数据的最大值和方差在通道维度上都得到了充分对齐,方法效果如图3所示

实验表明,MambaQuant 能够高效地将权重和激活值量化为8位,且在基于Mamba的视觉和语言任务上,准确率损失均小于1%。​

Method

对Hadamard旋转效果不佳的分析

我们发现,该方法无法对齐量化变量的通道方差,从而忽略了不同通道之间的分布一致性。详细来说,给定一个中心化的数据矩阵(矩阵的列均值为零)X(权重或激活值),其维度为(n, m),以及维度为(m, m)的Hadamard变换矩阵H,变换后的矩阵XH的协方差矩阵可以表示为:

图片

协方差矩阵的第l个对角元素可以表示为:

图片

对于给定的  值,公式(2)表示第  个通道的方差。由于向量  随  变化,在大多数情况下无法证明通道方差在数值上接近。 此外,考虑到 H 是一个固定矩阵,而  和  都取决于输入,在所有情况下,Hadamard变换都不可能统一调整通道方差。Hadamard变换的这一特性不可避免地为每个通道形成了不同的分布,从而导致次优的量化效果。

KLT增强旋转

为了克服上述限制,我们引入了KLT来均衡通道方差。KLT识别数据中的主成分,并将数据投影到这些成分上,通过关注方差最大的方向来保留每个通道的最关键信息。在实际应用中,Mamba权重和激活值的均值通常接近于零,满足KLT的适用条件。具体而言,我们对由校准数据得到的中心化矩阵X的协方差矩阵进行特征值分解来应用KLT:

图片

接下来,如公式(4)所示,通过将KLT应用于Hadamard矩阵H,可以得到KLT增强旋转矩阵

图片

在公式(4)基础上,公式(1)可因此转化为公式(5):

图片

而公式(2)可变为公式(6):

图片

这样,每个通道的方差变得相同,使得量化变得容易得多。这种变换具有双重目的:它不仅均衡了不同通道之间的方差,还体现了KLT矩阵与Hadamard矩阵的独特属性,后者能够平衡最大值。在实践中,KLT是离线执行的,以避免额外的计算成本。为了将这种KLT增强的旋转矩阵应用于Mamba结构,我们修改了QuaRot中的离线变换。如图5所示,我们将此策略应用于LoRA模块和层间连接(其中输出投影、门投影和状态投影被变换)。

Smooth对齐旋转

为了在在线旋转中实现通道方差对齐,我们在执行在线Hadamard旋转之前引入了平滑(smooth)技术。采用这种方法的动机是通过一个平滑向量来使通道方差均匀化。通常,平滑因子可以被吸收到量化层的相邻层中例如SmoothQuant, OmniQuant。这种操作有效地避免了因引入额外参数而产生的额外内存分配和计算开销需求。然而,这种方法在Mamba模块中并不完全适用,这是由于非逐元素的SiLU操作以及PScan的复杂循环结构。为此,我们分别针对输出投影和矩阵乘法提出了两种不同的设计。

对于输出投影层: 我们提出S - SiLU,改进了传统的SiLU激活函数,以满足平滑融合量化的需求:

图片

如图6(a)所示,S - SiLU函数在门投影上的应用可以表示为如下公式:

图片

对于矩阵乘法层:如图6(b)所示,平滑参数s可以被自然的吸收到权重B和权重C中,然而A矩阵会在推理时执行多次的自乘运算,因此我们引入了计算友好的addcmul算子,仅对第一个时间步的A矩阵的运算做s参数的吸收融合,如公式(8)所示:

图片

经过平滑处理后,输出投影和矩阵乘法的激活值的通道方差变得相对均匀。随后,我们针对Mamba结构修改并应用了在线Hadamard旋转,如图7所示。Hadamard矩阵H被动态地应用于输出投影和矩阵乘法的输入激活值,而转置后的H^T可以被吸收到相应的权重中。​

Experiments

实验结果表明,MambaQuant 在 Mamba 系列模型上都取得了惊人的效果,表现超过Quarot,并远超其他的量化方案。例如其W8A8的精度在多种视觉语言的评估任务上都表现出小于1%的精度损失,其W4A8的量化也是实现了SOTA的效果。

值得一提的是,我们的通道方差对齐方法对精度有很明显的提升,该提升的可视化效果也十分显著。

这项工作首次在Mamba模型上实现了高精度量化,为Mamba模型的高效部署和推理开辟了新的途径,尤其是边缘设备上。同时该工作对transformer-based LLM模型的量化也有很大提升,值得进一步探索!

算法:社招、校招、实习生招聘

️ 北京/南京/上海

研究方向(Mentor提供论文指导)

  • 大模型及多模态算法研究(LLM、MLLM、VLLM等)
  • 模型加速优化研究(PTQ、QAT、混合精度量化、模型压缩等)
  • 软硬件协同设计(AI模型加速、算子硬件化、指令集开发等)

开发方向(Mentor提供工程指导)

  • AI工具链开发(模型解析、图优化等)
  • AI算子设计和开发(如投影变换、超越函数、LayerNorm、Grid-sample等)
  • 模型部署优化(性能优化、Benchmark验证等)

部分研究成果

  • Pushing the Limits of BFP on Narrow Precision LLM Inference. AAAI-2025
  • MambaQuant: QUANTIZING THE MAMBA FAMILY WITH VARIANCE ALIGNED ROTATION METHODS. ICLR-2025
  • OSTQuant: REFINING LARGE LANGUAGE MODEL QUANTIZATION WITH ORTHOGONAL AND SCALING TRANSFORMATIONS FOR BETTER DISTRIBUTION FITTING. ICLR-2025
  • A 22nm 64kb Lightning-like Hybrid Computing-in-Memory Macro with Compressor-based Adder-tree and Analog-storage Quantizer for Transformer and CNNs. ISSCC 2024
  • MIM4DD: Mutual Information Maximization for Dataset Distillation, NeuIPS 2023.
  • RPTQ: Reorder-based Post-training Quantization for Large Language Models. arXiv preprint 2023.
  • Post-training Quantization on Diffusion Models. CVPR 2023
  • PD-Quant: Post-Training Quantization based on Prediction Difference Metric. CVPR 2023.
  • Latency-aware Spatial-wise Dynamic Networks, NeurIPS 2022.
  • Flatfish: a Reinforcement Learning Approach for Application-Aware Address Mapping. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems (TCAD), 2022.
  • PTQ4ViT: Post-Training Quantization Framework for Vision Transformers. European Conference on Computer Vision (ECCV), 2022.
  • 3DPEE: 3D Point Positional Encoding for Multi-Camera 3D Object Detection Transformers. ICCV 2023.
  • Stabilized activation scale estimation for precise Post-Training Quantization. Neurocomputing 2023.

#Llama模仿Diffusion多模态涨分30%

不卷数据不烧卡,只需共享注意力分布

通过简单的“注意力对齐”,仅需1天训练、2.5%常规数据量,即可让Llama-3.2等模型在多模态问答任务中性能飙升30%,甚至能防“偏科”。

这次不是卷参数、卷算力,而是卷“跨界学习”——

让Stable Diffusion当老师,教多模态大模型(如Llama-3.2)如何“看图说话”!

性能直接飙升30%。

中国研究员联合DeepMind团队的最新研究《Lavender: Diffusion Instruction Tuning》,通过简单的“注意力对齐”,仅需1天训练、2.5%常规数据量,即可让Llama-3.2等模型在多模态问答任务中性能飙升30%,甚至能防“偏科”(分布外医学任务提升68%)。

且代码、模型、训练数据将全部开源!

下面具体来看。

模仿Stable Diffusion的交叉注意力机制

当前遇到的问题是:

传统多模态大模型(VLM)的“视觉课”总不及格?数据不够、过拟合、细节抓不准……像极了考前突击失败的学渣。

对此,团队提出了新的解决方案:

让Stable Diffusion这位“图像生成课代表”,直接共享它的“学霸笔记”——注意力分布

展开来说,其跨界教学可分为三步走:

Step1:拜师学艺。VLM(如Llama-3.2)向Stable Diffusion学习如何“看图”,通过轻量级对齐网络(Aligner)模仿其交叉注意力机制。

Step2:高效补课:仅用13万样本(常规数据量的2.5%)、8块GPU训练1天,不卷数据不烧卡。

Step3:防偏科秘籍。引入LoRA技术“轻装上阵”,保留原模型能力的同时,专攻薄弱环节。

然后来看下具体效果。

从论文晒出的成绩单来看,在16项视觉-语言任务中,Lavender调教后的Llama-3.2,性能大有提升——

在预算有限的小模型赛道上,超过SOTA(当前最优模型)50%。

在超大模型圈子里,Lavender调教的Llama-3.2-11B居然能和那些“巨无霸”SOTA打得有来有回。

要知道,这些对手的体量一般在它的10倍以上。

更令人惊讶的是,Lavender连医学数据都没“补习”,就直接让Llama-3.2-11B在WorldMedQA这个“超纲考试”中成绩暴涨68%。

具体分数见图表(柱状图已标出)

代码/模型/训练数据全开源

小结一下,新研究主要技术亮点如下:

1、注意力对齐:Stable Diffusion的“独家教案”

传统VLM的注意力机制像“散光患者”,而Stable Diffusion的注意力分布则是“高清显微镜”。Lavender通过MSE损失函数,让VLM学会Stable Diffusion的“聚焦技巧”,直接提升视觉理解精度。

2. 数据不够?知识蒸馏来凑

无需海量标注数据,直接从图像生成模型中蒸馏视觉知识,堪称“小样本学习神器”。正如论文团队调侃:“这大概就是AI界的‘名师一对一补习班’。”

3. 防过拟合Buff:LoRA+注意力约束

通过低秩适配(LoRA)锁定核心参数,避免模型“死记硬背”。实验显示,Lavender在分布外任务上的鲁棒性吊打传统SFT方法,具备“抗偏科体质”。

另外,从具体应用场景来看,Lavender的视觉理解能力直接拉满。

无论是表格标题还是图表里的小数据点,Lavender都能一眼锁定关键信息,不会“偏题”;且对于复杂图形、大小位置关系,Lavender也能避免视觉误导,轻松拿捏。

实验显示,从医学病灶定位到多语言问答,Lavender不仅看得准,还答得对,连西班牙语提问都难不倒它。

目前,团队不仅公开了论文,代码/模型/训练数据也全部开源了。

  • 训练数据:由Stable Diffusion标注的高质量对齐样本;
  • 预训练模型:基于Llama-3.2、MiniCPMv2.5等架构的Lavender适配版;
  • 调参指南:从小白到进阶的“注意力对齐”实操手册;

对于上述研究,团队负责人表示:

我们希望证明,高效、轻量的模型优化,比无脑堆参数更有未来。

论文:​​https://arxiv.org/abs/2502.06814​​项目主页:​​https://astrazeneca.github.io/vlm/​​​

#Ilya被曝正筹资超10亿美元

估值超300亿美元,知名创投Greenoaks牵头

一觉醒来,Ilya Sutskever 及其创业公司 Safe SuperIntelligence(SSI)又有了新消息!而在几天前,这家公司刚被传出正以 200 亿美元估值洽谈融资。

据彭博社援引知情人士的消息,Ilya Sutskever 正在为其创业公司 SSI 筹集 超过 10 亿美元资金,估值将超过 300 亿美元。

如果新融资成真,这家新兴企业将跻身全球最有价值私营科技公司之列。

这位不愿透露个人信息的知情人士表示,总部位于旧金山的风险投资公司 Greenoaks Capital Partners 正在牵头对 SSI 的交易,并计划投资 5 亿美元。

值得关注的是,Greenoaks 还是人工智能创企 Scale AI 和 Databricks Inc. 的投资者。

此轮融资也标志着 SSI 的估值较去年九月上一轮融资的 50 亿美元估值有了大幅度提升,当时该公司从 Andreessen Horowitz、Sequoia Capital、DST Global、SV Angel 以及 NFDG 五家投资公司获得了 10 亿美元资金。

目前,融资谈判正在进行中,细节仍有可能发生变化。不过,Greenoaks 拒绝置评,Ilya Sutskever 的代表也没有立即回应置评请求。

SSI:神秘的创业公司

SSI 成立于去年 6 月,另外两位联合创始人分别为前苹果 AI 高管、Y-Combinator 的合伙人 Daniel Gross 和前 OpenAI 技术团队成员 Daniel Levy,参阅报道《突发!Ilya Sutskever 成立新公司 SSI,安全超级智能是唯一目标与产品》。

除了该公司在安全 AI 方面的目标简要说明外,我们目前对这家神秘创业公司及其工作的了解并不多。吸引投资者兴趣的,是 Sutskever 的声望以及他所提到的团队正在进行的创新方法。

在 AI 圈子里,Sutskever 因其在生成式 AI 的突破性进展中作出的卓越贡献,而被视为传奇人物。这些突破为蜂拥而来的投资狂潮提供了支撑。他是早期 「Scaling」理念的倡导者之一,即通过投入大量计算能力和数据来优化 AI 模型。

这一概念为生成式 AI 的进展奠定了基础,比如 OpenAI 的 ChatGPT,推动了数百亿美元的投资狂潮,并且涵盖了芯片、数据中心和能源等领域。

Sutskever 早期便意识到这种训练方法可能面临的瓶颈,尤其是在可用数据池逐渐减少的情况下。他意识到了在推理阶段投入资源的重要性 —— 即 AI 模型训练完成后进行推理和得出结论的阶段。

正是基于这一洞察,他创建了一个团队,致力于开发后来成为 OpenAI 最新的一系列推理模型的技术,开启了一个被广泛跟随的研究新方向。

为了让投资者明白不要期待短期内的暴利,SSI 表示其计划 「平稳扩展」,通过将其进展与短期商业压力隔离开来,从而避免短期目标的干扰。

这一做法使得 SSI 与其他 AI 实验室有所不同,尤其是 OpenAI。OpenAI 最初是一个非营利组织,但在 2022 年 ChatGPT 走红后,迅速转向商业化产品。去年,OpenAI 的收入接近 40 亿美元,并预测今年的收入将达到 116 亿美元。

关于 SSI 的具体做法的公开资料不多。去年在接受路透社采访时,38 岁的 Sutskever 表示,SSI 正在追寻一种新的研究方向,称之为 「新的山峰要攀登」,但他并未透露其他更多细节。

迄今为止,Ilya Sutskever 及其创业公司 SSI 没有任何实际的研究成果或产品,也没有收入,只有一个公开的愿景说要开发与人类利益对齐的并且超过人类的「安全人工智能」。

对此,既有人好奇,这家创业公司值这么多钱的秘诀到底是什么。也有人笃定地表示,这家创业公司一定隐藏着一些真正的超能力。

图片

还有人@了奥特曼,表示比赛开始了。

图片

对此,你有什么看法呢?

参考链接:

​https://www.bloomberg.com/news/articles/2025-02-17/openai-co-founder-s-startup-is-fundraising-at-a-30-billion-plus-valuation?srnd=phx-technology​

#simple_GRPO

200多行代码,超低成本复现DeepSeek R1「Aha Moment」!复旦大学开源

本文是复旦大学知识工场实验室肖仰华教授、梁家卿青年副研究员科研团队的最新研究成果,他们用简洁的代码高效复现了 R1-zero 的自发反思能力。

在关于 DeepSeek 的文章中,我们会多次听到「Aha Moment」这个词。它指的是模型在训练过程中经历的一种顿悟时刻,表现为模型突然展现出类似人类的自我反思和策略调整能力。

图片

DeepSeek 论文中提到的 Aha Moment。

DeepSeek-R1-zero 经过强化学习实现了大模型顿悟时刻的自发涌现,引发了大量对其方案的解读与复现工作。

其中,基于 GRPO( Group Relative Policy Optimization)强化学习方案尤其受到关注。业界先后开源了多个基于 GRPO 算法的 R1-zero 复现项目。然而,这些复现项目严重依赖一些复杂代码框架,有着较高的代码实现复杂度,对部署环境存在较高依赖,资源利用率不高,代码可读性与可维护性仍存在改进空间。

对此,复旦大学知识工场实验室肖仰华教授、梁家卿青年副研究员科研团队基于 GRPO 算法思想高效复现了 R1-zero 自发反思能力。目前,该项目(Simple-GRPO)的第一版代码实现已经开源并提交 Github。

图片

代码地址:https://github.com/lsdefine/simple_GRPO。

该项目相对于现有开源的 R1-zero 复现具有以下优势:

代码简洁,依赖简单,只需要 200 多行;

资源消耗低,通过模型解耦与分离进一步降低算力需求,该项目支持在一张 A800 (80G) 加一张 3090 (24G) 完成 7B 模型的训练。根据 AutoDL 平台计费标准,一张 A800 (80G) 5.98 元 / 时,一张 3090 (24G) 1.32 元 / 时。以项目作者经验,模型在这样的算力平台下,训练 1h 模型就能出现 aha moment,折合人民币 7.3 元,单次实验成本压缩至奶茶价格区间。

项目介绍 

本项目代码简单,GRPO 算法实现仅有 200 多行代码,且仅依赖基础的深度学习代码库,如 deepspeed 和 torch,而无需 ray 等复杂框架。具体实现细节如下:

① 参考模型分离:

在实现过程中,参考模型(reference model)被解耦,允许其在不同的 GPU 上运行(甚至可以运行在 3090 显卡上)。这避免了将参考模型和训练模型放在同一个 GPU 上,防止 torch 的多进程机制创建多个副本,避免显存浪费,并使得在 A800(80G)上训练 7B 模型成为可能。

② 核心损失计算:

损失计算公式基于 Hugging Face 的 trl 实现。

③ 训练环境与过程

项目在 1 张 A800(80G)显卡上用 Zero-Stage 2 做优化,使用另一张 A800(80G)显卡进行参考模型的推理,参考模型分离使得 GRPO 的训练更加高效。

在以上训练环境中,Qwen2.5-3B 训练 60 步需要 12 分 34 秒,Qwen2.5-7B 训练 60 步需要 16 分 40 秒。其中在前 30 步优化中,Qwen2.5-7B 和 Qwen2.5-3B 的输出内容中,均出现了「顿悟时刻」现象。示例如下:

  • Qwen2.5-3B(步骤 20)

图片

图片

其中文翻译如下:

「<think> ... 要找出卡姆登画的鸡蛋比阿诺德多多少,我们从卡姆登画的鸡蛋数量中减去阿诺德画的鸡蛋数量。所以,21-28 = -7。然而,这个结果在问题的背景下没有意义,因为卡姆登画的鸡蛋不可能比阿诺德少。让我们重新考虑最初的解决方案步骤:我们应该验证关于卡姆登和莎拉的鸡蛋之间关系的初始假设是否正确 。... </think> <answer>-7</answer>」

  • Qwen2.5-7B(步骤 20)

图片

图片

其中文翻译如下:

「<think> ... 因此,Joanne 从普通树上摘了 350 个苹果。但是,这似乎不对,因为总数应该是 500 个,而我们已经计算了 150 个,只剩下 350 个普通树上的苹果,这与总数相矛盾。让我们重新评估一下 。... </think> <answer>350</answer>」

实验结果 

使用 Qwen2.5-3B 和 Qwen2.5-7B 作为基础模型,测试了模型训练过程中正确率(左图)和格式遵循能力(右图)的变化情况,比较符合预期。

  • Qwen2.5-3B:

图片

在 GSM8K 和 Math 混合数据集进行训练,从上图可以看出,Qwen2.5-3B 的准确率在经历 5 步的优化后能稳定在 60% 以上,最高能达到 70% 左右;格式遵循能力在 30 步以后接近 100%.

  • Qwen2.5-7B

图片

在 GSM8K 数据集上进行训练,从上图可以看出,Qwen2.5-7B 的无论是准确率还是格式遵循能力都能在三十步以内快速收敛,准确率(左图)始终保持在 90% 以上,格式遵循能力(右图)到达 100%.

改进方向

近期本项目将进一步推出以下方向的优化版本,敬请关注。

组内答案同质性问题

根据 GRPO 算法中的分组策略,当组内答案全部正确或全为错误时,奖励函数无法有效分配差异化奖励,强化学习将缺乏对比性的训练信号,导致模型难以收敛。后续将在训练过程中实时监控答案分布,对同质化的答案进行重新采样和分组,以提供有效的对比信号。

长思维链(CoT)显存占用问题

当模型生成较长的思维链(CoT)时,由于文本序列长度较长,显存占用会显著增加。对此,后续考虑拆分组别,减小批次大小,或对长序列分阶段处理,以减小训练过程中的 GPU 内存开销,提升训练效率。

#Ola-7B

最强全模态模型Ola-7B横扫图像、视频、音频主流榜单,腾讯混元Research&清华&NTU联手打造

Ola 是腾讯混元 Research、清华大学智能视觉实验室(i-Vision Group)和南洋理工大学 S-Lab 的合作项目。本文的共同第一作者为清华大学自动化系博士生刘祖炎和南洋理工大学博士生董宇昊,本文的通讯作者为腾讯高级研究员饶永铭和清华大学自动化系鲁继文教授。

GPT-4o 的问世引发了研究者们对实现全模态模型的浓厚兴趣。尽管目前已经出现了一些开源替代方案,但在性能方面,它们与专门的单模态模型相比仍存在明显差距。在本文中,我们提出了 Ola 模型,这是一款全模态语言模型,与同类的专门模型相比,它在图像、视频和音频理解等多个方面都展现出了颇具竞争力的性能。

Ola 的核心设计在于其渐进式模态对齐策略,该策略逐步扩展语言模型所支持的模态。我们的训练流程从差异最为显著的模态开始:图像和文本,随后借助连接语言与音频知识的语音数据,以及连接所有模态的视频数据,逐步拓展模型的技能集。这种渐进式学习流程还使我们能够将跨模态对齐数据维持在相对较小的规模,从而让基于现有视觉 - 语言模型开发全模态模型变得更为轻松且成本更低。

  • 项目地址:https://ola-omni.github.io/
  • 论文:https://arxiv.org/abs/2502.04328
  • 代码:https://github.com/Ola-Omni/Ola
  • 模型:https://huggingface.co/THUdyh/Ola-7b

Ola 模型大幅度推动了全模态模型在图像、视频和音频理解评测基准中的能力上限。我们在涵盖图像、视频和音频等方面的完整全模态基准测试下,Ola 作为一个仅含有 7B 参数的全模态模型,实现了对主流专有模型的超越。

图片

图 1:Ola 全模态模型超越 Qwen2.5-VL、InternVL2.5 等主流多模态模型。

在图像基准测试方面,在极具挑战性的 OpenCompass 基准测试中,其在 MMBench-1.1、MMMU 等 8 个数据集上的总体平均准确率达到 72.6%,在市面上所有 30B 参数以内的模型中排名第 1,超越了 GPT-4o、InternVL2.5、Qwen2.5-VL 等主流模型。在综合视频理解测试 VideoMME 中,Ola 在输入视频和音频的情况下,取得了 68.4% 的准确率,超越了 LLaVA-Video、VideoLLaMA3 等知名的视频多模态模型。另一方面,Ola 在诸如语音识别和聊天评估等音频理解任务方面也表现卓越,达到了接近最好音频理解模型的水平。

完整的测试结果表明,与现有的全模态大语言模型(如 VITA-1.5、IXC2.5-OmniLive 等)相比,Ola 有巨大的性能提升,甚至超越了最先进的专有多模态模型的性能,包括最新发布的 Qwen2.5-VL、InternVL2.5 等。目前,模型、代码、训练数据已经开源,我们旨在将 Ola 打造成为一个完全开源的全模态理解解决方案,以推动这一新兴领域的未来研究。

1. 介绍

训练全模态大模型的核心挑战在于对于多种分布的模态进行建模,并设计有效的训练流程,从而在所有支持的任务上实现有竞争力且均衡的性能。然而,在以往的研究中,高性能与广泛的模态覆盖往往难以兼顾,现有的开源全模态解决方案与最先进的专用大语言模型之间仍存在较大的性能差距,这给全模态概念在现实世界的应用带来了严重障碍。

在本文中,我们提出了 Ola 模型,探索如何训练出性能可与最先进的专用多模态模型相媲美、具备实时交互能力且在对齐数据上高效的全模态大语言模型。Ola 模型的核心设计是渐进式模态对齐策略。为在语言与视觉之间建立联系,我们从图像和文本这两种基础且相互独立的模态入手,为全模态模型构建基础知识。随后,我们逐步扩充训练集,赋予模型更广泛的能力,包括通过视频帧强化视觉理解能力,借助语音数据连通语言与音频知识,以及利用包含音频的视频全面融合来自语言、视频和音频的信息。这种渐进式学习策略将复杂的训练过程分解为小步骤,使全模态学习变得更容易,从而保持较小规模的跨模态对齐数据,也更容易基于视觉 - 语言模型的现有成果展开研究。

图片

图 2:渐进式模态学习能够训练更好的全模态模型

为配合训练策略,我们在架构和数据领域也进行了重要改进。

  • Ola 架构支持全模态输入以及流式文本和语音生成,其架构设计可扩展且简洁。我们为视觉和音频设计了联合对齐模块,通过局部 - 全局注意力池化层融合视觉输入,并实现视觉、音频和文本标记的自由组合。此外,我们集成了逐句流式解码模块以实现高质量语音合成。
  • 除了在视觉和音频方面收集的微调数据外,我们深入挖掘视频与其对应音频之间的关系,以构建视觉与音频模态之间的桥梁。具体而言,我们从学术及开放式网络资源收集原始视频,设计独立的清理流程,然后利用视觉 - 语言模型根据字幕和视频内容生成问答对。

2. 方法概览

图片

图 3:Ola 模型结构图

全模态结构设计

全模态输入编码:基于先前文本到单模态大语言模型的成功实践,我们分别对视觉、音频和文本输入进行编码。对于视觉输入,我们使用任意分辨率视觉编码器 OryxViT 进行编码,保留每个图像或帧的原始宽高比;对于音频输入,我们提出双编码器方法,使用 Whisper-v3 作为语音编码器,BEATs 作为音乐编码器;对于文本输入,我们直接使用预训练大语言模型中的嵌入层来处理文本标记。

视觉与音频联合对齐:对齐模块充当从特定模态空间到文本嵌入空间的转换器,这是全模态大语言模型的关键部分。为了提高效率并减少视觉特征的标记长度,我们进一步提出了 “局部 - 全局注意力池化” 层,以在减少信息损失的情况下获得更好的下采样特征。具体而言,我们采用双线性插值进行 2 倍下采样以获得全局特征,将原始特征和全局特征结合用于局部 - 全局嵌入,并使用 Softmax 预测每个下采样空间区域的重要性,此后通过哈达玛积确定每个先前区域的权重。

图片

我们参照先前的工作,应用两层非线性 MLP 将特定模态特征投影到语言空间中。

流式语音生成:我们采用 CosyVoice 作为高质量的语音解码器进行语音生成。为支持用户友好的流式解码,我们实时检测生成的文本标记,一旦遇到标点符号就截断句子。随后,将前一个句子输入语音解码器进行音频合成。因此,Ola 无需等待整个句子完成即可支持流式解码。

渐进式模态对齐策略

语言、视觉与音频之间的模态差距:通过探索,我们认识到全模态训练中的两个关键问题。

  • 模态平衡:直接合并来自所有模态的数据会对基准性能产生负面影响。我们认为,文本和图像是全模态学习中的核心模态,而语音和视频分别是文本和图像的变体。学会识别文本和图像可确保模型具备基本的跨模态能力,所以我们优先处理这些较难的情况。随后,我们逐步将视频、音频和语音纳入全模态大语言模型的训练中。
  • 音频与视觉之间的联系:在全模态学习中,联合学习音频和视觉数据能够通过提供跨不同模态的更全面视角,产生令人惊喜的结果。对于 Ola 模型,我们将视频视为音频与视觉之间的桥梁,因为视频在帧与伴随音频之间包含自然、丰富且高度相关的信息。我们通过优化训练流程和准备有针对性的训练数据来验证这一假设。

在训练流程中,训练阶段 1 为文本 - 图像训练,包括 MLP 对齐、大规模预训练以及监督微调;阶段 2 为图像与视频的持续训练,利用视频数据持续扩展 Ola 的能力;阶段 3 为通过视频连接视觉与音频,我们遵循视觉 MLP 适配器的训练策略,同时通过基本的 ASR 任务初始化音频 MLP。然后,我们将文本与语音理解、文本与音乐理解、音频与视频联合理解以及最重要的文本 - 图像多模态任务混合在一起进行正式训练。在这个阶段,Ola 专注于学习音频识别以及识别视觉与音频之间的关系,训练完成后,便得到一个能够综合理解图像、视频和音频的模型。

全模态训练数据

图像数据中,在大规模预训练阶段,我们从开源数据和内部数据中收集了约 20M 个文本 - 图像数据对;对于 SFT 数据,我们从 LLaVA-Onevision、Cauldron、Cambrian-1、Mammoth-VL、PixMo 等数据集中混合了约 7.3M 图像训练数据。视频数据中,我们从 LLaVA-Video-178k、VideoChatGPT-Plus、LLaVA-Hound、Cinepile 中收集了 1.9M 个视频对话数据。音频数据中,我们设计了 ASR、音频字幕、音频问答、音乐字幕、音乐问答等文本 - 语音理解任务,总体音频训练数据包含 1.1M 个样本,相关的文本问答表示则从 SALMONN 数据集中收集。

进一步地,我们构造了一种跨模态视频数据的生成方法,旨在揭示视频与音频之间的内在关系,引导全模态大语言模型学习跨模态信息。现有的大多数视频训练数据仅从帧输入进行注释或合成,常常忽略了伴随音频中的宝贵信息。具体而言,我们为跨模态学习开发了两个任务:视频 - 音频问答和视频语音识别。我们使用视觉 - 语言模型基于视频和相应字幕生成问题和答案,并要求模型以字幕输入为重点,同时将视频作为补充信息生成问答。我们为每个视频创建了 3 个问答对,获取了 243k 个跨模态视频 - 音频数据。此外,我们还纳入了包含 83k 个训练数据的原始视频字幕任务,以帮助模型在嘈杂环境中保持其语音识别能力。

3. 实验结果

全模态理解

与当前最先进的多模态大语言模型和全模态模型相比,Ola 在主要多模态基准测试中表现出极强的竞争力。具体而言,在图像基准测试中,Ola 在 MMBench-1.1 中达到 84.3%,在 MMStar 上达到 70.8%,在 MMMU 上达到 57.0%,超越了所有参数数量相近的相关多模态大语言模型。在视频基准测试中,Ola 在 VideoMME 上取得了 68.4% 的准确率。在音频基准测试中,Ola 在 LibriSpeech 上的 WER 为 3.1%,在 AIR-Bench 上的平均得分为 6.41,超过了现有的全模态模型。

图片

音频评测集上的分析

在音频评测集上的细节结果表明,Ola 相较于现有的全模态模型展现出显著优势,甚至接近专门的音频模型,突显了其强大的通用性。此外,我们可以观察到通过跨模态联合学习,性能仍有稳定提升。尽管视频音频与语音相关数据集之间存在显著的分布差异,但这种提升表明了视频与语音模态之间存在稳固的联系。

图片

全模态训练的影响

通过比较全模态训练前后的结果,我们发现在 VideoMME 上的性能从 63.8% 提升到了 64.4%。此外,在原始视频中加入音频模态后,性能显著提升,在 VideoMME 上的分数从 64.4% 提高到了 68.4%。这些发现表明音频包含有助于提升整体识别性能的有价值信息。

值得注意的是,经过全模态训练并输入音频的 Ola 准确率甚至超过了使用原始文本字幕的结果,总体性能达到 68.4%,而使用原始文本字幕的总体性能为 67.1%。结果表明,在某些基准测试中,音频数据可能包含超出原始文本信息的更多内容。

图片

渐进式模态对齐的影响

我们评估了每个阶段中间模型的基本性能,我们可以观察到,从图像、视频到音频的渐进式模态训练能够最大程度地保留先前学到的能力。

图片

4. 总结

我们提出了 Ola,这是一款功能全面且强大的全模态语言模型,在图像、视频和音频理解任务中展现出颇具竞争力的性能。我们基于渐进式模态对齐策略给出的解决方案,为训练全模态模型提供了一种自然、高效且具竞争力的训练策略。通过支持全模态输入和流式解码的架构设计改进,以及高质量跨模态视频数据的准备,进一步拓展了 Ola 的能力。我们期望这项工作能够启发未来对更通用人工智能模型的研究。

#ZeroBench

这届出题太难了!新基准让多模态模型集体自闭,GPT-4o都是零分

眼下最顶尖的一批 LMM 是哪些?你可能想到了无所不能的 GPT-4o、Gemini 2 Flash 等等……

但这些大模型,遇到一个名为「ZeroBench」的视觉基准之后,纷纷败下阵来。

20 多个知名模型,首次作答成绩如下,全部是零分:

图片

震惊之后,我们仔细研究了这个 ZeroBench 基准里的问题。

对于大模型来说,许多现有的基准已经没有任何挑战性,也失去了作为衡量大模型真实视觉理解能力标准的价值。ZeroBench 的出现,显然打破了这个局面。

图片

ZeroBench 包含 100 个具有挑战性的全新问题,具体多有挑战性呢?请听题:

第一题:不用优惠,菜单上每款点一个,总共需要多少港币?

图片

好家伙,这菜单上下颠倒就算了,还反光看不清字,让在其中找到每道菜的价格,再做加法,这不是为难我胖虎吗?

对于需要更多步骤才能得到答案的多模态模型来说,可能它也需要:「服务器繁忙,请稍后再试」。

问题 2:(i) 计算壶铃的总重量?(ii) 计算重量在 5 至 15 磅之间(含 5 磅和 15 磅)的哑铃总重量,单位为磅。(iii) 估计每个绿色壶铃的重量,单位为磅。

图片

知识面不够宽,还真做不了这题。不光要算总重量,还得挑出绿色的,还得分类统计......

图片

多模态模型见了这题都要暗地里蛐蛐:我连自己重多少斤都不知道,您这让我数哑铃?

问题 3:你正试图破解一个保险箱,需要一个 6 位数密码。根据失主留下的线索和物品,请推理出完整密码。

图片

这是在考眼力,考数学,还是在拍《达芬奇密码》?

看来,ZeroBench 对多模态模型确实很高,不仅得明察秋毫,还得拥有福尔摩斯般的推理能力。

问题 4:在八方位指南针上,身体朝南的鹅占总数的百分比是多少?请精确到小数点后一位。

图片

想要判断鹅的身体是否朝南,首先得知道这张图的南在哪边?接下来还需要考虑冬季夏季,南北半球,上午下午?

停停,在高中毕业之后,我就停止如此深度地使用自己的大脑了。

图片

GPT-4o 做了这道题,分析了半天,最后摆烂了,让我们重新上传图片,「以便它从头开始处理。」可能它也要停下来发一句:鹅太南(难)了。

问题 5:

(1)现在是英国牛津的傍晚,这个时钟是根据物品使用方向来安装的。距离正午大约过去了多少小时?

(2)这个时钟是用一个八人赛艇队员的装备制成的,他的队伍使用标准装备。他可能坐在哪些座位?把座位号加起来等于多少?

(3)如果将图像水平翻转一次,垂直翻转一次,然后顺时针旋转 90 度,时针最接近哪个整点?

(4)把前三个答案相乘等于多少?

图片

「从这块只有指针的表判断距离正午的时间」、「表皮是由赛艇队员的装备做成的,他的座位号是多少?」,「水平翻转一次,垂直翻转一次,然后顺时针旋转 90 度......」

如果说前几题查查资料,努努力还能写出来,现在已经来到连题目都读不懂的境地了。

看完这些题目,不难理解为什么它叫 ZeroBench —— 因为 AI 做完这些题后,自信可能就归零了!

想来出题人也是颇费了一番心思才能琢磨出如此刁钻的角度。ZeroBench 的研究团队组织了一个 20 多人的专家出题组,每道题都是手工高定。

由于很难事先知道一个问题对多模态模型来说有多难,因此在开发过程中,出题人还会拿最新、最好的模型来「试水」。发现题目太简单就加料,发现还能做出来就继续加料,直到调节到「难度适中」。

ZeroBench 概述

图片

项目主页: https://zerobench.github.io/

论文地址:  https://arxiv.org/pdf/2502.09696

数据集构建

伴随着大模型能力的不断进化,想要创建一个难度足够高的问题集越来越难。

ZeroBench 中的每个问题是由 20 多位人类问题创建者手工定制的。为了增加问题的多样性,对问题创建者的指导还是比较宽泛的:(1)包含对回答问题至关重要的困难视觉元素,(2)包含多步骤推理,(3)尽可能具有挑战性。

由于很难事先知道一个问题对 LMM 来说有多难,因此在开发过程中,研究者鼓励问题创建者在一些前沿模型上对候选问题进行评估,衡量其难度并相应地调整问题。

在获得了 140 个候选问题后,研究者使用了以下由 4 个部分组成的筛选流程,最终选出了 100 个问题用于 ZeroBench:

  • 反馈。对候选问题进行筛选,必要时通过反复审查和反馈进行改进。
  • 初步评估。为了衡量难度,研究者使用 o1 pro(OpenAI,2024a)和 QVQ(Qwen-Team,2024)对问题进行了初步评估。
  • 审查。在初步评估的基础上,对每个候选问题都进行了全面审查,以确保这些问题可以回答、格式和注释正确、难度足够且简明扼要。审查人员的分配确保了出题者不会审查到自己的试题。许多试题也被修改了,旨在增加难度。此外,为了降低正确答案被猜中的可能性,必要时还对问题进行了修改,以确保答案范围足够广泛。这就排除了二进制、多项选择或答案为小整数(即小于 10)的问题。不符合要求的问题都被过滤掉了,因此第一次就有了 106 个合适的问题。
  • 对抗过滤。研究者使用贪婪解码对每个 LMM 基线的剩余问题进行了评估,并删除了任何一个模型都能正确回答的问题。每个模型能正确回答的问题差异很大,表现最好的模型也只能得到 4/106 分。有些问题只有一个相对较弱的模型能正确回答。研究者认为这是一种将问题分布与当前模型能力相联系的有效方法。

经过反复推敲,研究者最终确定了共 100 个问题。为了在评估过程中区分模型性能,他们在审查过程中为每个问题创建了一个或多个子问题。子问题(图 6)由明确的问题子部分、自然推理步骤或与得出最终答案相关的其他数量生成。

图片

统计

表 1 显示了 ZeroBench 的核心统计数据,其中包括 100 个主问题和 334 个子问题,在单幅和多幅图像设置中包含自然图像和合成图像。

图片

如图 4 所示,主问题的文本长度分布广泛,最长可达 2k 字符;在子问题中,短问题的比例明显较高。问题中图片的平均大小(图 5)分布较为均匀。ZeroBench 中的问题以难度为优先考虑因素,大多数问题都包含多个步骤,需要不同的视觉能力。同样,问题的背景也往往是混合的,需要不同领域的知识。因此,为每个问题或子问题指定不同的类别是不可行的。

图片

评估

研究者在 ZeroBench 主问题和子问题上对 20 个 LMM 进行了评估,结果见表 2。从中可以得出几个结论:

对于当下 LMM 的水准而言,ZeroBench 是不可能挑战成功的。在可重现的环境中,研究者发现所有模型在该基准测试中都只有 0% 的及格率。

图片

有些问题是可以回答的,大多数模型的得分都不是零。表现最好的模型是 Gemini 2 Flash Thinking,它的 pass@5 得分达到了 7%(正确回答 7 个问题);QVQ、Gemini 2 Flash 和 Pixtral-Large 的表现也相对较好,正确回答了 3 个问题。

子问题区分开了模型的性能。这部分问题对模型的挑战性较小,所有模型的得分都不为零。虽然与主问题相比,推理模型的难度要低得多,但总体而言,这些模型仍然难以正确回答这些小问题,其中绝大多数都太难了。推理模型在推理过程中通常会产生一个扩展的思维链,允许它们在得出最终解决方案之前探索多种路径。然而,在 ZeroBench 上,此类模型与传统模型相比似乎并无明显优势。

在主问题上,开放源代码和封闭源代码模型的表现仍然很差,没有明显的区别。不过,通过比较子问题的得分,可以发现两者的性能差距很大,领先的开源模型(QVQ 19.78%)落后于 SOTA(Claude 3.5 Sonnet v2 24.30%)近 5 个百分点。

错误分析

图 7 展示了在 ZeroBench 子问题中经常出现的视觉解读错误,例如错误地计算物体数量、无法「看到」细微细节或准确提取信息,以及难以理解空间关系。更多例子可参考附录。

图片

#SkyReels-V1

国内首个短剧创作大模型开源了,一个人就能拍短剧,单卡80秒出大片

2 月 18 日,昆仑万维开源中国首个面向 AI 短剧创作的视频生成模型 SkyReels-V1、中国首个 SOTA 级别基于视频基座模型的表情动作可控算法 SkyReels-A1。

  • 开源地址:

    SkyReels-V1:https://github.com/SkyworkAI/SkyReels-V1

    SkyReels-A1:https://github.com/SkyworkAI/SkyReels-A1

  • 技术报告:https://skyworkai.github.io/skyreels-a1.github.io/report.pdf
  • SkyReels 官方地址:skyreels.ai

针对当前全球 AI 视频生成模型和产品不开源、用不到、费用高、不好用等痛点,昆仑万维 SkyReels 一次性开源 SkyReels-V1 和 SkyReels-A1 两个 SOTA 级别的模型和算法,将面向 AI 短剧创作的技术成果回馈开源社区和 AIGC 用户。而这只是我们在 AI 视频方向开源道路上的起点,未来将陆续开源更多面向 AI 短剧的优秀研究成果。

AI 视频和短剧的生产形式已经得到了市场的验证,拥有巨大的商业想象空间。2024 年 8 月上线的 AI 短剧创作平台 SkyReels 的目标是让用户以更低成本体验线上拍剧,利用 AI 能力解决传统短剧内容供给的难题。SkyReels 能够助力解决传统短剧制作流程中面临的挑战,如线下拍剧流程复杂,包括剧本创作、选演员、场景布景、分镜创作、拍摄、后期处理等环节,耗费人力多,制作成本贵,周期长等。

SkyReels-V1:Human-Centric Video Foundation Model

中国首个面向 AI 短剧创作的开源视频生成模型

AI 短剧极其需要同时对大脑和肢体完成精细的控制功能,这就需要同时把口型生成、表情生成、肢体生成等多个生成组合在一起。当前大家体验比较好的是口型生成,因为口型生成其实和音频信息之间具备更好的映射关系,因此它的精准度可以实现的更好,用户体验会更好。

,时长00:04

而人物表演的细节和能力更是 AI 短剧生成效果优质与否的核心所在,为了大幅提升表情生成、肢体生成的可控表演效果,SkyReels-V1 不仅针对表演细节做了打标,还对情绪、场景、表演诉求等进行处理,利用千万级别、高质量的好莱坞级别数据进行训练微调。

团队针对人物微表情、人物表演细节、场景描述、光影、画面构图等做了更精细的技术升级,可以看到当前由 SkyReels 生成的视频中的人物已经存在更精准的表演细节,初步具备影帝级人物表演实力。

SkyReels-V1 可实现影视级人物微表情表演生成,支持 33 种细腻人物表情与 400 + 种自然动作组合,高度还原真人情感表达。正如以下视频所示,SkyReels-V1 支持生成大笑、怒吼、惊讶、哭泣等微表情,展现出人物情感丰沛的表演细节。

即使有大幅度肢体动作,例如下面视频中,正在大口食用汉堡包的男士,SkyReels-V1 生成的微表情也完美贴合人物肢体表演。

,时长00:04

同时,SkyReels-V1 为 AI 视频生成带来了电影级光影美学,基于好莱坞级的高质量影视数据训练,当前 SkyReels 生成的每一帧画面,在构图、演员站位、相机角度等都具备电影级的质感。

无论是单人镜头表演细节,还是多人构图,当前已具备精准的表情控制和高质感画面。在下面视频中,SkyReels-V1 生成的「灾难」片段,具有好莱坞大片即视感,场景宏大且有震撼感,其中聚焦到单个人物的脸部表情刻画也可圈可点,以极细致的程度展示出了身临其境的恐惧感。

,时长00:07

在一场两个人的「告白时刻」场景中,构图与光影的完美融合,使整个画面既充满了梦幻般的浪漫氛围,又具备了强烈的视觉冲击力。灵动的表情、飞舞的发丝、女子飞扬的衣袖、一道道柔和的光带,两人之间的浪漫爱情故事跃然眼前。

以下视频来源于

昆仑万维集团

,时长00:39

更重要的是,SkyReels-V1 不仅支持文生视频、还能支持图生视频,是开源视频生成模型中参数最大的支持图生视频的模型,在同等分辨率下各项指标实现开源 SOTA。

图片

图 1. SkyReels-V1 文生视频指标对比(来源:昆仑万维 SkyReels)

能够实现这样的 SOTA 级别,不仅依赖于昆仑万维 SkyReels 团队基于自研的高质量数据清洗和人工标注管线,构建了千万级的高质量电影 & 电视剧 & 纪录片数据。更依托团队自研「Human-Centric」的视频理解多模态大模型,大幅提升视频中人物相关的理解能力,尤其是自研人物智能解析系统。

综上所述,得益于扎实的数据工作和先进的人物智能解析系统,SkyReels-V1 可以实现:

  • 影视化表情识别体系:11 种针对影视戏剧中的人物表情理解,如不屑、不耐烦、无助、厌恶等表情的理解;
  • 人物空间位置感知:基于人体三维重建技术,实现对视频中多人的空间相对关系理解,助力模型生成影视级人物站位;
  • 行为意图理解:构建超过 400 种行为语义单元,实现对人物行为的精准理解;
  • 表演场景理解:实现人物 - 服装 - 场景 - 剧情的关联分析。

SkyReels-V1 不仅是全球极少数开源的视频生成模型,还是围绕人物表演、开源视频生成模型中性能最强的。

在自研推理优化框架「SkyReels-Infer」的加持下,大幅提升推理效率,实现 544p 分辨率,推理基于单台 4090 只需 80s,还支持分布式多卡并行,支持 Context Parallel,CFG Parallel,和 VAE Parallel。此外,采取 fp8 quantization 以及 parameter-level offload,满足低显存用户级显卡运行需求;支持 flash attention、SageAttention,模型编译优化等,进一步优化延迟;基于开源 diffuser 库,提升易用性。

正如下图 2 所示,在同等 RTX4090 资源情况下对比(4卡),SkyReels-Infer 版本比 HunyuanVideo 官方版本端到端延迟减少 58.3%(293.3s vs 464.3s);SkyReels-Infer 版本具备更鲁棒的部署策略,支持用户级别显卡 1 卡 - 8 卡的推理部署。

图片

图 2. 推理生成 544p 视频,使用相同卡数的 RTX 4090,SkyReels-Infer 版本端到端延迟优于 HunyuanVideo 官方 (xdit) 58.3%

在同等 A800 资源情况下对比,SkyReels-Infer 版本比 HunyuanVideo 官方版本端到端延迟减少 14.7%~28.2%,SkyReels-Infer 版本具备更鲁棒的多卡部署策略。

图片

图 3. 推理生成 544p 视频,SkyReels-Infer 版本具备更鲁棒的多卡部署策略,支持 8 卡部署

SkyReels-A1:首个 SOTA 级别的基于视频基座模型的表情动作可控算法

为了实现更加精准可控的人物视频生成,昆仑万维还开源了 SOTA 级别的基于视频基座模型的表情动作可控算法 SkyReels-A1,对标 Runway 的 Act-One,SkyReels-A1 支持视频驱动的电影级表情捕捉,实现高保真微表情还原。

SkyReels-A1 能够基于任意人体比例(包括肖像、半身及全身构图)生成高度逼真的人物动态视频,其真实感源自对人物表情变化和情绪的精准模拟、皮肤肌理、身体动作跟随等多维度细节的深度还原。

如下述视频所示,将参考人物图片(上图)和驱动视频(左下)同时作为输入,在 SkyReels-A1 的能力加持下,生成了新的视频 —— 将驱动视频中的面部表情和表演细节 “移植” 到给定参考图片的人物身上。SkyReels-A1 支持生成的视频(下中)没有失真,且还原了驱动视频的微表情和肢体表演,效果优于 Runway Act-One 生成的视频(右下)。

,时长00:03

SkyReels-A1 不仅支持侧脸的表情控制生成、还能实现更加逼真的眉眼微表情生成和更大幅度的头部与自然身体动作。

,时长00:03

例如同一句台词表演,从下面视频可以看出,最右边的人物有明显变样失真,和原始人物形象不一致,而 SkyReels-A1 支持和驱动下的人物表演,不仅人物不失真,且表演细节更真实,还可以实现神情与身体动作的自然完美融合。

,时长00:03

SkyReels-A1 能够实现更大幅度的人物表情驱动。在下面视频中可以看到,相比 Runway 的 Act-One(无法生成),SkyReels-A1 可以迁移更复杂的表情动作,生成的人物面部神情可以配合肢体及画面内容实现更栩栩如生的表演。

,时长00:04

以开源之姿,以破局之势

昆仑万维致力于推动全球 AI 短剧创作生态繁荣发展

昆仑万维一直坚持开源,推动技术平权。自 2023 年 8 月 23 日,昆仑万维发布国内第一款 AI 搜索产品「天工 AI 搜索」以来,持续开源大模型回馈开发者和行业。

早在 2023 年 10 月,昆仑万维宣布开源百亿级大语言模型「天工」Skywork-13B 系列,并配套开源了 600GB、150B Tokens 的超大高质量开源中文数据集。2024 年开始,公司陆续开源了数字智能体全流程研发工具包 AgentStudio、「天工大模型 3.0」4000 亿参数 MoE 超级模型、 2 千亿稀疏大模型 Skywork-MoE、Skywork-o1-Open 等模型。

视频生成模型是整个 AI 短剧创作当中最难的一个环节,尽管过去一年行业内的模型生成能力已有大幅提升,但还远远不够,同时还面临视频生成成本高的问题。

昆仑万维同时将 SOTA 级别的 SkyReels-V1 和 SkyReels-A1 进行开源,是 AI 短剧行业首例,也是昆仑万维 SkyReels 回馈行业迈出的一小步,更是促进 AI 短剧创作和视频生成行业枝繁叶茂的一大步。

我们相信在进行推理优化的升级和可控算法的开源后,它们将为用户带来低成本、可控性更强的 AIGC 能力。昆仑万维希望通过更多优秀视频生成模型的开源和极致的 AI 短剧产品能力,为用户带来低成本实现 AI 短剧创作的可能性、突破行业目前视频生成一致性差的问题,让大众通过自己的电脑生成精细且可控的人物表演。

昆仑万维董事长兼 CEO 方汉表示,“AIGC 能力的出现,包括我们现在做的视频生成能力的出现,一定会将一部好莱坞大片质量的电影制作成本,从现在的一亿美金,让其迅速下降到几十万美金甚至几千美金,几年之后几百美金都是有可能的。这样会让所有语言的人都会用 AI 来创作属于本民族的内容产品。这样的结果将会实现文化的平权,而这个红利,很有可能是中国企业去吃到”。

此次开源的视频大模型,不仅是一次技术突破,有助于缩小全球内容产业的数字鸿沟,更是文化产业生产力的一次革命。未来,短剧与游戏、虚拟现实等领域的跨界发展,将会加速产业融合。AI 短剧也有希望从 “技术实验” 迈向 “主流创作”,成为全球文化输出的新载体。

“实现通用人工智能,让每个人更好地塑造和表达自我” 是公司的使命,未来,昆仑万维及 SkyReels 还将开源更多视频生成模型和算法、通用模型,通过开源实现 AGI 平权,推动 AI 短剧生态的持续建设和繁荣,促进开源社区、开发生态以及 AI 行业的发展。

#Grok-3

20万张GPU!马斯克掏出「地表最强」大模型Grok-3,排行榜登顶,复仇OpenAI

带点特斯拉、SpaceX 基因,工程能力很强。

马斯克 xAI 的最新旗舰大模型 Grok3 终于现身了!

中午 12 点,所有人都在马斯克的直播预告中开始了等待。

图片

在等到 20 分钟、线上观看人数达到 100 万时,直播终于开始,马斯克也出席了。直播主题为「我们的使命是理解整个宇宙」。

图片

根据工程师们介绍,准确地说,Grok 3 是一个系列,不只是某一个模型。Grok 3 的轻量版本 Grok 3 mini 可以更快地回答问题,但会牺牲一些准确性。目前并非所有型号都已上线,但会从今天开始陆续推出。

马斯克则直接表示:Grok 3 比 Grok 2 「好 10 倍」,并且拥有扩展的训练数据集。

图片

另外,原定要发布的语音模式延期了,但也不会等太久,一周左右就行。

图片

不过现在的大模型,总会在聚光等下被人仔细检查。xAI 一直在使用位于孟菲斯的一个巨大的数据中心 —— 一个包含大约 20 万块 GPU 的数据中心来训练 Grok 3。

图片

这个数据中心建造的速度极快,只用了 122 天,二期还将增加到 20 万块 GPU。

Grok 3 发布后有人就第一时间指出:它消耗的算力是 DeepSeek V3 的 263 倍。不知道这个计算是否准确?

图片

看来 Grok 3 主打一个力大砖飞,我们来看下基准测试的成绩吧。

在 Math(AIME 24)、Science(GPQA)和 Coding(LCB Oct-Feb)三方面,Grok-3 大幅超过 Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet 和 GPT-4o。这些被用来对比的模型的性能与 Grok-3 mini 相近。

图片

在大模型竞技场 Chatbot Arena(LMSYS)中,早期 Grok-3 版本的得分取得了第一,达到 1402 分,超过了包括 DeepSeek-R1 在内的所有其他模型。Grok-3 也成为有史以来首个突破 1400 分的模型。

图片

下图展示了 Grok-3 和其他模型在编程、数学、创意写作、指令遵循、长查询、多轮对话等场景中的排名情况。可以看到,Grok-3 在每个维度上都排第一。

图片

比如,在编码任务中,Grok-3 超过了 o1、DeepSeek-R1、Gemini-thinking 等主要推理模型。

图片

在 Grok-3 发布不久,AI 大牛 Andrej Karpathy 晒出了自己的「早鸟」体验。他的初步感觉概括如下:

  • Grok-3 + Thinking 的水平接近 OpenAI 最强模型(每月 200 美元的 o1-pro)的最先进水平,略优于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。
  • Grok-3 会尝试解决黎曼猜想,这一点和 DeepSeek-R1 类似,不像其他许多模型(o1-pro、Claude、Gemini 2.0 Flash Thinking)立即放弃并简单地说这是一个重要的未解问题。 
  • DeepSearch 大约在 Perplexity DeepResearch 产品的水平,但还没有达到 OpenAI 最近发布的「Deep Research」的水平,后者感觉更加彻底和可靠。

图片

推理能力一骑绝尘

超越 o3 mini、R1 等所有对手

与此同时,Grok-3 支持推理能力,解锁了测试时计算(test-time compute)能力。这意味着竞争激烈的推理模型市场又迎来了一个强劲对手。

图片

Grok-3 的推理基准测试结果也说明了这一点,它分为了两个版本,分别是 Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning。

当使用更多测试时间计算时(图中延长部分),其中在数学(AIME’24)、科学(GPQA)和编码(LCB Oct-Feb)数据集上,Grok-3 的「推理 + 测试时计算」表现均超越了 OpenAI o3 mini (high) 和 o1、DeepSeek R1 和谷歌 Gemini 2 Flash Thinking 等其他一众推理模型。

图片

在 AIME 2025 数学竞赛中,Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning 同样霸占了前两名,大幅超越了其他推理模型。

图片

Grok-3 的用户界面如下所示,我们可以看到它的思考(Think)模式。

图片

在实际使用过程中,像其他推理模型一样,Grok-3 可以展示完整的思考过程以及思考时长。

不仅如此,Grok-3 还支持了「Big Brain」模式,使用更多算力来解决问题,进行更深度的思考。

图片

Grok-3 能做到的超乎你的想象,比如「生成从地球发射、着陆火星然后在下一个发射窗口返回地球的 3D 动图的代码。」

图片

再比如「使用 pygame 制作一款混合俄罗斯方块(Tetris)和宝石方块(Bejeweled)的游戏,代码可以很长,效果要炫酷」:

从演示来看,Grok-3 各项能力都在线的。

下一代智能体——DeepSearch 问世

Grok-3 还具备了强大的智能体能力,通过深度搜索(DeepSearch)来进行深入研究、头脑风暴、分析数据、生成图像、编写和调试代码。

可以说,DeepSearch 对标了此前 OpenAI 推出的深度搜索 Deep Research,后者通过联网可以在几十分钟内完成人类专家数小时才能完成得复杂研究任务。

图片

我们可以看以下几个示例,Grok-3 在 DeepSearch 模式下可以联网进行更深入的搜索,过程中也调用了思考能力。并且,搜索本身所需要的步骤也展示了出来。

在下面这个示例中,让 Grok-3「对疯狂的三月比赛做出一个完整的预测」(create a full march madness bracket prediction)。

最后是订阅和定价的相关信息:

X Premium+ 订阅用户将首先获得 Grok 3,其他功能需要订阅 xAI 称之为 SuperGrok 的版本。

图片

SuperGrok 的价格为每月 30 美元或每年 300 美元,可解锁更多推理和 DeepSearch 查询,并提供无限的图像生成。

图片

发布完之后,团队还根据网友提问进行了简单的问答。

其中提到,xAI 将会发布一个 Grok 驱动的语音应用(大约将在一周后发布)。并且,用户在与其进行语音对话时,模型会保留一些与用户的对话记忆。

此外,马斯克还重申了 xAI 的开源原则,即发布了最新版的模型之后便会开源前一版本的模型。他表示在发布了 Grok 3 稳定版之后就会开源 Grok 2(可能还需要等待几个月时间)。这一点看来不如开源之光 DeepSeek。

图片

马斯克曾发推说明 xAI 的开源原则:发布新一代模型时开源上一代模型。

最终,发布会在一个 xAI 语音模式演示视频中落下帷幕。

,时长00:12

之后,马斯克发推暗示自己的公司将赢得与 OpenAI 的技术竞争,因为 xAI 的创新速率有更高的一阶和二阶导数。

图片

图片

对于马斯克今日的发布,你怎么看?

#TransMLA

Qwen架构改造成Deepseek,再复现R1计划

本文提出一种TransMLA的方法,能将目前主流模型如LLaMA-3,Qwen-2.5等模型中的GQA统统等价变换为能力更强的MLA。

前言

Model

Context window

Max CoT tokens

Max output tokens

1M tokens (Cached) Input

1M tokens Output

DeepSeek-V3

64K

-

8K

0.07/0.27

1.10

GPT-4o

128K

-

16K

1.25/2.50

10.00

GPT-4o-mini

128K

-

16K

0.075/0.15

0.60

Claude 3.5 Sonnet

200K

-

unknown

0.3/3

15

Claude 3.5 Haiku

200K

-

unknown

0.8/0.08

4

DeepSeek-R1

64K

32K

8K

0.14/0.55

2.19

OpenAI-o1

200K

unknown

100K

7.50/15.00

60.00

OpenAI-o3-mini

200K

unknown

100K

0.55/1.10

4.40

Claude 3 Opus

200K

unknown

unknown

1.5/15

75

Deepseek使用更低的成本追赶OpenAI的效果

关注Deepseek也有一年多了,当时Mixtral-8x7B模型刚出来,我写了一篇分析其MoE架构的文章(https://zhuanlan.zhihu.com/p/674751021)。Deepseek不久后推出了他们第一版Deepseek MoE模型,他们的工作人员看到文章加了我的微信;

在做PiSSA(https://arxiv.org/abs/2404.02948)的时候,我就将Deepseek MoE视为主流模型进行了实验对比;

在Deepseek V2出来后,MLA架构巧妙地设计吸引了我。启发我做出CLOVER(https://arxiv.org/abs/2411.17426)这篇文章。MLA中存在一个absorb操作,能将Key Weight吸收到Query Weight中,Value Weight吸收到Output Weight中,缺点是合并后参数量会变大。CLOVER先合并再分解,不改变模型结构就能得到正交的注意力头,对剪枝和微调都有很大的好处;

随着Deepseek V3/R1彻底爆火,我也来添一把火:

TransMLA: Multi-head Latent Attention Is All You Needhuggingface.co/papers/2502.07864

​https://github.com/fxmeng/TransMLAgithub.com/fxmeng/TransMLA​

本文理论证明了,在同等KV Cache开销下,MLA的表达能力始终大于GQA的能力,并通过实验验证这一优势。

本文提出一种TransMLA的方法,能将目前主流模型如LLaMA-3,Qwen-2.5等模型中的GQA统统等价变换为能力更强的MLA。

本文将会使用改造后的模型复现R1的能力。此外还会探索MoE,MTP结构,混合精度量化训练,训练推理加速等技术,希望能推动基于GQA模型向MLA模型的过渡,帮助初学者了解Deepseek使用的技术,以及给大模型厂商提供一个低成本迁移模型架构的方案。

TransMLA方法

本节首先提出以下定理:

定理1:当KV Cache大小相同时,MLA的表达能力大于GQA。

证明: 通过接下来的1)2)3)节,我们论证了任何GQA都可以等价转换为具有相同KV Cache大小的MLA形式。在第4)节中,存在MLA无法通过GQA表示的情况。从而完成定理1的证明。

Group Query Attention (GQA)

1)GQA形式,复制Key-Value

上图展示了分组注意力(GQA)的典型结构。在GQA中,Query  被拆分成  个头,每个头的维度为  。为了减少Key和Value的数量,Key  被定义为具有  个头(其中 $n_k<n_q$ ),每个头的维度为="" $d_h$="" 。<="" p="">

设  为长度为  ,隐藏维度为  的输入序列,  为Key的投影矩阵。那么,  .

由于标准的多头注意力要求  和 (以及  )具有相同数量的头,因此必须将  从  个头扩展到  个头。定义复制因子  。将  沿其列划分为  个块,每个块对应一个头: ,其中每个块  。通过将每个  复制  次并拼接,得到扩展后的矩阵  :

Multi-Head Attention (MHA)

2)MHA形式,将复制操作移到参数侧

上图展示了一种使用多头注意力(MHA)替代GQA的方法,在计算K之前,可以先复制投影矩阵  。首先,将  沿其列划分为  部分,其中每个  对应Key中的一个原始的注意力头: 。然后,将每个 复制  次,并按顺序拼接它们,形成新的投影矩阵  : 次, 次。将  应用于  ,直接得到  .这种方法在数学上等价于先计算  ,然后复制其头(GQA)。

Multi-Head Latent Attention (MLA)

3)MLA形式,低秩分解参数矩阵

上图展示了  ,它是通过复制  形成的,最多有  个自由度。因此,它的秩最多为  。为了更正式地理解这一点,使用奇异值分解(SVD)对  进行分解:

 ,其中  和  是  的正交矩阵,  是  的对角矩阵,包含奇异值。只有前 (或更少)的奇异值可能是非零的。因此,可以截断SVD,只保留前  个奇异值,其中  .定义.那么 且 .

同样的方法也可以直接迁移到Value的变换上,这里不再展开讨论。其中在缓存Key和Value矩阵时,只需要存储低秩表示  和  。在实际的注意力计算中,可以通过与  和  相乘来"扩展"表示,从而恢复全维度并增强表达能力。

4)存在MLA无法被GQA表示的情况

考虑一种情况,其中  中的向量是正交的。在这种情况下,乘以  与  后,每个通道的输出在通道间保持不同。然而,在GQA中,每组内的头是复制的,这意味着组内所有头的输出是相同的。这种结构差异意味着某些MLA的情况无法被GQA表示,因为MLA允许在各个通道之间有更大的输出多样性。

基于上述分析,我们证明了定理1。通过将GQA转化为等效的MLA表示,我们可以增强模型的表达能力。接下来的章节将展示实验结果,以验证这一结论。

实验效果

我们以Qwen 2.5 为例,展示如何将一个基于GQA的模型转换为MLA模型,并对比转换前后的模型在下游任务中的训练效果。Qwen2.5-7B模型的每一层包含 28 个Query头和 4 个Key/Value头,每个头的维度为  Cache的维度为 1024 。Qwen  模型的每一层包含 40 个Query头和 8 个 Key/Value头,每个头的维度为 128 ,KV Cache的维度为2048。在将Qwen2.5-7B模型转换为MLA模型后, 和  的输出维度都被调整为  Cache的维度依然保持为1024。与GQA模型的设置不同,在TransMLA中, 和  将512维的特征升维至  维。由于 28 个 Query头可以分别与 28 个Query进行交互,形成不同的功能表示,这种调整显著增强了模型的表达能力。通过这种方式,TransMLA能够提升GQA模型的表达能力,同时不增加KV Cache的数量。值得注意的是,新增的参数量非常小。具体来说,针对Q-K对,增加了一个  的矩阵,而原始矩阵的维度为  ,因此新增参数量仅占原始矩阵的  。对于  O对,新增的参数量同样是原来参数量的  。整体来看,模型的参数量从原来的 7.6 B 略增至 7.7 B ,增加幅度非常小。

为了评估转换后的MLA模型性能的提升,我们将原始基于GQA的Qwen模型与转换后的TransMLA模型分别在一个新的指令微调数据集SmolTalk上进行训练。SmolTalk数据集包含丰富的指令微调数据,同时也涵盖了MetaMathQA等数学任务数据和Self-OSS-Starcoder2-Instruct等代码任务数据。训练过程中,我们使用了torchtune框架,设定batchsize为16,学习率为2e-5,并训练了2个epoch。在训练过程中,为了尽量减少对原始模型的影响,我们仅对模型中Key-Value层进行训练。对于GQA模型,只训练  和  ;而对于转化后的MLA模型,我们训练 和  四个权重矩阵。训练过程中的Loss以及训练后模型的效果都展示在下图中。

训练loss以及在测试集上的准确率

从图中可以看出,经过转换的MLA模型在训练过程中表现出更低的Loss值,表明其对训练数据的拟合能力更强。在7B和14B模型的设置下,TransMLA模型在数学和代码任务上的准确率显著高于原始的基于GQA的模型。这表明,TransMLA不仅提升了模型的表达能力,还在特定任务上带来了显著的性能改进。

这种性能提升不仅仅归功于增大了Key-Value中的可训练参数,正交化分解方式的使用也在其中发挥了至关重要的作用。为了进一步验证这一点,我们进行了对比实验。在这个实验中,我们没有采用正交化分解方式,而是通过Identity Map初始化升维模块来实现TransMLA。训练后得到的模型在GSM8K数据集上的准确率为82.11%,比基于GQA的模型(81.96%)高出仅0.15%。这一结果表明,仅仅增加可训练的参数并不能解释TransMLA性能的显著提升,正交化分解方式在提升模型效果方面发挥了关键作用。目前,更多的实验正在进行中,希望深入探究这一现象背后的原因,进一步验证正交化分解对模型性能的贡献。

后记

本文证明了GQA模型都能转化为MLA形式,给了大模型厂商一个放弃GQA,拥抱MLA的理由,以及快速过渡的方法。然而收到原始模型结构的限制,TransMLA的结构并不是最优的,如没有对Query进行压缩,没有使用Decoupled RoPE,以及Key和Value使用了独立的latent Vectors。若要从头训练模型,仍然建议在Deepseek V3的结构上进行创新。TransMLA能够提升目前R1蒸馏Qwen,蒸馏LLaMA项目的效果。未来我们将会进行这一工作,并开源训练代码和模型。

#对AI无知恐葬送全人类

AI教父Hinton怒批万斯

AI大佬Hinton怒批英美置AI安全不顾,认为万斯在巴黎峰会上完全是一派胡言,根本不了解AI的危险性。他认为AI可以造福人类,但必须保证AI安全,否则人类或面临灭顶之灾!

在巴黎AI行动峰会上,美国副总统万斯高举「美国优先」的大旗,明确表示美国仍将维持在AI领域的主导地位,欧洲对AI的监管在扼杀创新!

会后,美国和英国拒绝签署关于确保AI「安全、可靠、可信」的峰会声明,拒绝相关国际承诺。

la Repubblica独家报道了诺奖得主、AI「教父」Hinton,对这种行为的猛烈抨击。

Hinton:「没有约束,AI将是一种可怕的武器。华盛顿与科技巨头结成了危险的联盟」

Hinton: 万斯一派胡言

77岁的AI「教父」Geoffrey Hinton,图灵奖和诺贝尔物理学奖得主,因对深度神经网络的基础性研究而闻名全球。

对美国副总统万斯在峰会上发言, 他认为是一派胡言:

我听了万斯的发言。我认为那是一派荒谬的胡言,完全显示出他对AI的危险性一无所知。

万斯犯了一个错误,认为如果有监管,就会扼杀AI。不,监管不会扼杀AI。许多有益的AI应用继续得到发展。我们需要开发AI,但必须确保安全。

现任美国政府对安全问题漠不关心,而且与大科技公司结成了联盟。

在声明中,万斯基本上是在威胁其他国家:如果他们试图对美国科技进行监管和干预,将会付出代价。

而英国此后,再也不能假装在关心如何确保AI安全,虽然Hinton没有推测背后的政治原因。

而在一年半前,正是英国在布莱切利公园举办了首个关于AI的峰会,目的也是为了进行监管。

布莱切利宣言|为了全人类的利益,AI应该确保安全、以人为本、值得信赖且负责任

并且英国还通过了一项法律,要求对科技巨头进行严格的内容监管。这一转变,的确十分突兀和怪异。

英国甚至将国家科研机构AI Safety Institute更名,删除了AI产生「不平等结果」相关内容。欧洲媒体称之为英国跟随着万斯的曲调在跳舞。

AI安全不容忽视

Hinton在多伦多大学的办公室回应称,他多年来一直警告世界不要忽视AI缺乏监管的危险。

在他看来,将潜在的破坏性工具交给全球无序使用,意味着将人类置于危险之中,可能导致人类走向灭绝。

事实上,Hinton从未排除过类似电影《终结者》中的情景,在电影中,不可阻挡的AI掌握了权力,开始攻击人类。

尽管有一些保留意见,但这一次Hinton承认AI应该以安全的方式发展:

AI在很多领域是非常有用的,比如医学和环境领域。

当然,它应该得到发展。但必须以对人类安全的方式进行开发。

而这正是美国副总统万斯似乎完全不必担心的。

而美国政府和硅谷的联盟,让Hinton非常不满意,非常令他不安。他表示这种无视AI安全的态度,无论是的短期还是长期,都将带来极其严重的后果:

在短期内,越来越多的罪犯将利用AI发起对我们基础设施的网络攻击。网上操控的新闻将会泛滥。人们的观点也将被操控。

长期内,AI有可能在某个时刻控制一切,而人类将深受其害。

当被问及怎么看待马斯克和奥特曼在OpenAI问题上的争斗,Hinton表示他虽然几乎不同意马斯克说的其他所有事情,但在这件事上同意马斯克的观点:

OpenAI应该保持非盈利性质,而不是变成一家赚钱的公司。

参考资料:

​https://x.com/antoguerrera/status/1889563917375938708​

​https://www.repubblica.it/economia/2025/02/12/news/intelligenza_artificiale_vertice_parigi_geoffrey_hinton_intervista-423997052/​

#最豪华大模型创业阵容

OpenAI前CTO组建,翁荔、Schulman等ChatGPT核心成员加盟

今天凌晨,一个创业消息引爆了整个 AI 社区:一家名为 Thinking Machines Lab 的新创业公司建立了,而其背后有一个堪称有史以来最豪华的大模型创业团队阵容。

image.png

据该公司的首条推文介绍,Thinking Machines Lab 是一家「人工智能研究和产品公司。」

image.png

他们还强调这会是一家重视研究开放的公司,其推文中承诺:「我们致力于通过论文发表和代码发布来开放科学,同时会重点关注应用于不同领域的人机协作。我们的方法包括共同设计研究和产品,以便从实际部署和快速迭代中学习。这项工作需要三个核心基础:SOTA 的模型智能、高质量的基础设施和先进的多模态能力。我们致力于构建处于能力领先的模型来兑现这一承诺。」

该公司官方网站对这三核心基础进行了展开说明

  • 模型智能是基石。除了强调人机协作和定制之外,模型智能也至关重要,我们正为科学和编程等领域构建前沿能力模型。最终,最先进的模型将解锁最具变革性的应用和优势,例如实现新颖的科学发现和工程突破。
  • 基础设施质量是重中之重。研究生产力至关重要,在很大程度上取决于基础设施的可靠性、效率和易用性。我们的目标是长期正确地构建事物,以最大限度地提高生产力和安全性,而不是走捷径。
  • 先进的多模态能力。我们认为多模态对于实现更自然、更高效的通信、保存更多信息、更好地捕捉意图以及支持与现实环境的更深入集成至关重要。

此外,尤其值得关注是该公司背后的豪华团队阵容,其中包括多位前 OpenAI 重要成员,如担任首席科学家的 John Schulman、著名 AI 研究科学家和博客作家翁荔。

image.png

上述推文中也写到:「我们是一些最广泛使用的 AI 产品和软件背后的科学家、工程师和构建者,包括 ChatGPT、Character.ai、PyTorch 和 Mistral。我们的使命是让 AI 为您服务,打造一个每个人都能获得知识和工具的未来,让 AI 能够满足每个人独特的需求。」

下面我们简要介绍下 Thinking Machines Lab 背后的这个豪华创业团队:

Mira Murati(CEO)

Thinking Machines Lab 的 CEO 为 OpenAI 前 CTO Mira Murati,他曾在 OpenAI 领导过研究、产品与安全方面的工作。去年 9 月,Murati 离开了 OpenAI。

Mira 于 1988 年出生于阿尔巴尼亚,在 2022 年担任 OpenAI 的首席技术官。

在学生时代,Mira 就参加过许多奥林匹克竞赛和数学竞赛。她本科毕业于达特茅斯学院机械工程系,曾在高盛和法国航空航天集团 Zodiac Aerospace 实习。她还在特斯拉工作了三年,担任特斯拉跨界 SUV Model X 的高级产品经理,在此期间,特斯拉发布了 Autopilot 的早期版本。

2016 年,Mira 加入 Leap Motion,一家为 PC 制造手部和手指追踪运动传感器的初创公司,担任产品和工程副总裁。Mira 在接受外媒 Fast Company 采访时表示,她希望人类与计算机的交互体验「像玩球一样直观」。

加入 OpenAI 后,Mira 在 ChatGPT、DALL-E、Codex 等的开发中发挥了重要作用。除此以外,今年 5 月份发布的 GPT-4o 以及本月发布的 OpenAI o1,都是在 Mira 的领导下完成的。

John Schulman(首席科学家)

个人主页:http://joschu.net/

John Schulman 将担任这家新创业公司的首席科学家。本月初,John Schulman 宣布辞去 Anthropic 的职务。距离他加入这家人工智能初创公司,仅仅过去了半年时间。

他是深度强化学习的一位先驱研究者,创造了著名的 PPO 算法。同时也是 OpenAI 的创始人之一,曾共同领导过 ChatGPT 和 OpenAI 后训练团队。

谷歌学术页面显示,John Schulman 的学术引用总数已经超过 10 万。其中,引用量最高的研究便是他创造的 PPO 算法《Proximal policy optimization algorithms》。

他在加州大学伯克利分校获得了计算机科学博士学位,导师为该校教授、深度强化学习大牛 Pieter Abbeel。之后从事机器人和强化学习研究与工作。在此之前,他还曾在伯克利短暂学习过神经科学,并在加州理工学院学习过物理学。

Barret Zoph(CTO)

个人主页:https://barretzoph.github.io/

担任这家新创业公司 CTO 的是 Barret Zoph,也曾是 OpenAI 的一位技术主管,领导过 OpenAI 的后训练团队,涉及的研究方向包括对齐、工具使用、评估、ChatGPT、搜索、多模态等等。同时,他还是一位专注投资 AI 公司的天使投资人。

此前,他还曾在谷歌与信息科学学院担任过研究科学家,参与训练了大型稀疏语言模型并将其应用于各种应用的研究工作。

他是两篇重要论文《Learning transferable architectures for scalable image recognition》和《Neural architecture search with reinforcement learning》的第一作者。

下面按名字首字母排序介绍 Thinking Machines Lab 创始团队其他成员。

Alex Gartrell

个人主页:https://www.alexgartrell.com/

Alex Gartrell 曾任 Meta 服务器操作系统负责人,Linux 内核、网络和容器化专家。

Alexander Kirillov

个人主页:https://alexander-kirillov.github.io/

Alexander Kirillov 将在 Thinking Machines Lab 从事多模态 AI 的研究和开发。他曾参与开发了 OpenAI 高级语音模式和 Meta AI 的 Segment Anything Model(SAM),并曾任 OpenAI 多模态后训练负责人。

他在德国海德堡大学获得博士学位,指导老师是 Carsten Rother。

Andrew Tulloch

个人主页:https://tullo.ch/

Andrew Tulloch 同样也曾在 OpenAI 与 Meta 工作过,他的主攻方向是机器学习系统的相关研究与工程开发。

Tulloch 还是一位开源社区的重要参与者,为著名开源项目 PyTorch 和 Caffe 做出过重要贡献。

Brydon Eastman

曾在 OpenAI 从事训练后研究,专攻人类和合成数据、模型对齐和 RL。

Christian Gibson

曾任 OpenAI 基础设施工程师,专注于训练前沿模型的超级计算机。

Devendra Chaplot

Mistral AI 创始团队成员兼多模态研究主管,Mixtral 和 Pixtral 的共同创始人。VLM、RL 和机器人技术专家。

Ian O'Connell

基础设施工程,曾就职于 OpenAI、Netflix、Stripe。

Jacob Menick

ML 研究员,曾领导 OpenAI 的 GPT-4o-mini,之前曾为 ChatGPT 和 DeepMind 的深度生成模型创建做出过贡献。

Jonathan Lachman

运营主管、前 OpenAI 特别项目负责人和白宫国家安全预算主管。

Joshua Gross

在 OpenAI 参与构建产品和研究基础设施,塑造 ChatGPT 的学习系统和 GPU 集群;此前在 Meta 负责产品基础设施。

Kurt Shuster

曾参与 Google DeepMind 的推理、Character.AI 的全栈预训练和推理以及 Meta AI 的基础对话研究。

Kyle Luther

机器学习研究员,此前他在 OpenAI 任职。

(翁荔)Lilian Weng

曾任 OpenAI 研究(安全)副总裁。

Lilian Weng 是 OpenAI 华人科学家,她 2018 年加入 OpenAI,参与了 GPT-4 项目的预训练、强化学习 & 对齐、模型安全等方面的工作。她本科毕业于北大,曾前往香港大学进行短期交流,博士毕业于印第安纳大学伯明顿分校。

根据领英资料显示,Lilian Weng 在 OpenAI 已经工作了近 7 年时间,担任安全研究副总裁一职。2021 年 - 2023 年工作期间,Lilian Weng 建立并领导了应用人工智能研究团队,包括产品研究、合作伙伴研究和应用安全,从而使得 OpenAI 的 API 更强大、更实用、更安全。之前,她还是 OpenAI 机器人团队的技术主管,专注于训练关于机器人任务的算法,如教机械手如何解决魔方、旋转方块等。

在加入 OpenAI 之前,她还在 Facebook、Dropbox 从事软件工程和数据科学方面的工作。Google Scholar 显示,Lilian Weng 论文引用量超过 13000 多次。闲暇时间,Lilian Weng 还写了一些关于 AI 的博客文章,她的博客深入、细致,具有前瞻性,被很多 AI 研究者视为重要的参考资料

Luke Metz

Luke Metz 是 OpenAI 创始团队成员,曾与 John Schulman、Barret Zoph、Liam Fedus 等人在内部共同开发了「low-key research preview」,这是 ChatGPT 的雏形。他也是 o1 推理模型背后的贡献者之一。

Mario Saltarelli

OpenAI 前 IT 和安全主管。

Myle Ott

人工智能研究员,Character.AI 创始团队成员,Meta 早期 LLM 负责人,FSDP 和 fairseq 的创建者。

Nikki Sommer

曾任 OpenAI 人力资源业务副总裁及 Twitter 人力资源业务总监。

Noah Shpak

ML 工程师。

Pia Santos

执行运营主管,曾在 OpenAI 任职。

Randall Lin

曾在 OpenAI 负责 ChatGPT,并在 X 担任「Twitter 算法」的联合技术负责人。

Rowan Zellers

曾在 OpenAI 工作,从事实时多模态后训练工作。

Sam Schoenholz

曾领导 OpenAI 的可信赖扩展团队和 GPT-4o 优化。之前曾在 Google Brain 从事统计物理学与机器学习的交叉研究。

Sam Shleifer

专注于推理的研究工程师,曾就职于 Character.AI、Google DeepMind、FAIR、HuggingFace。

Stephen Chen

Stephen Chen 是在 Meta 工作近十五年的老员工,此前领导人工智能推理相关研究,负责 Meta 的生成式人工智能产品和推荐系统。

Stephen Roller

之前曾在 DeepMind、CharacterAI 和 MetaAI 进行全栈预训练相关工作。在 Google DeepMind 时,他的研究和工作主要集中在对最大规模语言模型进行预训练。在 Character.AI 期间,他负责领导预训练和训练基础设施工作。他还曾担任 Meta 基础人工智能研究 (FAIR) 的研究工程师,负责领导大型语言模型和对话团队(FAIR 的大部分工作都是开源的)。

Yinghai Lu

Yinghai Lu 曾领导 OpenAI 和 Meta 的各种推理工作,本次离职前是 OpenAI 研究推理团队的技术负责人。在 2023 年底加入 OpenAI 之前,他是 Facebook AI Infra 的软件工程师,负责建立推荐推理系统和生成式 AI 模型,参与了 Llama 2 等项目。

他在 2010 年获得复旦大学电子工程博士学位。毕业后在美国西北大学电子工程系从事博士后研究工作,之后加入湾区的工业界。加入 Thinking Machines Lab 后,他担任 ML 系统工程师。

#微信DeepSeek入口已接通

辐射用户14亿!

一睁眼,微信证实:

已正式接入DeepSeek-R1,还是满血版!

使用路径非常简单:打开微信——点击搜索框——选择页面中部「AI搜索」——选择深度思考模式——用起来~

生成后的结果还带有社交属性,可以分享转给朋友,或转发至朋友圈。

此前不少人就呼吁,想要能把DeepSeek的答案一键分享,但夙愿未尝。昨晚之前,几乎所有分享DeepSeek生成结果的方式,都是截图(由于它会展现推理过程,要截的图还特别长)。

如今,这个需求终于是被微信实落实了。

公众号“共识粉碎机”连夜计算,目前微信可支持5000万-1亿用户同时在线用户(同时在线,不是DAU)。

这个数字,基本满足了微信首批Deepseek用户的用量,也超过了ChatGPT的同时在线用户。

虽然还在灰度中,但这显然是腾讯继续全面拥抱DeepSeek的动作,而且真正直接上手可用。

好消息,量子位编辑就被首批灰度到了。

喜大普奔,这不得实测走起?——

实测微信接入DeepSeek

目前微信的AI搜索提供两种模式:

快速回答:生成简介答案,适合通用简单问题。

深度思考:DeepSeek-R1作为模型支持,长思考、满回答,答案更全面、详细。

因此要深入体验R1的,需要选择「深度思考模式」。

首先来看看它是否支持基本的联网模式。

这两天,宇树机器人又整花活了,他们更新了跳舞视频,比春晚的更灵活也更惊艳,甚至惊呆了歪果仁。

将这个问题抛给微信:宇树机器人最新跳舞视频,跳的是什么舞。

得到的答案是:

图片

它的反应没有什么卡顿,输出也很快。首先展现了它的推理过程,经过联网搜索判定这是2025年2月14日进展,然后考虑到用户对机器人感兴趣,提供了额外的信息,最终得到了以下的答案。

这里有个小bug,那就是思考过程与正式回答之间没有明显的区分,排版没有出来。不过估计是因为灰度测试不是很稳定,之后就没有问题。

从它附上的10篇参考资料,前面7篇都来源于公众号。这也证明这个AI搜索背后有着微信庞大内容生态来支撑。

好了,基本的联网推理功能有了,那就来上些难度。

之前大家用DeepSeek拿来整活的,无非有算命、人设创意写作等等。

既然如此:

请以辛弃疾的口吻,写一段以微信接入DeepSeek为主题的词。

在思考结束后,它会隐藏思考过程给出正式的答案,点击也可以随时展开。

图片

最后给出的答案如下:

在创作图的同时,还给出了注释,里面暗藏了不少玄机。

前半段代表着事件意义,「智开星汉」代表着双重含义,后半段透露了功能属性,比如调入微信生态数据。

回答完之后,它会给推荐相关问题,或者「再问一个问题」。

如此一来,点击一个问题或者继续提问,是可以继续一直回答下去的(但是不支持结合上文连续回答)。

而且只要不跳出,所有的问答都会在同一个界面里呈现。

整体使用下来,因为在灰度测试以及体验窗口(仅支持手机端)的限制,有一些需要完善的地方。

比如,仅支持手机端的搜索,分享给朋友及朋友圈的信息,无法在电脑端查看。

除此之外,答案没有官方那么多样化,应该也是受到了输出token的限制,也无法像官方那样——能找到历史问答以及结合上下文连续作答这种。

这样来看微信接入DeepSeek呈现的还是一种短平快的搜索方式,这也挺符合微信这种即时性、私域社交这样一个属性。

当全球还在为AI入口焦头烂额的时候……

微信接入DeepSeek,出现的效果是什么呢?

一句话解释:

当全球科技巨头还在为AI入口的争夺焦头烂额时,腾讯用一次看似轻巧的”生态嫁接”,被网友戏称“终结了AI搜索竞赛”。

微信此举称得起这句褒奖吗?我们一起来梳理一下。

首先,肉测体感,同样接入DeepSeek-R1,在腾讯元宝用,就是比在微信用更快、更不卡。

但这不重要。

重要的是微信接入DeepSeek-R1,是面对难以计量的广大DeepSeek用户,进行了一次零学习成本的入口设置。

如此一来,16.7亿微信用户(数据来源网络,截至2024年10月)无需下载新应用、无需注册新账号,就能直接触达当前中文领域最强的推理大模型。

其次,也是真正的杀手锏,在于此举在提供简单易接触入口的前提下,把R1和微信生态的数据资源与RAG(检索增强生成)技术的深度融合起来了。

当用户询问”如何预约故宫门票”时,DeepSeek不仅能全网搜索,最特别的事,它能在微信公众号、视频号、小程序中抓取相关资料,能抓到调用故宫官方小程序的服务接口——这真的是腾讯独家生态资源。

最后用加emoji的答案清晰反馈,方便阅读抓取重点,还挺有人味。

而我们此前就关注到的,腾讯拥抱DeepSeek,拥抱得更宽阔、更全面了。

此前,已经有云平台腾讯云、腾讯云旗下大模型知识应用开发平台知识引擎、AI智能工作台ima、主力AI应用元宝等腾讯家族,先后接入DeepSeek-R1。

开源如此胜利,腾讯如此开放,最终结果导向是什么?

是用户能以最低的学习成本,最便捷的方法,最广泛地把好用的AI装在手机里用起来。

公众号“共识粉碎机”在最新推文中,称此举是“2C应用的转折点”。

里面还透露出一些信息:

移动互联网时期的超级应用,今天仍在利用发挥超级应用的优势,还有创造出超级应用的脑子。

总而言之,今天开始,国人最常用的应用+国产最强的推理模型+质量很好的生态数据资源,就这么被微信和DeepSeek水灵灵结合到一起了。

One More Thing

昨天Perplexity免费推出Deep Research。

在性能方面,用了最近考验AI推理能力大火的Humanity’s Last Exam(人类的最后考试),准确率达到了20.5%。

优于Gemini Thinking、o3-mini、o1、DeepSeek-R1和其他许多主流模型。

对此,Perplexity的CEO公开致谢DeepSeek:

这是因为DeepSeek是开源的,又便宜又快。

但奥特曼坐不住了——今早,他在推特喊话,矛头直指Perplexity CEO。

他说:

ChatGPT(4o)是网络上最好的搜索产品!

But Now?

DeepSeek没有说话,微信笑而不语。

参考链接:
[1]https://x.com/sama/status/1890816782836904000
[2]​​https://mp.weixin.qq.com/s/V8Hri4WSVJWgp8IcKxlIvw​

#DeepSeek V3+R1满血微调工具上线

一键启动,硬件要求降10倍

DeepSeek V3/ R1 火爆全网,基于原始模型的解决方案和 API 服务已随处可见,陷入低价和免费内卷。

如何站在巨人肩膀上,通过后训练(post-training)结合专业领域数据,低成本打造高质量私有模型,提升业务竞争力与价值?

已收获近 4 万 GitHub Star 的 Colossal-AI,发布开源大模型后训练工具箱,包含:

  • DeepSeek V3/ R1 满血 671B LoRA 低成本 SFT 微调;
  • 完整的强化学习工具链 PPO,GRPO,DPO,SimPO 等;
  • 无缝适配 DeepSeek 系列蒸馏模型在内的 HuggingFace 开源模型;
  • 兼容支持英伟达 GPU、华为昇腾 NPU 等多种硬件;
  • 支持混合精度训练,gradient checkpoint 等训练加速降低成本;
  • 灵活的训练配置接口,支持自定义奖励函数、损失函数等;
  • 提供灵活的并行策略配置接口,包括数据并行、模型并行、专家并行、ZeRO 和 Offload 等,以适应不同硬件规模。

开源地址:https://github.com/hpcaitech/ColossalAI

低成本监督微调满血版 DeepSeek V3/R1 671B

DeepSeek V3/R1 满血版参数高达 6710 亿,如何低成本进行低成本微调呢?仅需以下几个步骤,即可快速完成。

数据集准备

该脚本接收 JSONL 格式的文件作为输入数据集,例如 https://github.com/hpcaitech/ColossalAI/blob/main/applications/ColossalChat/examples/training_scripts/lora_sft_data.jsonl。数据集的每一行应为一个聊天对话列表。例如:

[{"role": "user", "content": "你好,最近怎么样?"}, {"role": "assistant", "content": "我很好。今天有什么可以帮你的吗?"}]

[{"role": "user", "content": "火烧赤壁 曹操为何不拨打 119 求救?"}, {"role": "assistant", "content": "因为在三国时期,还没有电话和现代的消防系统,所以曹操无法拨打 119 求救。"}]

该数据格式,兼容 Huggingface chat template,支持自定义 system prompt,因此可灵活按需配置。

模型权重准备

为保证更好的微调效果,使用 BF16 权重进行微调。

如果已下载了 FP8 的 DeepSeek V3/R1 权重,可以使用 DeepSeek 官方脚本 https://github.com/deepseek-ai/DeepSeek-V3/blob/main/inference/fp8_cast_bf16.py 通过 GPU 将权重转换为 BF16。

对于使用国产华为昇腾算力,可以下载 https://gitee.com/ascend/ModelZoo-PyTorch/blob/master/MindIE/LLM/DeepSeek/DeepSeek-V2/NPU_inference/fp8_cast_bf16.py 脚本转换权重。

使用方法

在准备好数据集和模型权重后,可使用 Colossal-AI 提供的一键启动脚本 https://github.com/hpcaitech/ColossalAI/blob/main/applications/ColossalChat/examples/training_scripts/lora_finetune.py

该脚本与常见 SFT 脚本类似,且完全兼容 HuggingFace PEFT,启动命令:

colossalai run --hostfile path-to-host-file --nprocpernode 8 lorafinetune.py --pretrained path-to-DeepSeek-R1-bf16 --dataset path-to-dataset.jsonl --plugin moe --lr 2e-5 --maxlength 256 -g --ep 8 --pp 3 --batchsize 24 --lorarank 8 --loraalpha 16 --numepochs 2 --warmupsteps 8 --tensorboarddir logs --save_dir DeepSeek-R1-bf16-lora

有关每个参数的更多详细信息,可以运行 python lora_finetune.py --help 查看。该脚本可通过 tensorboard 记录学习率、loss、grad norm 信息,方便对训练进行监控。

使用 LoRA 优化硬件资源消耗

通过使用 LoRA 等优化,示例命令已将 SFT DeepSeek V3/R1 671B 最低硬件要求降低近 10 倍,可使用 32 个 Ascend 910B NPU 64GB(使用 ep=8,pp=4)或 24 个 H100/H800 GPU(使用 ep=8,pp=3)。如果你通过 --zero_cpu_offload 启用 CPU offload,硬件要求可以进一步降低,但会损失一定的训练速度。

如下图验证,在 SFT DeepSeek V3/R1 671B 时,Loss 可以顺利降低:

图片

对于资金充裕的开发团队,也可以使用上述脚本,将并行度高效扩展至数百及数千卡,快速完成 DeepSeek V3/R1 671B 全参微调或并行加速。

对于预算有限,又想借助强化学习构建自己的类 DeepSeek R1 模型, Colossal-AI 也提供了解决方案,并利用小模型对算法进行了验证。

通过强化学习微调蒸馏版 DeepSeek

Colossal-AI 团队验证并实现了 DeepSeek 论文中的 GRPO 算法及 verifiable reward,使用 Qwen2.5-3B-Base 模型进行了实验。其中,奖励的设计如下:

1. 奖励 = 0,如果格式是正确的;

2. 奖励 = 1, 如果格式是正确的但是结果是错误的;

3. 奖励 = 10,如果格式与结果都是正确的。

Colossal-AI 团队以 Qwen2.5-3B-Base 模型为例,提供了用于验证 GRPO 的对话模板及设定(https://github.com/hpcaitech/ColossalAI/blob/main/applications/ColossalChat/conversation_template/Qwen_Qwen2.5-3B.json),通过配置以下 bash 文件,即可一键启动:

​https://github.com/hpcaitech/ColossalAI/blob/main/applications/ColossalChat/examples/training_scripts/train_grpo.sh​

同时,在 GRPO 章节,Colossal-AI 团队还提供了验证过程中的部分发现及各种参数的详细描述,可供参考。 

代码中设计了可灵活配置奖励函数的模板,因此,用户可根据自己的具体情况设计自己的奖励函数体系。

由下图可以看到,即使是 3B 的模型,平均奖励与模型回复长度随着时间逐步增长。

图片

随着训练的进行,我们可以看到一些有意思的例子。例如随着训练迭代,模型开始了自我纠正:

图片

Colossal-AI:最佳后训练工具箱

Colossal-AI 在深耕大模型预训练降本增效的基础上,致力于进一步成为开发者开箱即用的最佳后训练工具,帮助用户基于开源模型,低成本快速构建私有模型。

开源地址:https://github.com/hpcaitech/ColossalAI

#Claude挣钱强于o1

OpenAI开源百万美元编码基准,检验大模型钞能力

昨天,AI 圈可以说非常热闹。中午,马斯克 xAI 发布了地表最强旗舰大模型 Grok-3;下午,DeepSeek 梁文锋亲自挂名的论文公开了全新注意力架构 NSA。

这下子,OpenAI 坐不住了,推出并开源了一个真实的、用于评估 AI 大模型编码性能的全新基准 SWE-Lancer。该基准包含了来自全球性自由职业平台 Upwork 的 1400 多个自由软件工程任务,在现实世界中总价值达到了 100 万美元。

这意味着,如果大模型能够全部完成这些任务,则可以像人类一样获得百万美元报酬。

图片

具体来讲,SWE-Lancer 包括了独立工程任务(从 50 美元的 bug 修复到 32,000 美元的功能实现)和管理任务,其中模型选择各种技术实施方案。独立工程任务由经验丰富的软件工程师经过三重验证的端到端测试进行评级,而管理任务则根据最初聘请的工程经理的选择进行评估。

下图为 SWE-Lancer 基准中的任务目标、任务类型、任务角色以及任务示例。

图片

SWE-Lancer 任务更真实地反映了现代软件工程的复杂性。任务是全栈式的,而且很复杂。自由职业者平均需要 21 天以上的时间才能完成每项任务。

图片

SWE-Lancer 任务价格反映了真实市场价值。任务越难,报酬越高。

图片

OpenAI 的评估结果显示,包括自家 GPT-4o、o1 和 Anthropic Claude 3.5 Sonnet 在内的前沿模型仍然无法解决大多数任务。从下图中可以看到,Claude 3.5 Sonnet 完成的任务最多,并且挣到了最高的 403,325 美元。

图片

为了进一步促进未来的相关研究,OpenAI 开源了一个统一的 Docker 镜像和一个公共评估分割 ——SWE-Lancer Diamond。通过将模型性能与现实世界的货币价值联系起来,OpenAI 希望能够更好地研究 AI 模型开发的经济效益。

  • 论文标题:SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?
  • 论文地址:https://arxiv.org/pdf/2502.12115
  • 项目地址:https://github.com/openai/SWELancer-Benchmark

对于 OpenAI 开源的这个基准测试,有人认为很棒,并表示随着软件工程中 AI 能力的扩展,拥有标准化的评估方法非常重要,但应该是独立的。期待看到社区对 SWE-Lancer Diamond 的使用反馈。

图片

SWE-Lancer 简介

SWE-Lancer 数据集包含来自 Expensify 开源库在 Upwork(美国的一个自由职业平台)上发布的 1,488 个软件工程任务。

这些任务总价值为 100 万美元,分为两类:

个人贡献者(IC)任务(解决 bug 或实现功能),包含 764 个任务,总价值为 414,775 美元。模型会获得以下信息:(1) 问题文本描述(包括复现步骤和期望行为),(2) 问题修复前的代码库 checkpoint,以及 (3) 修复问题的目标。模型在评估期间无法访问端到端测试。

管理任务(模型扮演经理的角色,选择最佳方案来解决问题),这一类包含 724 个任务,总价值为 585,225 美元。模型需要扮演软件工程经理的角色,选择解决任务的最佳提案。模型会获得以下信息:(1) 针对同一问题的多个解决方案(来自原始讨论),(2) 问题修复前的代码库 checkpoint,以及 (3) 选择最佳解决方案的目标。

图 3 中使用 Diamond Set 中的示例对 SWE-Lancer 中不同类型的 IC SWE 问题进行细分。左侧蓝色代表任务主题,右侧绿色代表任务类型。

图片

OpenAI 研究人员和 100 名其他专业软件工程师在 Upwork 上识别了潜在的任务,并在不更改任何文字的情况下,将这些任务输入到 Docker 容器中,从而创建了 SWE-Lancer 数据集。该容器没有网络访问权限,也无法访问 GitHub,以避免模型抓取代码差异或拉取请求详情的可能。

研究者追踪了模型解决的任务百分比以及模型通过解决这些任务所获得的总报酬。由于这些任务来自真实场景,SWE-Lancer 的报酬能够独特地反映真实经济价值,而不是理论上的估算。

研究人员写道:他们的基准测试结果表明,现实世界中的自由职业工作对前沿语言模型来说仍然是一个挑战。测试显示,基础模型还无法完全取代人类工程师。尽管它们可以帮助解决漏洞,但还没有达到能够独立赚取自由职业收入的水平。

实验结果

实验使用了多个前沿语言模型,包括 Claude 3.5 Sonnet、GPT-4o 和 o1。

评估方法分为两类:

  • IC 任务通过端到端测试评估,这些测试由专业软件工程师编写,模拟真实世界的应用行为。
  • 管理任务通过与原始工程经理的选择对比来评估。

如图 5 所示,在完整的 SWE-Lancer 数据集上,没有一个模型能获得 100 万美元的全部任务价值。

图片

如图 6 所示,所有模型在 SWE Manager 任务上的表现均优于 IC SWE 任务。Claude 3.5 Sonnet 在 IC SWE 和 SWE Manager 任务上均表现最强,分别超出次佳模型(o1)9.7%(IC SWE 任务)和 3.4%(SWE Manager 任务)。

图片

图 8 展示了不同测试时计算量(test-time compute)水平下,按任务价格范围划分的 pass@1。结果表明,增加测试时计算量可以显著提升模型在更复杂、更高价值任务上的表现。

图片

如图 9 所示,研究者观察到性能更强的模型能更有效地利用用户工具,因此在移除用户工具后,它们的表现下降幅度更大。

图片

报告指出:模型在定位问题方面表现出色,但在追根溯源方面失败,导致解决方案不完整或存在缺陷。此外,模型能够非常迅速地定位问题的源头,通过在整个代码库中搜索关键词来快速找到相关的文件和函数 —— 这通常比人类工程师更快。然而,它们往往对问题涉及的多个组件或文件缺乏深入理解,无法解决根本原因,从而导致解决方案不正确或不够全面。

有趣的是,这些模型在需要推理以评估技术理解的管理任务上表现更好。

这些基准测试表明,AI 模型可以解决一些低级的编程问题,但还不能取代低级软件工程师。这些模型仍然需要时间,但研究人员表示这种情况可能不会持续太久。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值