我自己的原文哦~ https://blog.51cto.com/whaosoft/12897659
#D(R,O) Grasp
重塑跨智能体灵巧手抓取,NUS邵林团队提出全新交互式表征,斩获CoRL Workshop最佳机器人论文奖
本文的作者均来自新加坡国立大学 LinS Lab。本文的共同第一作者为上海交通大学实习生卫振宇和新加坡国立大学博士生徐志轩,主要研究方向为机器人学习和灵巧操纵,其余作者分别为实习生郭京翔,博士生侯懿文、高崇凯,以及硕士生蔡哲豪、罗嘉宇。本文的通讯作者为新加坡国立大学助理教授邵林。
想象一下,市面上有数十种形态各异的灵巧手,每一款都被设计得精巧而独特。然而,是否有可能存在一种通用的抓取策略,无需为每款灵巧手单独优化,却能够适应各种机器人手型和多样物体形状?这一看似遥不可及的梦想,正在逐步成为现实。
灵巧抓取是机器人操作领域的一项核心挑战,它要求机器人手能够与物体实现精确且稳定的交互接触。然而,如何有效建模这种高自由度且复杂的交互关系,并生成精准、多样且高效的抓取策略,一直是该领域亟待解决的难题。
近期,新加坡国立大学计算机学院的邵林团队提出了 D(R,O) Grasp:一种面向跨智能体灵巧抓取的机器人与物体交互统一表示。该方法通过创新性地建模机器人手与物体在抓取姿态下的交互关系,成功实现了对多种机器人手型与物体几何形状的高度泛化能力,为灵巧抓取技术的未来开辟了全新的方向。该论文在 CoRL 2024 MAPoDeL Workshop 中获得了 Best Robotics Paper Award。
- 论文标题:D(R,O) Grasp: A Unified Representation of Robot and Object Interaction for Cross-Embodiment Dexterous Grasping
- 项目主页:https://nus-lins-lab.github.io/drograspweb/
- 论文链接:https://arxiv.org/abs/2410.01702
- 代码链接:https://github.com/zhenyuwei2003/DRO-Grasp
一、引言
灵巧抓取是机器人完成复杂操作任务的关键,但由于灵巧手的高自由度及稳定抓取所需的复杂交互,任务挑战巨大。目前基于深度学习的方法主要分为机器人中心 (robot-centric) 和物体中心 (object-centric) 两类。
机器人中心方法(如手腕姿态或关节角度表示)直接将观测映射为控制命令,推理速度快,但样本效率低,且因映射依赖特定机器人结构,难以泛化到不同手型。
物体中心方法(如接触点和接触热力图表示)通过描述物体几何与接触信息,泛化能力强,适应不同物体和手型。然而,需额外优化步骤(如指尖逆运动学求解)将预测结果转化为运动学可行的抓取姿态,计算复杂且耗时。
为克服这些局限,我们提出交互中心 (interaction-centric) 的统一表示 D(R,O)。该方法捕捉机器手运动学与物体几何的交互关系,弥补机器人中心方法的泛化不足,同时提升物体中心方法的推理效率,实现跨机器人手型与物体形状的泛化,为灵巧抓取提供高效且鲁棒的解决方案。
图 1 灵巧手抓取方法比较
二、方法
图 2 D(R,O) Grasp 整体框架
给定物体点云和机器人手的 URDF 文件,模型的目标是生成灵巧且多样化的抓取姿态,能够在不同的物体和机器人手型之间实现广泛的泛化。D(R,O) Grasp 整体框架如图 2 所示,主要有以下三个部分组成:
1. 基于对比学习的配置不变预训练
2. D(R,O)表征预测
3. 基于 D(R,O) 表征的抓取姿态生成
2.1 基于对比学习的配置不变预训练
学习灵巧抓取需要理解机器手与物体的空间关系,目标是将机器手的特定配置与物体匹配。然而,由于不同配置下机器手整体姿态变化显著,模型难以捕捉局部几何特征的一致性。为此,我们提出一种配置不变的预训练方法,通过训练神经网络对齐不同配置下的几何特征,促进匹配并提升多姿态适应能力。
我们首先采样并存储机器手各 link 的点云数据。基于前向运动学模型,可为任意配置计算对应点云,确保不同配置下点云的一致性。在预训练中,规范配置(如张开手姿态)和抓取配置的点云分别输入机器人编码器网络提取逐点特征。我们通过点间欧氏距离加权正负点对关系,进行逐点对比学习,并计算如下损失函数:
该方法通过对齐不同配置下编码器的几何特征,简化机器手与物体匹配难度,提高模型的泛化能力。
2.2 D(R,O) 表征预测
我们预测的 D(R,O) 表征是一个机器手点云和物体点云之间相对距离矩阵(Distances of Robot and Object)。首先,我们使用两个相同结构的编码器分别提取机器手点云和物体点云的几何特征:
在此过程中,机器手的编码器使用预训练网络并在训练中保持冻结。为建立两组特征的对应关系,我们引入两个 Transformer 模型嵌入点间对应信息,并使用残差连接:
为实现跨智能体抓取的多样性,我们采用条件变分自编码器(CVAE)网络捕捉机器手、物体与抓取姿态的多种组合变化。具体而言,将机器手与物体在抓取姿态下的点云拼接后输入 CVAE 编码器,利用点云特征作为条件生成隐变量。随后,将隐变量与每个点特征拼接,得到机器手和物体的综合特征。
对于机器手某点与物体某点的综合特征,我们采用结合 MLP 网络和 softplus 函数的核函数计算相对距离,确保结果具有对称性和非负性:
通过对所有点对进行上述计算,我们最终得到完整的 D(R,O) 表征如下:
2.3 基于 D(R,O) 表征的抓取姿态生成
给定预测的 D(R,O) 表征,我们获得了机器人手点云与物体点云之间的相对距离关系。由于物体点云已知,我们可利用这些距离关系通过多点定位(Multilateration)技术计算出隐式描述的机器人手点云。本质上,这是一个最小二乘优化问题:
该问题已证明具有闭式解,可快速计算机器人手点云。在三维空间中,确定一个点的位置仅需四个相对距离,而 D(R,O) 表征提供了上百个距离。相比直接预测点云,这种表征对神经网络预测误差更加鲁棒。
得到机器人手点云后,为求解相应关节值,我们将逆运动学分为两步:首先,使用 SVD 分解从点云计算出每个 link 的 6D 姿态;然后,以这些 6D 姿态为优化目标,利用雅克比矩阵迭代更新初始关节值,最终得到期望抓取姿态的关节值。
这一优化过程约束简单,即便是 ShadowHand 等高自由度灵巧手,也可在不到 1 秒内完成优化,大幅提升抓取生成速度。
三、实验结果
图 3 与 baseline 的实验结果对比
在实验中,我们评估了抓取成功率、姿态多样性及生成效率三个指标。抓取结果在 10 个全新物体上进行了测试,使用 Barrett、Allegro 和 ShadowHand 三款灵巧手进行比较。图 3 表显示,我们的方法在所有灵巧手上都显著超越了现有方法的成功率,验证了方法的有效性。此外,生成速度亦大幅优于其他方法,这对灵巧操控任务至关重要。
图 4 生成抓取与 baseline 失败抓取可视化
与基准方法相比,我们的方法生成的抓取姿态更自然且鲁棒,而基准方法易产生不自然、穿透严重且稳定性差的抓取。
图 5 不同条件下实验结果对比
从图 5 表前两行可见,跨智能体训练较单一机器人训练在成功率上略有提升,证明了跨智能体的良好泛化能力。即便输入部分点云,我们的方法也能取得优异表现,展示了其广泛适用性。
图 6 多样化的抓取姿态生成
由于训练数据中输入和抓取旋转已对齐,模型能隐式映射这些旋转,从而根据输入方向生成适宜抓取姿态。如图 6 所示,六个不同方向下模型均生成可行抓取,体现方法的可控性。同时,通过从正态分布中采样隐变量,模型在相同方向上生成多个抓取姿态,展现多样性。
图 7 预训练点云匹配可视化
图 7 展示了预训练模型捕捉到的不同配置下几何特征的对齐关系,不同机器人手间的强匹配性突显了特征的迁移能力。正如图 3 表所示,去除预训练参数直接训练编码器会导致性能显著下降,进一步证明预训练的重要性。
图 8 真机实验效果
在真实机器人实验中,算法部署到 XArm 和 LeapHand 上,并在 10 个全新物体实验中达成 89% 成功率,展现了方法在灵巧抓取中的有效性和良好泛化能力。更多实验视频请见项目主页。
四、总结
在本论文中,我们提出了一种基于相对距离矩阵 D(R,O) 的新颖表征方法,用于捕捉机器人手与物体之间的交互信息,从而提升灵巧手的抓取性能。与现有方法过于依赖特定物体或机器手表示的局限性不同,我们的方法通过引入统一框架弥合了这种差距,并在不同机器人和物体几何形状之间实现了良好的泛化能力。此外,我们设计的预训练方法有效增强了模型适应不同手部配置的能力,从而支持广泛的机器人系统应用。实验结果表明,我们的方法在抓取成功率、姿态多样性以及计算效率方面均取得了显著提升,为灵巧抓取任务提供了新的解决方案。
#DeepMind研究表明还能提升推理能力
人会逆向思维,LLM也可以?
人能逆向思维,LLM 也可以吗?北卡罗来纳大学教堂山分校与谷歌最近的一项研究表明,LLM 确实可以,并且逆向思维还能帮助提升 LLM 的正向推理能力!
论文一作 Justin Chih-Yao Chen 的推文
简单来说,正向思维就是从问题开始,一步步地得出答案;而逆向思维则是先从一个预测答案开始,逆推到原始问题。
组合使用正向和逆向思维可让我们验证解答的正确性并找到可能的错误。
举个简单例子,如果小明有 2 个苹果,小红有 3 个苹果,那么他们一共有多少个苹果?
使用正向推理,我们可以得出 2 + 3 = 5。再使用逆向推理,我们可以从共有 5 个苹果的结论开始,然后根据小明有 2 个来逆向得知小红有 3 个。这些数值与原始问题相符,故此可以验证 5 这个答案的正确性。如果正向推理出错了,比如答案是 6 个,那么逆向推理时就会得到与原始问题不一样的数值:小红有 4 个苹果。这种矛盾可让我们重新检视自己的推理过程哪里有误。
大型语言模型(LLM)的数学能力也能通过正向 - 逆向推理得到提升,原因有二:
- 数学本身是高度结构化的,因此正向和逆向推理之间存在明确的逆反关系;
- 只需替换名称或数值等变量,就可以创建出新的数学问题。
那么问题来了:逆向思维能否应用于更广泛、结构性较差的领域?
此外,这些方法通常是测试时使用,目的是验证:给定一个解,让 LLM 逆向思考并查看正向推理是否正确。虽然它们比其它测试时方法(例如自我一致性)的表现稍微好一点,但还是存在未解的疑问:我们能否训练一个本身就能逆向思维的模型,从而提升其正向推理效果,而不是在测试时使用逆向推理进行验证?
近日,北卡罗来纳大学教堂山分校、谷歌 Cloud AI Research、谷歌 DeepMind 的一个联合团队为上面两个问题提供了解答。他们发布的论文表明,逆向思维可以显著 LLM 的推理能力,并且不限于数学任务。他们还提出了一个名叫 RevThink 的框架,可将逆向思维「灌输」给语言模型。
- 论文标题:Reverse Thinking Makes LLMs Stronger Reasoners
- 论文地址:https://arxiv.org/pdf/2411.19865
论文发布后,吸引来不少称赞之声。
方法
RevThink 主要包含两个阶段:数据增强和全新的学习目标。
数据增强
首先,对于推理数据集,该团队使用了一个更大、能力更强的教师模型来对其进行增强。
我们知道,一般来说,推理基准数据由一个问题和一个答案构成。那么该如何增强它呢?该团队的方法是通过对教师模式使用少样本提示来(few-shot prompting)生成三种新数据:正向推理、逆向问题、逆向推理。其中正向和逆向推理都会使用思维链。
只有当数据点的正向推理准确(与 ground truth 相符)且逆向推理与原始问题一致(通过提示教师模型进行验证)时,该数据点才会被保留下来。
学习目标
完成数据集增强之后,该团队还提出了三个用于训练更小的学生模型的关键目标。
具体来说,学生模型需要学会:
- 基于问题生成正确的正向推理;
- 基于原始问题生成逆向问题;
- 基于逆向问题生成逆向推理。
之所以要设置这三个目标,该团队说明了三点原因:
- 基于问题生成正确的正向推理是知识蒸馏的标准方法;
- 生成逆向问题会促使学生模型「思考」如何逆向一个问题并确定要问的正确问题;
- 最后,解决这个逆向问题可以增强学生模型逆向推理的能力。
在测试时,首先会使用问题来询问该学生模型,而它只会生成前向推理 —— 类似于标准的零样本推理。
本质上讲,这个流程是在训练过程中内化了逆向推理的能力,同时还能保证测试时间计算与零样本方法一样高效。
如图 1 传统的监督式微调侧重于从问题到答案的单向推理。相比之下,RevThink 基于新提出的数据增强方法和目标,通过学习两个方向的推理而引入了双向思维。这能为模型带来更大的提升。
实验和评估
该团队通过实验验证了 RevThink 的有效性。具体来说,他们使用的教师模型是 Gemini-1.5-Pro-001,学生模型是 Mistral-7B-Instruct-v0.3 和 Gemma-7B-Instruct。训练中,他们使用了 LoRA 微调,秩设为 32。所有比较方法都使用了 vllm 和贪婪解码。
他们也选择了多种任务进行评估,包括常识推理(StrategyQA、CommonsenseQA、ARCchallenge),数学推理(MATH、GSM8K),表格数据推理(TabMWP)、自然语言推理(ANLI),逻辑推理(Date Understanding)。
参与比较的方法大致可分为三类:零样本方法、知识蒸馏(包含符号知识蒸馏和逐步蒸馏)和数据增强(包含问题重新表述、问题增强、答案增强)。更多实验设置请参阅原论文。
主要结果
表 1 给出了主要结果。
首先,RevThink 的平均性能表现很好,在不同数据集和模型上都优于基线。与学生模型的零样本性能相比,RevThink 使用 Mistral 时实现了 12.68% 的平均提升,使用 Gemma 时实现了 14.37% 的平均提升。
此外,相比于符号知识蒸馏(SKD)和逐步蒸馏(Distill Step-by-Step)—— 依赖于使用来自教师模型的正确推理链来执行监督式微调,RevThink 有 6.44% 至 7.15% 的显著提升。
与基于数据增强的基线方法相比,RevThink 带来的增益也更为显著,特别是在常识推理、表格推理和日期理解方面。虽然其中一些增强方法(例如答案增强 (AnsAug))对于数学推理很有效,但它们为其它领域带来的改进较少。这表明数学是一个更结构化的领域,会随着数据的增加而更好地扩展。
相比之下,RevThink 在各种推理任务上都能带来稳定的提升。并且表 3 表明,在留存数据集上进行评估时,RevThink 在领域外数学数据集上也能带来更大的增益,表现出了更好的泛化能力。
下面还列出了 RevThink 的更多优势,相关详情请访问原论文:
- RevThink 表现出了很好的样本效率。
- 逆向问题生成可提高性能,但充分利用新的数据集可获得最佳性能。
- RevThink 的目标比使用指令调整的单独实例更有效。
- 只需稍多一点 token,RevThink 就能获得更大提升。
- RevThink 与模型大小呈正相关。
- RevThink 可泛化至 OOD 数据集。
- RevThink 可作为现有方法的补充。
- RevThink 在可逆问题和中等难度问题上表现出了更大的提升。
#Primes of the form p² + nq²
两位数学家发现素数计数新方法,原来「p²+nq²」形式的素数真有无限多个
一项新的证明,让数学家们离理解「算术原子」素数的隐藏顺序更近了一步。
素数,即「只能被它们自己和 1 整除的数」,可以说是数学中最基本的组成部分。
素数的神秘之处在于:乍一看,它们似乎随意散布在数轴上,但实际上并不是随机的,而是完全确定的。仔细观察它们,就会发现各种奇怪的模式。
数学家们花了几个世纪的时间试图解开这些模式。如果能更好地理解素数是如何分布的,就能照亮数学宇宙的广阔天地。
虽然数学家们可以凭借一些公式大致了解素数的位置,却还是无法准确地找到它们,因此不得不采取更间接的方法。
公元前 300 年左右,欧几里得证明了素数的数量是无限的。此后,数学家们以欧几里得的定理为基础,为符合其他标准的素数证明了同样的说法。
举个简单的例子:是否有无数个不包含数字 7 的素数?
随着时间的推移,数学家们把这些标准变得越来越严格。通过证明仍然有无限多的素数满足这种越来越严格的限制,他们逐渐深入地了解素数的存在环境。但问题是,这类定理很难证明。
近日,来自牛津大学的 Ben Green 和哥伦比亚大学的 Mehtaab Sawhney 证明了一个特别具有挑战性的素数类型的定理 —— 是否存在无穷多个形式为 p² + 4q² 的素数,其中 p 和 q 也必须是素数?
Ben Green(左)和 Mehtaab Sawhney(右)。
这两位数学家的证明在今年 10 月份以预印本的形式发布,不仅加深了数学家对素数的理解,还利用了数学中不同领域的一套工具,表明这些工具远比数学家们想象的要强大得多,并有可能成熟地应用于其他领域。
- 论文标题:Primes of the form p² + nq²
- 论文链接:https://arxiv.org/pdf/2410.04189
长期以来的尝试
数学家总是倾向于研究那些复杂到足以引起兴趣,但又简单到足以取得进展的素数族。例如,他们可能试图证明有无限多个相距 500 个单位的素数。或者,我们可以通过把其他数的平方相加,来建立无限多的素数。
最后一个约束特别有用,它引导了几个世纪的数学进步。1640 年,费马(Pierre de Fermat)猜想有无限多的素数可以通过两个整数的平方和相加来表示。例如,素数 13 可以写成 2² + 3²。欧拉(Leonhard Euler)后来证明了这一猜想。
但是,只要对问题稍作调整:比如坚持要求其中一个平方数是奇数,或者是完全平方数,问题就会变得更难。
Ben Green 表示:「对一个集合的约束越多,找到其中的素数就越难。」
在 19 世纪,对这类定理的研究促进了现代数论的发展。在 20 世纪,它激发了迄今为止最雄心勃勃的数学工程之一:朗兰兹计划。而在 21 世纪,对这类素数的研究不断产生新的技术和见解。
2018 年,罗格斯大学的 Friedlander 和 Henryk Iwaniec 提出了一个问题:是否存在无穷多个形式为 p² + 4q² 的素数,其中 p 和 q 也必须是素数?(例如 41 = 5² + 4 × 2².)
结果发现,处理这一约束条件特别具有挑战性。但如果数学家们能解决这个问题,他们就能成功地对素数进行新一层次的控制,而这正是他们一直希望做到的。
一次有价值的访问
Green 和 Sawhney 以前都没有玩过这种素数游戏,但他们都有研究素数产生的奇特规律的经验。
今年 7 月,两位数学家在爱丁堡的一次会议上相遇了。刚从研究生院毕业的 Sawhney 一直很崇拜 Green。
Green 20 年前证明的一个开创性结果是将他带入这个学科的原因之一。Sawhney 表示:「我当时就想天啊,你怎么能做到这一点?」
同时,格林也对这位年轻的数学家印象深刻:「Mehtaab 是一位杰出的数学家,他无所不知。」
两人决定合作。他们只需要找到合适的问题。经过一番讨论,他们最终确定了 Friedlander 和 Iwaniec 的猜想。
Green 邀请 Sawhney 到牛津大学访问一周。他们知道,要证明类似的猜想,数学家们通常要依靠一套特定的计数技术。但由于他们问题中的素数定义过于严格,二人无法找出让这套传统工具发挥作用的方法。
相反,他们希望用一种更迂回的方式来证明这一猜想 —— 走一步数学棋。但首先,他们必须证明他们是可以走这步棋的。
在 Sawhney 访问结束时,他和 Green 已经知道了如何做到这一点,从而证明了这个猜想。为此,他们与数学的另一个领域建立了惊人的联系。
尝试另一个集合
在 Green 和 Sawhney 看来,根本不可能通过计算两个素数的平方并将其相加来直接计算素数的数量。但是,如果他们稍微放松一下限制,结果会怎样?他们意识到他们可以解决一个稍微弱一些的版本 —— 其中被平方的数只需「大致粗略」是素数。
相比于素数,粗略素数(rough prime)更容易找到。假设你要统计 1 到 200 之间有多少个粗略素数。
首先,先看看最小的素数有哪些 ——2、3、5、7。然后列出所有无法被这些素数整除的数。这些数就是粗略素数。在这种情况下,你最终会得到 50 个粗略素数:其中 46 个真是素数,而另外四个不是素数(121、143、169 和 187)。由于粗略素数的分布的随机性远低于素数的分布,因此它们更容易处理。Sawhney 说:「粗略素数是我们远远更加了解的集合。」
Tamar Ziegler 在素数方面的开创性工作使研究人员能够将一种名为 Gowers 范数的数学技术移植到一个新领域。
Green 和 Sawhney 已经证明,通过对两个粗略素数求平方并将它们相加可以得到无穷多个素数。现在他们只需证明这个陈述暗示了他们实际想要解决的问题:存在无穷多个素数可以写成真实素数的平方和。
但这无法显而易见地推导出来。他们必须为该问题的每个版本都分析一个特殊的函数集 —— 称为 I 型与 II 型和(Type I and Type II sums),然后证明:不管使用何种约束条件,这些和都是等价的。只有这样,Green 和 Sawhney 才能知道他们可以将粗略素数代入他们的证明中,同时不丢失任何信息。
他们很快意识到:他们可以使用一个工具来证明这些和是等价的,并且他们各自之前都在自己的研究工作中使用过这个工具。这个工具被称为 Gowers 范数,是数学家 Timothy Gowers 几十年前开发的,原本是用于度量一个函数或数集的随机或结构化程度。从表面上看,Gowers 范数似乎属于完全不同的数学领域。Sawhney 说:「不了解它的人几乎无法看出这些东西存在关联。」
但使用数学家陶哲轩和 Tamar Ziegler 在 2018 年证明的里程碑结果,Green 和 Sawhney 发现了一种方法来建立 Gowers 范数与 I 型与 II 型和之间的联系。本质上,他们需要使用 Gowers 范数来证明他们的两组素数足够相似,即使用粗略素数构建的集合和使用实素数构建的集合。
事实证明,Sawhney 知道该怎么做。今年早些时候,为了解决一个与之无关的问题,他开发了一种使用 Gowers 范数比较集合的技术。他没想到的是,该技术足以证明这两个集合具有相同的 I 型和 II 型和。
技术在手,Green 和 Sawhney 证明了 Friedlander 和 Iwaniec 的猜想:可以写成 p² + 4q² 形式的素数有无穷多个。最后,他们还成功扩展了他们的结果,证明了:其它素数族的素数也有无穷多个。对于这类进展通常很罕见的问题而言,这着实是一个重大突破。
更重要的是,这项工作表明 Gowers 范数可以作为一个新领域的强大工具。Friedlander 说:「因为它是如此新颖,至少在数论的这个部分,它有可能做到很多其他的事情。」数学家们现在希望进一步扩大 Gowers 范数的范围 —— 尝试用它来解决数论中素数计数问题之外的其他问题。
「看到我以前想到的东西有了意想不到的新应用,我感到很有趣。」Ziegler 说,「这就像为人父母,当你放开孩子,他们长大后会做出神秘而意想不到的事情。」
原文链接:https://www.quantamagazine.org/mathematicians-uncover-a-new-way-to-count-prime-numbers-20241211/
#o3是AGI
是时候停止炒作「o3是AGI」了!背后15人安全对齐团队大盘点
我们或许可以称o3是「更高级的推理AI」,而远不是AGI。
昨天凌晨,OpenAI 连续 12 天发布会终于落下了帷幕,并甩出了最强大的推理模型 o3 系列!
当然,用户现在想要体验 o3 或者 o3-mini,需要申请并等待数周。从目前 OpenAI 官方给出的一些纸面数据来看,o3 的能力远超以往任何推理模型,并在 ARC-AGI 基准上达到了优良水平,成为首个突破该基准的 AI 模型。其中,o3 系列模型最低可达到 75.7%,最高可达到 87.5%。
o3 系列模型如此强大的能力,激起了大家对 AGI 的热烈谈论,很多人都兴奋地宣布:这就是 AGI、AGI 已经实现、AGI 比你想象的更加接近。
图源:X@MatthewBerman
图源:X@treky_x
图源:X@WesRothMoney
图源:X@FinanceLancelot
面对关于 o3 愈演愈烈、愈加失控的炒作,知名博主、AI 研究者「elvis」认为,o3 系列不是 AGI、不是奇点,人们甚至无法访问这些模型。连 OpenAI 都明确表示还有很多需要改进的地方。虽然进展的确令人兴奋,但网络上误导信息太多,基准测试结果也并没有多大意义。
图源:X@omarsar0
有人表示,每次发布新的 OpenAI 模型(这次是 o3),都会有人宣称「AGI 来了」、「不再需要程序员了」等言论。虽然 o3 看起来令人印象深刻,但它远没有在现实世界中得到检验。AGI 仍然遥遥无期。
图源:X@drjohnflackett
还有人说到,为什么我们要在一个还无法体验的演示版 AI 模型上宣布「AGI」呢?虽然 o3 系列模型看起来很棒,但并不是一个正式发布版本,也无法验证。
图源:X@mcguinnessfortx
持有这种观点的人不在少数,有人觉得,o3 系列在编码和数学领域的确很强,但 AGI 是要胜任人类能做的所有事情。我们要的是全能型人才,而非专业人才。另外,一次基准测试表现很好不能说明全部的情况,并不意味着能够迎接其他不可预测的挑战。最后,真正的 AGI 应该是适应性很强的,即使资源紧张也能运行。但 o3 的运行成本高得离谱,这显然不是 AGI 的意义所在。
图源:X@marthinusstryd1
显然 o3 离跟 AGI 画上等号还有很长的路要走,但无疑是一次巨大的进步。尤其是推理速度提升、成本降低且兼顾性能的 o3-mini,它更加经济高效,并使用全新的安全评估方法审议式对齐(deliberative alignment)。
这是一种直接教模型安全规范的新范式,训练模型在回答之前明确回忆规范并准确执行推理。OpenAI 使用这种方法来对齐包括 o3-mini 在内的 o 系列模型 ,实现对 OpenAI 安全政策的高度精确遵守,并且这个过程无需人工编写的思路或答案。
下图 1 为包括 o3-mini 在内的 o 系列模型与 GPT-4o 在关键政策领域的比较结果,比如不允许的内容、遵守响应风格指南、越狱和过度拒绝等。
接下来,对该范式相关论文的作者进行了完整的盘点。
论文地址:https://assets.ctfassets.net/kftzwdyauwt9/4pNYAZteAQXWtloDdANQ7L/978a6fd0a2ee268b2cb59637bd074cca/OpenAI_Deliberative-Alignment-Reasoning-Enables-Safer_Language-Models_122024.pdf
o3-mini 对齐范式作者盘点
Melody Y. Guan
Melody Y. Guan 本硕均就读于哈佛大学,目前是斯坦福大学计算机科学系的博士研究生。
在加入斯坦福大学之前,Melody Y. Guan 曾在谷歌担任研究员。她与 OpenAI 的关系主要体现在她的研究工作上,她与 OpenAI 的研究人员合作发表了多篇论文。
Melody Y. Guan 的研究兴趣主要集中在强化学习和神经架构搜索等领域。她与 Google Brain 团队合作,提出了著名的神经架构搜索方法 ENAS(Efficient Neural Architecture Search via Parameter Sharing)。此外,她还发表了多篇关于机器学习和人工智能的学术论文。
Manas Joglekar
Manas Joglekar 本科毕业于印度理工学院孟买分校,后于斯坦福大学读博士。
博士期间,他曾先后在微软、谷歌和 Facebook 进行实习,2016 年正式进入谷歌担任高级软件工程师,2019 年他担任 Snorkel AI 创始工程师,负责领导机器学习基础工作,2023 年 10 月加入 OpenAI。
Manas Joglekar 发表过多篇论文,主要研究方向包括计算机科学和机器学习。
Eric Wallace
Eric Wallace 是 OpenAI 的研究员,致力于使下一代大型语言模型(LLMs)更加安全、可靠和注重隐私。
他本科毕业于马里兰大学帕克分校计算机科学系,目前还在加州大学伯克利分校攻读博士学位,研究方向是增强机器学习的安全性、隐私性和鲁棒性。
在加入 OpenAI 之前,Eric Wallace 曾在 DeepMind 和 Meta 实习。
他在 OpenAI 的工作主要集中在提升大模型的安全性和隐私性,曾参与了 GPT-4o mini、o1、o1-mini 等安全和能力方面的研究。
Saachi Jain
Saachi Jain 是 OpenAI 的研究人员,她本硕毕业于斯坦福大学,目前在麻省理工学院(MIT)攻读博士学位。
她的研究主要集中在构建更鲁棒和可靠的机器学习模型,特别是理解模型如何进行泛化。
在加入 OpenAI 之前,Saachi Jain 曾在特斯拉担任计算机视觉科学家,参与自动驾驶技术的视觉模型设计和训练。她还在 Facebook 和 Google 等公司进行过实习。
在 OpenAI,她曾是 o1 项目的安全技术负责人之一,该项目旨在提高模型的推理能力和安全性。
Boaz Barak
Boaz Barak 是哈佛大学计算机科学教授。他是一位理论计算机科学家,研究领域包括计算复杂性、算法、密码学、量子计算以及机器学习的基础。Boaz Barak 曾参与了 OpenAI o1 项目的安全研究工作。
Alec Heylar
他本科毕业于弗吉尼亚理工学院暨州立大学,曾在微软度过 5 年职业生涯,2024 年 5 月进入 OpenAI 担任研究员。
Alec Heyla 的专业技能涵盖了人工智能、大语言模型等多个领域。
Rachel Dias
Rachel Dias 本科毕业于美国芝加哥大学的政治学专业,曾在 Meta 担任产品策略与运营,后来加入 TikTok 担任政策实施经理。
2024 年 1 月进入 OpenAI, 是 OpenAI o1 模型的「准备评估」团队成员之一。
Andrea Vallone
她在加州大学圣巴巴拉分校获得了英语(B.A. English)和心理学(B.A. Psychology)的双学士学位。
后来加入 Facebook 担任产品和政策传播经理、产品政策经理。2022 年 8 月加入 OpenAI 从事模型安全工作。
Hongyu Ren
Hongyu Ren 在去年 7 月加入,现在是 OpenAI 的一名研究科学家,他还是 GPT-4o 、GPT-4o mini 的核心贡献者,并致力于 GPT-Next 的研究。Hongyu Ren 本科毕业于北京大学、博士毕业于斯坦福大学。此前,他在苹果、谷歌、英伟达、微软等工作过。
Jason Wei
AI 圈的人大概都很熟悉 Jason Wei,他本科毕业就加入谷歌(2020 到 2023 年在 Google Brain 担任研究科学家),以一作身份写出了「思维链」(CoT)的开山之作。2023 年 2 月加入 OpenAI,担任 AI 研究人员。2024 年,他参与了 OpenAI o1 模型的研发。他的工作推广了 CoT 提示、指令调整和智能涌现等领域。
扩展阅读:
- 本科毕业加入谷歌,还写了「思维链」开山之作,这位 OpenAI 新秀正为本科生答疑解惑
- CoT 提出者 Jason Wei:大模型评估基准的「七宗罪」
Hyung Won Chung
Hyung Won Chung 现在是 OpenAI 的一名研究科学家。研究重点是大型语言模型。在那之前,他在谷歌大脑工作,并在 MIT 攻读博士学位。他也是 OpenAI o1 的核心贡献者之一。
他曾参与过一些重要项目的研究工作,比如 5400 亿参数的大型语言模型 PaLM 和 1760 亿参数的开放式多语言语言模型 BLOOM。也曾介绍过他为一作的论文《Scaling Instruction-Finetuned Language Models》。
扩展阅读:
OpenAI科学家最新大语言模型演讲火了,洞见LLM成功的关键
Sam Toyer
Sam Toyer 本科毕业于澳大利亚国立大学,博士生就读于加州大学伯克利分校。研究领域包括计算机视觉、规划、模仿学习和奖励学习。近期,我的研究重点是如何使大规模语言模型更加安全和鲁棒,这些特性对于在高风险场景中的应用至关重要。以下是他的工作经历:
Johannes Heidecke
Johannes Heidecke 是巴塞罗那的一名人工智能硕士研究生,目前专注于探索强化学习和生成模型。
他对机器学习和人工智能的研究充满热情,并参与了许多 OpenAI 的相关工作。
他相信人工智能对人类未来具有巨大的潜力,但要让先进的人工智能系统与我们的价值观和目标保持一致,还需要大量有针对性的工作和研究。
为此,他正在探索将机器学习应用于价值学习问题的方法:通过观察人类行为,推断他们的动机是什么。
Alex Beutel
Alex Beutel 在卡内基梅隆大学获得计算机科学博士学位,此前在杜克大学主修计算机科学和物理学。
他目前是 OpenAI 安全研究团队的技术负责人。他曾在 Google Research 担任高级员工研究科学家、技术负责人和经理,联合领导了一个负责机器学习责任研究的团队(Responsible ML team),并推动了涵盖推荐系统、公平性、鲁棒性、强化学习以及数据库机器学习的研究工作。
Amelia Glaese
Amelia Glaese 本科就读于慕尼黑工业大学,攻读航天工程。在慕尼黑工业大学与佐治亚理工学院分别攻读了机械工程以及计算机科学与工程硕士。曾任谷歌软件工程师,后来加入 DeepMind 团队,工作了四年多。在此期间,她参与了 Gemini 相关论文的发布。今年 3 月,Amelia Glaese 正式加入 OpenAI。
#o1 pro
自缘身在最高层?OpenAI o1 pro竞赛级评测结果新鲜出炉
近期,OpenAI 号称最强推理模型的推出,引发了社区的热议,无论是性能还是价格,都产生了不少话题。最近,我们对 o1 新发布的 o1 满血版、o1 pro mode 模型进行了高难度数学测试,旨在深入探究其在数学推理方面的能力表现。同时以上海人工智能实验室的 InternThinker-Alpha、DeepSeek 的 DeepSeek-R1-Lite、月之暗面 k0-math 、阿里巴巴 QwQ-32B-Preview 等模型作为对比,「o1 pro」是否真的「自缘身在最高层?」
AGI-Eval 最新的高难度数学评测集 Math Pro Bench,试题来源包括全国高中数学联合竞赛、美国数学邀请赛、全国硕士研究生招生考试等。从题型分布上看,各模型考研数学题正确率高于高中数学竞赛题 10%,提示考研数学题目难度相对简单。这一现象表明考研数学题目相对高中数学竞赛题而言,在知识运用的综合性与逻辑性方面可能更符合模型的训练模式与擅长领域。例如,在高中数学竞赛题中,可能涉及更多独特的解题技巧、创新性的思维方式以及对数学概念的深度挖掘,而模型在处理这些复杂且灵活的问题时可能面临更大的挑战。
话不多说,直接上评测结果 ——
整体来看,o1 pro mode 在总计正确率上以 0.774(65/84)占据榜首,o1 以 0.750(63/84)紧随其后。这表明 o1 系模型在整体数学推理能力上具有较高的水平,能够较为有效地应对高难度数学问题。DeepSeek-R1-Lite 的总计正确率为 0.667(56/84),o1 - preview 的总计正确率为 0.643(54/84),其他模型的总计正确率相对较低,反映出它们在数学推理的全面性和准确性方面仍有提升空间。
其中在高中数学竞赛题方面,o1 pro mode 和 o1 均以 0.722(39/54)的正确率位居前列,展现出了较强的数学思维能力与解题技巧应用能力。DeepSeek - R1 - Lite 的正确率为 0.611(33/54),o1 - preview 的正确率为 0.574(31/54),其他模型如 QwQ - 32B - Preview、K0 - math、InternThinker - Alpha 的正确率则相对较低,分别为 0.519(28/54)、0.426(23/54)、0.315(17/54)。
在考研数学题上,o1 pro mode 以 0.867(26/30)的正确率脱颖而出,o1 的正确率为 0.800(24/30),QwQ-32B- Preview 和 o1- preview 的正确率均为 0.833(25/30)。DeepSeek - R1 - Lite 的考研数学题正确率为 0.767(23/30),而 K0 - math 和 InternThinker - Alpha 的正确率仅为 0.533(16/30)。
榜单链接:https://agi-eval.cn/evaluation/Math%20Pro%20Bench
除了推出评测榜单以外,AGI-Eval 也从模型的推理过程中,发现了一些有意思的现象和结论。
o1 pro 系列推理更快,思考更灵活
1. o1、o1 pro 总推理时间更短。在推理时间方面,o1 系模型展现出了显著的优势。o1 的总平均推理时间仅为 33.84s,o1 pro mode 更是缩短至 33.26s,而其他模型如 DeepSeek - R1 - Lite 等平均推理时间在 2min 以上。这一巨大的时间差距表明 o1 系模型在数学推理效率上远超其他同类模型,能够在更短的时间内完成复杂数学问题的推理与解答,这对于实际应用场景中对实时性要求较高的任务具有比较重要的意义。
prompt
Alice 和 Bob 玩以下游戏。面前有 n 个令牌堆放着。玩家轮流行动,Alice 先行动。在每一回合中,玩家从令牌堆中移除 1 个或 4 个令牌。移除最后一个令牌的玩家获胜。求小于或等于 2024 的正整数 n 的个数,使得 Bob 无论 Alice 如何行动都能保证他获胜。
o1 pro mode(用时 18 秒):
o1 (用时 26 秒):
2. o1、o1 pro 会根据题目难度调整推理时间。o1/o1 pro 的竞赛题平均推理时间为 34-40s,而考研题平均推理时间为 18-20s,约是前者的约一半。
3. o1 pro 模型能答对其他模型暂无法答对的题。在测试过程中,存在一些题目,如 :
“设 p 是最小的满足存在正整数 n 使得 n^4 + 1 可以被 2 整除的素数。求最小的正整数 m,使得 m^4 + 1 可以被 p^2 整除。”
这一题目仅有 o1 pro mode 答对,o1、Deepseek-R1-Lite 等其他模型均答错。这表明 o1 pro mode 在处理某些具有特殊数学结构和逻辑要求的题目时,具备独特的推理能力和解题思路,能够深入挖掘题目背后的数学原理与规律,从而找到正确的答案。而其他模型在面对这类复杂且具有挑战性的题目时,可能由于推理机制的局限性或知识储备的不足,无法准确地把握解题的关键要点,导致最终回答错误。
方法论与创新性
o1-pro 在处理数学问题时表现出更强的创新性和灵活性,能够结合多种数学理论和方法来解决问题,优于其他通用 AI 模型。o1 同样具有归纳与创新的能力,但与前者相比不够简洁直接,其他模型在这方面的能力则稍显不足。
prompt:
一只青蛙在正方形 A B C D 的四个顶点间跳跃,每次跳跃总是等可能地跳至与当前所在顶点相邻的两个顶点之一,且各次跳跃是独立的。若青蛙第一次跳跃前位于顶点 A ,则它第 6 次跳跃后恰好仍位于顶点 A 的概率为
o1 pro mode(用时 12 秒):
直接利用了正方形的对称性和跳跃的性质,避免了复杂的矩阵运算和特征值分析,更直观容易理解,适合初学者。
o1(用时 17 秒):
它的回答虽然正确,但涉及了状态转移矩阵和特征值分析,计算过程相对复杂,且需要一定的线性代数和概率论知识,对初学者来说可能不太友好。
Deepseek-R1-Lite(用时 1min):
和 o1 同样涉及了状态转移矩阵和特征值分析,但求解过程冗长复杂得多,阅读理解起来相对困难。
长链路推理与细节处理
在涉及大量计算的长链路推理中,一个小小的计算失误会模型思维链失败,使模型陷入死循环状态。o1 pro mode 和 o1 实现了对细节的精确控制,在进行长链路推理时能够尽量保持高度的准确性和稳定性。
prompt
实对称矩阵 A=\left (\begin {array}{ccc} 4 & -2 & 0 \\ -2 & 3 & -2 \\ 0 & -2 & 2\end {array}\right) 可通过正交相似变换化为对角阵__
o1 pro(用时 12 秒):
特征值与特征向量的求解涉及大量复杂的计算,每一步计算都是正确的,最后导向正确的结果
o1(用时 19 秒):
虽然得到了正确的答案,但过程不完全正确,例如第二步特征向量求解错误
Deepseek-R1-Lite:
在第一步计算特征值的过程中,就出现了计算错误,得到的特征多项式不正确,导致了后续求解特征方程的过程基于错误的多项式,从而无法找到正确的特征值。
此外,能看出推理模型也有明显的能力缺陷部分。如 Deepseek-R1-Lite 推理部分会存在中英夹杂或渲染不全的情况
人机协作评测新模式探索及高质量评测社区建设
鉴于传统评测方式难以充分反映模型的真实水平,AGI-Eval 创新性地提出了人机协作评测模式。在这种模式下,参与者可以与最新的大模型共同完成任务,既有助于提高任务完成度又便于建立更加直观的区分度。基于前期的一些用户实验表明,通过这种方式不仅可以获得更为简洁、完善的推理过程描述,还可以进一步提升用户与大模型之间的互动体验。未来,随着更多类似平台的出现和发展,相信人机协作将成为评测领域的一个重要发展方向。
,时长00:30
人机社区链接:https://agi-eval.cn/llmArena/home
AGI-Eval 平台基于真实数据回流、能力项拆解等方式,自建万量级私有数据,并经过多次质检保证准确率。黑盒 100% 私有化数据,可保证评测数据不可 “穿越”。从数据建设到模型评测,实现全层级能力项目,一级能力涵盖指令遵循、交互能力、认知能力(含推理、知识、其他认知能力等);完美实现自动与人工评测相结合。
对于 Chat 模型,平台官方榜单结合主观、客观评测结果,中英文权重分布均衡。客观评测基于模型打分,可处理具有一定自由度问题,准确率 95%+;主观评测基于三人独立标注,并记录细分维度标签结果,全面诊断模型问题。
总结 1:推理模型优势探讨
(一)高效的推理算法
o1 系模型之所以能够在高难度数学测试中取得优异成绩,其高效的推理算法功不可没。通过对推理过程的优化与加速,模型能够在短时间内对复杂的数学问题进行深入分析与推理,快速找到解题的思路与方法。这种高效的推理算法可能基于先进的神经网络架构、智能的搜索策略以及对数学知识的有效组织与运用,使得模型在面对各种数学问题时能够迅速做出反应并给出准确的答案。
(二)精准的题目理解与分析能力
在面对高难度数学题目时,准确理解题目要求与意图是解题的关键第一步。o1 系模型展现出了强大的题目理解与分析能力,能够精准地把握题目中的数学关系、条件限制以及求解目标。通过对自然语言描述的数学问题进行有效的语义解析和逻辑转换,模型将其转化为内部可处理的数学模型与推理任务,从而为后续的解题过程奠定坚实的基础。这种精准的题目理解与分析能力使得模型在处理各种复杂数学表述和逻辑结构时能够游刃有余,避免因误解题目而导致的错误推理。
(三)灵活的推理策略调整
如前文所述,o1 和 o1 pro mode 能够根据题目难度灵活调整推理时间和推理策略。在面对简单题目时,模型采用快速高效的推理方式,迅速得出答案;而在处理复杂难题时,模型则能够自动切换到深度推理模式,增加推理步骤和时间投入,对问题进行全面细致的分析与求解。这种灵活的推理策略调整能力使得模型在不同难度层次的数学问题上均能保持较高的解题效率和准确性,体现了其在推理过程中的智能化与自适应特性。
总结 2:推理模型局限性分析
(一)知识覆盖的局限性
虽然 o1 系模型在本次测试的高中数学竞赛题和考研数学题上取得了较好的成绩,但数学领域知识浩瀚无垠,仍可能存在一些特定的数学分支、理论或特殊题型,模型的知识储备不足或尚未深入学习掌握。例如,在某些高等数学的前沿研究领域、小众的数学应用场景或具有特殊历史文化背景的数学问题上,模型可能会因为缺乏相关知识而无法给出准确的答案或有效的推理。这表明模型在知识覆盖的广度和深度上仍有进一步拓展和完善的空间,需要不断地学习和吸收更多的数学知识,以应对日益复杂多样的实际应用需求。
(二)复杂逻辑推理的挑战
在一些极其复杂的逻辑推理场景中,o1 系模型可能会遇到困难。尽管模型在常规的数学推理任务中表现出了较高的水平,但当面对涉及多层嵌套逻辑、模糊逻辑或高度抽象逻辑的问题时,模型的推理能力可能会受到限制。例如,在一些数学证明题中,需要运用复杂的逻辑推导和反证法等推理技巧,模型可能无法像人类数学家那样进行深入细致的逻辑思考和创造性的推理过程,导致无法成功完成证明或给出完整准确的推理步骤。这反映出模型在处理复杂逻辑关系时的局限性,需要进一步优化其推理机制和逻辑处理能力,以提升在复杂逻辑推理任务中的表现。
(三)可解释性问题
随着人工智能模型在各个领域的广泛应用,其可解释性成为了一个重要的关注点。o1 系模型作为一种基于深度学习的大模型,其推理过程往往具有高度的复杂性和黑箱特性,难以直观地理解和解释模型是如何得出某个答案或推理结果的。这对于一些对可解释性要求较高的应用场景,如数学教育、科学研究中的关键决策等,可能会带来一定的困扰。缺乏可解释性使得用户难以信任模型的输出结果,也不利于模型的进一步优化和改进。因此,如何提高 o1 系模型的可解释性,使其推理过程更加透明、可理解,是未来模型发展需要解决的一个重要问题。
未来展望
通过本次对 o1 系模型的高难度数学测试,我们全面深入地了解了其在数学推理能力方面的表现。o1 系模型在正确率、推理时间以及特殊题目处理等方面展现出了显著的优势,其高效的推理算法、精准的题目理解与分析能力以及灵活的推理策略调整能力使其在众多模型中脱颖而出。然而,模型也存在知识覆盖局限性、复杂逻辑推理挑战以及可解释性问题等不足之处。
展望未来,随着技术的不断发展和研究的深入,我们期待 o1 系模型能够在以下几个方面取得进一步的突破和改进。首先,通过不断学习和更新知识,扩大其知识覆盖范围,提高对各种数学领域和特殊题型的处理能力。其次,优化推理机制,提升复杂逻辑推理能力,使其能够更好地应对具有高度复杂性和抽象性的数学问题。最后,加强对模型可解释性的研究,探索有效的方法和技术,使模型的推理过程更加透明、可理解,增强用户对模型的信任和应用的可靠性。
#ODDN
开放世界的深伪检测,北交大团队:解决好无配对数据挑战很重要
现有的深伪检测方法大多依赖于配对数据,即一张压缩图像和其对应的原始图像来训练模型,这在许多实际的开放环境中并不适用。尤其是在社交媒体等开放网络环境(OSN)中,图像通常经过多种压缩处理,导致图像质量受到影响,深伪识别也因此变得异常困难。
现有方法虽然在特定条件下取得了一些进展,但在面对开放世界中大量无配对数据的挑战时,往往难以提供理想的检测效果。
近日,AAAI 2025 接收结果公布,收录了一篇北京交通大学赵耀、陶仁帅团队联合苏黎世联邦理工学院的研究工作,论文题目为《ODDN:Addressing Unpaired Data Challenges in Open-World Deepfake Detection on Online Social Networks》。
该工作提出了一个创新的深伪检测任务——非配对数据下的开放世界深伪检测。该任务针对真实社交媒体检测场景下配对数据在实际获取中数量较少的窘境。
论文地址:https://arxiv.org/pdf/2410.18687
此外,该工作还提出了针对新任务下的新方法,即使用多任务学习、梯度取反、梯度矫正等方式,提出 Backbone 提取特征中与压缩相关的信息,令模型关注生成模型产生的伪造特征,为处理真实社交媒体下的压缩 Deepfake 图像提供了新的思考。
图 1:任务总览图
方法概览
新提出的方法 ODDN 包含两个核心组件:开放世界数据聚合(ODA)和压缩丢失梯度校正(CGC),有效降低了配对数据稀缺和压缩影响带来的性能损失。
图 2:ODDN 模型结构图
研究者设计了两个下游任务:一个是基础的二分类任务,该分支优化 backbone 提取伪造相关的特征;另一个是判别图片是否被压缩的二分类任务,该分支通过梯度取反操作,使得该分支梯度在 backbone 的优化方向与设定分类目标相反,backbone 提取与压缩不相关的特征。
同时,将 Unpaired Data 以压缩有无、真假将数据分为四类,然后计算四个簇的聚类中心。
之后再计算分别计算压缩与未压缩的真假簇聚类中心距离,对应公式如下。
对于 Paired Data 因为其稀少性,继续采用之前工作使用的高效方法,即使用 HSIC 度量 Paired Data 数据分布的相似性。
虽然两个下游任务设定的优化是合理的,但是实际训练过程中,两个任务中产生的 Loss 在回传时,可能会出现优化方向的冲突。如何确定最合适的方向呢?研究者采用 PCGrad,将冲突的梯度投影到另一个梯度的法向量上,确保非冲突梯度之间的互补,对齐和促进不同梯度之间的交互,确保优化过程 backbone 的梯度始终处于对主线伪造检测任务产生积极影响的方向。
网络训练的损失函数和总体模型结构图可表示如下:
实验设置
实验使用 ForenSynths 的训练集来训练检测器,包括 20 个不同的类别,每个类别都包含 18000 张使用 ProGAN 生成的合成图像,以及来自 LSUN 数据集的相同数量的真实图像。
为了进行评估,研究者还使用了 17 个常用数据集。其中,前 8 个数据集来自 ForenSynths,包括由 8 个不同的生成模型生成的图像;其余 9 个数据集来自 GANGen-Detection,由另外 9 个不同生成模型生成的图像组成。
图 3:压缩情况已知的实验
图 4:压缩情况未知的实验
图 5:消融实验
总结
该工作提出了开放世界深度伪造检测网络,旨在解决开放世界,尤其是在未配对数据普遍存在的在线社交网络下的伪造检测。该方法能够有效处理与不同数据质量和压缩方法相关的复杂性。
研究人员在各种测试设置下,以及在 17 个流行的数据集上进行的综合实验表明:所提方法能够取得不错的性能,并在实际应用中实现了稳健性和适应性。这项工作不仅推动了深度伪造检测领域,而且为未来旨在打击在线社交平台上伪造信息的研究提供基准。
主要作者介绍
陶仁帅,北京交通大学副教授,工学博士,硕士生导师。入选 “北京交通大学青年英才培育计划”、“中国图象图形学学会高等教育教学成果激励计划”,曾任华为诺亚方舟实验室高级研究员。
李满毅,北京交通大学在读本科生,人工智能专业,师从陶仁帅副教授。已推免至中国科学院自动化研究所攻读博士学位,师从李兵研究员和刘雨帆助理研究员。
赵耀,北京交通大学教授,博士生导师。教育部长江学者特聘教授、国家杰出青年科学基金获得者、万人计划科技创新领军人才、IEEE Fellow。
#2024年度AI2050人选
由谷歌前CEO斯密特家族出资的慈善基金「Schmidt Sciences」近日公布了2024年度AI2050人选,25名人选将共享1200万美元,用于AI的跨学科研究。继李飞飞入选高级研究员之后,华人多受青睐,此次共有6名华人当选早期职业Fellow。
AI2050 Fellow名单正式公布了!
每年AI2050皆会提名5位高级Fellow,以及15位早期职业Fellow。特殊情况下,可以增加名额。
今年,一共评选了25人,其中,5位高级Fellow,还有20位早期职业Fellow。
他们将获得高达1200万美元的研究资助。
高级Fellow根据现有贡献选拔,采用封闭式提名,无需申请。早期职业Fellow需要担任博士后或预聘研究职位。
值得一提的是,今年上榜名单中,一共有6位华人学者当选。他们有的专攻AI安全,有的开发人机高效协作的AI,还有的专注于AI材料的发现等。
或许很多人对这个名单有些陌生,AI2050是由前谷歌CEO埃里克·施密特在2022年最先发起的一个基金项目。
AI2050项目提供了一个独特的视角,邀请人们去畅想2050年的世界。
该项目为资深研究人员和早期职业学者,将提供两年的资助,以应对AI领域的各种全球性挑战。
接下来,我们一起看看今年入选Fellow的所有名单。
5位高级Fellow
David Autor
重大难题:解决了AI及其相关技术带来的经济挑战与机遇。
David Autor是麻省理工学院经济学系的Daniel(1972)和Gail Rubinfeld教授,同时担任NBER劳动研究项目和麻省理工学院「塑造未来工作」计划的联合主任。
因学术贡献和教学成就,他获得了众多奖项,包括国家科学基金会CAREER奖、Alfred P. Sloan奖、Sherwin Rosen劳动经济学领域杰出贡献奖、2019 年Andrew Carnegie奖、2021 年进步社会奖章、麻省理工学院 MacVicar 教员奖等。
2023年,他当选为NOMIS杰出科学家,这一荣誉在所有科学领域中仅有两位研究者获得。
AI2050项目:
这项研究将基于人类专业知识经济学,系统化一套新颖的见解,阐明新工具如何与人类能力相互作用,从而塑造就业和收入。这项工作将对企业家、技术专家和政策制定者具有可访问性和实用性,帮助他们预见并塑造机器能力与人类专业知识的共同演进。
Yejin Choi
重大难题:解决了随着AI及AGI能力的不断增强所带来的安全性和可控性、与人类价值观的对齐以及兼容性方面的挑战。
Yejin Choi即将在斯坦福大学担任教授和高级研究员,同时也是麦克阿瑟奖学金获得者。此前,曾任华盛顿大学Paul G. Allen计算机科学与工程学院的Wissner-Slivka教授。
她在康奈尔大学获得计算机科学博士学位,并在韩国首尔大学获得计算机科学与工程学士学位。
她的研究涵盖NLP和AI领域的多个课题,包括常识知识与推理、神经语言生成与反生成、基于视觉和经验的语言落地,以及面向社会公益的AI。
学术成就方面,她在ACL 2021和CVPR 2021上共同获得了两项时间检验奖,并在ACL、EMNLP、NAACL、ICML、NeurIPS和AAAI等顶会上获得了8项最佳论文奖或杰出论文奖。
她还于2018年荣获Borg早期职业奖(BECA),于2017年赢得首届Alexa Prize Challenge冠军,并在2016年入选IEEE AI’s 10 to Watch。
AI2050项目:
项目提出了一项雄心勃勃的研究计划,旨在通过五个协同研究方向来解决AI系统的根本性局限:(1)多元化的理论框架,(2)多元化的基准和评测指标,(3)多元化的对齐方法,(4)ValueGenome 作为一个多样化人类价值观的目录,(5)可解释的反思过程。
Carla Gomes
重大难题:通过让AI解决人类面临的一个或多个重大挑战和机遇,做出了具有颠覆性意义的贡献。
Carla Gomes是康奈尔大学计算与信息科学的Ron和Antonia Nielsen教授,同时担任计算可持续性研究所所长,并共同领导科学AI研究所。
她在爱丁堡大学获得AI博士学位,目前是AAAI、ACM和AAAs的Fellow。
她的研究主要集中在大规模知识表征、推理、机器学习、决策制定和优化等AI领域的议题。
她是新兴领域「计算可持续性」的开创者之一——利用AI和计算方法应对环境、经济和社会的关键挑战,引领我们迈向可持续的未来。
2021年,因对AI的高影响力贡献,包括在约束推理、优化,以及将推理与学习相结合等方面的创新,以及创立计算可持续性领域,而获得了AAAI Feigenbaum奖。
2022年,因在跨学科研究方面的贡献,将计算机科学与其他领域相结合,而获得了AAAI Allen Newell奖。
AI2050项目:
项目聚焦于可持续性挑战,例如联合国提出的「30×30生物多样性保护目标」、在分子层面对生化多样性进行表征,以及在满足能源需求的同时重新思考全球水电扩张方式,从而尽可能降低对人类与自然的不利影响。
她的研究通过结合数据驱动与知识驱动的AI方法,突破了当前AI/ML在科学探索和决策制定中的局限性,将基于第一性原理的推理与深度学习及帕累托优化协同运用于高维度推理与决策过程。借由这些创新的AI方法,她为可持续性的实践方式带来了深远的变革。
Roger Grosse
重大难题:解决了AI所面临的安全性和可靠性、鲁棒性、性能和输出等挑战,以及其他可能对公众造成伤害或削弱信任的缺陷,尤其是在社会风险和潜在危害较高的应用和场景中。
Roger Grosse是多伦多大学计算机科学副教授,Schwartz-Reisman技术与社会讲席教授,Vector Institute的创始成员,以及Anthropic对齐科学团队的技术成员。
他的研究重点是,基于对深度学习的理解来提升AI系统的安全和对齐。
他曾获得Sloan研究奖、加拿大CIFAR AI讲席和加拿大研究讲席。
AI2050项目:
项目将重点攻克建立安全论证所需的两大算法挑战:首先,确定模型在某一训练阶段后,都有哪些属性发生了变化;其次,找到或估计出模型发生罕见行为(如实施恶意计划)的概率。
Michael Wooldridge
重大难题:解决了当前AI在科学和技术上的局限性以及关键难题,这些问题对于实现AI的进一步突破至关重要,进而开发出更强大、更有用的AI,能够实现包括AGI在内令人期待和有益的可能性。
Michael Wooldridge是牛津大学计算机科学教授,已发表超过450篇科学文章,并出版了9本书(已被翻译成7种语言)。
他是ACM、AAAI和EurAI的Fellow,同时也是欧洲科学院的成员。
他于2014年至2016年,担任EurAI主席;2015年至2017年,担任IJCAI主席;目前是《Artificial Intelligence》期刊的联合主编。
他曾获得英国计算机学会的Lovelace奖章(2020年)、AAAI的Patrick Henry Winston杰出教育家奖(2021 年),以及EurAI的杰出服务奖(2023年)。
AI2050项目:
项目将把LLM技术引入智能体,使其功能更为强大,应用前景更加广泛。
20位早期职业Fellow
接下来,在20位早期职业Fellow中,我们主要介绍6位获选的华人学者,并将所有名单列出。
Simon Shaolei Du(杜少雷)
重大难题:解决了在AI不断强大并最终抵达AGI的过程中,安全与控制、人类对齐以及兼容性等方面的挑战。
Simon S. Du是华盛顿大学Paul G. Allen计算机科学与工程学院的助理教授。
他在卡内基梅隆大学获得机器学习博士学位,师从Aarti Singh和Barnabás Póczos。并曾在普林斯顿高等研究院担任博士后研究员,师从Sanjeev Arora。
目前,他的研究重点是多智能体强化学习,以及基础模型的数据选择算法。
他的研究获得了诸多认可,包括Sloan研究奖、三星年度AI研究员奖、英特尔新星教师奖、NSF CAREER奖、英伟达先锋奖,以及卡内基梅隆大学杰出论文奖提名等。
他在学术上的贡献包括:首次证明了梯度下降法在优化深度神经网络中的全局收敛性;解决了强化学习中的样本复杂度问题;以及明确了在大状态空间进行强化学习所需的充要条件。
AI2050项目:
项目致力于研发能与人类高效协作的AI系统。随着AI日渐融入我们的日常生活,这一点已成为了关键的挑战。其研究重点在于构建理论基础并设计全新算法,从而使AI能够在多种情境下与人类无缝协作。并最终打造出能在实际应用场景中与人类深度协同的AI系统,为未来更具实用价值的AI技术奠定基础。
Pang Wei Koh
重大难题:解决了AI所面临的安全性和可靠性、鲁棒性、性能和输出等挑战,以及其他可能对公众造成伤害或削弱信任的缺陷,尤其是在社会风险和潜在危害较高的应用和场景中。
Pang Wei Koh是华盛顿大学Allen计算机科学与工程学院的助理教授,同时也AI2的客座研究科学家,以及新加坡AI客座教授。
他在斯坦福大学获得了计算机科学博士和学士学位。在攻读博士之前,他是Coursera的创始团队成员之一,并担任合作伙伴关系总监。
目前,他的研究兴趣是可靠机器学习系统的理论与实践研究。
他的研究成果不仅获得了ICML和KDD的最佳论文奖,而且还发表在了Nature和Cell等顶级期刊上。
此外,他还荣获了MIT科技评论「亚太区35岁以下创新者」奖。
AI2050项目:
项目将通过减少模型对难以理解的参数内部运作的依赖,开发出更值得信赖的模型,从而让模型能直接获取并利用相关数据源进行推理
他将开发新的方法来构建模型:当需要回答例如医学方面的问题时,模型会首先检索权威期刊中经过同行评审的医学论文,整合这些信息,然后给出带有清晰引用来源的答案。
Yuanyuan Shi
重大难题:通过让AI解决人类面临的一个或多个重大挑战和机遇,做出了具有颠覆性意义的贡献。
Yuanyuan Shi是加州大学圣地亚哥分校电气与计算机工程系的助理教授。
她于2020年获得华盛顿大学电气与计算机工程(ECE)博士学位以及ECE和统计学硕士学位。2020年至2021年,在加州理工学院计算与数学科学系从事博士后研究。
她的研究兴趣包括机器学习、动态系统和控制,以及在可持续能源系统的应用。
她曾获得多项荣誉,包括麻省理工学院的EECS新星奖、2020年华盛顿大学清洁能源研究所的科学成就奖、2023年的Hellman奖学金,以及PSCC的最佳论文奖和ACM e-Energy会议的最佳论文入围奖。
AI2050项目:
项目的目标是研究神经算子学习在大规模偏微分方程(PDE)系统控制中的基础,并确保其安全性和稳定性。她将验证所提出的基于AI的PDE控制框架,在实际办公建筑中进行室内气候建模和控制,以平衡病原体暴露、居住舒适度和碳排放。
Bijun Tang
重大难题:通过让AI解决人类面临的一个或多个重大挑战和机遇,做出了具有颠覆性意义的贡献。
Bijun Tang博士目前是新加坡南洋理工大学材料科学与工程学院(MSE)的校长博士后研究员。
她分别于2017年和2021年在南洋理工大学材料科学与工程学院获得一等荣誉学士学位和博士学位。2023年,她作为访问科学家加入莱斯大学,与Pulickel Ajayan教授合作。
她的研究兴趣主要在于新型二维材料的合成与工程,以及利用机器学习进行智能材料开发。
她在顶级期刊上发表了30多篇经同行评审的论文,包括Nature、Nat. Mater. Electron.、Nat. Nat. Commu.、Adv. Mater.、Mater. Today等,H指数为18,总引用次数超过了1400。
她获得的荣誉包括南洋理工大学新锐科学家奖(2024年)、福布斯亚洲30位30岁以下精英奖(2023年)、南洋理工大学校长博士后奖学金(2022年)、南洋理工大学研究生院跨学科研究奖(2021年),以及工程、科学和技术领域女性发展基金(2021年)。
此外,她还是《International Journal of AI for Materials and Design》期刊的青年编委。
AI2050项目:
2DMatAgent项目旨在开发一个由AI驱动的平台,以加速二维材料的发现和开发,这对推动纳米电子学、能源存储和医疗保健的发展至关重要。
传统的材料开发方法既缓慢又耗费资源,通常需要数十年时间。而2DMatAgent可自主设计、验证和优化二维材料,将这一时间大幅缩短至数天。
通过整合大规模多模态模型、推理和工具自动化等先进AI技术,该项目将增强各领域和各行业研究人员的能力,推动科学进步,并在可持续能源、电子技术及其他关键领域实现突破性进展。
Eric Wong
重大难题:解决了AI所面临的安全性和可靠性、鲁棒性、性能和输出等挑战,以及其他可能对公众造成伤害或削弱信任的缺陷,尤其是在社会风险和潜在危害较高的应用和场景中。
Eric Wong是宾夕法尼亚大学计算机与信息科学系的助理教授。
他在卡内基梅隆大学获得了机器学习博士学位,并曾在麻省理工学院从事博士后研究。
他的研究聚焦于可靠机器学习系统的基础:理解、调试并确保数据驱动模型的行为。在实践中,他的研究帮助科学家和医生利用AI模型进行学习并推动新发现。
他曾荣获Siebel奖学金、SCS论文奖(荣誉提名)和亚马逊研究奖,并获得了JCNLP-AACL的领域主席奖和NeurIPS ML与安全研讨会的最佳答辩奖。
AI2050项目:
研究致力于开发鲁棒的机器学习方法,确保生成式AI安全且能保护隐私,从而防止这些模型被滥用,并确保生成式AI遵守相关法律法规。
Chaowei Xiao
重大难题:解决了AI所面临的安全性和可靠性、鲁棒性、性能和输出等挑战,以及其他可能对公众造成伤害或削弱信任的缺陷,尤其是在社会风险和潜在危害较高的应用和场景中。
Chaowei Xiao是威斯康星大学麦迪逊分校的助理教授(自2023年8月起任职)。
在此之前,他在英伟达担任了两年全职研究科学家,并在亚利桑那州立大学呆过一段时间。
他的研究主要集中在机器学习和安全的交叉领域,目标是构建安全可靠的机器学习系统。
他曾获得ACM戈登贝尔特别奖,并在USENIX Security、MobiCOM和ESWN等会议上多次获得最佳论文奖。
Chaowei Xiao对大模型的安全性与保障非常感兴趣,并研究LLM在不同应用领域中的潜在应用。
他本科毕业于清华大学,并在密歇根大学安娜堡分校获得博士学位。
AI2050项目:
项目旨在推进我们对现代人工智能模型和系统的安全挑战的理解。该项目侧重于开发前沿的红队工具,以自动发现和评估人工智能系统中的漏洞,并评估现代人工智能技术带来的有害后果。此外,他还将探索增强人工智能系统安全性的原则性方法,确保这些系统更加安全、稳健,并符合社会价值观。
其他Fellow还有:
- Sara Beery, 麻省理工学院助理教授
- Sarah Dean,康奈尔大学助理教授
- Tim Dettmers,卡内基梅隆大学助理教授
- Gabriele Farina,麻省理工学院助理教授
- Anjalie Field,约翰霍普金斯大学助理教授
- Marzyeh Ghassemi,麻省理工学院助理教授
- Yoon Kim,麻省理工学院助理教授
- Aviral Kumar,卡内基梅隆大学助理教授
- Raphaël Millière,麦考瑞大学助理教授
- Antonio Orvieto,马克斯·普朗克智能系统研究所ELLIS研究组组长
- Parthe Pandit,印度理工学院孟买分校助理教授
- David Rolnick,Mila-魁北克AI研究所助理教授
- Florian Shkurti,多伦多大学助理教授
- Ellen Vitercik,斯坦福大学助理教授
前谷歌CEO发起,畅想2050年的世界
2022年,前谷歌CEO埃里克·施密特宣布正式成立AI2025,首批砸下1.25亿美元,专为AI研究提供支持。
他在当时表示,这是为了确保AI能够真正造福社会的一种方式。
根据官网信息, 施密特科学基金会致力于为所有人创造一个健康、有韧性和安全的世界。
优先资助在五个重点领域开展研究,以期产生革命性的影响:
- AI与先进计算
- 天体物理学和太空
- 生物科学
- 气候
- 科学系统
官网中,列出了所有「问题清单」。随着社会对AI应用的不断发展,这份清单将经常更新。
目前更新截止到2023年6月。
其中,有一些与开发AI安全系统、以及推进AGI等现实目标。
从2022年开始,到现在一共评选了三届。
前两届的名单中,一些享有盛誉的研究者纷纷当选,比如AI教母李飞飞、开创AI液态神经网,并创立初创Liquid AI的Daniela Rus等等。
他们的研究涉及范围之广,有利用AI破解粒子物理学奥秘,有利用 AI 改变非洲的药物发现、降低孕产妇死亡率......
第三届AI2050评选上的25位Fellow将加入由71名研究人员组成的AI2050社区。
参考资料:
https://ai2050.schmidtsciences.org/fellows/
https://ai2050.schmidtsciences.org/hard-problems/
#豆包说要「普惠」,于是大模型处理图片按「厘」计价了
这段时间,OpenAI 宣告连续 12 轮轰炸,让 2024 年底的大模型领域热闹起来了。
但坚持每个凌晨看直播的话会发现,越到后面的发布越平淡,内心的波动也越少了。
今年的大模型就卷到这里了吗?并没有,国产大模型又卷起来了,还给 OpenAI 来了一记「重拳」。
就在前几天,2024 冬季火山引擎 FORCE 原动力大会上,字节跳动的豆包大模型家族,来了一场爆发式上新。
最受关注的是豆包大模型家族的新成员 —— 豆包・视觉理解模型。顾名思义,它让豆包有了「看懂」世界的能力。更重要的是,这款新模型一千个 token 的输入价格仅 3 厘钱,也就是说花一块钱就能处理 284 张 720P 的图片,比行业价格便宜了 85%。
价格官宣的那一刻,或许众多企业用户在心里默念了一句:太好了,是豆包,我们有救了。
至于这款模型的理解能力有多强,请看 VCR:
火山引擎
,赞4044
与此同时,三位成员豆包通用模型 Pro、豆包・音乐生成模型、豆包・文生图模型宣布升级,一起发布的还有豆包・3D 模型。
回想年中的时候,豆包还是国产大模型中的「新秀」。短短半年多,竟然已经红透了半边天,成为了众多用户首选的生产力工具。
七个月的时间,能发生什么?对于 OpenAI 来说,可能只是一项新功能从「期货」到「全量上线」的准备时长。
但对于豆包大模型,这段时间已经足以拿下日均 tokens 使用量超 4 万亿的优秀成绩,比最初发布的那天增长了 33 倍。
经过此次升级后,豆包大模型家族的实力又壮大了一波。
据智源研究院 12 月 19 日发布的国内外100余个开源和商业闭源的大模型综合及专项评测结果,「大语言模型评测能力榜单」中,豆包通用模型 pro 在重点考察中文能力的主观评测中排名第一,「多模态模型评测榜单」中,豆包·视觉理解模型在视觉语言模型中排名第二,仅次于 GPT-4o,是得分最高的国产大模型。「FlagEval 大模型角斗场榜单」中,豆包通用模型 pro 在大语言模型榜单中位居第一梯队,评分排名第二,仅次于 OpenAI 的 o1-mini,是得分最高的国产大模型。
不得不说,国产 AI 进化的速度是真的惊人。
会读论文、看梗图
豆包的「秒懂」能力强得可怕
回望 2024 年的大模型技术发展,除了文本能力的继续提升外,从单模态过渡到多模态也是基础模型的演进趋势之一。
一个关键方向是,增加对视觉模态输入的支持。这就像是给 LLM 装上了「眼睛」和「大脑」,使其能够理解图像并进行相应的自然语言生成。
在不断进化的豆包大模型中,我们也看到了惊人的「秒懂」能力。
具体来说,豆包・视觉理解模型具备精准的指令理解能力,能够精准提取图像文本信息,因此可应用于更复杂、更广泛的视觉问答任务,比如描述图片中的内容以及对图片中包含的内容进行提问。另一方面,该模型可完成深度的图片理解与推理,在表格图像、数学问题、代码图像等复杂推理场景下都能发挥所长。
豆包・视觉理解模型接入豆包 App 和 PC 端产品已经有段时间了,也测试了一番,实际体验很不错。
在此之前,人们公认体验比较好的是 GPT-4o 模型,但这次测试下来,豆包・视觉理解模型毫不逊色。
首先能感受到,豆包的内容识别能力很强,比如对于视觉内容中的知识、文化背景、状态、数量、文字等信息都识别得很准确,特别是能理解中国传统文化知识。
比如问一个生活化的问题。站在超市货架前,每个人都有过难以抉择的时刻。但显然,大模型比我们更懂传统食物:
当然,它不只是擅长识别现实中的物品,即使图片只有光影、轮廓、位置这些特征,也能一眼辨别:
其次,豆包对于视觉内容信息的推理能力也很强,包括数学、逻辑、代码等。
就拿难懂的论文架构图来说吧,在没有给出任何论文背景信息的前提下,豆包不仅能看懂、讲透,特别是针对整体流程的解读,将阶段 1 和阶段 2 的因果逻辑表达得非常清楚,还能如数列出背景知识:
假如同事交接给你一些代码,别焦虑,叫上豆包一起看能效率加倍:
再说到视觉描述能力,它也非常擅长「看图说话」,完全可以用来编写社交媒体文案,或者任何你需要启发灵感的创作任务:
还有一个很巧妙的用途 —— 帮助 2G 冲浪的「老年人」看懂新梗:
多模态能力的突破,让今年的大模型应用给用户带来了诸多惊喜。此次视觉理解能力的增强,也将是豆包大模型打开更多落地场景的关键一步。当模型能够将图像和文字信息相结合,我们就能够获得更自然、直观的交互体验。例如,在产品推荐、教育辅助或虚拟助手场景中,用户可以通过图片与模型互动,获得更丰富的反馈。此外,结合视觉和文本信息,模型对输入的洞察水准也会更上一层楼。例如,在新闻分析或知识图谱构建中,模型能够关联文字和图片,提供更完整的背景和见解。
加上以「厘」为单位的定价,这些应用场景的解锁速度会比想象中更快。秉承「让每家企业都用得起好模型」的原则,豆包一发力,实实在在是把视觉理解模型的应用成本打下来了,将以更低成本推动 AI 技术普惠和应用发展。
三大主力模型升级
视频模型下月上线
在新成员诞生的同时,豆包大模型家族的三位重要成员也迎来了本年度的最后一次重大升级。
首先是大语言模型 —— 豆包通用模型 Pro。对比今年 5 月最初公开发布的版本,这款模型在综合能力上已经提升了 32%,与 GPT-4o 持平,但价格仅是其八分之一。
此外,豆包通用模型 Pro 在指令遵循、代码、专业知识、数学层面全面对齐了 GPT-4o 水平。其中指令遵循能力提升 9%,代码能力提升 58%,GPQA 专业知识方面能力提升 54%,数学能力提升 43%,推理能力提升 13%。
然后是语音,豆包・音乐模型的生成水平已经从「高光片段」跃升到「完整乐章」。
现在,用户只需要简单描述或上传一张图片,就能生成一首长达 3 分钟的包含旋律、歌词和演唱的高质量音乐作品,包括前奏、主歌、副歌、间奏、过渡段等复杂结构。并且,豆包・音乐模型提供了局部修改功能,在针对部分歌词修改后仍能在原有旋律的节奏框架内适配。
火山引擎
,赞392
体验地址:https://www.haimian.com/create (APP 端:海绵音乐)
从原来的 1 分钟,升级为现在的 3 分钟,豆包・音乐模型克服了挑战,在较长的时间跨度内容保持了音乐元素的连贯性。
最后,在视觉层面,豆包・文生图模型本次也迎来了新一波升级,在通用性、可控性、高质量三方面取得了新突破。具体来说,豆包・文生图模型 2.1 新增了「一键海报」和「一键 P 图」能力,目前已接入即梦 AI 和豆包 App。
一键海报的关键点在于「写字」。在实际体验中,我们可以感受到,豆包・文生图模型对文字细节的指令遵循能力很强,特别是非常擅长「写汉字」:
Prompt:生成一张卡通土拨鼠的图片 衣服上的文字图案是
背后的技术源自豆包・文生图模型原生的文字渲染能力,豆包大模型团队通过打通 LLM 和 DiT 架构和构建高质量文字渲染数据,大幅提升了模型在文字生成方面的准确率,尤其是结构复杂、字符数量较多的汉字场景。
一键 P 图功能的实现,则基于豆包大模型团队近期在图像编辑技术上取得的重大突破:SeedEdit。
近年来,基于扩散模型的图像生成技术进展飞速,然而,图像编辑技术还难以满足人们对于生成内容可控性的需求,关键挑战在于实现「维持原始图像」和「生成新图像」之间的最优平衡。
SeedEdit 框架在不引入新参数的前提下,将图像生成扩散模型转为图像编辑模型,也是国内首个产品化的通用图像编辑模型。无需描边涂抹,用户只需要给出简单的自然语言指示,就能换背景、转风格,或者在指定区域进行元素的增删和替换。
Prompt:驴打滚变成拿破仑
相比于传统涂抹选中的方法,这种编辑方式更加精准,不会误伤无关区域。还有一点好处是,这种编辑技术能够一次性完成多项编辑任务,效率大大提升。
关于最近非常火热的 3D 赛道,豆包家族也添加了一位新成员:豆包・3D 生成模型。将这款模型与火山引擎数字孪生平台 veOmniverse 结合使用,可以高效完成智能训练、数据合成和数字资产制作,成为一套支持 AIGC 创作的物理世界仿真模拟器。
如视频所示,通过叠加一句一句的文字 Prompt,就能搭建起一个工厂车间场景:
,时长01:01
后来居上,一飞冲天
「豆包」凭借的是什么?
自 2024 年 5 月发布至今,只用了七个月,豆包大模型就成为了国产大模型中当之无愧的顶流。
后来者如何居上?在豆包家族做大做强的道路上,为其提供底层支撑的火山引擎云服务平台的价值不可忽视。
一直以来,字节跳动的豆包大模型都通过火山引擎对外提供服务,「更强模型、更低价格、更易落地」,这三个关键词成为了其别于众多大模型服务平台的特质。
除了不断升级的模型能力之外,火山引擎还解决了「成本太高」和「落地太难」两项大模型应用挑战。目前,这个平台提供从云计算、技术引擎、智能应用到行业解决方案的全栈服务。
模型层面,豆包大模型家族已经有十几位成员,覆盖了常见应用场景。
特别地,火山引擎为大模型落地提供了一系列覆盖全流程的工具,包括一站式大模型服务平台火山方舟、大模型应用开发平台扣子、企业专属 AI 应用创新平台 HiAgent。这些工具,在本次大会上也都同步升级。
火山引擎这次一口气推出了 Prompt 优解、大模型记忆应用等产品,持续保障企业级 AI 应用的落地。Prompt 优解是全新一代提示词工具,通过自动 + 互动的方式,解决了人工编写 Prompt 难度高、耗时写、重新适配的问题。大模型记忆应用基于知识库 RAG 技术和上下文缓存技术,能够帮助企业用户打造灵活的大模型记忆方案,并推出 prefix cache 和 session cache API,降低延迟和成本。
扣子也在这次大会上升级到了 1.5 版本,还公布了开发者生态方面的亮眼成绩:目前平台已有超过 100 万的活跃开发者,共发布过 200 万个智能体。包括最新发布的豆包多模态模型们,用户们都能第一时间在扣子平台通过插件的方式体验。
在最新发布的 HiAgent 1.5 版本中,火山引擎提供了 100 多个行业应用模板,提供给企业用户一键复制,实现低代码构建智能体。同步发布的 GraphRAG 则通过连接知识图谱为大模型提供知识及关系信息,以此增强回答质量、支持多跳问题回答。再通过 Reranker,进一步提升回答的准确性和完整性。如此一来,企业就能构建专家级别的 AI 应用。
在云服务层面,基于当前企业使用大模型推理对计算效率的新要求,火山引擎已经完成了从 Cloud Native 到 AI Cloud Native 的转型,打造以 AI 负载为中心的基础架构新范式。
GPU 在并行处理能力和高吞吐量方面更适合大规模推理使用,然而,传统 GPU 加 CPU 的异构计算中,GPU 从存储加载数据进行处理都必须由 CPU 控制。近年来的一个趋势是计算从 CPU 转移到 GPU,GPU 计算在整个系统的比例越来越大,因此过去的 I/O 流程成为巨大的效率瓶颈,某种程度上造成了 GPU 资源的浪费。
基于 AI 云原生的理念,火山引擎这次推出了新一代计算、网络、存储和和安全产品。在计算层面,新一代的火山引擎 GPU 实例,通过 vRDMA 网络,支持大规模并行计算和 P/D 分离推理架构,显著提升训练和推理效率,降低成本。存储上,新推出的 EIC 弹性极速缓存,能够实现 GPU 直连,使大模型推理时延降低至 1/50;成本降低 20%。安全层面,火山将推出 PCC 私密云服务,构建大模型的可信应用体系。基于 PCC,企业能够实现用户数据在云上推理的端到端加密,而且性能很好,推理时延比明文模式的差异在 5% 以内。
「今年是大模型高速发展的一年。当你看到一列高速行驶的列车,最重要的事就是确保自己要登上这趟列车。通过 AI 云原生和豆包大模型家族,火山引擎希望帮助企业做好 AI 创新,驶向更美好的未来。」火山引擎总裁谭待表示。
面向 2025,我们期待什么?
这一年,从技术研发的角度,豆包大模型团队在研究者和从业者圈子中影响力的增长是有目共睹的。2024 年,团队发布了一系列「出圈」成果,包括近期的图像编辑模型 SeedEdit、代码评估数据集 FullStack Bench、新型神经网络架构 FAN 等。在突破前沿命题之外,这些成果也对豆包大模型产品层面的进化起到了关键的推动作用。
正是基于技术驱动下的产品迅速迭代,让豆包坐稳了国产大模型顶流的宝座。大模型技术爆发两年后,不管是个人用户还是企业用户都能感知到,豆包大模型在应用层的优势已经非常明显。
根据大会 One More Thing 环节的透露,本文开头 VCR 中所展示的端到端实时语音功能,以及具备更长视频生成能力的豆包・视频生成模型 1.5 也会在不久后上线。
站在 2024 年的末尾,无论是相关从业者还是大众都会好奇:2025 年的大模型会变成什么样?
我们看到、听到了很多关于大模型前进方向的预判,比如 Scaling Law 即将撞墙,预训练已经走到尽头等等。
但这些并不意味着大模型的能力已经到达天花板,推理 Scaling Law 来了,AI 的智能水平可能会在短时间内跃升到一个新的高度。同时在图像生成、视频生成等多模态任务上,大模型仍有相当充足的发展空间。在未来的 12 个月,大模型进化的曲线可能会非常陡峭。
新的一年,豆包大模型还有哪些惊喜?值得每一个人期待。
#Thinking in Space:
李飞飞、谢赛宁等探索MLLM「视觉空间智能」,网友:2025有盼头了
希望 2025 年 AI 领域能带来推理之外的突破。
在购买家具时,我们会尝试回忆起我们的客厅,以想象一个心仪的橱柜是否合适。虽然估计距离是困难的,但即使只是看过一次,人类也能在脑海里重建空间,回忆起房间里的物体、它们的位置和大小。
我们生活在一个感官丰富的 3D 世界中,视觉信号围绕着我们,让我们能够感知、理解和与之互动。
这是因为人类拥有视觉空间智能(visual-spatial intelligence),能够通过连续的视觉观察记住空间。然而,在百万级视频数据集上训练的多模态大语言模型 (MLLM) 是否也能通过视频在空间中思考,即空间思维(Thinking in Space)?
为了在视觉空间领域推进这种智能,来自纽约大学、耶鲁大学、斯坦福大学的研究者引入了 VSI-Bench,这是一个基于视频的基准测试,涵盖了近 290 个真实室内场景视频,包含超过 5000 个问答对。
其中,视频数据是通过捕捉连续的、时间性的输入来完成的,不仅与我们观察世界的方式相似,而且比静态图像更能丰富空间理解和推理。在 VSI-Bench 上评估开源和闭源模型显示,尽管模型与人类之间存在较大的性能差距,尽管 MLLM 面临视频理解、文本理解和空间推理的挑战,但其仍展现出了新兴的视觉空间智能。
为了对模型行为展开研究,本文受到双重编码理论的启发(该理论认为语言处理和视觉处理既有区别又相互补充),他们提出了用于自我解释(语言)和认知图(视觉)的选择模型(selected models)。
- 论文地址:https://arxiv.org/pdf/2412.14171v1
- 论文主页:https://vision-x-nyu.github.io/thinking-in-space.github.io/
- 论文标题:Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces
这篇论文作者有我们熟悉的斯坦福大学教授李飞飞,她提倡的「空间智能」最近正在引领 AI 发展方向,还有纽约大学计算机科学助理教授谢赛宁等。
谢赛宁表示,「视频理解是下一个研究前沿,但并非所有视频都是一样的。模型现在可以通过 youtube 片段和故事片进行推理,但是我们未来的 AI 助手在日常空间中导航和经验如何呢?空间思维正是为这一问题诞生的,我们的最新研究 VSI-Bench,可以探索多模态 LLM 如何看待、记忆和回忆空间。」
「在视觉处理方面,我们通常处理空间问题,但很少进行推理;而多模态大语言模型(LLM)虽然能够思考,但通常忽略了逻辑空间。然而,作为人类 —— 无论是做心理旋转测试还是为新家定制家具 —— 我们依赖于空间和视觉思维 。而这些思维并不总能很好地转化为语言。」
「我们通过研究涵盖各种视觉空间智能任务(关系和度量)的新基准来探索这一点。」
李飞飞也对这项研究进行了宣传,她表示这项名为「Thinking in Space」的研究,是对 LLM(大部分都失败了)在空间推理方面表现的评估,而空间推理对人类智能至关重要。2025 年还有更多值得期待的事情,以突破空间智能的界限!
在李飞飞的这条推文下,网友已经开始期待即将到来的 2025 年。
在论文主页给出的 Demo 中,作者提供了谷歌 Gemini 模型在视觉空间智能上的一些表现。(以下视频均以 2 倍速播放。)
1:估计相对距离
,时长01:16
问:如果我站在冰箱旁边,面对着洗衣机,炉子是在我的左边、右边还是后面……
2:让大模型数物体
,时长02:02
问:房间里有几把椅子?Gemini-1.5 Pro 给出了 2。
3:根据视频猜测物体出现的顺序
,时长03:01
问:以下类别在视频中第一次出现的顺序是:毯子、垃圾桶、微波炉、植物?Gemini 给出 B 选项,正确答案是 C。
4:估计房间大小
,时长01:45
问:这个房间有多大(平方米)?如果展示了多个房间,估计一下组合空间的大小。
VSI-Bench 介绍
VSI-Bench 是一个用于定量评估从第一视角视频出发的 MLLM 视觉空间智能的工具。VSI-Bench 包含了超过 5000 个问答对,这些问答对来源于 288 个真实视频。这些视频包括居住空间、专业场所(例如,办公室、实验室)和工业场所(例如,工厂)—— 以及多个地理区域。VSI-Bench 的质量很高,经过迭代审查以最小化问题的歧义,并移除了从源数据集中传播的错误注释。
VSI-Bench 包括八项任务,如图 3 所示,包括:物体计数、相对距离、出现的顺序、相对方向、物体大小、绝对距离、房间面积、路径规划。
VSI-Bench 的任务演示。注意:为清晰简洁起见,上述问题略作简化。
数据集统计见图 5。
此外,本文还开发了一个复杂的基准构建流程,以有效地大规模生成高质量问答(QA)对,如图 4 所示。
评估
评估设置:本文对 15 个支持视频的 MLLM 进行了基准测试。专有模型包括 Gemini-1.5 和 GPT-4o。开源模型包括 InternVL2、ViLA、LongViLA、LongVA、LLaVA-OneVision 和 LLaVA-NeXT-Video 。
主要结果:通过 5000 多个问答对,作者发现 MLLM 表现出了有竞争性的视觉空间智能(尽管仍然低于人类)。Gemini Pro 表现最佳,但与人类的表现仍有差距。
具体而言,人类评估者的平均准确率达到 79%,比最佳模型高出 33%,在配置和时空任务上的表现接近完美(94%-100%)。
然而,在需要精确估计的测量任务上,差距缩小了,MLLM 在定量任务中表现出相对优势。
在专有模型中,Gemini-1.5 Pro 脱颖而出,尽管只在 2D 数字数据上进行训练,但它大大超过了机会基线,并在绝对距离和房间大小估计等任务中接近人类表现。
表现最佳的开源模型,如 LLaVA-NeXT-Video-72B 和 LLaVA-OneVision-72B,取得了有竞争力的结果,仅落后 Gemini-1.5 Pro 4%-5%。然而,大多数开源模型(7/12)都低于机会基线,暴露出视觉空间智能的明显缺陷。
为了更好地理解模型成功或失败的时间和原因,并阐明它们所拥有的视觉空间智能的各个方面,本文研究了 MLLM 如何在空间语言中思考。
当被要求解释自己时,LLM 表示空间推理(而不是物体识别或语言能力)是主要瓶颈。
在成功示例中,该模型展示了高级视频理解能力,具有准确的时间戳描述和正确的逐步推理过程。全局坐标系的使用表明 MLLM 可以通过整合空间背景和推理来构建隐式世界模型。
错误分析:对 VSI-Bench(tiny)上表现最佳的 MLLM 的错误进行分析,发现主要有四种错误类型:视觉感知、语言智能、关系推理和第一视角 - 他人视角转换。图 6 显示,71% 的错误源于空间推理,特别是在理解距离、大小和方向方面。这表明空间推理仍然是提高 VSI-Bench 上 MLLM 性能的关键瓶颈。
此外,本文还有一些其他发现。
- 发现 1:空间推理是影响 MLLM 在 VSI-Bench 上的主要瓶颈。
- 发现 2:语言提示技术虽然在语言推理和一般视觉任务中有效,但对空间推理有害。
- 发现 3:在记忆空间时,MLLM 会根据给定的视频在模型中形成一系列局部世界模型,而不是统一的全局模型。
语言提示技术在这种情况下是无效的 —— 像 CoT 或多数投票这样的方法实际上对本文任务是非常有害的。
了解更多内容,请参考原论文。
#2024亚马逊研究奖获奖名单
张崇杰、魏华等人入选
上周五,亚马逊研究奖(Amazon Research Awards,ARA)公布了最新一期来自 10 所大学的 10 名获奖者。
亚马逊研究奖于 2015 年设立,旨在为多学科研究主题的研究人员提供资助奖励。获奖者可以访问 300 多个亚马逊公共数据集,并可以通过促销积分使用 AWS AI/ML 服务和工具。除此以外,获奖者还将与亚马逊专家建立联系,以获得咨询和建议,还可以参加亚马逊举办的活动、培训课程等。
在本周期,ARA 收到了许多优秀的研究提案。本次公告包含在 2024 年冬季和 2024 年春季周期的三个提案方向(信息安全 AI、基础模型开发和可持续性)征集下资助的奖项。提案的审查依据是其科学内容的质量以及对研究界和社会产生影响的潜力。此外,亚马逊也鼓励公开发表、开源的研究成果。
在这一期的获奖名单中,出现了很多华人学者的身影。
信息安全 AI
Kaize Ding
- 机构:西北大学
- 研究方向:信息安全中的高效异常检测:自动化识别和解释图数据中的异常行为
Kaize Ding 是美国西北大学统计与数据科学的助理教授,领导 REAL 实验室。他在亚利桑那州立大学获得了计算机科学博士学位,师从刘欢(Huan Liu)教授。
他的研究兴趣主要是数据挖掘、机器学习和大型基础模型,研究重点集中于为自主决策构建可靠、高效的人工智能系统。同时,他热衷于开发知识引导的人工智能算法,尤其是基于 GNN 和 LLM 的算法,推动 AI 赋能医疗保健、生物医药、城市、环境计算等不同领域的应用。
个人主页:https://kaize0409.github.io/
Sijia Liu
- 机构:密歇根州立大学
- 研究方向:机器「遗忘」的机制,促进可信的生成式人工智能
Sijia Liu 于美国纽约的雪城大学获得了电气与计算机工程博士学位。此后,他在密歇根州立大学担任博士后研究员、又于 MIT-IBM Watson 人工智能实验室担任研究员。
他的研究兴趣主要聚焦于为可信的人工智能开发学习算法和理论,其研究目标是使 AI 系统更加安全且具可扩展性。他曾摘得 ICASSP’16 的最佳学生论文奖,以及 UAI’22 的最佳论文亚军奖,已在 NeurIPS、ICML、ICLR、CVPR、ICCV 等顶级会议上发表了 70 多篇论文。
个人主页:https://engineering.msu.edu/faculty/Sijia-Liu
张崇杰(Chongjie Zhang)
- 机构:圣路易斯华盛顿大学
- 研究方向:基于偏好的离线强化学习在信息安全中的实际应用
张崇杰是圣路易斯华盛顿大学计算机科学与工程系的教授,领导机器智能研究组。在此之前,他曾是清华大学交叉信息科学研究院的助理教授,并在 MIT CSAIL 担任博士后研究员。
他的研究究主要集中在深度强化学习、多智能体系统和人机交互领域。目前,他致力于探索智能体应如何学习决策,并与其他智能体或人类有效协作,以超越单个智能体的能力。
个人主页:https://engineering.washu.edu/faculty/Chongjie-Zhang.html
Yue Zhao
- 机构:南加州大学
- 研究方向:信息安全中的高效异常检测:自动化识别和解释图数据中的异常行为
Yue Zhao 是南加州大学计算机科学助理教授。他的研究主要集中在构建稳健、可信且可扩展的人工智能系统,涉及三个层次:原则层、知识与生成层以及系统层。通过这些层次,他将可靠的检测方法、基于图的结构化知识、生成建模和开源工具结合起来,推动 AI 在科学、医疗、金融和政治科学等领域的应用。
在原则层,Yue Zhao 致力于确保 AI 系统能够检测异常、离群值和分布外数据,提供跨领域的可信度、公平性和透明度。知识层方面,他利用图学习和生成 AI 方法,解决药物发现、合成临床试验和政治预测等科学挑战。系统层面,他开发了高效的工具和框架,用于自动模型选择、超参数优化和大规模异常检测。他还领导了多个开源项目,如 PyOD(被 NASA、特斯拉等使用),推动了 AI 技术的普惠和应用。
个人主页:
https://viterbi-web.usc.edu/~yzhao010/
可持续性
尤峰崎(Fengqi You)
- 机构:康奈尔大学
- 研究方向:透明可信的生命周期评估(LCA)大语言模型助手
尤峰崎是康奈尔大学能源系统工程领域的教授,同时在多个学科领域有跨界合作,包括化学工程、计算机科学、电气与计算机工程、系统工程、机械工程、土木与环境工程以及应用数学等。
在康奈尔大学,他担任系统工程博士学位项目主席、康奈尔大学 AI for Science 研究所(CUAISci)联合主任、康奈尔数字农业研究所(CIDA)联合主任,以及康奈尔可持续性 AI 倡议(CAISI)主任。
在加入康奈尔之前,尤峰崎曾在阿贡国家实验室数学与计算机科学部门工作,并在西北大学执教。他的研究聚焦于系统工程的基础理论与方法,广泛应用于材料信息学、智能制造、数字农业、能源系统和可持续性领域。尤峰崎已在《自然》、《科学》等期刊上发表了 300 多篇学术论文。
个人主页:https://www.engineering.cornell.edu/faculty-directory/fengqi-you
基础模型开发
程璐(Lu Cheng)
- 机构:芝加哥伊利诺伊大学
- 研究方向:通过不确定性量化实现可靠的大语言模型对齐
程璐是芝加哥伊利诺伊大学计算机科学系的助理教授,领导着负责任与可靠人工智能实验室(R^2 Lab)。她在亚利桑那州立大学获得了计算机科学博士学位,分别在华中科技大学和伦斯勒理工学院获得了了本科与硕士学位。
程璐的研究兴趣广泛,主要集中在社会责任人工智能(如公平性、可解释性 / 可解释性、隐私)和可靠人工智能(如鲁棒性与不确定性量化)、因果机器学习以及数据挖掘等领域。
个人主页:https://lcheng.org/
魏华(Hua Wei)
- 机构:亚利桑那州立大学
- 研究方向:通过不确定性量化实现可靠的大语言模型对齐
魏华是亚利桑那州立大学的助理教授。他曾在新泽西理工学院担任助理教授,并在腾讯 AI 实验室担任研究员。他在北航获得计算机科学的本科和研究生学位,并在宾夕法尼亚州立大学获得博士学位,其博士导师为 Zhenhui (Jessie) Li。他的课题组的论文多次发表在人工智能、机器学习、数据挖掘的顶级会议上,并获得了 ECML-PKDD 2020 最佳论文奖。
魏华的研究兴趣包括强化学习、数据挖掘、城市计算和人机协同计算等领域。
#图学习新突破
一个统一框架连接空域和频域
陈枳扦博士:现任密西西比州立大学计算机系助理教授,专注于图机器学习及应用领域,在谱域视角与不确定性研究方面着力颇深。其研究成果见诸于 AAAI、IJCAI、ACM、ICDM、EMNLP、Computing Surveys、Nature Communication 等。他的科研工作承蒙美国国家科学基金会(NSF)及美国农业部(USDA)多个项目的资助,且荣获丰田研究院杰出贡献奖与 ACM SIGPSATIAL 2020 最佳论文奖。
张磊博士:于 2024 年毕业于弗吉尼亚理工后,以助理教授身份加盟北伊利诺伊大学。他的研究兴趣广泛覆盖机器学习和数据挖掘范畴,尤其聚焦于图神经网络、图结构学习、双层优化、神经架构搜索以及社交网络挖掘等方面。在 AAAI、ICDM 等顶级会议上发表多篇论文,并于 2023 年夏季斩获弗吉尼亚理工大学的 Cunningham Fellowship。
赵亮博士:身为埃默里大学计算机系副教授,他的研究领域横跨数据挖掘、人工智能等多学科,在图学习领域成果斐然。在 KDD、NeurIPS、AAAI、IJCAI、WWW 等众多顶级会议及期刊上发表超百篇论文,屡获殊荣,如 NSF CAREER 奖、Meta Research 奖、Amazon Research 奖等,还荣获 ICDM 2022 最佳论文奖、ACM SIGPSATIAL 2022 最佳论文奖以及 WWW 2023 最佳论文提名等。
图数据学习在过去几年中取得了显著的进展,图神经网络(GNN)在此过程中起到了核心作用。然而,不同的 GNN 方法在概念和实现上的差异,对理解和应用图学习算法构成了挑战。
针对这一问题,来自密西西比州立大学,北伊利诺伊大学和埃默里大学的学者通过一系列教程对此问题展开了讨论,这些教程展示在 CVPR 2024、CIKM 2024、SIAM Math and Data Science 2024,以及发表在 Computing Surveys 的一篇论文: 《Bridging the Gap between Spatial and Spectral Domains: A Unified Framework for Graph Neural Networks》。
论文地址:https://dl.acm.org/doi/10.1145/3627816
问题:统一框架的突破意义何在?
尽管图神经网络已经在多个领域展示出了卓越的性能,从化学分子识别到社交网络分析,从交通网络到输电网络,再到大脑网络。GNN 也在不同的场景下,用不同的理论和机制来设计新的图神经网络,例如 Heat diffusion, page rank, random walk, attention model, ARMA, low-pass filtering。虽然展现了 GNN 和很多不同理论工具的连接性,但这也加剧了 GNN 领域的分裂。这些方法因为急于不同理论,无法进行理论上直接的比较。
Part 1: 图学习理论框架的现状
目前,图神经网络(GNN)涵盖了多种模型和层的类型,但总体可以分为空域(spatial)图模型和频域(spectral)图模型。针对这些模型,不少研究者尝试提出通用框架,以便在同一框架下对不同模型进行分析和比较。然而,这些框架主要集中于空域图模型。值得注意的是,有一类研究从统一的出发点 —— 即模型的表达能力(Expressive Power)—— 对空域和频域图模型进行了分析。尽管如此,空域和频域图模型在表达能力的定义上存在差异,其分析结论和设计建议既有共通之处,也各有不同,同时两者均存在一定的局限性。
Part 2: 图卷积
图卷积可以通过谱图理论(Spectral Graph Theory)中的图傅里叶变换(Graph Fourier Transform)和卷积定理(Convolution Theorem)来理解。
图傅立叶变换:图的结构通过图拉普拉斯矩阵(Graph Laplacian)来表示。拉普拉斯矩阵 L 可以进行特征值分解:
,其中 U 是特征向量矩阵,∧ 是特征值的对角矩阵。图傅里叶变换就是将图信号
转换到频域:
。其逆变换为
。通过这种变换,研究者可以在频域中处理和分析图信号。
卷积定理:在传统信号处理中,时域的卷积等价于频域的逐点相乘。对于图信号,同样成立:设两个图信号 X(输入特征)和 g(滤波器),它们的图卷积定义为:
。其中,⊙ 表示频域的逐点相乘,g 表示频域滤波器。这表明图卷积可以通过频域操作实现。为了在图神经网络中实现卷积,滤波器 g 被参数化为
,它是特征值 ∧ 的函数:
,其中 θ 是可训练的参数向量。卷积操作可以写为:
。
图卷积网络(GCN)在频域和空域的解释:在频域图模型中,GCN 使用的是
的一阶近似,其中
。这种操作本质上是一种固定的卷积操作,没有可学习参数。由于归一化之后的拉普拉斯矩阵的特征值范围为 0 到 2 之间,2-θ 的滤波器实际上是一个低通滤波器:放大低频平滑信号,减弱高频信号。在空域图模型中, GCN 的操作可以理解为对每个节点的邻居节点的特征值进行求和,然后取平均值。这是一种基于邻居特征聚合的方式。GCN 的频域和空域视角是等价的,但各有侧重。频域解释更偏向理论上的信号处理本质,而空域解释更贴近工程实现和直观理解。对于研究者而言,这两种视角是相辅相成的,结合使用可以更全面地理解和改进 GCN。
Part 3: 新的统一框架:连接空域和频域
教程中提出的框架基于一个核心假设:空间域和频谱域的图表示学习可以通过一个共同的数学语言进行描述。研究人员引入了一种新的图嵌入方法,该方法结合了图的空间连接性和节点特征,能够更加精准地捕捉和表示图数据的复杂性。
其他领域里频域和空域的研究
在已存在的研究里,这种空域和频域相互连接视角并不少见。研究者用两个例子来说明:
(1)谱聚类:从谱域的视角看谱聚类是使用谱分解 (spectral decomposition) 或则说特征分解(eigen-decomposition),然后使用分解结果中特征值响亮的低频信号来作为新的表达,然后使用较为简单快速的 Kmeans 得到聚类结果。而另外一个新的实现,SpectralNet,设计了一个特别 loss,使用神经网络来得到几乎一样的结果。单神经网络是一种以降低 loss 为导向的迭代算法,所以可以视为一种近似谱聚类的算法。
(2)另外一个例子是著名的 Word2Vec 算法。以 Skip-gram 为例,每个单词都要相似于它的上下文的环境里其他单词。所以 Word2Vec 是一个迭代算法。在后来的研究中,Levy 提出了一些分析,发现使用 Word2Vec 的结果里的矩阵,能够几乎完整的还原单词的共现矩阵(PPMI)。也就是说 Word2Vec 可以看作是矩阵分解算法的一种近似算法。
在这两个例子中,研究者发现这种比较中,有类似于该研究提出的谱域和空域方法区别。即,一种方法侧重矩阵分解,而另外一种侧重于迭代近似。
Part 4: 未来方向展望
这项研究开辟了图结构学习领域的新方向,未来的研究可以基于此框架进一步探索:
- 计算效率:如何进一步优化统一框架以处理大规模图数据,在谱论表达下,图的信息量依然巨大,对计算仍然是一个挑战。
- 统一的谱论:目前谱论主要应用于静态图结构,而且是简单图(即无向,边只连接两个节点)。然后图论中仍然有大量的不同类型的图,缺少谱论的表达,例如有向图,超图,或则动态图。
- 应用扩展:将统一框架应用到更多实际问题中,如生物信息学和社会网络分析,如何解释谱论视角下真实应用的规律,是一个值得探索的领域。
#xLSTM 7B
原作者带队再次改造xLSTM,7B模型速度最快超Mamba 50%,权重代码全开源
其中,采用 Transformer 架构的模型虽然占据了主流,但在输入序列长度增加时,计算量会呈二次方增长。因此,自上个世纪 90 年代兴起的 LSTM 卷土重来,它的提出者和奠基者 Sepp Hochreiter 在去年 5 月推出了 xLSTM,将 LSTM 扩展到数十亿参数,成为 Transformer 的有力替代品,提供了与序列长度线性相关的计算扩展和稳定的内存占用。
然而,xLSTM 在扩展至更大参数规模时存在限制,推理速度和效率具体如何也没做系统测评。
近日,Sepp Hochreiter 等来自 NXAI、JKU 的研究者再次对 xLSTM 进行了优化,现在可以扩展到 70 亿参数了。
具体来讲,xLSTM 7B 模型基于 DCLM 数据集,使用 128 块 H100 GPU,在 8192 上下文长度下训练了 2.3 万亿 token。研究者对原始 xLSTM 架构进行了改进,确保训练效率和稳定性,同时保持任务性能。新架构依靠 mLSTM 单元和并行训练模式,实现高性能的同时最大化速度。
论文标题:xLSTM 7B: A Recurrent LLM for Fast and Efficient Inference
论文地址:https://arxiv.org/pdf/2503.13427
代码地址:https://github.com/NX-AI/xlstm
Hugging Face 地址:https://huggingface.co/NX-AI/xLSTM-7b
通过修改模块架构,研究者优化了吞吐量,在低维空间运行 mLSTM 并添加前馈 MLP 层,同时去除了不必要的组件以提高 GPU 利用率。优化后的架构在保持相似性能的同时,将 token 吞吐量提高了 2 到 4 倍。研究者还优化了训练稳定性,特别是 mLSTM 单元的门控机制,有效解决了梯度问题。
在各类任务评估中,xLSTM 7B 与同规模 Transformer 和 Mamba 模型表现相当。通过架构优化,该模型在推理效率测试中实现了最高的预填充和生成吞吐量,同时保持最低的 GPU 内存占用。
论文作者之一 Günter Klambauer 表示,xLSTM 7B 成为了最快、最高效的 7B 语言模型!
优化的 xLSTM 7B 架构
xLSTM 7B 架构的核心是 mLSTM 单元,它的循环和并行模式可以实现高效的训练和推理。为了充分发挥该单元的潜力,研究者重新审视了相邻块结构的设计。
与 Mamba 等其他线性 RNN 类似,以前的 xLSTM 架构将与通道卷积相结合的 mLSTM 单元置于线性上投影和下投影之间,这被称为预上投影(pre up-projection )块。这些块将序列混合和通道混合结合在一个块中,因此均匀堆叠,而无需交错位于前馈 MLP 层。尽管预上投影块架构已展示出了对 1.4B 参数 xLSTM 的竞争性语言建模性能,但由于以下几方面的原因,它在计算效率方面付出了很大代价:
- 在预上投影块中,mLSTM 在比模型嵌入维数高得多的维数上运行,这导致 mLSTM 操作的计算成本和 GPU 内存使用量大幅增加。
- 省略位置前馈 MLP 层会导致模型中高效线性层 FLOP 的比例下降。
- 以前的 xLSTM 架构使用几个额外的组件,例如可学习的残差连接、通道卷积以及用于计算查询、键和值的小(块对角化)投影层。如果没有自定义内核融合,这些小操作会导致 GPU 上出现多个短内核调用,无法有效利用张量核心,从而大幅降低 GPU 利用率。
- 以前,输入和遗忘门预激活是通过连接的查询、键和值投影计算出来的。而在大规模张量并行训练设置中,这需要每个 mLSTM 块进行额外的全归约操作,从而增加总体通信成本。
因此,为了将 xLSTM 扩展到更大的模型大小,研究者通过解决以上四个限制来优化 mLSTM 块以实现最大效率。
对于优化 mLSTM 块,研究者首先在模型的嵌入维数而不是更高维数的空间中操作 mLSTM 单元,并在每个 mLSTM 层之后放置位置前馈 MLP 层。此修改增加了高度优化的线性层(即矩阵乘法)FLOP 的比例,并降低了 mLSTM 操作的计算成本。显著减少的 GPU 内存使用量使得在训练期间可以使用更大的批大小,从而提高了训练效率。
此外,研究者放弃了通道卷积和可学习的残差连接等操作,并用密集线性层替换块查询、键和值投影。这再次增加了线性层 FLOP,并确保有效使用 mLSTM 层内的张量核。最后,确保每个 head 的门预激活都是独立计算的。
这些优化产生了下图 1 和下图 8 中改进后的 mLSTM 块和 xLSTM 架构,其中在 xLSTM 7B 架构中堆叠了 32 个 mLSTM 块。
下表 4 为 xLSTM 7B 的超参数,包括模型参数(近 70 亿)、词表大小(50257)、块数量(32)、模型维数(4096)以及 head 数(8)。
研究者观察到,本文优化在 1.4B 参数的模型训练中实现了 3.5 倍的加速,但在验证困惑度方面略有损失,可以通过增加几个训练步骤来缓解,详见下表 2。
优化稳定性
研究者发现,先前在 7B 参数规模下的 xLSTM 架构在训练初期阶段常出现不稳定现象。具体而言,他们观察到在较高学习率条件下训练会导致梯度幅度和损失值剧烈波动。本文通过以下方法解决了这些稳定性问题:
- 使用 RMSNorm 替代 LayerNorm;
- 对输入门和遗忘门实施软上限限制;
- 对输入门偏置进行负初始化。
1. 使用 RMSNorm 的预归一化(Pre-Norm with RMSNorm)
下图 9 中的实验证实,预归一化技术同样适用于 xLSTM 架构的预归一化层。因此,研究者在 xLSTM 架构中将 LayerNorm 替换为 RMSNorm(全称为 Root Mean Square Normalization)。
2. 门控软上限限制(Gate Soft-Capping)
为了降低潜在的大幅异常特征和相关损失峰值,研究者对输入门和遗忘门的预激活值
应用了软上限限制,使其值被限制在特定上限值 a 的 - a 与 a 之间。本文采用 a=15 对门控进行限制,所使用的函数为
3. 负输入门偏置初始化(Negative Input Gate Bias Initialization)
研究者发现,在训练初期,xLSTM 模型会出现较大的梯度范数峰值,这对模型的最终性能产生不利影响(详见下图 11)。将输入门初始化为较大的负值(如 - 10)能有效缓解这些梯度范数峰值,从而提升模型性能。
综上所述,这些优化措施使 xLSTM 7B 的预训练过程变得极为稳定,如下图 2 所示。
语言建模性能评估
Huggingface 排行榜
研究者首先在 7B 参数规模上,将 xLSTM 7B 与最先进的 Transformer 和循环神经网络(RNN)大语言模型进行了基准测试。
结果总结在下表 1 中,显示 xLSTM 7B 在 7B 规模模型中排名居中,其中一些表现更好的模型受益于更大规模的训练数据集。研究者认为,如果使用更大且更精心策划的训练数据集,尤其是在早期训练阶段更加注重数学和代码数据,xLSTM 7B 可能会达到最强 7B 模型的性能水平。
长文本评估与微调
研究者将 xLSTM 与几种基线模型进行了比较:作为 Transformer 基线的 Llama 2 7B(未进行长文本微调)和 Llama 3.1 8B(已进行长达 131K 词元的长文本微调),作为状态空间模型(State Space Model,SSM)基线的 CodestralMamba 和 FalconMamba,以及作为额外循环神经网络(Recurrent Neural Network,RNN)基线的 RWKV-5/6。
下表 3 展示了 RULER 评估结果。对于 xLSTM 7B,预训练中的长文本降温(cooling)阶段极大地提升了其长文本处理能力,使其性能与状态空间模型相当,并且优于 RWKV-5/6。
值得注意的是,长文本 xLSTM 7B 在 131K 上下文长度时实现了 20% 的平均准确率,尽管在降温阶段训练时仅使用了最多 32K 的上下文长度。这一点尤为显著,因为与具有不断增长的 KV 缓存(Key-Value cache)的 Transformer 不同,xLSTM 7B 必须在有限容量的固定大小内存中存储整个序列的信息(见表 3)。
速度基准测试
本研究主要关注本地单用户推理场景,这在模型部署到边缘设备时较为常见。除非另有说明,研究在单个英伟达 H100 GPU 上对批大小为 1 的 xLSTM 7B 模型进行生成式推理基准测试,并将其与 Llama 2 和 Llama 3 模型进行了比较。
生成吞吐量
如下图 4 所示,由于注意力机制随输入上下文长度呈二次方增长,Transformer 模型在较长预填充长度下的文本生成速度显著降低。
研究表明,xLSTM 7B 的文本生成速度比 Mamba 快约 50%,这主要得益于其优化的块设计。即使在预填充长度为 0 的情况下,xLSTM 7B 也比采用类似块设计的基于 Llama 的 Transformer 模型更快。
生成效率与内存消耗分析
研究者测量了不同生成长度下的 token 生成时间和 GPU 内存使用情况(不包括预填充)。图 5(左)展示了循环模型在计算时间上呈线性增长,与 Transformer 呈二次方增长的对比;图 5(右)则显示了循环模型内存占用保持恒定,而 Transformer 的 KV 缓存随生成长度线性增长的对比。
得益于优化的模块设计,mLSTM 在低维空间中运行,使得 xLSTM 7B 模型与 Mamba 模型相比具有显著更低的内存占用(如下图 5 右侧所示)和更短的生成时间(如图 5 左侧所示)。
TTFT(Time To First Token)
在语言模型作为用户界面(可能在边缘设备上)的应用场景中,较短的响应时间至关重要。下图 6 展示了不同模型在处理各种长度的预填充(prefill)内容后,生成 1 个或 100 个 token 所需的响应时间或延迟。在所有预填充长度条件下,xLSTM 7B 模型均表现出最快的响应速度。
#StableAnimator
复旦&微软开源: 首个端到端ID一致性人类视频生成,Github Star破千
第一作者、第二作者分别为复旦大学研究生涂树源、邢桢,通讯作者为复旦大学吴祖煊副教授。
近年来,扩散模型在图像与视频合成领域展现出强大能力,为图像动画技术的发展带来了新的契机。特别是在人物图像动画方面,该技术能够基于一系列预设姿态驱动参考图像,使其动态化,从而生成高度可控的人体动画视频。此类技术在多个应用场景中展现出巨大潜力,包括:(1)影视行业:为动画制作提供高效解决方案,使虚拟角色的动画生成更加精细与便捷。(2)游戏行业:赋予游戏角色和虚拟人物自然流畅的动作表现,增强交互体验,使虚拟世界更加真实。(3)自媒体内容创作:助力短视频创作者与数字艺术家拓展创意边界,实现高度定制化的动态形象设计。
人像动画生成的关键在于:基于参考图像和输入的动作序列合成动态视频,同时确保人物身份特征(尤其是面部信息)的一致性。然而,现有方法在处理复杂动作变化时仍然面临诸多挑战:(1)身份一致性受损,面部区域在剧烈动作下易产生形变和失真,难以保持稳定的个体特征。(2)视频质量下降,当前最先进的人像动画生成模型(如 MimicMotion 和 ControlneXt)依赖外部换脸工具(FaceFusion)进行后处理,这种方式虽能改善局部细节,但往往降低整体视频的视觉质量。(3)空间与时间建模的矛盾,即便已有众多专注于身份一致性的图像生成模型,直接将其嵌入视频扩散模型却常导致建模冲突。其根本原因在于,视频扩散模型引入时间建模层后,原本稳定的空间特征分布被扰动,而基于图像 的 ID 保护方法通常依赖于静态的空间特征分布,这种失衡导致身份保持能力下降,并在 ID 还原与视频流时序畅度之间产生难以调和的矛盾。
为了解决上述问题,我们提出了 StableAnimator 框架,以实现高质量和高保真的 ID 一致性人类视频生成,目前代码已开源,包括推理代码和训练代码。
- 论文地址:https://arxiv.org/abs/2411.17697
- 项目主页:https://francis-rings.github.io/StableAnimator/
- 项目代码:https://github.com/Francis-Rings/StableAnimator
- 项目 Demo: https://www.bilibili.com/video/BV1X5zyYUEuD
,时长05:55
方法简介
如图所示,StableAnimator 在 Stable Video Diffusion (SVD) 这一常用骨干模型的基础上进行构建,以高效处理用户输入的参考图像,生成符合输入姿态序列的视频。其关键流程包括三条并行的特征提取与融合路径:(1)参考图像首先通过冻结的 VAE 编码器转换为潜变量特征,这些特征被复制以匹配视频帧数,并与主要潜变量拼接,以确保时序一致性。(2)图像同时经过 CLIP 图像编码器,提取全局外观嵌入,这些嵌入分别输入至去噪 U-Net 的每个交叉注意力层以及 StableAnimator 专门设计的面部编码器,以增强生成图像的外观一致性。(3)此外,图像还经过 ArcFace 进行面部特征提取,生成的面部嵌入进一步由 StableAnimator 的面部编码器优化,以提升面部对齐度和身份一致性,优化后的嵌入最终输入至去噪 U-Net 以指导生成过程。同时,PoseNet 结构(类似于 AnimateAnyone)负责提取输入姿态序列的运动特征,并将其添加至噪声潜变量特征中,以确保生成视频的姿态精准匹配输入序列。
在推理阶段,StableAnimator 采用去噪生成策略,将原始输入视频帧替换为随机噪声,同时保持其他输入信息不变,以确保生成过程的灵活性和泛化能力。其核心创新在于引入了一种基于 Hamilton-Jacobi-Bellman(HJB)方程的面部优化方法,以提升身份一致性并彻底摆脱对外部换脸工具的依赖。具体而言,该方法将 HJB 方程的求解过程嵌入到去噪步骤中,通过计算 HJB 方程的最优解,引导 U-Net 在潜变量特征的分布调整上朝向更高的身份一致性方向收敛。这样一来,去噪过程不仅仅是对随机噪声的纯粹去除,更是一个动态优化过程,使生成的视频在保持高质量的同时,实现面部特征的精准保留,从而在身份一致性与视频保真度之间达到更优的平衡。
StableAnimator 的核心技术点包括以下三个方面:
(1)全局内容感知面部编码器(Global Content-aware Face Encoder):该编码器创新性地将面部特征与全局图像布局深度融合,利用多层交叉注意力机制,使面部嵌入特征精准对齐参考图像的整体上下文。通过这种方式,它有效过滤掉与身份无关的背景噪声,确保面部建模更加稳定,从而提高面部特征的一致性和清晰度。
(2)分布感知的身份适配器(Distribution-aware ID Adapter):针对扩散模型中时序层对空间特征分布的干扰问题,该适配器引入了一种分布对齐策略。具体而言,它通过计算面部特征和全局图像特征的均值与方差,确保二者在整个去噪过程中保持一致性,避免特征偏移和失真。该适配器的设计使得面部特征能够无缝适配时序建模层,同时维持视频整体的空间一致性和视觉质量。
(3)基于 Hamilton-Jacobi-Bellman (HJB) 方程的面部优化:此优化过程仅在推理阶段激活,并不会影响 U-Net 的参数更新。StableAnimator 通过在扩散推理过程中引入 HJB 方程优化,使面部特征的调整遵循最优路径选择原则。HJB 优化过程与去噪步骤并行进行,使优化后的变量对去噪路径施加约束,从而促使模型在生成过程中保留更高的身份一致性,同时显著减少面部区域的细节损失,确保视频的高质量输出。
生成结果示例
请点击访问项目主页(https://francis-rings.github.io/StableAnimator/)获取以上示例的高清原视频。
实验对比分析
1. 与 SOTA 方法的定性对比实验
现有方法在处理面部和身体变形以及服装变化方面存在明显局限。例如,Disco、MagicAnimate、AnimateAnyone 和 Champ 在姿态转换过程中容易导致面部特征扭曲或服装结构丢失,而 Unianimate 在动作匹配方面表现良好,能够精准调整参考图像的姿态,但仍难以保证身份一致性。同时,MimicMotion 和 ControlNeXt 在保留服装细节方面具有优势,但在身份特征一致性上仍然存在缺陷。相比之下,StableAnimator 通过精确建模姿势序列驱动图像动画化,在动态生成过程中不仅保持了参考图像的身份特征完整性,而且确保了生成结果的细节准确性和生动性,充分展现了在身份一致性和高质量动画生成方面的显著优势。
2. 与 SOTA 方法的定量对比实验
StableAnimator 在 TikTok 数据集和 Unseen100 数据集上与当前最先进(SOTA)的人像图像动画模型进行了定量对比。其中,Unseen100 数据集从主流视频网站额外收集的 100 个视频组成,相较于 TikTok 数据集,Unseen100 具有更复杂的动作信息和更精细的主体外观,尤其是包含位置变化和面部表情动态变化(如摇头动作),使得保持身份一致性更具挑战性。为了确保公平性,所有模型均在 StableAnimator 的训练集上进行训练后,再在 Unseen100 上进行评估。对比实验结果表明,StableAnimator 在面部质量(CSIM)和视频保真度(FVD)方面均超越所有对比模型,同时保持了较高的单帧质量。特别是,相较于当前最优的 Unianimate,StableAnimator 在 TikTok 和 Unseen100 数据集上的 CSIM 分别提升了 36.9% 和 45.8%,而这一显著的身份一致性提升并未以牺牲视频保真度和单帧质量为代价,充分验证了其在高质量人像动画生成中的卓越性能。
3. 与 SOTA 方法在长视频生成的对比实验
,时长00:01
,时长00:17
,时长00:06
,时长00:16
#详解vLLM和SGLang awq dequantize kernel的魔法
本文详细解析了 vLLM 和 SGLang 中 AWQ int4 反量化 kernel 的实现原理和优化技巧。该 kernel 利用 IEEE 754 浮点数表示特性,通过 LOP3 和 PRMT 等 PTX 指令高效地将 int4 权重转换为 fp16 格式,避免了传统方法中的多次移位和类型转换,显著提升了反量化操作的性能。
0x0. 前言
本片文章解析一下vLLM/SGLang中 awq int4的反量化kernel,这个kernel触发条件为当输入x的shape的tokens<256时,这个时候会先把int4的awq权重使用awq_dequantize反量化回float16,然后调用PyTorch Matmul执行float16的乘法,代码位置见:https://github.com/vllm-project/vllm/blob/b82662d9523d9aa1386d8d1de410426781a1fa3b/vllm/model_executor/layers/quantization/awq.py#L162-L184
def apply(self,
layer: torch.nn.Module,
x: torch.Tensor,
bias: Optional[torch.Tensor] = None) -> torch.Tensor:
qweight = layer.qweight
scales = layer.scales
qzeros = layer.qzeros
pack_factor = self.quant_config.pack_factor
out_shape = (x.shape[:-1] + (qweight.shape[-1] * pack_factor, ))
reshaped_x = x.reshape(-1, x.shape[-1])
# num_tokens >= threshold
FP16_MATMUL_HEURISTIC_CONDITION = x.shape[:-1].numel() >= 256
if FP16_MATMUL_HEURISTIC_CONDITION:
out = ops.awq_dequantize(qweight, scales, qzeros, 0, 0, 0)
out = torch.matmul(reshaped_x, out)
else:
out = ops.awq_gemm(reshaped_x, qweight, scales, qzeros,
pack_factor)
if bias isnotNone:
out.add_(bias)
return out.reshape(out_shape)
本文要解析的就是这里的 vllm ops.awq_dequantize这个kernel,这个kernel的代码单独抽出来只有几十行代码,但是代码中涉及到的魔法和数学有点多,如果不了解这里的原理就会很痛苦,所以我这里来详细解析一下。vllm ops.awq_dequantize这个算子的原始来源是FasterTransformer仓库,然后sglang的sgl-kernel也有一份针对这个算子的干净实现,并通过调整线程块有更快的速度,我这里直接针对这份代码来解析,链接见:https://github.com/sgl-project/sglang/blob/main/sgl-kernel/csrc/gemm/awq_kernel.cu#L7-L127
还需要说明一下,对于AWQ/GPTQ来说,权重的量化不是PerChannel的而是GroupWise的,也就是在K方向会有GS组Scales和Zeros,例如假设K/GS=128,那就是在K方向有128行的Weight共享一个Scales和Zeros。因此,它和PerChannel的差异就是需要在反量化的时候乘以Scales并加上Zeros。除此之外,AWQ本身需要在Activation计算之前乘以它自己的ActScale。在下面的Kernel中,针对的是weight,K方向就是行(row)方向。
0x1. 接口函数
// PyTorch接口函数,用于AWQ权重反量化
torch::Tensor awq_dequantize(torch::Tensor qweight, torch::Tensor scales, torch::Tensor qzeros){
// 获取输入张量的维度信息
int qweight_rows = qweight.size(0);
int qweight_cols = qweight.size(1);
int group_size = qweight_rows / scales.size(0); // 计算量化组大小
// 设置CUDA网格和块的维度
int x_num_threads = 16;
int y_num_threads = 16;
int x_blocks = qweight_cols / x_num_threads;
int y_blocks = qweight_rows / y_num_threads;
// 确保在正确的CUDA设备上执行
const at::cuda::OptionalCUDAGuard device_guard(device_of(qweight));
// 创建输出张量,与scales具有相同的数据类型和设备
auto output_tensor_options = torch::TensorOptions().dtype(scales.dtype()).device(scales.device());
at::Tensor output = torch::empty({qweight_rows, qweight_cols * 8}, output_tensor_options);
// 获取各个张量的数据指针
auto _qweight = reinterpret_cast<int*>(qweight.data_ptr<int>());
auto _scales = reinterpret_cast<half*>(scales.data_ptr<at::Half>());
auto _zeros = reinterpret_cast<int*>(qzeros.data_ptr<int>());
auto _output = reinterpret_cast<half*>(output.data_ptr<at::Half>());
// 配置CUDA核函数的执行参数
dim3 num_blocks(x_blocks, y_blocks);
dim3 threads_per_block(x_num_threads, y_num_threads);
// 获取当前CUDA流并启动核函数
const cudaStream_t stream = at::cuda::getCurrentCUDAStream();
dequantize_weights<<<num_blocks, threads_per_block, 0, stream>>>(
_qweight, _scales, _zeros, _output, group_size, qweight_cols);
// 返回反量化后的权重张量
return output;
}
需要注意的点是,kernel的输入是int4类型的,输出是float16类型的,然后输入的shape是[qweight_rows, qweight_cols],输出的shape是[qweight_rows, qweight_cols * 8]。由此,我们也可以看出输入数据的元素是一个32位整数 source,它包含了8个4位整数(每个4位可以表示0-15的值)。这8个4位整数被紧密地打包在一起,如下图所示:
[4bit][4bit][4bit][4bit][4bit][4bit][4bit][4bit]
接下来,在kernel launch配置方面,使用二维的线程网格和线程块,并且每个线程处理输入Tensor中的一个元素,非常直观:
int x_num_threads = 16;
int y_num_threads = 16;
int x_blocks = qweight_cols / x_num_threads;
int y_blocks = qweight_rows / y_num_threads;
dim3 num_blocks(x_blocks, y_blocks);
dim3 threads_per_block(x_num_threads, y_num_threads);
0x2. dequantize_weights kernel 流程
// 权重反量化的CUDA kernel,最大线程数为256
__global__ void __launch_bounds__(256) dequantize_weights(
int* __restrict__ qweight, // 量化后的权重
half* __restrict__ scales, // 量化比例因子
int* __restrict__ qzeros, // 量化零点
half* __restrict__ output, // 输出的反量化权重
int group_size, // 量化组大小
int qweight_cols) { // 量化权重的列数
// 计算当前线程处理的列和行索引
int col = blockIdx.x * blockDim.x + threadIdx.x;
int row = blockIdx.y * blockDim.y + threadIdx.y;
// 获取当前处理位置的零点,并反量化为fp16x2格式
uint4 zeros = dequantize_s4_to_fp16x2(qzeros[col + (row / group_size) * qweight_cols]);
// 加载对应的缩放因子
uint4 loaded_scale = *(uint4*)(scales + 8 * col + (row / group_size) * qweight_cols * 8);
// 将量化权重反量化为fp16x2格式
uint4 weight_fp16 = dequantize_s4_to_fp16x2(qweight[col + row * qweight_cols]);
// 对每个fp16x2元素执行(weight - zero) * scale操作
// 处理第一对fp16值
asmvolatile("sub.f16x2 %0, %1, %2;n" : "=r"(weight_fp16.x) : "r"(weight_fp16.x), "r"(zeros.x));
asmvolatile("mul.rn.f16x2 %0, %1, %2;n" : "=r"(weight_fp16.x) : "r"(weight_fp16.x), "r"(loaded_scale.x));
// 处理第二对fp16值
asmvolatile("sub.f16x2 %0, %1, %2;n" : "=r"(weight_fp16.y) : "r"(weight_fp16.y), "r"(zeros.y));
asmvolatile("mul.rn.f16x2 %0, %1, %2;n" : "=r"(weight_fp16.y) : "r"(weight_fp16.y), "r"(loaded_scale.y));
// 处理第三对fp16值
asmvolatile("sub.f16x2 %0, %1, %2;n" : "=r"(weight_fp16.z) : "r"(weight_fp16.z), "r"(zeros.z));
asmvolatile("mul.rn.f16x2 %0, %1, %2;n" : "=r"(weight_fp16.z) : "r"(weight_fp16.z), "r"(loaded_scale.z));
// 处理第四对fp16值
asmvolatile("sub.f16x2 %0, %1, %2;n" : "=r"(weight_fp16.w) : "r"(weight_fp16.w), "r"(zeros.w));
asmvolatile("mul.rn.f16x2 %0, %1, %2;n" : "=r"(weight_fp16.w) : "r"(weight_fp16.w), "r"(loaded_scale.w));
// 计算输出指针位置并存储结果
half* output_ptr = output + 8 * col + 8 * row * qweight_cols;
*(uint4*)output_ptr = weight_fp16;
}
这里整体是非常好理解的,我们根据线程id定位到当前线程处理的列和行索引之后分别加载零点zeros,缩放系数loaded_scale和权重weight_fp16并对zeros/weight_fp16应用dequantize_s4_to_fp16x2反量化kernel把当前行列所在的int32类型的值(8个int4)反量化为8个half类型的输出值,注意这里是用4个half2来存储的。然后使用(weight - zero) * scale操作来完成反量化的过程。
这里解析一个asm volatile("sub.f16x2 %0, %1, %2;n" : "=r"(weight_fp16.x) : "r"(weight_fp16.x), "r"(zeros.x));指令:
这行代码使用了CUDA PTX,用于执行半精度浮点数(fp16)的减法操作。它的基本语法为:
asm [volatile] ("汇编指令" : 输出操作数 : 输入操作数 : 可能被修改的寄存器);
下面是详细解析:
- asm volatile:
- asm 关键字表示这是内联汇编代码
- volatile 修饰符告诉编译器不要优化或重排这段汇编代码,确保它按照指定的顺序执行
- sub.f16x2 %0, %1, %2;n:
- 这是实际的CUDA PTX汇编指令
- sub.f16x2 是CUDA的指令,表示对两个并排的fp16值(packed half2)执行减法操作
- %0, %1, %2 是占位符,分别对应后面定义的输出和输入操作数
- n 是换行符,用于格式化汇编代码
- : "=r"(weight_fp16.x) : "r"(weight_fp16.x), "r"(zeros.x));
- 第一个冒号后的 "=r"(weight_fp16.x) 是输出操作数,=r 表示这是一个输出到通用寄存器的值
- 第二个冒号后的 "r"(weight_fp16.x) 和 "r"(zeros.x)) 是两个输入操作数,r 表示它们来自通用寄存器
通过这个指令就实现了反量化中的减零点的功能,kernel中其它的ptx指令类推。
0x3. dequantize_s4_to_fp16x2 kernel(魔法发生的地方)
这段代码对应的原理在nvidia 2023年夏日专场其实简单讲了一下,我这里结合当时的PPT复述一下这里的原理,通过这个复述读者稍后就可以知道代码中的那一堆魔术和用于计算的PTX指令是做了什么了。注意下面引用的图来BiliBili NVIDIA英伟达频道 上传的《TensorRT-LLM中的 Quantization GEMM(Ampere Mixed GEMM)的 CUTLASS 2.x 实现讲解》。
FasterTransformer 高效的Int8/Int4 快速Convert为FP16
这张slides展示了FP16的IEEE 754标准,一个16bit的数里面包含1个符号位,5个基码位,10个尾数。
假设我们有一个uint8的数143,如果我们把它放到实际的FP16的尾数位里面去,那么我们是否有办法通过合理的设置基码位把143表达出来呢?那我们按照已知的FP16的数值计算方法,拿基码位的二进制前面加上一个1.x,然后去乘以2的(基码位的值-15)次方,我们已知143对应的实际上对应的是下面的值。假设我们想用这个FP16的值来表达Int8,我们可以发现如果x=25的话,我们把上面的FP16的值减去1024就是下面的143了。因此,我们只需要把int8的值放到尾数位,然后把它的基码位设置成25,然后再把FP16的数值结果减去1024就可以得到UINT8转换到FP16的值。
总结一下就是直接把UINT8的数值放在FP16的尾数位,
然后再把FP16的基码位设置成25,这个25对应的十六进制表示就是0x64,
随后再把最终的这个值减去FP16形式的1024,就完成了从UINT8到FP16的转换。
如果是Int8的话,应该怎么做呢?可以注意到UINT8和INT8只是数值范围的区别,那么我们需要把INT8的数据加上128,就能把它转换成UINT8的形式。这样转换出来的FP16的结果,只需要在减去1024的时候多减去128,就恢复到了对应的原始INT8的数值。
那么我们怎么实际的去用指令完成上面描述的这个操作呢?可以注意到有一种叫作prmt的PTX指令,这个指令做的事情就是从2个32bit的寄存器A,B中抽出4个8bit组成最终的d。而这4个8bit怎么抽取,就是每个8bit对应到c寄存器里面的低4bit,就是说c寄存器的低4bit每个bit都是一个索引,假设A,B两个32位寄存器里面存放的是上方左图这样的数据形式,即ABCDEFGH。那么在c寄存器中,索引的4个数字分别是1,3,5,7,那么最终这个D寄存器里面的4个8bit数据就是GECA。通过这种指令就可以实现从32bit寄存器里面抽取对应想要的一个字节出来的效果。
对应到TRT-LLM的转换代码就是这样的形式,我们可以注意到它用permute指令从输入的UINT8数据和magic number组成的这两个32位寄存器中去抽取4个8bit,抽取的索引放在这个mask_for_elt_01/23中。这里的两个掩码值 mask_for_elt_01 = 0x5250 和 mask_for_elt_23 = 0x5351 是用于CUDA的PRMT(Permute)指令的控制参数,它们决定了如何重排字节。
--------------------分割线---------------------
这里我感觉比较难理解,所以下面详细拆解一下:
PRMT指令基础
首先,PRMT指令的格式是:
prmt.b32 d, a, b, c;
其中,d 是目标寄存器;a 和 b 是源寄存器;c 是控制码(即我们讨论的掩码)。然后PRMT指令将 a 和 b 的字节重新排列,根据控制码 c 中的每个字节决定输出的每个字节。
掩码的二进制表示
将掩码转换为二进制 (我用计算器算的):
掩码的工作原理
在PRMT指令中,控制码 c 的每个字节控制输出的一个字节。每个控制字节的格式为:
[7:6] 选择源(00=a的低字, 01=a的高字, 10=b的低字, 11=b的高字)
[5:3] 保留或用于其他功能
[2:0] 选择字节索引(0-3)
mask_for_elt_01 (0x5250) 分析
拆分为4个字节:0x52, 0x50
- 第1个字节 0x52 = 0101 0010
- 01: 选择a的高字(即源数据的高16位)
- 010: 选择索引2的字节
- 第2个字节 0x50 = 0101 0000
- 01: 选择a的高字
- 000: 选择索引0的字节 这个掩码用于提取源数据中的第0和第2个字节(即偶数位置的字节),并将它们放入结果的低16位。
mask_for_elt_23 (0x5351) 分析
拆分为4个字节:0x53, 0x51
- 第1个字节 0x53 = 0101 0011
- 01: 选择a的高字
- 011: 选择索引3的字节
- 第2个字节 0x51 = 0101 0001
- 01: 选择a的高字
- 001: 选择索引1的字节 这个掩码用于提取源数据中的第1和第3个字节(即奇数位置的字节),并将它们放入结果的低16位。
对应到代码
asmvolatile("prmt.b32 %0,%1,%2,%3;n" : "=r"(h[0]) : "r"(i8s), "r"(start_byte_for_fp16), "r"(mask_for_elt_01));
asmvolatile("prmt.b32 %0,%1,%2,%3;n" : "=r"(h[1]) : "r"(i8s), "r"(start_byte_for_fp16), "r"(mask_for_elt_23));
- 第一条指令使用mask_for_elt_01提取源数据i8s中的偶数位置字节(0和2),并与start_byte_for_fp16(0x64006400)结合
- 第二条指令使用mask_for_elt_23提取源数据i8s中的奇数位置字节(1和3),并与start_byte_for_fp16结合
staticconstexpruint32_t I8s_TO_F16s_MAGIC_NUM = 0x64806480; asmvolatile("sub.f16x2 %0, %1, %2;n" : "=r"(h[0]) : "r"(h[0]), "r"(I8s_TO_F16s_MAGIC_NUM)); asmvolatile("sub.f16x2 %0, %1, %2;n" : "=r"(h[1]) : "r"(h[1]), "r"(I8s_TO_F16s_MAGIC_NUM));
之后再像我们刚才描述的那样,在它的基础上减掉(1024+128)就得到了真实的这4个INT8对应的FP16的值。注意这里的 (1024+128)是dtype=float16下的1152对应的二进制。
----------------------------分割线-----------------------------
我们可能会注意到,这里为什么要分别抽取01和23,而不是抽取0123呢?这主要是为了和之后的INT4的实现保持一致,在INT4的实现里不得不按照02,13的方式去抽取。
前面介绍了INT8到FP16的转换,如果是INT4应该怎么转呢?permute指令只能以8Bit为单位进行数据的操作,但是在4Bit的转换中,我们知道4Bit就是一个8Bit里面高4Bit存一个数据,低4Bit存另外一个数据。那么,我们就需要一种形式能把实际的8Bit里面的高低4个Bit给抽取出来。
抽取出来之后我们应该怎么做呢?先看低4个bit,假设我们以位运算的方式把8Bit中的低4个Bit给抽取出来放到一个FP16的尾数里面去,然后前面也在基码位上赋值和Int8相同的25,也就是16进制的64。我们再把这个得到的值减去(1024+8),就得到了最终这个低4Bit对应的FP16的值。
那如果是高4个Bit应该怎么做呢?我们注意到低4个Bit是直接放到最低的4个Bit位,高4个Bit同样用位运算抽取出来之后这高4个Bit是存在于一个Int8的高4Bit里面,那放到尾数位的话那么它就需要去进行一个额外的除以16的操作,相当于右移了4位,最后就移到了黄色的位置。移动到这里之后,就可以进行和刚才一样的那些操作了,减去对应的值就得到了实际对应的FP16的值。这里减去的值是1024/16=64,因为移位的原因还要减掉8。
注意到在提取Int4数据的时候是用这张Slides的形式去提取的,而刚好有一种叫lop3的PTX指令可以完成这件事情。lop3这个PTX指令的大概描述就是他会在输入a, b, c三个寄存器作为输入,然后有一个Lut值,这个Lut值是怎么确定的呢?假设a,b,c分别对应了0xF0,0xCC,0xAA,我们把这三个值进行我们想要的操作得到的值作为Lut值,把这个Lut值放进去之后指令就会自动对a, b, c进行相应的操作,把结果写到d。所以,我们就可以利用这个指令把Lut值给它,它就可以帮我们高效完成Int4数据的提取了。最后,我们就把Int4转成FP16的过程转换成了一条lop3指令加上一条fma(或者sub)指令。
结合我们的AWQ的转换代码,LOP3的应用是:
asmvolatile("lop3.b32 %0, %1, %2, %3, %4;n"
: "=r"(h[0])
: "r"(i4s), "n"(BOTTOM_MASK), "n"(I4s_TO_F16s_MAGIC_NUM), "n"(immLut));
这里LOP3指令实现了类似 (i4s & BOTTOM_MASK) | I4s_TO_F16s_MAGIC_NUM 的操作,但只用一条指令就完成了,大大提高了效率。
这张Slides展示了Int4到FP16的具体代码实现,我们注意到它提取的时候会用到0x0f或者0xf0来提取Int4,这样的话假如我们有连续的Int4的话,那被提取出来的分别是第0个Int4和第4个Int4以及第1个Int4和第5个Int4。所以它的奇偶被分别提取了出来。实际上我们是用8个连续的Int4来进行类型转换,因此它每次先把第0个Int4和第4个Int4提取出来,放到两个连续的FP16里面去,然后再去把第1和第5个Int4提取出来,放到两个连续的FP16里面去,以此类推。我们之前在做Int8的时候也分奇偶提取就和这里不得不做的这个数据提取动作保持一致。
为了实际计算的时候去逆转这个元素排布的变化,我们需要在计算之前把Layout进行相应的调整。就是说以Int4位例的话就分别把它的奇偶位元素分别提取出来,这样在我们真正做计算把它从INT4转成FP16的时候,就会通过上一页Slides介绍的操作完成对这个Layout的逆运算,还原回了真实的连续排布的layout。
这就是描述的最后一种快速的Int4/Int8转FP16的优化的layout变化。通过这种优化就把前面提到的一个convert指令转换成了一系列lop3或者prmt指令。虽然指令数没有变化,但是指令的latency会更低。
dequantize_s4_to_fp16x2 kernel 解析
实际上上面的原理解析的代码就是这个dequantize_s4_to_fp16x2 kernel,根据上面的原理解析添加了几个注释,现在细节应该都比较清楚了。
__device__ uint4 dequantize_s4_to_fp16x2(uint32_tconst& source){
#if defined(__CUDA_ARCH__) && __CUDA_ARCH__ >= 750
uint4 result;
uint32_t* h = reinterpret_cast<uint32_t*>(&result);
uint32_tconst i4s = reinterpret_cast<uint32_tconst&>(source);
// First, we extract the i4s and construct an intermediate fp16 number.
staticconstexpruint32_t immLut = (0xf0 & 0xcc) | 0xaa;
staticconstexpruint32_t BOTTOM_MASK = 0x000f000f;
staticconstexpruint32_t TOP_MASK = 0x00f000f0;
staticconstexpruint32_t I4s_TO_F16s_MAGIC_NUM = 0x64006400;
// 注释说明了这种实现的优势:
// 1. 整个序列只需要1条移位指令
// 2. 利用寄存器打包格式和无符号整数表示
// 3. 利用sub和fma指令具有相同的吞吐量来优化转换
// 将i4s右移8位,用于处理第4-7个元素
// 提前发出以隐藏RAW依赖关系
constuint32_t top_i4s = i4s >> 8;
// 提取并转换第0和第1个元素(低字节的低4位)
// 使用LOP3指令实现(i4s & BOTTOM_MASK) | I4s_TO_F16s_MAGIC_NUM
asmvolatile("lop3.b32 %0, %1, %2, %3, %4;n"
: "=r"(h[0])
: "r"(i4s), "n"(BOTTOM_MASK), "n"(I4s_TO_F16s_MAGIC_NUM), "n"(immLut));
// 提取并转换第2和第3个元素(低字节的高4位)
// 使用LOP3指令实现(i4s & TOP_MASK) | I4s_TO_F16s_MAGIC_NUM
asmvolatile("lop3.b32 %0, %1, %2, %3, %4;n"
: "=r"(h[1])
: "r"(i4s), "n"(TOP_MASK), "n"(I4s_TO_F16s_MAGIC_NUM), "n"(immLut));
// 提取并转换第4和第5个元素(高字节的低4位)
asmvolatile("lop3.b32 %0, %1, %2, %3, %4;n"
: "=r"(h[2])
: "r"(top_i4s), "n"(BOTTOM_MASK), "n"(I4s_TO_F16s_MAGIC_NUM), "n"(immLut));
// 提取并转换第6和第7个元素(高字节的高4位)
asmvolatile("lop3.b32 %0, %1, %2, %3, %4;n"
: "=r"(h[3])
: "r"(top_i4s), "n"(TOP_MASK), "n"(I4s_TO_F16s_MAGIC_NUM), "n"(immLut));
// 定义用于最终转换的魔数常量
// 表示fp16格式的{1024, 1024}
staticconstexpruint32_t FP16_TOP_MAGIC_NUM = 0x64006400;
// 表示fp16格式的{1 / 16, 1 / 16},用于缩放高4位的值
staticconstexpruint32_t ONE_SIXTEENTH = 0x2c002c00;
// 表示fp16格式的{-64, -64},用于偏移校正
staticconstexpruint32_t NEG_64 = 0xd400d400;
// 最终转换步骤:将中间fp16值转换为实际的int4值
// 处理第0和第1个元素:直接减去1024
asmvolatile("sub.f16x2 %0, %1, %2;n" : "=r"(h[0]) : "r"(h[0]), "r"(FP16_TOP_MAGIC_NUM));
// 处理第2和第3个元素:乘以1/16再减去64
// 相当于(h[1] * 1/16 - 64),因为高4位需要右移4位
asmvolatile("fma.rn.f16x2 %0, %1, %2, %3;n" : "=r"(h[1]) : "r"(h[1]), "r"(ONE_SIXTEENTH), "r"(NEG_64));
// 处理第4和第5个元素:直接减去1024
asmvolatile("sub.f16x2 %0, %1, %2;n" : "=r"(h[2]) : "r"(h[2]), "r"(FP16_TOP_MAGIC_NUM));
// 处理第6和第7个元素:乘以1/16再减去64
asmvolatile("fma.rn.f16x2 %0, %1, %2, %3;n" : "=r"(h[3]) : "r"(h[3]), "r"(ONE_SIXTEENTH), "r"(NEG_64));
return result; // 返回包含8个fp16值的uint4结构
#else
assert(false); // 如果CUDA架构低于7.5,则断言失败
return {};
#endif
}
0x4. 总结
本文详细解析了vLLM/SGLang中AWQ int4反量化kernel的实现原理和优化技巧。该kernel巧妙利用IEEE 754浮点数表示特性,通过LOP3和PRMT等PTX指令高效地将int4权重转换为fp16格式。通过直接操作尾数位和基码位,避免了传统转换方法中的多次移位和类型转换,实现了高性能的反量化操作。整个过程只需少量高效指令,充分利用了CUDA硬件特性,是一种精巧的底层优化技术。因为很底层,所以代码实现虽然简短但引入了大量的Magic Number和先验知识,我这里结合nvidia的一个PPT和自己的理解把它搞清楚了,希望可以帮助到有相同困惑的读者。
#AI Agent 发展史
从 RL 驱动到大模型驱动
从 Agent 前沿研究中一窥复制 Manus 的启示。
Manus 的出现将智能体推入当下 AI 格局的前列,使得这个过去略抽象的概念变得具体可感知。然而行业中也不乏对 Manus 的争议,认为 Manus 没有底层技术创新力,更多的是将现有技术融合从而在工程上创新,即所谓的“套壳”。
虽说工程创新也是一种护城河,但“套壳”的说法也并非完全没道理。近几年的时间里,学界和业界关于 Agent 的技术和实践成果颇丰。在 AI 智能体推理与决策研讨会(AIR 2025)上,来自伦敦大学学院、新加坡南洋理工大学、Weco AI、Google DeepMind、Meta、华为、阿里等多位学术界和工业界的研究人员围绕强化学习、推理决策、AI 智能体展开讨论。
新加坡南洋理工大学的安波教授揭示了从基于强化学习的智能体到由大型语言模型驱动的智能体的演变,分享了团队多项关于 Agent 的工作进展,其中 Q* 算法以多步骤推理作为审慎规划,在学习 Q 值模型的过程中,需要经历离线强化学习以交替更新 Q 值标签并拟合 QVM、使用表现最佳的回滚轨迹的奖励、使用与更强大 LLM 一起完成的轨迹的奖励三个关键步骤。
初创公司 Weco Al 的 CTO Yuxiang 阐述了在解空间中寻找智能的一些时间,介绍了由人工智能驱动的 Agent—— AIDE,能够处理完整的机器和工程任务。如果将机器学习和工程视为一个代码优化问题,那么它就会将整个搜索或代码优化的过程形式化为在解空间中的树搜索。在这个被形式化的解空间中,AIDE 是一个任何大语言模型都可以编写的代码空间。
来自伦敦大学学院的宋研从 DeepSeek 切入,讨论了强化学习在大型语言模型推理中的作用,并指出 DS 又一个“Aha时刻”,即在强化学习阶段,大型语言模型学会了自我纠正,这可能是由于其基础模型已经具备自我纠正的能力。基于此进一步发现,当 Agent 使用某些关键词时,它们会进行各种回溯、自我报告和复杂推理。
谷歌 Deepmind 研究员冯熙栋初步阐述了将强化学习的组成部分用自然语言描述出来的理念,将会把所有强化学习的概念重新定义为自然语言表示的内容,尝试将策略、值函数、贝尔曼方程、蒙特卡洛采样、时间差分学习以及策略改进操作符等,映射到它们的自然语言对应中。
AIR2025 由伦敦大学学院汪军、Meta GenAI 田渊栋等教授联合主办,致力于推动智能系统的发展,使其能够自主、适应性强且负责任地运行(会议详情及注册可访问官网:https://ai-agent-reasoning.com)。本次会议特别鸣谢来自加州大学伯克利分校的博士后研究员顾尚定。
AI 科技评论截取会议部分精彩内进行编译,以下为核心内容的演讲实录
1 Agent 驱动力变革:从 RL 到 LLM
新加坡南洋理工大学的安波教授做了主题为《From RL-based to LLM-powered Agents》的演讲,揭示了近年来从基于强化学习的智能体到由大型语言模型驱动的智能体的演变,分享了多项关于 Agent 的工作进展。
去年,我们做了一些工作,结合了一个临时模型,以提高其在某些基准问题中的性能。我们的方法是尝试从与环境的交互中学习策略,因此它具有很强的落地能力,所以我想我们在这里尝试结合先验知识的优势,从模型和落地能力中汲取优势,以提高性能。
因为对于这项工作,我们发现利用知识模型可以提高其在某些实际工作场景中的性能。
推理和推断非常重要,尤其是在 OpenAI-o1 和 DeepSeek R1 发布之后,我们有一个纯粹基于自己研究的版本,这确实非常困难。
但事实上,我们在 OpenAI 发布相关模型之前就发布了关于 Q* 的第一篇论文。我们需要一个 G 函数,用于估算从初始状态到当前节点的成本。在我们的工作中,我们使用的 G 函数是通过利用文献中的数据来训练模型的。对于启发式函数(h 值),我们实际上是自己进行了修正。
所以,基于我们的数据,训练这样一个强大的模型有很多方法。最终,我们将这两者结合起来,并应用 A* 搜索算法,以提升大型语言模型的推理能力。
所以,我们早期做了些实验。你可以降低那些数值,因为那时候基础模型还不够强大。我想关键点是,如果你应用这种推理方法,它可以提升基础模型的性能。
然后我们以某种方式训练它们的 Q 值函数。所以,我们还在考虑是否能够克服困难,例如,将这种方法应用于改进最近的 DeepSeek 模型以及其他模型。
所以,我们在比较控制方面也做了一些关于 Synapse 的工作,是我们去年年初发表的成果之一。这些工作涉及一些想法,比如状态抽象训练、从演示中学习,以及使用记忆等方法,来改进计算机控制任务。
我们还提供了一个用于构建通用虚拟Agent的开发者工具包。我们提供了更好的界面,还提供了更强大的前端支持,并且提供了大量的基准测试,用于设计适用于PC控制、计算机控制等场景的通用虚拟Agent,也适用于移动设备的控制。
接下来的这项工作涉及利用语言模型驱动的智能体来玩具有挑战性的电子游戏。
因此,我们构建了一个智能体架构,包括不同的组件,例如我们需要理解环境。它包含一个反思模型、记忆模型、检索模型等,用于应对许多具有挑战性的电子游戏和不同的软件。这个项目是开源的,对于感兴趣的人非常有吸引力。
我们最近做了一些尚未发表的工作,是关于使用强化学习(RL)对语言模型进行微调的。
我想这在某种程度上与一些早期工作有所不同,在我们过去看到的大多数工作中,强化学习并没有涉及智能体。你知道的,人们只是构建不同的组件,使用语言模型作为大脑,并结合其他组件来处理复杂任务。
但在这里,我认为在未来,对于许多现实世界的问题,我们需要强化学习的能力。然而,如果我们想将强化学习应用于这些场景,会面临许多挑战,其中最显著的是探索空间的指数级增长。因为开放和实际动作技能的采样空间会随着矩形的大小和厚度呈指数级增长,因为探索空间是在token级别上的,所以token空间非常庞大。因此,我们需要解决探索问题。同时,我们注意到并非所有token在最终决策动作中都发挥有意义的作用。
所以,我认为我们在这里得到的启示是,我们必须设计一些机制来决定如何进行更有效的探索,以便提高强化学习微调的效率,从而提升语言模型的性能。因此,我们设计了一个名为“CoSo”的方法,它包含几个关键思想。首先,我们使用事实推理来识别对动作至关重要的token。
不是每个token都对智能体最终采取的动作产生影响,或者产生相同的影响。因此,我们使用因果推理来找出这些token,然后利用这些信息来决定如何进行探索。其次,我们可以中断优化过程,将我们的探索集中在那些有影响的token上。
这是利用我们在第一步中学到的结果。然后我们尝试进行了许多实验,可以看到这种方法显著提高了视觉语言模型(VLM)在一些非常具有挑战性的任务中的性能。我认为这还是一项正在进行的工作,例如我刚才提到的创造性工作。
2在解空间中寻找智能
初创公司 Weco Al 的 CTO Yuxiang 做了题为《AlDE: Searching Intelligence in the Space of Solutions》的分享,阐述在解空间中寻找智能的新思考,介绍了一种由人工智能驱动的强大的 Agent—— AIDE。
我们之所以称之为 AIDE 是因为,它就像一种由人工智能驱动的强大的 Agent,能够处理完整的机器和工程任务。所以,如果将机器学习和工程视为一个代码优化问题,那么它就会将整个搜索或代码优化的过程形式化为在解空间中的树搜索。在这个被形式化的解空间中,它只是一个任何大语言模型都可以编写的代码空间。
你可能见过其他更具体的Agent,比如那些提示 APIAgent 或反应式 Agent,它们将所有历史解决方案组织成树状结构。然后,将所有这些历史解决方案纳入上下文中,但这个过程实际上是递增的。因此,它会迅速积累上下文信息,所以在长期的代码优化过程中,它可能不会表现得很好。
所以,这个问题被重新定义为一个优化问题。机器学习可以在机器中完成,然后我们可以定义所有相关的评估指标。这与我们提出的机器学习工程 Agent 非常契合,其定义的奖励或优化目标也非常简单。我们只是在这个代码空间中进行搜索,目标是优化机器学习代码和机器学习工程任务中的目标函数。这个目标函数可以是验证精度、损失,或者是任何与你的机器学习成本相关的指标。
而代码空间在本例中被非常具体地定义为用于解决该问题的Python脚本空间。好处是我们现在可以在一个公平的指标上比较解决方案,并且使这些依赖于单一标准已知评估的研究方法更加统一,整个搜索过程也会更加稳健。
因此,我们开发了这种算法,它本质上是一个树搜索问题。你从一棵空树开始,首先会生成一个初始节点,实际上是一组基础解决方案。然后,它通过查看现有的代码和现有的解决方案,迭代地提出新的解决方案。这些解决方案已经生成了,然后它会提出你的解决方案,并且基于这个想法,它会生成那段代码,然后运行代码以评估解决方案,并记录新的节点。
这里的评估指标是滚动(scroll),通常在机器学习任务中,这个指标可以是精度(accuracy)、损失(loss)或者随便你怎么称呼它。然后它会根据这个指标选择下一个节点,以便进一步优化。所以,它涉及了所有这些搜索策略、总结操作符以及编码操作符。这些操作符不再完全由算法定义,而是部分由大型语言模型定义。
所以,为了更直观地展示,我们从 S0 开始,这是一个初始的空解决方案,也就是我们的数据状态。我们还没有任何现有的机器学习任务的解决方案,然后它开始起草三个。例如,起草三个方向不同的解决方案。所以在提示中,有一个技巧是我们会明确要求它探索不同的方向,以确保 S01、 S2 和 S3 之间有足够的多样性。然后在下一步,它会选择一个节点开始优化。
例如,尝试不同的步骤来修复问题,如果成功修复了,它就成为一个有效的解决方案。然后这个解决方案就被存储为一个有效的解决方案,此时你有了一个当前最佳节点,比如 S5,然后它开始探索下一个要优化的节点。它会保证每个草拟的解决方案至少被探索一次,并且会从 S2 等节点分别生成另一个改进方案,然后评估为解决方案6或7,这个过程会不断持续,直到用尽所有的优化步骤。
所以最终,选择最优解其实相当简单,因为所有这些解决方案都是用相同的评估指标来评估的。所以,基于评估指标,你就能得到那个最优解。
是什么定义了整个过程呢?有几个关键组件。首先是搜索策略。在这个案例中,我们实际上采用了一个非常简单的热编码策略。
在起草阶段,当它起草多个解决方案时,由于它还没有一棵树,也就是说我们还没有分配初始解决方案,它会创建多个解决方案来探索不同的方法。而在调试阶段,当它进入调试阶段后,它会有一个最大调试步数限制,它会在那个节点停留,直到达到允许的最大调试步数。
通常我们会将这个最大调试步数设置为10到20步,以避免这个Agent花费过多时间在调试上,从而陷入几乎无限循环,浪费大量时间和计算资源。当然,最重要也最有趣的部分并不是什么时候选择一个节点来进行改进。
所以当它完成调试或起草后,就会进入一个阶段,来改进一个桶节点。这只是一个贪婪算法,它会选择树中当前表现最好的解决方案,然后决定进一步优化树中表现最高的那个节点。
所以在编码操作符中,我们也会根据不同的阶段采用不同的提示策略。比如在起草阶段,我们会鼓励它为模型架构和特征工程制定一个计划,并要求它生成一个单文件Python程序来实现这个计划。在底层阶段,Agent会收到错误日志和堆栈跟踪,以识别问题所在。
然后,它会通过保留整体先前的方法来纠正问题。因此,我们确保调试实际上不会改变解决方案本身。在改进模式或改进阶段,我们会提示Agent提出一个原子级别的改变。这是另一个我们希望纳入这个框架的观察结果,即每一步实际上都是可解释的。行动本身是可解释的,并且是原子性的。
因此,我们不允许Agent或大型语言模型一次提出多个改进。相反,我们会提示它逐步、增量地进行改进。在这个过程中,我们不会跳过任何中间步骤的优化想法,这使得它能够进行更细致的探索,并且在整体上更具可解释性。
也就是说,它能够更好地展示出达到最优解的最佳路径是什么。例如,切换优化器、添加一层、使网络变得更深,或者从一种架构转换到另一种架构、添加正则化等。如果你检查它最终生成的树轨迹或树结构,你会发现很多这样的原子优化步骤,而且很多时候这些步骤是非常有洞察力的。
最后,因为一个最大的问题是你需要管理上下文,比如可能需要运行8个步骤。例如,OpenAI运行了500个步骤,即使是Gemini,也没有办法真正处理那么长的上下文。所以,必须有一种方法来管理上下文。这就是我们所说的总结操作符,它会提取相关信息,以避免上下文过载。
总结操作符会包含性能指标,比如当前的准确率、高参数设置和调试阶段的信息。这是非常重要的,尤其是在调试阶段。好处是我们可以截断它之前可以处理的节点数量。
我们可以将总结后的信息放入大型语言模型的上下文中,以生成调试节点或改进节点。这将保持一个几乎恒定的窗口大小,供Agent使用,这使我们能够真正扩展到很长的时间范围,比如对比步骤。
而且,因为我们将其定义为逐步改进,这也使得整个优化操作符变得无状态。它不再依赖于整个轨迹,而是无状态的,不会像提示或上下文大小那样呈爆炸式增长。
3 聚焦通用型 GUI Agent
来自 Huawei London 的邵坤做了主题为《Towards generalist GUl Agents: model and optimization》的演讲,介绍了面向通用型 GUI Agent 的模型和优化。
以下是GUI Agent的演示,他们有不同的任务,比如我们有三个不同的平台。第一个是获取关于美元的研究结果,我们可以从主用户界面页面开始。然后,我们可以执行一些步骤前往麦当劳,进入麦当劳餐厅并搜索那里的薯条,我们还可以设置多个步骤并提高目标。这就是GUI Agent可以帮助我们的地方。
在另一个网站上,GUI Agent 也许可以找到一些更好的解决方案,帮助人类完成这类任务。这就是 GUI Agent 的意义。
从2023年到2025年,你可以看到 GUI Agent 已经广泛流行起来。它重新引发了对Agent研究的关注,无论是学术界还是大型科技公司都在关注GUI Agent。这种关注不仅局限于移动设备,还涵盖了网站和计算领域。
我们还将这些主题引入到 GUI Agent 中,例如第一个是关于生成的。实际上,使用这种模型来指导行动并不好。因此,当我们为GUI Agent提供当前模型能力时,我们有不同类型的改进方法来实现更好的模型。但你必须理解,如何实现,如何为UI设计Pythonian,以及如何设计分层架构。
第二个是关于Agent系统。在我们有了项目模型之后,我们还需要一些其他自动化的模型来提高GUI Agent的性能和效率。为了实现这一点,我们有不同的解决方案,我们可以有数据库规划、反射机制、也可以使用记忆和检索器。
我还想强调的另一个重点是,我们还想做很多关于微调的工作,因为可以说强化学习对于Agent的微调是非常重要的,我们需要某种目的。例如,如何利用当前模型作为评判。如何发挥生成角色模型的作用,以及如何为角色模型进行更好的微调。同时,我们需要找到更好的方法来实现我们高效、可靠且稳健的强化学习训练,并且我们需要找到最适合GUI Agent的算法。
最后一个问题是关于评估的。当设计不同的基准任务时,对于两个Agent来说评估非常重要,我们需要设计评估指标。
同样,我们也提出一些研究问题。
第一个问题是,我们需要找到并提出一个基准测试。因为目前我们可以看到很多关于GUI Agent的论文。所以我们需要设计一个全面的基准测试,它可以用于不同的应用程序,以及不同的Agent。因此,当你找到一个用于评估Agent的流程时,它不仅仅依赖人工干预。
第二部分是,我们需要设计一个行动模型。众所周知,如果我们仅仅使用当前的基础模型来执行Agent任务,那么我们需要找到一些方法来训练出性能良好且高效的模型。
最后一个问题是关于如何为GUI Agent进行高效的强化学习微调。我们必须让Agent能够充分利用有限的数据,并逐步提高性能。对于GUI Agent来说,进行微调并不是一件容易的事,因此我们还需要找到一些方法来解决这个问题。
4 DeepSeek 强化学习的“Aha时刻”
来自 UCL 的宋研 ,做了主题为《The Power of Reinforcement Learning in LLM Reasoning》的演讲,讨论了强化学习在大型语言模型推理中的作用。
这是R1-zero的结果,它的基准测试结果非常好,甚至比OpenAI的o1还要出色。更令人印象深刻的是,它的训练过程非常稳定。而且它在扩展性方面表现出色。对于R1-zero来说,它在过去的准确率方面并不比最新的原始版本更好。但当你尝试生成内容时,它显然能够产生更好的结果。
还有他们在论文中提到的一个“Aha时刻”。在强化学习阶段,语言模型学会了增加思考预算。这可能是因为你需要更多的token来进行思考,从而解决一些难题。这一观点得到了一些支持。他们发现,当Agent使用某些关键词时,它们会进行各种回溯、自我报告和复杂推理。
但对此也有另一种可能的解释。首先,基础模型本身已经具备自我纠正的能力。所以,从技术角度来看,这并不是一个非常“Aha”的时刻,而是表明强化学习确实可以在简单的设置下发挥作用。我认为这才是最重要的。
对于R1版本,他们使用初始数据开始训练,然后在强化学习(RL)的场景中进行训练。结论是,大型语言模型(LLM)具有强大的能力,能够进行稳定的强化学习,而小型语言模型则采用知识蒸馏的方式进行训练。
在R1发布之后,我们在后续的训练和增量更新中推出了TinyZero,这是一个30亿参数的大型模型。此外,SimpleRL是在70亿参数的LLM上实现的Zero-RL。所以,所有这些工作都使用了Zero-RL。至少基本的想法是,你需要有一个强大的基础模型,以便能够学会推理。下一步是它们可以学会探索,然后它们可以学会自我纠正。
最近也有一些多模态的Zero-RL工作。这些工作基于Open-R1代码库、OpenRLHF代码库或Verl代码库。
我们也在小规模上进行了一些实验。基本设置是我们尝试在数学问题上进行训练,选择的难度等级为三到五,这与SimpleRL之前的代码库设置相同,我们发现这相当重要。我们需要进行筛选,而我们是在Qwen2.5-Math-7B上进行的。
其性能表现良好,如图所示。蓝色线条表示从基础模型开始的强化学习,它能够推广到AIME2024,这非常难以解决。但它仅在数学问题上进行训练,通过使用监督微调数据,它可以在GSM8k上获得更好的性能。但在AIME2024上,它给出的结果非常糟糕。这意味着,监督微调数据可能会损害强化学习带来的泛化能力。
我们还在LLaMA上进行了实验,但结果并不理想。
接下来,Yan Song 也分享一些最近工作中的前瞻见解。
5 自然语言强化学习新范式
来自 UCL、Google Deepmind 的冯熙栋探讨了《Natural Language Reinforcement Learning》,介绍了把强化学习的组成部分用自然语言描述出来的理念。
如果我们有了新的强化学习范式,那会怎样?如果我们不学习已经确定的值函数,而是学习语言值函数呢?也就是说,我们尝试用自然语言来描述状态的值、描述状态-动作对。为什么不干脆把所有强化学习的组成部分都用语言表达出来呢?这正是我们最近努力的方向。
我们是从传统的强化学习概念中汲取灵感,但我们正在将所有这些强化学习的概念重新定义为自然语言表示空间中的内容。我们尝试将策略、值函数、贝尔曼方程、蒙特卡洛采样、时间差分学习以及策略改进操作符等,映射到它们的自然语言对应中。
这里我展示了一个这样的例子。在强化学习中,你有一个策略,它是分布式的。但在自然语言强化学习中,你可能会有一个语言策略。也就是说,你不一定需要直接将你的状态和动作映射过去。相反,你可以尝试说:“我先对状态进行一些分析,然后再采取行动。”所以,让我们用语言策略来响应。
在传统的强化学习中,你有标量奖励,即即时奖励。但在自然语言强化学习中,你可能会有语言反馈,比如“你达到了目标”,这不仅仅像传统强化学习中的+1奖励,它可以包含更丰富的信息。
在状态方面,你不需要是一个高维状态,你也可以用语言来描述状态。例如,你可以这样说“你正在滚动……”之类的内容。对于值函数,在强化学习中,我们过去习惯于使用预期的累积奖励。但现在,我们可以有一个更自然的语言表示。我们可以尝试用语言描述符来总结未来的轨迹,最终,还有贝尔曼方程。
传统的贝尔曼方程试图衡量当前状态与其后续状态之间的关系。我们也可以在自然语言评估中做类似的事情。如果你试图评估当前的状态,那么你的当前状态评估不可能与后续状态评估相差甚远。因此,你的自然语言评估必须在连续状态之间具有一致性、自我一致性。所以,这也是贝尔曼方程,但它发生在自然语言空间中。
同样地,我们可以尝试将传统的蒙特卡洛采样和时间差分学习方法映射到自然语言中。假设我们有两种语言聚合器 G1 和 G2 。在传统的蒙特卡洛方法中,我们通过采样大量的轨迹来估计其折扣奖励的累积和,并试图通过计算这些轨迹的平均奖励来估计我们的轨迹。
在自然语言中,我们也可以做类似的事情。我们从时间步 (t+1) 开始采样,直到无穷大。我们有很多基于语言的几何采样结果,并且假设我们有一些语言信息聚合器,因为当然,我们不能对语言进行求平均或求和操作,因为它们不是数字。但如果有一个语言聚合器,我们可以要求它从这些不同的采样语言轨迹中总结和聚合信息。
G1 可以负责从多个轨迹中聚合评估结果,并将所有步骤聚合到一个项目中。这在物理上是完全相同的事情,只是发生在不同的空间中。因此,我们需要在传统强化学习中实现不同的聚合操作符。在传统强化学习中,它是平均值;在基于语言的案例中,它只是一个语言聚合器。
对于时间差分学习也是如此。时间差分学习的理念是,如果你试图评估当前状态的值,你可以向前迈出一步,并将即时奖励与未来状态评估结果结合起来,以形成你对当前状态的评估。
在自然语言强化学习中,我们也可以做完全相同的事情。假设我们有 G1 和 G2 这两个语言聚合器, G2负责将即时奖励和未来评估结果合并。我们可以让 G2 接收即时转换的描述和未来状态评估结果,并让 G1 负责从多个轨迹中聚合评估结果。虽然在传统强化学习和自然语言强化学习中,它们的实现方式不同,但理念是相似的。你可以通过不同的聚合器看到我们的新语言时间差分学习是如何响应传统时间差分学习的。
阐述完概念之后,Xidong Feng 也谈了这种方法的具体实现,给出了如何利用大型语言模型(LLMs)实现自然语言强化学习(NLRL)的几条路径。
6 Qwen长文本能力:更快速度、更低成本
阿里通义千问的林俊旸做了题为《Qwen: Towards Generalist Models》的演讲,系统介绍了通义千问在技术、工程化方面的进展,以下是关于通义千问大模型在数据量方面的细节。
在Qwen2.5版本中,数据量扩展到18T。但现在我们正在考虑用更多的token进行训练,比如30万亿到40万亿个token。这只是一个很大的数量,但对于训练大型模型来说很重要,不仅需要高质量的数据,还需要大量的数据。这就是为什么我们在进行多阶段预训练,因为你需要训练大量的数据。但数据中有脏数据,在第一阶段,然后是更高质量的,再到不同阶段的更高质量。
在模型规模方面,我们开源了7种不同规模的模型,范围从0.5B到72B。因此,你可以通过这些不同规模的模型来研究扩展规律。但目前我们讨论的是密集型模型,我们现在正在考虑MoE(Mixture of Experts)模型,它与密集型模型有些相似,但在训练和内存模型方面有更多的技术细节,但总体上它仍然遵循扩展规律。
在扩展模型规模方面,不仅仅是模型本身的规模,还有激活参数的规模。还有一种扫描方式,但模型规模门控实际上已被证明是非常有效的。我们的开源模型中有许多细节,你可以去查看这些细节。
在上下文长度扩展方面,这也是我们之前非常关注的一个问题。人们之前训练的模型上下文长度为 32K tokens 然后扩展到 128k tokens token。真的有这么长吗?但你甚至可以将其扩展到甚至1000万,这也是有可能的。现在人们正在考虑转向无限长度,所以他们希望使用类似传统的多头注意力机制来实现。也许线性注意力是未来的发展方向,但在这一领域我们还没有取得重大突破。
但我们有一些技术可以将其进一步扩展,而无需进一步训练。这是一种无需训练的技术,称为 Trunk Attention(截断注意力),你可以查看 Trunk Attention 的技术报告。
我们团队在ICML上发表了一篇相关论文,还有另一个技术问题是在部署方面。拥有100万上下文token的模型,部署起来非常困难。因此,你需要使用一些技术来引入稀疏性,从而加快推理速度。你可以看到,之前首次生成一个token需要5分钟,而现在只需要1分钟,这也意味着它会更便宜,因为注意力机制中存在稀疏性,但我们发现性能并没有下降,或者在100万token的上下文中,我们得到了一个性价比很高的预期性能。
除了理解长上下文之外,还有另一种扩展,那就是生成长上下文的能力。以前我们能够生成 8k tokens,但你会发现这还不够。因为现在我们有长链式推理(Long Chain of Thought),所以,它之前还不足以生成非常、非常长的文本,但如今情况已经大不相同了。也许现在它能够生成像 12.8k 个 token 的文本,这实际上是可以实现的。对于目前的Qwen来说,它实际上能够生成大约 32k 的 token。
#最新「大模型简史」整理
从Transformer(2017)到DeepSeek-R1(2025)
2025年初,我国推出了一款开创性且高性价比的「大型语言模型」(Large Language Model, LLM) — — DeepSeek-R1,引发了AI领域的巨大变革。
本文回顾LLM的发展历程,以2017年具有革命性意义的Transformer架构为起点。
1. 什么是语言模型 (Language Models)?
「语言模型」是一种「人工智能系统」,旨在处理、理解和生成类似人类的语言。它们从大型数据集中学习模式和结构,使得能够产生连贯且上下文相关的文本,应用于翻译、摘要、聊天机器人和内容生成等领域。
图片
1.1 大型语言模型(LLMs)
「语言模型」(LMs)和「大型语言模型」(LLMs)这两个术语虽然经常被互换使用,但实际上它们基于规模、架构、训练数据和能力指代不同的概念。LLMs 是 LMs 的一个子集,其规模显著更大,通常包含数十亿个参数(例如,GPT-3 拥有 1750 亿个参数)。这种更大的规模使 LLMs 能够在广泛的任务中表现出卓越的性能。“LLM”这一术语在 2018 至 2019 年间随着基于 Transformer 架构的模型(如 BERT 和 GPT-1)的出现开始受到关注。然而,在 2020 年 GPT-3 发布后,这个词才被广泛使用,展示了这些大规模模型的重大影响力和强大能力。
1.2 自回归语言模型 (Autoregressive Language Models)
大多数LLMs以「自回归方式」(Autoregressive)操作,这意味着它们根据前面的「文本」预测下一个「字」(或token/sub-word)的「概率分布」(propability distribution)。这种自回归特性使模型能够学习复杂的语言模式和依赖关系,从而善于「文本生成」。
在数学上,LLM 是一个概率模型(Probabilistic Model),根据之前的输入文本(₁₂ₙ₋₁)预测下一个字ₙ 的概率分布。这可以表示为:
ₙ₁₂ₙ₋₁
在文本生成任时,LLM通过解码算法(Decoding Algorithm)来确定下一个输出的字。
这一过程可以采用不同的策略:既可以选择概率最高的下个字(即贪婪搜索),也可以从预测的概率分布中随机采样一个字。后一种方法使得每次生成的文本都可能有所不同,这种特性与人类语言的多样性和随机性颇为相似。
1.3 生成能力
LLMs的自回归特性使其能够基于前文提供的上下文逐词生成文本。从「提示」(prompt)开始,如下图,模型通过迭代预测下一个词,直到生成完整的序列或达到预定的停止条件。为了生成对提示的完整回答,LLM通过将先前选择的标记添加到输入中进行迭代生成,尤如「文字接龙」游戏。
LLM的文本生成尤如「文字接龙」游戏
这种生成能力推动了多种应用的发展,例如创意写作、对话式人工智能以及自动化客户支持系统。
2. Transformer革命 (2017)
Vaswani等人在2017年通过其开创性论文“Attention is All You Need”引入了Transformer架构,标志着NLP的一个分水岭时刻。它解决了早期模型如循环神经网络(RNNs)和长短期记忆网络(LSTMs)的关键限制,这些模型在长程依赖性和顺序处理方面存在困难。
这些问题使得使用RNN或LSTM实现有效的语言模型变得困难,因为它们计算效率低下且容易出现梯度消失等问题。另一方面,Transformers克服了这些障碍,彻底改变了这一领域,并为现代大型语言模型奠定了基础。
自注意力和Transformer架构
2.1 Transformer架构的关键创新
自注意力机制 (Self-Attention):与按顺序处理标记并难以应对长程依赖性的RNN不同,Transformers使用自注意力来权衡每个标记相对于其他标记的重要性。这使得模型能够动态关注输入的相关部分。数学上:
这里,Q、K、V是查询(query)、键(key)和值(value)矩阵,dₖ是键的维度。自注意力允许并行计算,加快训练速度,同时提高全局上下文理解。
多头注意力:多个注意力头并行操作,每个头专注于输入的不同方面。它们的输出被连接并转换,从而实现更丰富的上下文表示。
前馈网络(FFN)和层归一化(Layer Norm):每个Transformer层包括应用于每个标记的前馈网络,以及层归一化和残差连接。这些稳定了训练并支持更深的架构。
位置编码:由于Transformers本身不编码标记顺序,因此添加了位置编码(位置和频率的正弦函数)以表示词序,在不牺牲并行化的情况下保留顺序信息。
对语言建模的影响
- 可扩展性:Transformers实现了完全并行化的计算,使得在大型数据集上训练大规模模型成为可能。
- 上下文理解:自注意力捕捉局部和全局依赖关系,提高了连贯性和上下文意识。
Transformer架构的引入为构建能够以前所未有的精确性和灵活性处理复杂任务的大规模高效语言模型奠定了基础。
3. 预训练Transformer模型时代 (2018–2020)
2017年Transformer架构的引入为NLP的新时代铺平了道路,其特点是预训练模型的兴起和对扩展的前所未有的关注。这一时期见证了两个有影响力的模型家族的出现:BERT和GPT,它们展示了大规模预训练和微调范式的强大功能。
3.1 BERT:双向上下文理解 (2018)
2018年,谷歌推出了BERT(Bidirectional Encoder Representations from Transformers),这是一种使用Transformer编码器(Encoder)的突破性模型,在广泛的NLP任务中取得了最先进的性能。
与之前单向处理文本(从左到右或从右到左)的模型不同,BERT采用了双向训练方法,使其能够同时从两个方向捕获上下文。通过生成深层次的、上下文丰富的文本表示,BERT在文本分类、命名实体识别(NER)、情感分析等语言理解任务中表现出色。
BERT的关键创新包括:
- 掩码语言建模(Masker Language Modeling — MLM):BERT不是预测序列中的下一个词,而是被训练预测句子中随机掩码的标记。这迫使模型在进行预测时考虑整个句子的上下文 — — 包括前后词语。例如,给定句子“The cat sat on the [MASK] mat”,BERT会学习根据周围上下文预测“soft”。
- 下一句预测(Next Sentence Prediction — NSP):除了MLM之外,BERT还接受了称为下一句预测的次要任务训练,其中模型学习预测两个句子是否在文档中连续。这帮助BERT在需要理解句子之间关系的任务中表现出色,例如问答和自然语言推理。
BERT的影响:BERT的双向训练使其在GLUE(通用语言理解评估)和SQuAD(斯坦福问答数据集)等基准测试中取得了突破性的表现。它的成功证明了上下文嵌入的重要性 — — 这些表示根据周围词语动态变化 — — 并为新一代预训练模型铺平了道路。
3.2 GPT:生成式预训练和自回归文本生成(2018–2020)
虽然BERT优先考虑双向上下文理解,但OpenAI的GPT系列采用了不同的策略,专注于通过自回归预训练实现生成能力。通过利用Transformer的解码器(Decoder),GPT模型在自回归语言模型和文本生成方面表现出色。
GPT (2018)GPT的第一个版本于2018年发布,是一个大规模的Transformer模型,经过训练以预测序列中的下一个词,类似于传统语言模型。
- 单向自回归训练:GPT使用因果语言建模目标进行训练,其中模型仅基于前面的标记预测下一个标记。这使得它特别适合于生成任务,如文本补全、摘要生成和对话生成。
- 下游任务的微调:GPT的一个关键贡献是它能够在不需要特定任务架构的情况下针对特定下游任务进行微调。只需添加一个分类头或修改输入格式,GPT就可以适应诸如情感分析、机器翻译和问答等任务。
GPT-2 (2019)在原版GPT的成功基础上,OpenAI发布了GPT-2,这是一个参数量达15亿的更大模型。GPT-2展示了令人印象深刻的零样本(Zero-shot)能力,意味着它可以在没有任何特定任务微调的情况下执行任务。例如,它可以生成连贯的文章、回答问题,甚至在语言之间翻译文本,尽管没有明确针对这些任务进行训练。
GPT-3 (2020)GPT-3的发布标志着语言模型规模扩展的一个转折点。凭借惊人的1750亿参数(175B parameters),GPT-3突破了大规模预训练的可能性界限。它展示了显著的少样本(Few-short)和零样本(Zero-short)学习能力,在推理时只需提供最少或无需示例即可执行任务。GPT-3的生成能力扩展到了创意写作、编程和复杂推理任务,展示了超大模型的潜力。
3.3 GPT的影响及规模的作用
GPT模型的引入,特别是GPT-3,标志着AI的一个变革时代,展示了自回归架构和生成能力的强大功能。这些模型为内容创作、对话代理和自动推理等应用开辟了新的可能性,在广泛的任务中达到了接近人类的表现。GPT-3凭借其1750亿参数证明了规模的深远影响,表明在大规模数据集上训练的更大模型可以树立新的AI能力标杆。
语言建模性能随着模型大小、数据集大小和训练使用的计算量的增加而平稳提升。https://arxiv.org/pdf/2001.08361
在2018年至2020年间,该领域由对规模的不懈追求驱动。研究人员发现,随着模型规模的增长 — — 从数百万到数十亿参数 — — 它们在捕捉复杂模式和泛化到新任务方面变得更好。这种规模效应得到了三个关键因素的支持:
- 数据集大小:更大的模型需要庞大的数据集进行预训练。例如,GPT-3是在大量互联网文本语料库上进行训练的,使其能够学习多样化的语言模式和知识领域。
- 计算资源:强大的硬件(如GPU和TPU)的可用性以及分布式训练技术,使得高效训练具有数十亿参数的模型成为可能。
- 高效架构:混合精度训练和梯度检查点等创新降低了计算成本,使得在合理的时间和预算内进行大规模训练更加实际。
这个规模扩展的时代不仅提升了语言模型的性能,还为未来的AI突破奠定了基础,强调了规模、数据和计算在实现最先进结果中的重要性。
4. 后训练对齐:弥合AI与人类价值观之间的差距 (2021–2022)
GPT-3(一个拥有1750亿参数的LLM)生成几乎无法与人类写作区分的文本的能力引发了关于AI生成内容的真实性和可信度的重大担忧。
尽管这一成就标志着AI发展的一个重要里程碑,但也突显了确保这些模型与人类价值观、偏好和期望保持一致的关键挑战。一个主要问题是「幻觉」(Hallucination),即LLM生成与事实不符、无意义或与输入提示矛盾的内容,给人一种「一本正经地胡说八道」的印象。
为了解决这些挑战,2021年和2022年的研究人员专注于改善与人类意图的一致性并减少幻觉,导致了监督微调(SFT)和基于人类反馈的强化学习(RLHF)等技术的发展。
4.1 监督微调 (SFT)
增强GPT-3对齐能力的第一步是监督微调(SFT),这是RLHF框架的基础组成部分。SFT类似于指令调优,涉及在高质量的输入-输出对或演示上训练模型,以教它如何遵循指令并生成所需的输出。
这些演示经过精心策划,以反映预期的行为和结果,确保模型学会生成准确且符合上下文的响应。
然而,SFT本身有局限性:
- 可扩展性:收集人类演示是劳动密集型且耗时的,尤其是对于复杂或小众任务。
- 性能:简单模仿人类行为并不能保证模型会超越人类表现或在未见过的任务上很好地泛化。
为了克服这些挑战,需要一种更具可扩展性和效率的方法,为下一步铺平了道路:基于人类反馈的强化学习(Reinforcement Learning from Human Feedback — RLHF)。
4.2 基于人类反馈的强化学习 (RLHF)
OpenAI在2022年引入的RLHF解决了SFT的可扩展性和性能限制。与需要人类编写完整输出的SFT不同,RLHF涉及根据质量对多个模型生成的输出进行排名。这种方法允许更高效的数据收集和标注,显著增强了可扩展性。
RLHF过程包括两个关键阶段:
- 训练奖励模型:人类注释者对模型生成的多个输出进行排名,创建一个偏好数据集。这些数据用于训练一个奖励模型,该模型学习根据人类反馈评估输出的质量。
- 使用强化学习微调LLM:奖励模型使用近端策略优化(Proximal Policy Optimization - PPO)(一种强化学习算法)指导LLM的微调。通过迭代更新,模型学会了生成更符合人类偏好和期望的输出。
这个两阶段过程 — — 结合SFT和RLHF — — 使模型不仅能够准确遵循指令,还能适应新任务并持续改进。通过将人类反馈整合到训练循环中,RLHF显著增强了模型生成可靠、符合人类输出的能力,为AI对齐和性能设定了新标准。
4.3 ChatGPT:推进对话式AI (2022)
2022年3月,OpenAI推出了GPT-3.5,这是GPT-3的升级版,架构相同但训练和微调有所改进。关键增强包括通过改进数据更好地遵循指令,减少了幻觉(尽管未完全消除),以及更多样化、更新的数据集,以生成更相关、上下文感知的响应。
ChatGPT基于GPT-3.5和InstructGPT,OpenAI于2022年11月推出了ChatGPT,这是一种突破性的对话式AI模型,专门为自然的多轮对话进行了微调。ChatGPT的关键改进包括:
- 对话聚焦的微调:在大量对话数据集上进行训练,ChatGPT擅长维持对话的上下文和连贯性,实现更引人入胜和类似人类的互动。
- RLHF:通过整合RLHF,ChatGPT学会了生成不仅有用而且诚实和无害的响应。人类培训师根据质量对响应进行排名,使模型能够逐步改进其表现。
ChatGPT的推出标志着AI的一个关键时刻,通常被称为「ChatGPT时刻」(ChatGPT moment),因为它展示了对话式AI改变人机交互的潜力。
5. 多模态模型:连接文本、图像及其他 (2023–2024)
在2023年至2024年间,像GPT-4V和GPT-4o这样的多模态大型语言模型(MLLMs)通过将文本、图像、音频和视频整合到统一系统中重新定义了AI。这些模型扩展了传统语言模型的能力,实现了更丰富的交互和更复杂的问题解决。
5.1 GPT-4V:视觉遇见语言
2023年,OpenAI推出了GPT-4V,将GPT-4的语言能力与先进的计算机视觉相结合。它可以解释图像、生成标题、回答视觉问题,并推断视觉中的上下文关系。其跨模态注意力机制允许文本和图像数据的无缝集成,使其在医疗保健(如分析医学图像)和教育(如互动学习工具)等领域具有价值。
5.2 GPT-4o:全模态前沿
到2024年初,GPT-4o通过整合音频和视频输入进一步推进了多模态。它在一个统一的表示空间中运行,可以转录音频、描述视频或将文本合成音频。实时交互和增强的创造力 — — 如生成多媒体内容 — — 使其成为娱乐和设计等行业的多功能工具。
视频地址:https://youtu.be/vgYi3Wr7v_g
现实世界的影响: MLLMs革新了医疗保健(诊断)、教育(互动学习)和创意产业(多媒体制作)等领域。它们处理多种模态的能力解锁了创新的新可能性。
6. 开源和开放权重模型 (2023–2024)
在2023年至2024年间,开源和开放权重AI模型获得了动力,使先进AI技术的访问民主化。
- 开放权重LLMs:开放权重模型提供公开访问的模型权重,限制极少。这使得微调和适应成为可能,但架构和训练数据保持封闭。它们适合快速部署。例子:Meta AI的LLaMA系列和Mistral AI的Mistral 7B / Mixtral 8x7B
- 开源模型使底层代码和结构公开可用。这允许全面理解、修改和定制模型,促进创新和适应性。例子:OPT和BERT。
- 社区驱动的创新:像Hugging Face这样的平台促进了协作,LoRA和PEFT等工具使高效的微调成为可能。
社区开发了专门针对医疗、法律和创意领域的模型,同时优先考虑道德AI实践。开源社区目前处于一个激动人心的阶段,得益于尖端对齐技术的出现。这一进展导致越来越多的卓越开放权重模型发布。因此,闭源和开放权重模型之间的差距正在稳步缩小。LLaMA3.1–405B模型首次历史性地弥合了与闭源对应物的差距。
7. 推理模型:从「系统1」到「系统2」思维的转变 (2024)
2024年,AI开发开始强调增强「推理」(Reasoning),从简单的模式识别转向更逻辑化和结构化的思维过程。这一转变受到认知心理学双重过程理论的影响,区分了「系统1」(快速、直觉)和「系统2」(缓慢、分析)思维。虽然像GPT-3和GPT-4这样的早期模型在生成文本等「系统1」任务上表现出色,但在深度推理和问题解决方面却有所欠缺。
「系统1」与「系统2」思维
7.1 OpenAI-o1:推理能力的一大飞跃(2024)
2024年9月12日,OpenAI发布的o1-preview标志着人工智能能力的重大飞跃,尤其是在解决复杂推理任务(如数学和编程)方面。与传统LLMs不同,推理模型采用了「长链思维」(Long CoT) — — 即内部的推理轨迹,使模型能够通过分解问题、批判自己的解决方案并探索替代方案来“思考”问题。这些CoTs对用户是隐藏的,用户看到的是一个总结性的输出。
推理模型的关键特性包括:
- 长链思维(Long CoT) :使模型能够将复杂问题分解为更小的部分,批判性地评估其解决方案,并探索多种方法,类似于搜索算法。
- 推理时计算控制 :对于更复杂的问题,可以生成更长的CoTs;而对于较简单的问题,则使用较短的CoTs以节省计算资源。
- 增强的推理能力 :尽管像o1-preview这样的初始推理模型在某些领域的能力不如标准LLMs,但在推理任务中,它们的表现远远超越了后者,常常能与人类专家媲美。例如,o1-preview在数学(AIME 2024)、编程(CodeForces)和博士级别的科学问题上均超越了GPT-4o。
OpenAI-o1:
2024年12月5日,OpenAI的完整版o1模型进一步提升了性能,在美国AIME 2024数学考试中排名前500名学生之列,并显著超越了GPT-4o(解决了74%-93%的AIME问题,而GPT-4o仅为12%)。此外,o1-mini作为更便宜且更快的版本,在编码任务中表现出色,尽管其成本仅为完整版o1的20%。
OpenAI-o3:
2025年1月31日,OpenAI发布了o3,这是其推理模型系列的最新突破,建立在o1模型成功的基础之上。尽管完整的o3模型尚未发布,但其在关键基准测试中的表现被描述为具有开创性。
- ARC-AGI :达到87.5%的准确率,超过了人类水平的85%,远超GPT-4o的5%。
- 编程 :在SWE-Bench Verified上得分71.7%,并在Codeforces上获得2727的Elo评分,跻身全球前200名竞争性程序员之列。
- 数学 :在EpochAI的FrontierMath基准测试中达到25.2%的准确率,相比之前的最先进水平(2.0%)有了显著提升。
OpenAI-o1和OpenAI-o3推理模型的发布代表了人工智能领域的重大进步,通过结构化的内部推理过程提供了卓越的问题解决能力,并在复杂数学和编程任务中树立了新的标杆。
8. 成本高效的推理模型:DeepSeek-R1 (2025)
LLMs通常需要极其庞大的计算资源来进行训练和推理。像GPT-4o和OpenAI-o1这样的最先进LLM模型的闭源性质限制了对尖端AI的「普及化」。
8.1 DeepSeek-V3 (2024–12)
2024年12月下旬,「深度求索-V3」(DeepSeek-V3)作为一种成本高效的开放权重LLM出现,为AI的可访问性设定了新标准。DeepSeek-V3与OpenAI的ChatGPT等顶级解决方案相媲美,但开发成本显著降低,估计约为560万美元,仅为西方公司投资的一小部分。
该模型最多包含6710亿个参数,其中370亿个活跃参数,并采用专家混合(MoE)架构,将模型划分为专门处理数学和编码等任务的组件,以减轻训练负担。DeepSeek-V3采用了工程效率,例如改进Key-Value缓存管理和进一步推动专家混合方法。该模型引入了三个关键架构:
- 多头潜在注意力(Multi-head Latent Attention — MLA):通过压缩注意力键和值来减少内存使用,同时保持性能,并通过旋转位置嵌入(RoPE)增强位置信息。
- DeepSeek专家混合(DeepSeekMoE):在前馈网络(FFNs)中采用共享和路由专家的混合,以提高效率并平衡专家利用率。
- 多标记预测 (Multi-Token Prediction — MTP):增强模型生成连贯且上下文相关的输出的能力,特别是对于需要复杂序列生成的任务。
DeepSeek-V3的发布引发了全球科技抛售,危及1万亿美元的市值,并导致英伟达股票盘前下跌13%。DeepSeek-V3的价格为每百万输出标记2.19美元,约为OpenAI类似模型成本的1/30。
8.2 DeepSeek-R1-Zero 和 DeepSeek-R1 (2025–01)
仅仅一个月后,2025年1月下旬,DeepSeek通过发布DeepSeek-R1-Zero和DeepSeek-R1再次引起轰动,这些模型展示了卓越的推理能力,训练成本极低。
利用先进的强化学习技术,这些模型证明了高性能推理可以在没有通常与尖端AI相关的巨额计算费用的情况下实现。这一突破巩固了DeepSeek作为高效和可扩展AI创新领导者的地位。
- DeepSeek-R1-Zero:一种基于DeepSeek-V3的推理模型,通过强化学习(RL)增强其推理能力。它完全消除了「监督微调」(SFT)阶段,直接从名为DeepSeek-V3-Base的预训练模型开始。
它采用了一种基于「规则的强化学习方法」(Rule-based Reinforcement Learning),称为「组相对策略优化」(Group Relative Policy Optimization — GRPO),根据预定义规则计算奖励,使训练过程更简单且更具可扩展性。
- DeepSeek-R1:为了解决DeepSeek-R1-Zero的局限性,如低可读性和语言混杂,DeepSeek-R1纳入了一组有限的高质量冷启动数据和额外的RL训练。该模型经历了多个微调和RL阶段,包括拒绝采样和第二轮RL训练,以提高其通用能力和与人类偏好的一致性。
- 蒸馏DeepSeek模型:DeepSeek开发了较小的、蒸馏版的DeepSeek-R1,参数范围从15亿到700亿,将先进的推理能力带到较弱的硬件上。这些模型使用原始DeepSeek-R1生成的合成数据进行微调,确保在推理任务中表现出色,同时足够轻量化以便本地部署。DeepSeek 蒸馏DeepSeek模型
DeepSeek-R1在各种基准测试中表现出竞争力,包括数学、编码、常识和写作。根据使用模式,它相比OpenAI的o1模型等竞争对手提供了显著的成本节省,使用成本便宜20到50倍。
8.3 对AI行业的影响
DeepSeek-R1的引入挑战了AI领域的既定规范,使先进LLMs得以「普及化」,并促进了一个更具竞争力的生态系统。其可负担性和可访问性预计将推动各行各业的采用和创新增加。最近,领先的云服务提供商如AWS、微软和谷歌云已在其平台上提供DeepSeek-R1。较小的云提供商和DeepSeek母公司以竞争性定价提供它。
结论
从2017年Transformer架构的引入到2025年DeepSeek-R1的发展,大型语言模型(LLMs)的演变标志着人工智能领域的一个革命性篇章。LLMs的崛起由四个里程碑式的成就标示:
- Transformers (2017):Transformer架构的引入为构建能够以前所未有的精确性和灵活性处理复杂任务的大规模高效模型奠定了基础。
- GPT-3 (2020):该模型展示了规模在AI中的变革力量,证明了在大规模数据集上训练的巨大模型可以在广泛的应用中实现接近人类的表现,为AI所能完成的任务设立了新的基准。
- ChatGPT (2022):通过将对话式AI带入主流,ChatGPT使高级AI对普通用户来说更加可访问和互动。它还引发了关于广泛采用AI的伦理和社会影响的关键讨论。
- DeepSeek-R1 (2025):代表了成本效率的一大飞跃,DeepSeek-R1利用专家混合架构(MoE)和优化算法,与许多美国模型相比,运营成本降低了多达50倍。其开源性质加速尖端AI应用的普及化,赋予各行业创新者权力,并强调了可扩展性、对齐性和可访问性在塑造AI未来中的重要性。
LLMs正逐步演变为多功能、多模态的推理系统,能够同时满足普通用户和特定需求。这一演变得益于突破性技术创新,以及在规模、易用性和成本效益上的显著提升,推动人工智能朝着更加包容和影响力深远的方向迈进。
原文链接: