介绍
原文
探究RLHF效果好的缘由。证明在线奖励模型缩小策略模型搜索空间,进而实现比离线MLE更好的效果。在理论上两种形式均是对数据的最大似然估计。
条条大路通似然:强化学习在微调中的价值
摘要:
从第一性原理的角度来看,基础模型微调(FT)中最强的结果竟是通过相对复杂的两阶段训练程序实现的,这似乎有些反常。
具体而言,首先在特定数据集(如人类偏好数据)上训练奖励模型(RM),随后将其作为下游强化学习(RL)流程的在线反馈机制,而非直接通过离线最大似然估计对策略参数进行数据集上的优化。事实上,从信息论的视角分析,通过奖励模型传递信息只会导致信息丢失,而无法通过在线策略采样创造任何新信息。(RM是对原始数据的“有损压缩”,无法完全保留所有信息。在线策略采样(On-Policy Sampling)指在强化学习过程中,根据当前策略生成新数据,并用RM对这些新数据打分。作者认为,这种在线生成的数据本质上依赖RM的反馈,而RM本身的信息量是有限的。因此,这种在线过程只是在“重复利用”已有信息,无法生成真正意义上的新信息(例如超出RM或原始数据范围的新知识)。)
要解释这种理论与实践的矛盾(即在线微调中通过RL+RM看似会损失信息,但实际效果更好),作者通过理论和实验验证了多种假设,最终发现,当生成任务和验证任务的难度存在差距时,简单易学的RM(验证器)结合下游RL筛选策略空间,能够提升性能。
在存在生成-验证差距(Generation-Verification Gap)问题的任务上
生成(Generation):生成高质量内容(如符合人类偏好的文本)可能非常复杂。
验证(Verification):判断生成内容的质量(如判断文本是否合理)可能相对简单
奖励模型(RM)存在简单性优势,由于验证任务相对简单,从人类偏好数据中学习一个简单但高效的RM(验证器)是可行的,RM不需要完全理解复杂的生成逻辑,只需对生成结果的质量给出粗略评分即可。
强化学习(RL)的筛选能力:下游RL的作用不是“创造新信息”,而是在策略空间(生成器)中高效筛选出符合RM标准的最优策略。由于RM足够简单,RL可以快速收敛到满足RM要求的策略子集,而无需遍历整个复杂策略空间。
**通俗类比(来自deepseek)**假设你要训练一个厨师(生成器):
-
直接教他做所有菜(MLE):需要海量菜谱数据,且难以覆盖所有复杂情况。
-
先教评委(RM)打分:评委只需学会“好吃”的标准(简单目标)。
-
再让厨师根据评委反馈改进(RL):厨师无需死记硬背所有菜谱,只需专注于让评委满意。
-
结果:厨师可能不会做所有菜(信息损失),但能高效学会评委认可的高分菜品(任务目标达成)。
1.引言
无论将其称为人类反馈强化学习(RLHF,Christiano等人,2017)、偏好微调(PFT)还是“对齐”,各类基础模型(FMs)训练流程的最后一步本质上都致力于提高提示词偏好补全的生成概率,同时降低非偏好补全的生成概率。
从这一视角出发,一个自然产生的问题是:为何在偏好反馈调优(PFT)问题中需要采用除最大似然估计(即标准监督学习)之外的其他方法。事实上,已有大量离线PFT方法通过直接优化策略参数来解决偏好数据的(正则化)分类问题,例如文献中提出的DPO(Rafailov等人,2023)、IPO(Azar等人,2023)以及SLiC-HF(Zhao等人,2023)。
然而,当我们审视当今最强大模型的训练流程时,几乎总会发现采用了一种相对复杂的双阶段方法——即先在偏好数据上学习奖励模型(Reward Model,RM),亦即一个分类器。再利用其向下游在线强化学习(RL)流程提供标签,优化策略参数。
在学术界、产业界和开源社区的对比研究中,我们一致观察到相对复杂的双阶段在线技术显著优于简单的纯离线方法。更广泛而言,交互式监督微调(SFT)方法也被证明优于传统的下一词预测。此外,近期具备复杂推理能力的模型(如OpenAI的o1和DeepSeek的r1)仍通过在线强化学习而非离线最大似然估计进行训练,学术研究也支持这一结论。这些发现引发了一个问题:
问:如果我们只是想最大化数据似然,那么一个两阶段、交互式的微调过程的价值是啥?
(如果目标只是最大化数据似然(即让模型输出的概率分布与偏好数据匹配),理论上可以通过简单的监督学习(如MLE)实现。但实践中,像RLHF这样的两阶段方法(先训练RM,再通过RL优化策略)效果更好。这是为什么?)
为这一问题提供满意答案的部分挑战在于,将关于在线强化学习价值的传统论点应用于基础模型后训练阶段存在困难。
1、传统观点认为,在线交互的价值在于学习者能够观察并从中纠正错误(Ross等人,2011;Swamy等人,2021),但除非语言模型具备“回溯能力”(Cundy & Ermon, 2023;Wulfmeier等人, 2024),否则这一观点显然不成立。(例如,语言模型无法像人类一样在生成过程中撤回或修改已生成的文本)
2、奖励模型(RM)与策略模型的复杂性矛盾:在FM后训练实践中,奖励模型通常与策略模型(policy)复杂度相当甚至更高,这使得经典RL理论中“奖励函数应比策略更简单”的假设失效。传统RL理论通常假设奖励函数属于简单的函数类(例如线性函数),而FM中的RM可能是与策略同等复杂的神经网络。
或许从更基础的层面来看,数据处理不等式(MacKay, 2003)告诉我们:**从原始数据到奖励模型的传递过程中,信息只会丢失而不会增加;**同时,在线策略采样(on-policy sampling)也无法创造任何新信息(无法生成超出当前策略和RM认知范围的新信息,本质上是“自我重复”)。综合这些观点,所谓的交互式训练“黄金之路”看似铺满黄金(理想中的高效优化),实则可能只是黄铁矿(虚假的繁荣)。
对此,我们通过理论和实验的双重视角,检验了关于强化学习在微调中价值的多种假设。本研究主要基于偏好微调展开,但同样适用于监督微调及基于验证器的强化学习场景。我们的贡献体现在三个方面:
-
我们证明在理想化假设下,在线与离线PFT技术应返回质量等同的策略。借助信息几何学工具,我们证明,无论偏好数据的覆盖范围或样本数量如何,**当策略模型和奖励模型采用相同的函数类别时,离线与在线偏好微调(PFT)技术会收敛到相同的优化解集。**针对近期提出的SPIN方法(Chen等人,2024)的某个变体,以及监督微调(SFT),我们也验证了类似的等价性。
-
我们通过实证否定了多个关于强化学习在偏好微调(PFT)中价值的既有/新假说。具体而言,我们证伪了以下解释:在线技术的优势仅仅源于(1)对初始策略实施了更好的正则化;(2)策略采样带来了计算效率优势;或(3)奖励模型训练使用的数据分布比策略训练更广。虽然难以完全排除这些因素的影响,但我们证明它们并非决定性因素。
-
我们针对存在"生成-验证差距"的问题提出了替代假说,并提供了理论与实证依据。在计算机科学领域,许多问题被普遍认为具有比生成器/最优策略更简单的验证器/奖励模型(Gödel, 1956; Cook, 2023)。我们假设:对于此类问题,即使使用相同的函数类别,从偏好数据中学习相对简单的奖励模型也比学习相对复杂的最优策略更为容易。此时,基于人类反馈的强化学习(RLHF)仅仅充当了一种计算工具——为这个简单验证器求解(软性)最优策略。
答:两阶段交互式微调的核心价值在于,它能将策略搜索空间缩小至仅针对相对简单的验证器优化的策略子集。
用统计学习理论的术语来说,这一假说表明:相比非规范的离线微调方法,强化学习在微调中的真正优势在于,它是当前已知最便捷的规范学习方法(Valiant, 1984)。在我们本文探讨的所有假说中,该假说被证伪的实证依据最少——从波普尔(2014)科学哲学的角度看,这已是科学研究所能期待的最佳验证结果。
在深入探讨如何解释在线与离线方法性能差异的现实问题之前,我们将首先证明一系列在线与离线偏好微调的等价性定理。
2 关于微调的信息几何
2.1 预备知识
考虑一个有限时段、无奖励的马尔可夫决策过程。
设X表示初始状态集合(即提示词),ρ0为其分布。
A表示动作空间(即词元集合),S表示状态空间(即部分生成文本集合)。
该MDP的动态特性是确定性的、已知的且具有树状结构:当s’=s◦a时转移概率T(s’|s,a)=1,否则为0(即只能追加词元)。
H表示MDP的时段长度(即最大生成长度)。
策略π:S→Δ(A)将前缀映射到下一个词元的概率分布。
轨迹ξ(即提示词及其补全)的生成过程为:首先从初始状态s0∼ρ0采样,然后从策略π中采样H次。
Pπ(ξ)表示策略π下采样轨迹ξ的概率,ξ∼π是该分布的简写表示(即从策略中采样生成结果)。
PΠ表示由π∈Π诱导的轨迹/生成结果的概率分布集合。
D={(ξi+,ξi-)}i=1^N表示有限轨迹级偏好数据集,其中各对轨迹具有相同s0,PD表示该数据集上的均匀分布。Ξ表示所有轨迹组成的空间,Ξ|s0:h表示具有特定前缀s0:h的轨迹集合。最后,πref∈Π表示需要保持接近的参考策略(以反向KL散度衡量)
2.2 全局和局部奖励模型
本研究的关键在于策略与轨迹级奖励模型之间的关系。我们用Π表示策略集合,R表示奖励模型集合,其中每个r∈R都是映射Ξ→R的函数。需要指出的是,当前标准做法是使用相同架构(通常还包括相同的初始检查点和数据集)来训练策略和奖励模型。具体而言,奖励模型通常是通过以下方式构建的:移除Transformer架构(Vaswani等,2017)末端的softmax层(该层原本输出词元概率分布),替换为单层或浅层MLP以输出标量值。评估时,需将提示词与完整生成内容sH拼接后输入Transformer。本文将此类轨迹级(即非马尔可夫)奖励模型称为"全局"奖励模型。
除共享主干网络外,对于以生成过程中词元对数概率之和为形式的奖励模型(Degrave等,2019;Rafailov等,2023),存在更精确的同构关系。形式化地,若将局部奖励模型集合定义为:
则直接可得R(Π)⇔Π。
2.3 微调的统一目标框架
从高层次看,各类微调任务(如监督微调SFT、偏好微调PFT)均可表述为以下反向KL正则化的策略优化问题:
其中第一项前向KL散度衡量学习策略π对数据集D样本的拟合程度,第二项反向KL散度约束π的生成概率分布需接近参考策略πref的在线分布。
直观而言,若D能完全覆盖所有轨迹对,则无需第二项;但由于有限样本限制,需引入正则项避免策略偏离过远(Gao等,2023;Song等,2024)。为简化表述,我们设β=1并将第二项暂时替换为熵正则化(即相对于均匀策略的KL散度):
此处H(π)表示策略的因果熵。接下来我们将证明,在线与离线PFT方法均可视为对该目标的优化,尽管实现机制存在本质差异。
PS:证明看不懂,不看了。(以下部分内容来自知乎文章(奖励模型+在线RL为何好于离线最大似然微调))
总之这一章的总体大意就是:
在离线最大似然微调(Offline MLE / DPO)的思路里,是直接在数据分布上做似然最大化。而在在线强化学习(RL)流程中,一般会先用数据训练出一个奖励模型 r ,然后通过该模型来给策略采样打分并更新。作者在论文中用信息几何的语言证明:在一个理想且完全可实现的假设下(即策略与奖励模型都属于同一个可逆映射的函数类),离线MLE和在线RLHF的最优解其实是等价的。也就是说,若它们都能完美训练,那完全没必要做那个额外的“训练奖励模型+在线采样”。
然而,实际经验却表明:在线RLHF总是比离线直接微调效果好。这就是文章所讨论的悖论:理论上,它们可以学到同样的最优策略,为何实践中偏要多绕这么一步?
3. RL在微调中的价值到底是什么?
论文中开展了大量对比实验来证明在线RLHF确实比离线MLE好,核心发现包括:
-
同样的偏好数据、同样的初始SFT模型:再用在线DPO做二次微调,往往比只做离线DPO的性能好。
-
增加或改变数据源(如扩增prompt、使用相同参考策略的更多样本)并不能让离线微调性能逼近在线RL;意味着问题不仅仅是“离线数据分布不够广”或“缺少对KL正则项的精确估计”。
-
当任务本身的生成难度显著降低时(如只生成极短文本,减少多步推理空间),在线与离线方法的性能差距就会消失。若把奖励函数设定得和最优生成策略一样复杂(比如用一个特别简单可直接反演的打分),在线方法也不再明显胜出。
这些对比都指出:在线的优势并非因为它“多拿”了信息,而是它在某些更深层的机制上,更能利用一个相对易学的验证函数去搜索策略。
3.2 为什么在线RL实践上会比离线效果好的几种假设
假设H1:在线采样数据具有内在价值
直觉来说,在线数据(策略当前生成的样本)能提供更相关的反馈,帮助策略优化。
但考虑到在线数据的标签由RM生成,而RM本身基于离线数据训练,因此在线数据并未引入新信息。**基于RM对新生成数据的评分,本质是对D信息的二次加工。并且,**通过数据处理不等式可知,在线策略数据本质上是冗余的——通过策略采样无法创造任何新信息(即真实的人类偏好信号)。
此外,若RM完美建模人类偏好,理论上可直接通过动态规划(值迭代)求解最优策略,无需在线试错。
这说明,在线采样的作用仅在于计算近似,而非提供新信息。因此该假设不成立。
假设H2:离线偏好微调(PFT)对参考策略πref的正则化失效
Song等人(2024)通过严谨的理论证明指出,离线PFT算法(如DPO(Rafailov等,2023)、IPO(Azar等,2023)需比在线RLHF方法更强的偏好数据覆盖条件,因其无法有效约束策略接近参考策略πref。
但以下证据表明,数据覆盖差异无法完全解释在线与离线方法的性能差距:即使为DPO显式添加反向KL惩罚项,其性能仍无法完全匹敌真正的在线PFT方法( Song et al , 2024 ; Gao et al , 2024a)。等等
假设H3:在线PET优化相对更简单
假设H4:全局奖励模型有更多数据可用
假设H5:RM在分布外(OOD)的泛化更好
3.3 H6:微调中的生成验证差距
作者提出的H6:在线RLHF的核心在于先学习到一个‘相对简单’的验证函数,然后只需在该验证之下搜索最优生成策略。如果问题本身的“验证要比生成简单得多”,那离线直接学“生成函数”就成了更难的“极大极小”问题,而通过奖励模型+RL的两步法,则有效降低了搜索空间,效率更高。
在计算机科学里,“验证难度往往小于生成难度”并非新鲜结论;著名的NP问题中,给定一个解后去验证通常容易得多,去“生成”或“搜索”合适解往往困难。这篇论文将它应用于LLM的微调场景,认为在大部分真实任务中:
-
真正好的策略(即模型输出文本)可能需要极其复杂、多步的生成过程;
-
但判断某个输出是不是“好”,在很多场景下其实可以相对容易地学到一个判断标准(例如学习偏好之间的对比或评价层面的简单结构)。
一旦能把奖励函数学好,接下来的强化学习就不需要在整个庞大策略空间乱找,而是只需围绕奖励函数的“高分区域”展开搜索,因而更高效、效果更佳。
当作者在实验中人造地消除“生成-验证”差距(比如缩短文本到几乎是单步生成,或者让验证和生成一样复杂),就观察到在线和离线方法变得几乎一样。可见,这背后的统计学习本质就呼之欲出了。
讨论启示
若假设H6(即验证任务复杂度显著低于生成任务)成立,以下研究方向将成为重点:
-
机制可解释性驱动的验证-生成复杂度分析目标:通过机制可解释性工具(Elhage等,2021),定量刻画实际PFT策略中奖励模型(RM)与策略的电路复杂度差异。
-
非传递性偏好的建模突破挑战:人类偏好常具有非传递性(如评分者观点分歧导致偏好循环),传统Bradley-Terry模型(基于传递性假设)无法刻画此类现象(Swamy等,2024)。
解决方案:
开发不依赖传递性假设的成对偏好模型(如基于图论的偏好图模型)。设计能容忍矛盾偏好的鲁棒RM架构(如多专家混合模型)。
价值:提升在线PFT对复杂人类偏好的建模能力。
- 长程规划与智能体任务的性能验证假设延伸:对于需长程规划(如多轮RLHF(Gao等,2024b))或自主决策(如智能体任务(Choudhury & Sodhi,2024;Choudhury,2025))的复杂问题,在线与离线方法的性能差距将更显著。加粗样式