论文链接:RLPR: EXTRAPOLATING RLVR TO GENERAL DOMAINS WITHOUT VERIFIERS
简介
可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)在提升大语言模型(LLMs)的推理能力方面展现出了良好潜力,但其依赖基于规则、准确答案或代码运行等可验证的硬奖励,使其很大程度上局限于数据和代码领域。
为了解决此问题,本论文作者发现LLMs生成正确自由形式答案的内在概率能直接反应其对推理奖励的自我评估,即推理过程对得出争取答案的贡献程度;基于这一见解,提出了一种无需验证器的简洁框架–基于参考概率奖励的强化学习(Reinforcement Learning with Reference Probability Reward, RLPR),其可将RLVR扩展到更广泛的通用领域。RLPR使用LLMs对参考答案的token概率分数作为奖励信号,在训练过程中最大化期待的奖励;该概率分数是LLMs基础能力中自然内置的一部分,即使没有专门微调,也能为奖励评估提供良好的覆盖范围和潜力;此外其还能更好地应对自由形式自然语言答案的复杂性和多样性,即使对于部分正确的答案,也能给出合理的奖励。RLPR引入了以下两项关键创新:
- 提出一种简单可扩展的奖励方案,可替代来自外部验证器的显示奖励,直接通过参考答案token的平均解码概率计算内在概率的奖励;包含一种简单的去偏方法,通过优化同一提示在无推理情况下的奖励优势来消除文本带来的奖励偏差
- 提出一种自适应课程学习机制以稳定训练过程,基于过去奖励标准差的指数移动平均值设定动态阈值,自适应地移除那些产生低奖励标准差的提示(过于简单或过于复杂),这种方法能很好地适应训练过程中奖励分布的变化,提高训练稳定性和最终性能
在四个通用领域基准和三个数学基准上进行的全面实验表明,对于基于 Gemma、Llama 和 Qwen 的模型,RLPR 在这两个领域中均能持续提升其推理能力。值得注意的是,RLPR 在 TheoremQA 基准上比同期的 VeriFree 方法高出 7.6 分,在 Minerva 基准上高出 7.5 分,甚至在七个基准上的平均得分比依赖强验证器模型的 General-Reasoner 方法高出 1.6 分。

图1详细描述了传统RLVR和RLPR之间的区别,RLVP依赖专用验证器计算奖励,如图中描述的数学验证器、代码验证器等,并且一般较为复杂且具有领域性,难以迁移到其他领域。RLPR则使用策略模型 π θ \pi_{\theta} πθ生成的简单概率奖励替代负责的基于验证器的奖励,其中 Q , z , y , y ∗ Q,z,y,y^* Q,z,y,y∗分别表示输入问题、LLMs生成最终答案前的推理内容、生成的最终答案和参考答案。图1右侧的一个例子则表明,RLVR常使用的规则和验证器在处理自然语言负责性有限,它们会将 y 2 , y 3 y_2,y_3 y2,y3标记为不正确,但是RLPR则能成功将 y 2 , y 3 y_2,y_3 y2,y3标记为正向奖励。
RLPR
RLVR
RLVR是一种典型的后训练范式,其基于规则的验证器为每个生成的响应分配一个奖励分数的标量;即给定提示词 x x x、策略模型 π θ \pi_{\theta} πθ,LLMs生成推理内容 z z z和最终的答案 y y y,然后对期望的验证器奖励分数进行优化:
J ( θ ) = E z , y ∼ π θ ( ⋅ ∣ x ) [ f v e r i f i e r ( y , y ∗ ) ] (1) \mathcal{J}(\theta)=\mathbb{E}_{z,y \sim \pi_{\theta}(\cdot|x)}[f_{verifier}(y,y^*)] \tag1 J(θ)=Ez,y∼πθ(⋅∣x)[fverifier(y,y∗)](1)
其中
RLPR:将RLVR扩展到通用领域的方案

最低0.47元/天 解锁文章
834

被折叠的 条评论
为什么被折叠?



