📖标题:Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning
🌐来源:arXiv, 2410.08146
摘要
🔸改进大型语言模型推理的一种有前景的方法是使用过程奖励模型(PRM)。PRM在多步骤推理跟踪的每一步都提供反馈,这可能会改善仅在最后一步提供反馈的结果奖励模型(ORM)的信用分配。然而,收集密集的、每一步的人类标签是不可扩展的,从自动标记的数据中训练PRM迄今为止收效有限。为了通过对PRM进行搜索或将其用作强化学习(RL)的密集奖励来改进基本策略,我们问:“我们应该如何设计过程奖励?”。
🔸我们的关键见解是,为了有效,一个步骤的过程奖励应该衡量进展:在采取步骤之前和之后,未来产生正确反应的可能性的变化,与强化学习中的步骤级优势的概念相对应。至关重要的是,这一进展应该在与基本政策不同的证明者政策下进行衡量。我们从理论上表征了一组好的证明者,我们的结果表明,优化这些证明者的过程奖励可以改善测试时间搜索和在线RL期间的探索。事实上,我们的表征表明,弱证明者策略可以大大改善更强的基础策略,我们也从实证中观察到了这一点。
🔸我们通过训练过程优势验证器(PAV)来预测此类证明下的进展,从而验证了我们的说法,并表明与ORM相比,针对PAV的测试时间搜索的准确性提高了8%以上,计算效率提高了1.5-5倍。通过PAV的密集奖励,在线RL可以获得首批结果之一,与ORM相比,样本效率提高了5-6倍,准确率提高了6%以上。
🛎️文章简介
🔸研究问题:如何通过定义和优化过程奖励(process rewards)来提高基于大语言模型(LLM)推理任务的最终答案的正确性?
🔸主要贡献:论文提出了过程优势验证器(PAV),通过这些验证器在强化学习和搜索过程中提供密集的每步奖励,显著提高了计算效率和样本效率。
📝重点思路
🔺相关工作
🔸结果奖励模型(ORM):从基本策略(LLM)生成多个候选解决方案,使用ORM选择最好的一个。
🔸过程奖励模型(PRM)和信用分配:为了解决ORM中的稀疏反馈问题,有几项工作侧重于在数学推理任务上训练步骤级PRM,来密集预测多因素中的错误步骤。
🔸数学推理的在线强化学习:通过结果或过程验证,可以类似于RLHF的奖励优化,但发现PRM相对于ORM增益不大。
🔸RL与模仿学习:使用“引导”策略从基础策略生成的前缀中rollout,基础策略再通过克隆这些rollout实现超越。
🔺论文方案
🔸主要思想:每步过程奖励应测量什么,以及应使用何种自动化数据收集策略来训练能够预测这些测量的PRM。
🔸理论证明:在理论上形式化了“好的验证器”(provers)的概念,即这些验证器与基础策略互补,能够在基础策略生成的步骤上产生足够的对比优势。
🔸过程优势验证器(PAV):用于预测在验证器下的优势,并通过训练这些验证器来加速样本和计算效率。
🔸实施步骤:①通过自动化数据收集策略训练PRM ②在这些模型的基础上优化密集奖励 ③改进测试时搜索和在线强化学习中的基础策略
🔎分析总结
🔸计算效率提升:在测试时计算预算相同的情况下,使用训练好的PAV进行束搜索比重新排序完整轨迹的ORM方法在准确性上高出8%,并且计算效率提高了1.5到5倍。
🔸样本效率提升:使用PAV作为密集奖励的强化学习(PAV-RL)比仅使用结果奖励的强化学习(ORM-RL)在样本效率上提高了6倍。
🔸性能提升:基础策略在训练中使用PAV后,其Pass@k性能提高了8倍,为测试时的重新排序器提供了更高的性能上限。
🔸解决难题的能力:使用PAV进行强化学习能够发现使用非常大的预算也无法解决的难题。
💡个人观点
论文的核心是通过过程奖励来获取每步反馈,通过这种密集奖励优化RL的性能和效率。
附录