谷歌：过程奖励校验LLM推理步骤

最新推荐文章于 2025-05-07 09:58:42 发布

大模型任我行

最新推荐文章于 2025-05-07 09:58:42 发布

阅读量1.7k

点赞数 21

分类专栏：大模型-模型训练文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_46739757/article/details/143051983

版权

大模型-模型训练专栏收录该内容

264 篇文章

订阅专栏

在这里插入图片描述

📖标题：Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning
🌐来源：arXiv, 2410.08146

摘要

🔸改进大型语言模型推理的一种有前景的方法是使用过程奖励模型（PRM）。PRM在多步骤推理跟踪的每一步都提供反馈，这可能会改善仅在最后一步提供反馈的结果奖励模型（ORM）的信用分配。然而，收集密集的、每一步的人类标签是不可扩展的，从自动标记的数据中训练PRM迄今为止收效有限。为了通过对PRM进行搜索或将其用作强化学习（RL）的密集奖励来改进基本策略，我们问：“我们应该如何设计过程奖励？”。
🔸我们的关键见解是，为了有效，一个步骤的过程奖励应该衡量进展：在采取步骤之前和之后，未来产生正确反应的可能性的变化，与强化学习中的步骤级优势的概念相对应。至关重要的是，这一进展应该在与基本政策不同的证明者政策下进行衡量。我们从理论上表征了一组好的证明者，我们的结果表明，优化这些证明者的过程奖励可以改善测试时间搜索和在线RL期间的探索。事实上，我们的表征表明，弱证明者策略可以大大改善更强的基础策略，我们也从实证中观察到了这一点。
🔸我们通过训练过程优势验证器（PAV）来预测此类证明下的进展，从而验证了我们的说法，并表明与ORM相比，针对PAV的测试时间搜索的准确性提高了8%以上，计算效率提高了1.5-5倍。通过PAV的密集奖励，在线RL可以获得首批结果之一，与ORM相比，样本效率提高了5-6倍，准确率提高了6%以上。

🛎️文章简介

🔸研究问题：如何通过定义和优化过程奖励（process rewards）来提高基于大语言模型（LLM）推理任务的最终答案的正确性？
🔸主要贡献：论文提出了过程优势验证器（PAV），通过这些验证器在强化学习和搜索过程中提供密集的每步奖励，显著提高了计算效率和样本效率。

📝重点思路

🔺相关工作

🔸结果奖励模型（ORM）：从基本策略（LLM）生成多个候选解决方案，使用ORM选择最好的一个。
🔸过程奖励模型（PRM）和信用分配：为了解决ORM中的稀疏反馈问题，有几项工作侧重于在数学推理任务上训练步骤级PRM，来密集预测多因素中的错误步骤。
🔸数学推理的在线强化学习：通过结果或过程验证，可以类似于RLHF的奖励优化，但发现PRM相对于ORM增益不大。
🔸RL与模仿学习：使用“引导”策略从基础策略生成的前缀中rollout，基础策略再通过克隆这些rollout实现超越。

🔺论文方案

🔸主要思想：每步过程奖励应测量什么，以及应使用何种自动化数据收集策略来训练能够预测这些测量的PRM。
🔸理论证明：在理论上形式化了“好的验证器”（provers）的概念，即这些验证器与基础策略互补，能够在基础策略生成的步骤上产生足够的对比优势。
🔸过程优势验证器（PAV）：用于预测在验证器下的优势，并通过训练这些验证器来加速样本和计算效率。
🔸实施步骤：①通过自动化数据收集策略训练PRM ②在这些模型的基础上优化密集奖励 ③改进测试时搜索和在线强化学习中的基础策略

🔎分析总结

🔸计算效率提升：在测试时计算预算相同的情况下，使用训练好的PAV进行束搜索比重新排序完整轨迹的ORM方法在准确性上高出8%，并且计算效率提高了1.5到5倍。
🔸样本效率提升：使用PAV作为密集奖励的强化学习（PAV-RL）比仅使用结果奖励的强化学习（ORM-RL）在样本效率上提高了6倍。
🔸性能提升：基础策略在训练中使用PAV后，其Pass@k性能提高了8倍，为测试时的重新排序器提供了更高的性能上限。
🔸解决难题的能力：使用PAV进行强化学习能够发现使用非常大的预算也无法解决的难题。