📖标题:RM-R1: Reward Modeling as Reasoning
🌐来源:arXiv, 2505.02387
🌟摘要
🔸奖励建模对于将大型语言模型 (LLM) 与人类偏好对齐至关重要,特别是通过人类反馈 (RLHF) 的强化学习。为了提供准确的奖励信号,奖励模型 (RM) 在分配分数或判断之前应该刺激深度思维并进行可解释的推理。然而,现有的 RM 要么产生不透明的标量分数,要么直接生成首选答案的预测,这使得它们难以整合自然语言批评,因此缺乏可解释性。
🔸受长思维链 (CoT) 在推理密集型任务上的最新进展的启发,我们假设并验证了将推理能力集成到奖励建模中可以显着提高 RM 的可解释性和性能。在这项工作中,我们介绍了一类新的生成奖励模型——推理奖励模型(REASRMS),它将奖励建模制定为推理任务。我们提出了一个面向推理的训练管道,并训练一系列 REASRMS、RM-R1。训练包括两个阶段:(1)高质量推理链的蒸馏和(2)具有可验证奖励的强化学习。RMR1 通过自生成推理轨迹或特定于聊天的量规来改进 LLM 推出,并评估针对它们的候选响应。
🔸根据经验,我们的模型在多个综合奖励模型基准上实现了最先进的或接近最先进的性能,优于更大的开放权重模型(例如 Llama3.1-405B)和专有模型(例如 GPT4o)高达 13.8%。除了最终性能之外,我们还进行了彻底的实证分析,以了解成功的 REASRM 训练的关键因素。为了促进未来的研究,我们在 https://github.com/RM-R1-UIUC/RM-R1 上发布了六个 REASRM 模型以及代码和数据。
🛎️文章简介
🔸研究问题:如何提高奖励模型的可解释性和准确性?
🔸主要贡献:论文提出了一种新的奖励模型类——推理奖励模型(REASRMS),通过引入长推理链来增强下游奖励模型的性能,并系统性比较了不同的奖励模型训练范式。
📝重点思路
🔸将奖励建模定义为推理过程,强调推理能力对奖励模型的重要性。
🔸通过长推理链的蒸馏来初始化指令模型,以提升其推理能力。
🔸设计了一个链式评分系统提示(Chain-of-Rubrics),使模型能根据任务类型(推理或聊天)生成结构化的评估标准和理由。
🔸使用强化学习(RL)进一步训练模型,优化其奖励机制,使之更适应奖励建模的需求。
🔎分析总结
🔸RM-R1在多个基准测试中表现出色,超越了先前的最先进模型,证明了其在奖励建模中的有效性。
🔸模型在推理密集型基准测试中表现更好,说明推理监督对模型性能的提升是显著的。
🔸观察到更大的模型规模与推理奖励模型的性能提升呈正相关,表明推理链的长度在高计算预算下更为有效。
🔸引入明确的查询分类和高质量推理链的蒸馏显著提升了模型的推理能力和评估质量。
💡个人观点
论文的创新点在于将奖励建模与推理过程紧密结合,通过深度思考的方式使奖励模型能够根据任务自主生成评估标准并给出结果。
🧩附录