📖标题:Self-Generated Critiques Boost Reward Modeling for Language Models
🌐来源:arXiv, 2411.16646
🌟摘要
🔸奖励建模对于将大型语言模型(LLM)与人类偏好相匹配至关重要,特别是在从人类反馈中强化学习(RLHF)方面。然而,目前的奖励模型主要产生无法解释的标量分数,并且很难将批评纳入自然语言格式。
🔸我们假设,同时生成评论和标量奖励将提高奖励模型在偏好排名方面的能力。受此启发,我们提出了Critic RM,这是一个利用自我生成的高质量评论来训练基于标量奖励的偏好预测的奖励模型的框架,其中明确的理由作为支持证据。Critic RM采用两阶段过程:生成和过滤高质量的评论,然后对奖励预测和评论生成目标进行联合微调。
🔸在包括RewardBench和CrossEval在内的偏好排名基准上的实验表明,与标准奖励模型和LLM法官相比,Critic RM将奖励建模准确率提高了3.7%-7.3%,表现出了强大的性能和数据效率。其他研究进一步验证了生成的批评在纠正有缺陷的推理步骤方面的有效性,在提高推理准确性方面提高了2.5%-3.2%。
🛎️文章简介
🔸研究问题:现有奖