📖标题:Sailing AI by the Stars: A Survey of Learning from Rewards in Post-Training and Test-Time Scaling of Large Language Models
🌐来源:arXiv, 2505.02686
🌟摘要
🔸大型语言模型 (LLM) 的最新发展已经从预训练缩放转移到训练后和测试时间缩放。在这些发展中,出现了一个关键的统一范式:从奖励中学习,其中奖励信号充当引导星来引导LLM行为。它支持广泛的流行技术,例如强化学习(在 RLHF、DPO 和 GRPO 中)、奖励引导解码和事后校正。至关重要的是,这种范式使从静态数据中学习到动态反馈的主动学习的转变成为可能。这赋予了 LLM 对齐的偏好和深度推理能力。
🔸在本次调查中,我们对从奖励中学习范式进行了全面概述。我们在训练、推理和后期推理阶段对这些范式下的策略进行分类和分析。我们进一步讨论了奖励模型和主要应用的基准。最后,我们强调了挑战和未来的方向。我们在 GitHub 存储库维护一个论文集。
🛎️文章简介
🔸研究问题:如何通过奖励学习来改善大语言模型(LLM)在后训练和测试时的表现?
🔸主要贡献:论文对LLM的奖励学习进行了全面的综述,提出了一个统一的概念框架,并分类总结了不同的奖励模型设计和学习策略。
📝重点思路
🔸介绍了奖励学习的统一概念框架,涵盖训练、推理和后推理三个阶段。
🔸针对不同奖励设计,分类讨论了使用标量奖励、批评奖励和隐式奖励等多种训练方法。
🔸探讨了自动反馈在奖励生成中的作用,包括自我奖励、训练模型和预定义规则等。
🔸提出了推理阶段的奖励引导解码和生成-再排名策略,以灵活调整模型行为。
🔸描述了后推理阶段利用奖励信号对模型输出进行修正和完善的策略。
🔎分析总结
🔸论文通过分析发现,奖励学习策略能够有效增强大型语言模型的偏好对齐和深度推理能力。
🔸强调了标量奖励和批评奖励在训练阶段的重要性,尤其是在多模态任务中的应用。
🔸指出了后推理阶段利用细粒度反馈进行输出修正的有效性,能够提高模型的准确性和可靠性。
🔸通过基准测试,评估了不同奖励模型的能力,并指出了当前研究的主要挑战与未来方向。
💡个人观点
论文系统性地整合和分类了奖励学习的多种策略,并提出了一个清晰的框架,帮助研究者更好地理解如何利用奖励信号提升LLM的性能,同时强调了自动反馈和后推理的重要性。
🧩附录