DeepSeek:自我批评训练通用LLM奖励

在这里插入图片描述

📖标题:Inference-Time Scaling for Generalist Reward Modeling
🌐来源:arXiv, 2504.02495

🌟摘要

🔸强化学习(RL)已被广泛应用于大规模大型语言模型(LLM)的岗位培训中。最近,RL对LLM推理能力的激励表明,适当的学习方法可以实现有效的推理时间可扩展性。RL的一个关键挑战是在可验证的问题或人工规则之外,为各个领域的LLM获得准确的奖励信号。
🔸在这项工作中,我们研究了如何通过为一般查询提供更多的推理计算来改进奖励建模(RM),即通才RM的推理时间可扩展性,以及如何通过适当的学习方法来提高性能计算扩展的有效性。对于RM方法,我们采用逐点生成奖励建模(GRM),以实现不同输入类型的灵活性和推理时间缩放的潜力。对于学习方法,我们提出了自原则批评调优(SPCT),通过在线RL在GRM中培养可扩展的奖励生成行为,自适应地生成原则和准确的批评,从而得到DeepSeek GRM模型。此外,为了实现有效的推理时间缩放,我们使用并行采样来扩展计算使用,并引入元RM来指导投票过程,以获得更好的缩放性能。
🔸经验表明,SPCT显著提高了GRM的质量和可扩展性,在各种RM基准测试中表现优于现有的方法和模型,没有严重的偏差,并且与训练时间扩展相比可以实现更好的性能。DeepSeek GRM在某些任务中仍面临挑战,我们认为可以通过未来在通才奖励系统中的努力来解决。这些模型将被发布并开源。

🛎️文章简介

🔸研究问题:如何提高通用奖励模型(RM)的推理时间扩展和灵活性?
🔸主要贡献:论文提出了一种新方法——自我原则批评调优(SPCT),以提升通用奖励模型的推理时间可扩展性,并展示了该方法在多个基准上的优越性能。

📝重点思路

🔸采用基于采样的方法生成多个相同查询的奖励集,并聚合最终的奖励,以扩展推理时间的使用。
🔸介绍了自我原则批评调优(SPCT),通过拒绝性微调和基于规则的在线强化学习(RL)来学习生成高质量的原则和批评,指导奖励生成。
🔸通过比较自我生成的原则与过滤后的原则,发现过滤后的原则能显著提高奖励质量。
🔸使用元奖励模型(meta RM)引导投票,以进一步提升推理时间的可扩展性和性能。

🔎分析总结

🔸实验结果表明,DeepSeek-GRM-27B在多个奖励模型基准上表现优于现有的基线方法和部分强大的公共模型。
🔸SPCT显著提高了GRM的奖励质量和推理时间可扩展性,相比于标量和半标量RM,DeepSeek-GRM在不同领域表现出更少的偏见。
🔸在推理时间扩展性方面,DeepSeek-GRM通过增加采样次数,展示了能够有效提升性能的潜力,尤其是在计算资源增加时。
🔸元奖励通过过滤低质量的轨迹,进一步提高了模型在不同基准上的表现。

💡个人观点

论文的核心在于让奖励模型生成评估原则,并以此生成评估意见及奖励。

🧩附录

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值