腾讯:LLM可验证奖励的强化学习框架

在这里插入图片描述

📖标题:Crossing the Reward Bridge:Expanding RL with Verifiable Rewards Across Diverse Domains
🌐来源:arXiv, 2503.23829

🌟摘要

🔸具有可验证奖励的强化学习(RLVR)在提高大型语言模型(LLM)的数学推理和编码性能方面取得了显著成功,特别是在结构化参考答案可供验证的情况下。然而,它扩展到更广泛、结构更少的领域仍未得到探索。
🔸在这项工作中,我们研究了RLVR在医学、化学、心理学、经济学和教育等不同现实世界领域的有效性和可扩展性,这些领域通常没有结构化的参考答案。我们发现,在存在专家书面参考答案的情况下,对宽域任务的二元验证判断在各种LLM之间表现出高度的一致性。受这一发现的启发,我们利用一种生成性评分技术,产生基于模型的软奖励信号,以克服二进制验证带来的局限性,特别是在自由形式、非结构化的答案场景中。我们进一步证明了使用相对较小的(7B)LLM训练跨领域生成奖励模型的可行性,而不需要大量的领域特定注释。
🔸通过全面的实验,我们的RLVR框架建立了明显的性能增益,在自由设置的跨域中显著优于最先进的开源对齐模型,如Qwen2.5-72B和DeepSeek-R1-Distill-Qwen-32B。我们的方法显著增强了RLVR的鲁棒性、灵活性和可扩展性,代表了在复杂、嘈杂的标签场景中实现实际强化学习应用的重要一步。

🛎️文章简介

🔸研究问题:强化学习在多样化、无结构领域中,如何有效利用可验证奖励?
🔸主要贡献:论文扩展了可验证奖励的强化学习框架(RLVR),并验证了其在不同领域的有效性,提出了一种新的生成模型基础的软奖励机制。

📝重点思路

🔸采用生成奖励模型,不依赖于详细的领域特定标注,利用生成验证器来提供稳定的奖励信号。
🔸训练一个适中规模(如7B)的奖励模型,以平衡性能和效率,尤其在没有结构化参考答案的情况下。
🔸使用多学科多项选择问答数据集ExamQA,进行奖励模型的训练和验证,确保奖励模型在多个领域的适用性。
🔸引入软奖励机制,克服二元验证的限制,尤其在处理自由形式和非结构化答案时,提升了模型的鲁棒性和灵活性。

🔎分析总结

🔸实验表明,相较于传统的基于规则的奖励,模型基于的奖励在自由形式的参考答案场景中表现更好,尤其是在处理多学科任务时。
🔸通过对比不同大小的奖励模型,发现适中规模的7B模型在许多任务中实现了与更大模型相当甚至更好的性能,证明了其有效性。
🔸在多样化领域中的实验结果显示,使用生成奖励模型的RLVR框架在性能上明显优于现有的开源对齐模型,提升了推理政策的准确性。
🔸研究表明,基于参考答案的评估在多领域任务中更易于执行,强调了在不同领域中重思传统奖励模型训练方法的必要性。

💡个人观点

论文适用于自由场景,生成模型给出的奖励要比规则奖励适用性更广,而R1的规则奖励在答案限定场景有很好的准确性和可获得性。

🧩附录

在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值