英伟达:后训练和奖励建模优化LLM数学推理

在这里插入图片描述

📖标题:AceMath: Advancing Frontier Math Reasoning with Post-Training and Reward Modeling
🌐来源:arXiv, 2412.15084

🌟摘要

🔸在本文中,我们介绍了AceMath,这是一套擅长解决复杂数学问题的前沿数学模型,以及能够评估生成的解决方案并可靠地识别正确解决方案的高效奖励模型。
🔸为了开发指令调优的数学模型,我们提出了一种监督微调(SFT)过程,该过程首先在一般领域实现具有竞争力的性能,然后使用精心策划的一组提示和综合生成的响应对数学领域进行有针对性的微调。由此产生的模型AceMath-72BInstruct大大优于Qwen2.5-Math-72BInstructor、GPT-4o和Claude-3.5 Sonnet。
🔸为了开发数学专业的奖励模型,我们首先构建了AceMath RewardBench,这是一个全面而稳健的基准,用于评估不同问题和难度级别的数学奖励模型。之后,我们提出了一种系统的方法来构建我们的数学奖励模型。由此产生的模型AceMath-72B-RM始终优于最先进的奖励模型。此外,当将AceMath-72BInstruct与AceMath-72-RM结合使用时,我们获得了最高的平均值rm@8在数学推理基准测试中得分。



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值