📖标题:AceMath: Advancing Frontier Math Reasoning with Post-Training and Reward Modeling
🌐来源:arXiv, 2412.15084
🌟摘要
🔸在本文中,我们介绍了AceMath,这是一套擅长解决复杂数学问题的前沿数学模型,以及能够评估生成的解决方案并可靠地识别正确解决方案的高效奖励模型。
🔸为了开发指令调优的数学模型,我们提出了一种监督微调(SFT)过程,该过程首先在一般领域实现具有竞争力的性能,然后使用精心策划的一组提示和综合生成的响应对数学领域进行有针对性的微调。由此产生的模型AceMath-72BInstruct大大优于Qwen2.5-Math-72BInstructor、GPT-4o和Claude-3.5 Sonnet。
🔸为了开发数学专业的奖励模型,我们首先构建了AceMath RewardBench,这是一个全面而稳健的基准,用于评估不同问题和难度级别的数学奖励模型。之后,我们提出了一种系统的方法来构建我们的数学奖励模型。由此产生的模型AceMath-72B-RM始终优于最先进的奖励模型。此外,当将AceMath-72BInstruct与AceMath-72-RM结合使用时,我们获得了最高的平均值rm@8在数学推理基准测试中得分。