清华:过程监督优化大模型推理

在这里插入图片描述

📖标题:URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics
🌐来源:arXiv, 2501.04686

🌟摘要

🔸思维链(CoT)推理在大型语言模型(LLMs)的数学推理中得到了广泛的应用。最近,在CoT轨迹上引入衍生过程监督引发了关于在测试期间增强扩展能力的讨论,从而提升了这些模型的潜力。然而,在多模态数学推理中,高质量CoT训练数据的稀缺阻碍了现有模型实现高精度CoT推理,并限制了测试期间推理潜力的实现。
🔸在这项工作中,我们提出了一种三模块综合策略,该策略集成了CoT蒸馏、轨迹格式重写和格式统一。它产生了多模态数学中高质量的CoT推理指令微调数据集MMathCoT-1M。我们在多个多模态数学基准上全面验证了训练好的URSA-7B模型的最新(SOTA)性能。对于测试时间缩放,我们引入了一种数据合成策略,该策略自动生成过程注释数据集,称为DualMath-1.1M,侧重于解释和逻辑。通过在DualMath-1.1M上进一步训练URSA-7B,我们从CoT推理能力过渡到强大的监督能力。经过训练的URSA-RM-7B充当验证器,有效地提高了URSA-7B在测试时的性能。URSA-RM-7B还展示了出色的分布外(OOD&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值