📖标题:URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics
🌐来源:arXiv, 2501.04686
🌟摘要
🔸思维链(CoT)推理在大型语言模型(LLMs)的数学推理中得到了广泛的应用。最近,在CoT轨迹上引入衍生过程监督引发了关于在测试期间增强扩展能力的讨论,从而提升了这些模型的潜力。然而,在多模态数学推理中,高质量CoT训练数据的稀缺阻碍了现有模型实现高精度CoT推理,并限制了测试期间推理潜力的实现。
🔸在这项工作中,我们提出了一种三模块综合策略,该策略集成了CoT蒸馏、轨迹格式重写和格式统一。它产生了多模态数学中高质量的CoT推理指令微调数据集MMathCoT-1M。我们在多个多模态数学基准上全面验证了训练好的URSA-7B模型的最新(SOTA)性能。对于测试时间缩放,我们引入了一种数据合成策略,该策略自动生成过程注释数据集,称为DualMath-1.1M,侧重于解释和逻辑。通过在DualMath-1.1M上进一步训练URSA-7B,我们从CoT推理能力过渡到强大的监督能力。经过训练的URSA-RM-7B充当验证器,有效地提高了URSA-7B在测试时的性能。URSA-RM-7B还展示了出色的分布外(OOD&