复旦:多模态几何求解数据构建

在这里插入图片描述

📖标题:TrustGeoGen: Scalable and Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving
🌐来源:arXiv, 2504.15780

🌟摘要

🔸数学几何问题求解(GPS)通常需要有效整合多模态信息和可验证的逻辑连贯性。尽管大型语言模型在一般问题解决中得到了快速发展,但在方法论和基准方面仍然没有得到解决,特别是考虑到现有的合成GPS基准通常没有经过自我验证,并且由于LLM的错觉而包含噪声和自相矛盾的信息。
🔸在本文中,我们提出了一个名为TrustGeoGen的可扩展数据引擎用于问题生成,并通过形式化验证提供了一个原则性的基准,我们认为这为GPS方法的进一步发展奠定了基础。该引擎通过四个关键创新来合成几何数据:1)多模式对齐生成图表、文本描述和逐步解决方案;2)形式验证确保符合规则的推理路径;3)通过递归状态生成实现复杂性升级的自举机制,4)我们设计的GeoExplore系列算法同时产生多解变体和自反射回溯轨迹。通过正式的逻辑验证,TrustGeoGen生成了具有保证模态完整性的GeoTrust-200K数据集,以及GeoTrusttest测试集。
🔸实验表明,最先进的模型在GeoTrust测试中的准确率仅为49.17%,证明了其评估的严格性。至关重要的是,在GeoTrust上训练的模型在GeoQA上实现了OOD泛化,显著减少了与OpenAI-o1注释的伪标签相关的逻辑不一致。我们的代码可在https://github.com/Alpha-Innovator/TrustGeoGen.

🛎️文章简介

🔸研究问题:在几何问题求解中高质量数据短缺。
🔸主要贡献:论文提出了一个名为TrustGeoGen的可扩展和形式验证的数据引擎,用于生成可信的多模态几何推理数据。

📝重点思路

🔸使用TrustGeoGen构建初始几何场景,并逐步增加复杂性,生成几何推理实例。
🔸应用深度推理增强技术,通过引导抽样和自回溯数据生成方法,提升数据集中的深度推理问题比例。
🔸通过引入正式验证机制,确保每个推理步骤的逻辑正确性,并构建推理图以支持多种解决方案路径的探索。
🔸构建GeoTrust数据集,并手动策划GeoTrust-test测试集,以评估模型在复杂几何问题上的表现。

🔎分析总结

🔸实验结果表明,TrustGeoGen生成的几何推理数据在模型训练中显著提升了多模态大语言模型(MLLM)的推理能力。
🔸现有的MLLMs在复杂几何问题上的表现仍然有限,尤其是在高难度问题上,准确率显著下降。
🔸通过将GeoTrust-train数据结合用于模型微调,模型的泛化能力得到了提升,尤其是在处理未见过的几何问题时。
🔸采用自反追溯数据和多解数据构建策略,增强了模型对几何关系的理解和推理能力。

💡个人观点

论文的核心在于引入系统化的几何推理数据生成方法,解决了传统数据集在规模和质量上的不足,同时通过形式验证提高了推理过程的可信度。

🧩附录

在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值