📖标题:TrustGeoGen: Scalable and Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving
🌐来源:arXiv, 2504.15780
🌟摘要
🔸数学几何问题求解(GPS)通常需要有效整合多模态信息和可验证的逻辑连贯性。尽管大型语言模型在一般问题解决中得到了快速发展,但在方法论和基准方面仍然没有得到解决,特别是考虑到现有的合成GPS基准通常没有经过自我验证,并且由于LLM的错觉而包含噪声和自相矛盾的信息。
🔸在本文中,我们提出了一个名为TrustGeoGen的可扩展数据引擎用于问题生成,并通过形式化验证提供了一个原则性的基准,我们认为这为GPS方法的进一步发展奠定了基础。该引擎通过四个关键创新来合成几何数据:1)多模式对齐生成图表、文本描述和逐步解决方案;2)形式验证确保符合规则的推理路径;3)通过递归状态生成实现复杂性升级的自举机制,4)我们设计的GeoExplore系列算法同时产生多解变体和自反射回溯轨迹。通过正式的逻辑验证,TrustGeoGen生成了具有保证模态完整性的GeoTrust-200K数据集,以及GeoTrusttest测试集。
🔸实验表明,最先进的模型在GeoTrust测试中的准确率仅为49.17%,证明了其评估的严格性。至关重要的是,在GeoTrust上训练的模型在GeoQA上实现了OOD泛化,显著减少了与OpenAI-o1注释的伪标签相关的逻辑不一致。我们的代码可在https://github.com/Alpha-Innovator/TrustGeoGen.
🛎️文章简介
🔸研究问题:在几何问题求解中高质量数据短缺。
🔸主要贡献:论文提出了一个名为TrustGeoGen的可扩展和形式验证的数据引擎,用于生成可信的多模态几何推理数据。
📝重点思路
🔸使用TrustGeoGen构建初始几何场景,并逐步增加复杂性,生成几何推理实例。
🔸应用深度推理增强技术,通过引导抽样和自回溯数据生成方法,提升数据集中的深度推理问题比例。
🔸通过引入正式验证机制,确保每个推理步骤的逻辑正确性,并构建推理图以支持多种解决方案路径的探索。
🔸构建GeoTrust数据集,并手动策划GeoTrust-test测试集,以评估模型在复杂几何问题上的表现。
🔎分析总结
🔸实验结果表明,TrustGeoGen生成的几何推理数据在模型训练中显著提升了多模态大语言模型(MLLM)的推理能力。
🔸现有的MLLMs在复杂几何问题上的表现仍然有限,尤其是在高难度问题上,准确率显著下降。
🔸通过将GeoTrust-train数据结合用于模型微调,模型的泛化能力得到了提升,尤其是在处理未见过的几何问题时。
🔸采用自反追溯数据和多解数据构建策略,增强了模型对几何关系的理解和推理能力。
💡个人观点
论文的核心在于引入系统化的几何推理数据生成方法,解决了传统数据集在规模和质量上的不足,同时通过形式验证提高了推理过程的可信度。
🧩附录