复旦：多模态几何求解数据构建-CSDN博客

本文链接：https://blog.csdn.net/weixin_46739757/article/details/147505666

在这里插入图片描述

📖标题：TrustGeoGen: Scalable and Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving
🌐来源：arXiv, 2504.15780

🌟摘要

🔸数学几何问题求解（GPS）通常需要有效整合多模态信息和可验证的逻辑连贯性。尽管大型语言模型在一般问题解决中得到了快速发展，但在方法论和基准方面仍然没有得到解决，特别是考虑到现有的合成GPS基准通常没有经过自我验证，并且由于LLM的错觉而包含噪声和自相矛盾的信息。
🔸在本文中，我们提出了一个名为TrustGeoGen的可扩展数据引擎用于问题生成，并通过形式化验证提供了一个原则性的基准，我们认为这为GPS方法的进一步发展奠定了基础。该引擎通过四个关键创新来合成几何数据：1）多模式对齐生成图表、文本描述和逐步解决方案；2）形式验证确保符合规则的推理路径；3）通过递归状态生成实现复杂性升级的自举机制，4）我们设计的GeoExplore系列算法同时产生多解变体和自反射回溯轨迹。通过正式的逻辑验证，TrustGeoGen生成了具有保证模态完整性的GeoTrust-200K数据集，以及GeoTrusttest测试集。
🔸实验表明，最先进的模型在GeoTrust测试中的准确率仅为49.17%，证明了其评估的严格性。至关重要的是，在GeoTrust上训练的模型在GeoQA上实现了OOD泛化，显著减少了与OpenAI-o1注释的伪标签相关的逻辑不一致。我们的代码可在https://github.com/Alpha-Innovator/TrustGeoGen.

🛎️文章简介

🔸研究问题：在几何问题求解中高质量数据短缺。
🔸主要贡献：论文提出了一个名为TrustGeoGen的可扩展和形式验证的数据引擎，用于生成可信的多模态几何推理数据。

📝重点思路

🔸使用TrustGeoGen构建初始几何场景，并逐步增加复杂性，生成几何推理实例。
🔸应用深度推理增强技术，通过引导抽样和自回溯数据生成方法，提升数据集中的深度推理问题比例。
🔸通过引入正式验证机制，确保每个推理步骤的逻辑正确性，并构建推理图以支持多种解决方案路径的探索。
🔸构建GeoTrust数据集，并手动策划GeoTrust-test测试集，以评估模型在复杂几何问题上的表现。

🔎分析总结

🔸实验结果表明，TrustGeoGen生成的几何推理数据在模型训练中显著提升了多模态大语言模型（MLLM）的推理能力。
🔸现有的MLLMs在复杂几何问题上的表现仍然有限，尤其是在高难度问题上，准确率显著下降。
🔸通过将GeoTrust-train数据结合用于模型微调，模型的泛化能力得到了提升，尤其是在处理未见过的几何问题时。
🔸采用自反追溯数据和多解数据构建策略，增强了模型对几何关系的理解和推理能力。