📖标题:Distill Visual Chart Reasoning Ability from LLMs to MLLMs
🌐来源:arXiv, 2410.18798
摘要
🔸解决复杂的图表问答任务需要多模态大型语言模型(MLLM)中的高级视觉推理能力。最近的研究强调,这些能力由两个主要部分组成:从视觉输入中识别关键信息和对其进行推理。因此,一种有前景的增强MLLM的方法是构建关注这两个方面的相关训练数据。然而,收集和注释复杂的图表和问题既昂贵又耗时,确保注释答案的质量仍然是一个挑战。
🔸在本文中,我们提出了代码中介翻译(CIT),这是一种经济高效、易于扩展的数据合成方法,用于从LLM到MLLM中提取视觉推理能力。该代码充当中介,将可视化图表表示转换为文本表示,使LLM能够理解跨模态信息。具体来说,我们采用基于文本的合成技术来构建图表绘制代码,并生成REACHQA,这是一个包含3k个推理密集型图表和20k个问答对的数据集,以提高识别和推理能力。
🔸实验表明,当使用我们的数据进行微调时,模型不仅在与图表相关的基准上表现良好,而且在MathVista等通用数学基准上表现出改进的多模态推理能力。代码和数据集是公开可用的https://github.com/hewei2001/ReachQA.
🛎️文章简介
🔸研究问题:多模态大语言模型(MLLM)在复杂图表理解和推理任务中的不足,特别是在视觉识别和高级推理能力方面面临挑战。
🔸主要贡献:论文提出了CIT方法,通过代码作为媒介,将图表图像转换为文本表示,从而提升MLLM在图表相关任务中的表现。
📝重点思路
🔺相关工作
🔸MLLM在视觉识别任务取得突破,可以很好地处理简单的视觉输入,但难以理解复杂的图表。
🔸现有的基准强调了对更先进和更广义的视觉推理能力的需求,而这些能力在当前的MLLM中仍然不发达。
🔸一种有前途的策略是从专家那里提炼推理的基本原理,例如人类或更强大的模型,但创建高质量的图表训练数据成本高昂。
🔺论文方案
🔸CIT方法:通过代码作为中介,将图表图像转换为文本表示,从而使语言模型能够更好地解释跨模态信息并生成更准确的QA对。
🔸REACHQA数据集构建:在极低的成本下,构建了一个包含3249个推理密集型图表和19963个QA对的多模态指令数据集,包括8k个视觉识别问题和12k个推理问题。
🔸实验设计:通过在REACHQA数据集上微调模型,评估模型在多个基准测试上的性能提升,并研究专家推理过程对模型推理能力的影响、识别与推理训练数据比例的效果以及混合通用多模态指令数据的好处。
🔎分析总结
🔸模型性能提升:在REACHQA数据集上微调后,所有模型在七个基准测试上均表现出显著的性能提升,特别是LLaVA-Next-Llama3-8B模型平均提升了30%以上。
🔸泛化能力增强:这些性能提升不仅限于图表特定的任务,还扩展到更广泛的多模态推理任务,如MathVista和MATH-Vision。
🔸专家推理过程的影响:实验表明,专家推理过程的提炼显著增强了模型的视觉推理能力。
🔸数据比例的影响:识别与推理训练数据比例的调整对模型性能有显著影响,平衡的数据比例可以提高模型的整体性能。
🔸混合数据的好处:混合通用多模态指令数据可以恢复模型在一般多模态任务上的性能,同时保持增强的推理能力。
💡个人观点
论文的核心是通过代码作为中介来描述图表信息,从而让LLM生成新的图表代码,既可以转化为新图表,还可以给LLM合成问答对。
附录