华东师大:LLM多模态数学评估基准CMM-Math

在这里插入图片描述

📖标题:CMM-Math: A Chinese Multimodal Math Dataset To Evaluate and Enhance the Mathematics Reasoning of Large Multimodal Models
🌐来源:arXiv, 2409.02834

摘要

🔸大语言模型(LLMs)在数学推理方面取得了可喜的成果,数学推理是人类智能的一项基本技能。之前的大多数研究都集中在基于文本数学推理数据集(如math、GSM8K)改进和衡量LLM的性能上。最近,一些研究人员发布了英语多模态数学数据集(如MATHVISTA和math-V)来评估大型多模态模型(LMM)的有效性。
🔸本文中,我们发布了一个中国多模态数学(CMM-math)数据集,包括基准和训练部分,以评估和增强LMM的数学推理。CMMMath包含28000多个高质量的样本,具有各种问题类型(如多项选择、填空等),并在中国从小学到高中的12个年级提供了详细的解决方案。具体来说,问题或意见中可能存在视觉背景,这使得该数据集更具挑战性。
🔸通过综合分析,我们发现CMM Math数据集上最先进的LMM面临挑战,强调了进一步改进LMM开发的必要性。我们还提出了一种多模态数学LMM(Math LMM)来处理多个图像和文本片段混合输入的问题。我们使用三个阶段来训练我们的模型,包括基础预训练、基础微调和数学微调。广泛的实验表明,通过在三个多模态数学数据集上与SOTA LMM进行比较,我们的模型有效地提高了数学推理性能。

🛎️文章简介

🔸研究问题:如何有效评估和提升多模态大模型在数学推理任务中的表现?
🔸主要贡献:论文提出了一个名为CMM-Math的中文多模态数学数据集,并设计了一个数学特定的多模态模型Math-LMM,以提高模型在数学推理任务中的表现。

📝重点思路

🔺相关工作

🔸数学文本数据集:如GSM8K和MATH等,测试数学推理、计算和定理证明等领域的语言处理能力。
🔸数学视觉数据集:如MMMU和MATH-V等,测试几何问题、属性等多模态能力。
🔸多模态大模型:随着GPT-4V的引入,越来越多的多模态大模型被提出,旨在同时处理文本和图像任务,通常采用文本和视觉编码器,拼接后统一输入。

🔺CMM-Math构建

🔸概述:包含28069个文本和多模态问题,使用准确率和GPT-4o评分来衡量模型在选择题、是非题、填空题和分析题上的表现,遵循四个步骤构建。
🔸步骤1:收集从小学到高中的数学试题
🔸步骤2:将问题结构化为题类型、模态、问题、选项、答案、解决方案等字段
🔸步骤3:通过LLM将问题分为13个不同的主题
🔸步骤4:人工检查格式和上下文

🔺Math-LMM训练

🔸概述:主要包含用于编码图像信息的视觉编码器、用于模态对齐的适配器和用于数学推理的大语言模型,采用三阶段训练。
🔸阶段1:基础预训练,使用具有图像描述的大规模通用多模态数据集,将一般视觉信息与LLM对齐
🔸阶段2:基础微调,使用通用领域数据集,学习任务处理能力
🔸阶段3:数学微调,使用数学相关数据集,通过特定的输入模板(如“这是文本”),学习多模态数学推理。

🔎分析总结

🔸模型性能:Math-LMM在整体准确率上超过了其他开源LMM,仅用8B参数就达到了32.10分,而其他模型的得分为31.21分。
🔸学科表现:LMM擅长算术和统计,但在几何学上表现有限,特别是在描述几何学上的准确率仅为26.11%。
🔸教育水平:LMM在小学水平的问题上表现良好,但在高中水平的问题上表现下降。
🔸问题类型:大多数LMM在选择题和是非题上表现良好,但在填空题和分析题上的表现有限。

💡个人观点

论文的核心在于提出了一个专门用于数学推理的中文多模态数学数据集,并设计了一个数学特定的多模态模型。

附录

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值