昆仑万维:LLM数学推理的数据缩放定律

在这里插入图片描述

📖标题:Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models — The Story Goes On
🌐来源:arXiv, 2407.08348

🛎️文章简介

🔸研究问题:如何通过数据规模扩展来提升大语言模型(LLM)在数学推理任务中的性能。
🔸主要贡献:论文分享了天工大模型如何构建高质量SFT数据集,并通过实验验证了数据规模对数学推理性能的影响。

📝重点思路

🔺相关工作

🔸LLM对齐:是指确保模型的输出符合用户偏好的过程,包括监督微调(SFT)、人类反馈强化学习(RLHF)和直接策略优化(DPO)等。
🔸SFT数据数量:LLM微调满足缩放定律,数据量会严重影响LLM表现,数据大小依赖任务数量。
🔸SFT数据质量:大量的知识获取发生在预训练阶段,最大限度地减少了对大量微调数据的需求,实验发现高质量的小规模数据比低质量的大规模数据更有效。
🔸LLM数学推理:简单的数学问题如GSM8K已经能被LLM很好解决,CoT等推理框架和工具调用有助于提高数学推理表现。

🔺论文方案

🔸概述:围绕天工-7B模型的训练方案,介绍两阶段的SFT数据构建,以及如何增强模型对齐过程中的数学推理能力。
🔸阶段1:通过最大化多样性来采样MATH作为种子集,通过MetaMathQA、Evol-Instruct和自我修正三种方法进行数据增强。
🔸阶段2:随着数据量的增加,观察到性能和数据量之间的关系开始趋于稳定,进一步通过课程学习的思路,为模型针对性的设计更具挑战性的问题。

🔎分析总结

🔸在数量较小的情况下已经可以获得不错的结果,而数量增多可以进一步提升性能。
🔸生成的数据包含更具挑战性的问题,可以进一步提高LLM的数学推理极限。
🔸种子多样性和质量会提高数据多样性,可以大幅提高LLM的数学推理能力。
🔸中英双语表现有较大差距,凸显出模型推理能力和语言相关。

💡个人观点

论文详细介绍了两阶段微调的数据构建,并做了详细的数据分布探索。

附录

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值