📖标题:LIMO: Less is More for Reasoning
🌐来源:arXiv, 2502.03387
🌟摘要
🔸我们提出了一个基本发现,挑战了我们对大型语言模型中复杂推理如何出现的理解。虽然传统观点认为,复杂的推理任务需要大量的训练数据(通常超过10万个例子),但我们证明了一个惊人的现象:复杂的数学推理能力可以用少得惊人的例子有效地激发出来。这一发现不仅挑战了海量数据需求的假设,也挑战了监督微调主要导致记忆而非泛化的普遍信念。
🔸通过综合实验,我们提出的模型LIMO在数学推理方面表现出了前所未有的性能和效率。LIMO仅使用817个精心策划的训练样本,在极具挑战性的AIME基准测试中达到了57.1%的准确率,在MATH上达到了94.8%,将之前基于SFT的强大模型在AIME上的性能从6.5%提高到57.1%,在MATH上从59.2%提高到94.8%,而只使用了之前方法所需训练数据的1%。最值得注意的是,LIMO表现出卓越的分布外泛化能力,在10个不同的基准测试中实现了40.5%的绝对改进,表现优于在100倍以上数据上训练的模型,直接挑战了SFT固有地导致记忆而非泛化的普遍观念。
🔸综合这些开创性的结果,我们提出了“少即是多推理假说”(LIMO假说):在预训练期间对领域知识进行全面编码的基础模型中,复杂的推理能力可以通过最小但精确编排的认知过程演示来出现。这一假设认为,复杂推理的启发阈值并不受目标推理任务复杂性的固有限制,而是从根本上由两个关键因素决定:(1)模型在预训练期间编码知识基础的完整性,以及(2)训练后示例的有效性,这些示例作为“认知模板”,向模型展示了如何有效地利用其现有的知识库来解决复杂的推理任务。为了促进数据高效推理的可重复性和未来的研究,我们发布了LIMO作为一个全面的开源套件https://github.com/GAIR-NLP/LIMO.
🛎️文章简介
🔸研究问题:如何通过较小的数据集有效激发大语言模型(LLM)的复杂推理能力?
🔸主要贡献:论文证明通过少量精心策划的示例可以激发模型的复杂推理能力,并挑战了当前对推理任务数据需求的传统假设。
📝重点思路
🔸基于LIMO原则,开发了结合规则过滤和LLM辅助策划的混合方法,以选择高质量的解决方案。,
🔸进行了系统的多阶段过滤过程,从数千万个问题中筛选出817个高质量问题,以确保问题的难度和多样性,形成一个高质量的推理链数据集,以支持复杂推理能力的学习。
🔸进行了一系列的实验,比较不同质量的推理链对模型性能的影响。
🔸进行了对比实验,使用主流开源推理数据集评估模型在不同训练数据效率下的表现。
🔎分析总结
🔸LIMO方法在多个基准测试中表现优越,模型在仅使用817个高质量示例的情况下,显著超越了使用数十万示例训练的其他模型。
🔸推理链的质量对模型性能有显著影响,高质量推理链(如L5质量)的模型在推理任务中表现最佳,证明了良好结构和详细验证的重要性。
🔸问题的质量和难度对推理能力的提升具有积极影响,挑战性问题能够促进复杂推理链的形成和知识的整合。
🔸相比于R1在强化学习的充分探索,LIMO强调基于认知的高质量推理轨迹。
💡个人观点
论文的核心是证明了少量的高质量推理数据,即可激活LLM复杂推理能力,数据规模的缩放定律可能不存在。
🧩附录