📖标题:Unlocking Efficient Long-to-Short LLM Reasoning with Model Merging
🌐来源:arXiv, 2503.20641
🌟摘要
🔸从系统 1 到大型语言模型 (LLM) 中的系统 2 推理的转变通过深思熟虑的迭代思维在处理复杂任务时取得了重大进展。然而,这一进展通常以效率为代价,因为模型倾向于过度思考,生成冗余推理步骤,而不会对输出质量进行成比例的改进。长短期记忆 (L2S) 推理已成为这一挑战的一个有前途的解决方案,旨在平衡推理深度和实际效率。虽然现有方法,例如监督微调 (SFT)、强化学习 (RL) 和提示工程,已经显示出潜力,但它们要么计算成本高,要么不稳定。另一方面,模型合并通过将系统 1 模型的快速思考能力与系统 2 模型的方法推理相结合,提供了一种具有成本效益的和稳健的替代方案。
🔸在这项工作中,我们对 L2S 推理的模型合并进行了全面的实证研究,探索了各种方法,包括基于任务向量、基于 SVD 和激活信息合并。我们的实验表明,模型合并可以在保留甚至提高基线性能的同时将平均响应长度减少高达 55%。我们还通过对 1.5B/7B/14B/32B 模型的广泛评估,确定了模型规模和合并功效之间的强相关性。此外,我们研究了合并模型对自批评和自校正的能力,以及基于任务复杂性的自适应响应长度。
🔸我们的研究结果强调了模型合并作为 L2S 推理的一种高效有效的范式,为过度思考问题提供了一种实用的解决方案,同时保持了系统 2 推理的鲁棒性。这项工作可以在 Github https://github.com/hahawu/Long-to-Short-via-Model-Merging 上找到。
🛎️文章简介
🔸研究问题:大语言模型(LLM)在复杂推理任务中表现低效,尤其是在长到短推理过程中存在冗余和重复推理。
🔸主要贡献:论文提出了一种高效的模型合并方法,通过集成系统1和系统2的优点,显著减少推理长度并保持性能。
📝重点思路
🔸采用长到短推理(L2S)方法,通过模型合并技术有效整合多个任务专用模型,减少冗余和提高推理效率。
🔸介绍了多种模型合并方法,包括任务向量基础合并、奇异值分解(SVD)合并和激活基础合并,分析其在长到短推理中的应用效果。
🔸通过实验评估不同规模模型的合并效果,特别关注7B规模模型的性能表现。
🔎分析总结
🔸任务向量基础合并方法(如TA和Ties-Merging)能够在保持准确性的同时,实现约50%的推理长度减少。
🔸SVD基础合并方法的效果有限,未能有效应对任务向量干扰,且在复杂任务上表现较好。
🔸激活基础合并方法显示出较强的性能,能够在减少响应长度的同时提升推理准确性。
🔸合并模型在不同规模下表现不一,小型模型在获取长推理能力上存在困难,而大型模型在推理性能保持上相对较好。
💡个人观点
论文的核心在于快慢思考模型的合并,以解决LLM推理过程中的冗余。