📖标题:Long-Short Chain-of-Thought Mixture Supervised Fine-Tuning Eliciting Efficient Reasoning in Large Language Models
🌐来源:arXiv, 2505.03469
🌟摘要
🔸大型语言模型的最新进展表明,从大型推理模型(例如 DeepSeek R1)中提取的具有思维链 (CoT) 推理数据的监督微调 (SFT) 可以有效地将推理能力转移到非推理模型。然而,用这种方法微调的模型继承了教师模型的“过度思考”问题,在推理过程中产生冗长而冗余的推理链。
🔸为了应对这一挑战,我们提出了长短期记忆混合监督微调 (LS-Mixture SFT),它将长 CoT 推理数据集与通过结构保留重写获得的短对应物相结合。
🔸我们的实验表明,与使用直接 SFT 训练的模型相比,使用 LS-Mixture SFT 方法训练的模型在各种基准测试中实现了 2.3% 的平均准确率提高,同时将模型响应长度大幅降低约 47.61%。这项工作提供了一种通过监督微调赋予非推理模型推理能力的方法,同时避免从教师模型继承的问题固有的过度思考问题,从而在微调模型中实现有效的推理。项目在https://github.com/ZGCA-AI4Edu/LS-Mixture
🛎️文章简介
🔸研究问题:如何在大语言模型(LLM)监督微调中有效提升推理能力并避免继承过度思考?
🔸主要贡献:论文提出了一种新的长短链思维混合监督微调方法(LS-Mixture SFT),通过该方法实现了更高效的推理能力,并在多个基准测试中验证了其有效性。
📝重点思路
🔸结构保留的链思维重写:利用大型语言模型将长链思维轨迹重写为短链轨迹,同时保持其逻辑结构和关键推理步骤。
🔸混合监督微调:将重写后的短链思维数据与原始长链思维数据随机混合,形成新的混合数据集,以此对非推理的大语言模型进行监督微调,得到s1-mix-32B。
🔸推理时的平衡思维:在推理阶段采用平衡思维的方式,结合训练期间学到的详细和简洁思维模式,以优化推理的有效性与效率。
🔎分析总结
🔸实验结果表明,s1-mix-32B模型在多个基准测试上准确性显著提高,如MATH500提高了2.2%,AIME24提高了6.7%,GPQA提高了2%,同时平均响应长度减少了47.61%。
🔸通过消融实验验证了结构保留的链思维重写策略的重要性以及长短链混合训练方法在平衡推理效率和准确性方面的优势。
🔸所提出的方法有效避免了从教师模型继承过度思考的问题,展现了良好的推理能力和效率。
💡个人观点
论文的核心在于将长链思维改写为短链思维,然后混合监督微调,使得模型能够在保持推理能力的同时显著减少响应长度,从而提升推理效率。
🧩附录