腾讯：o1类的LLM存在过度思考

最新推荐文章于 2025-05-08 10:04:30 发布

大模型任我行

最新推荐文章于 2025-05-08 10:04:30 发布

阅读量969

点赞数 20

分类专栏：大模型-推理优化大模型-模型训练文章标签：人工智能自然语言处理语言模型论文笔记

本文链接：https://blog.csdn.net/weixin_46739757/article/details/144919112

版权

大模型-模型训练同时被 2 个专栏收录

266 篇文章

订阅专栏

大模型-推理优化

122 篇文章

订阅专栏

在这里插入图片描述

📖标题：Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs
🌐来源：arXiv, 2412.21187

🌟摘要

🔸OpenAI的o1等模型的卓越性能可归因于它们在推理过程中模拟类人长时间思维的能力。这些模型采用扩展思维链（CoT）过程，探索多种策略来提高解决问题的能力。然而，一个关键问题仍然存在：如何在测试过程中智能有效地扩展计算资源。
🔸本文首次对这些模型中普遍存在的过度思考问题进行了全面研究，在这些模型中，过多的计算资源被分配给效益最小的简单问题。我们从结果和过程的角度引入了新的效率指标，以评估类o1模型对计算资源的合理使用。使用自我训练范式，我们提出了减轻过度思考、简化推理过程而不影响准确性的策略。
🔸实验结果表明，我们的方法成功地降低了计算开销，同时在不同难度级别的一系列测试集（如GSM8K、MATH500、GPQA和AIME）上保持了模型性能。

🛎️文章简介

🔸研究问题：o1类的大语言模型（LLM）在处理简单问题时会过度思考，即模型在推理过程中消耗过多的计算资源，而准确率提升有限。
🔸主要贡献：论文首次系统地分析了o1类模型的过度思考问题，提出了新的效率评估指标，并通过自训练策略有效减少了计算开销，同时保持了模型的性能。

📝重点思路

🔸定义解决方案：论文将解决方案定义为包含明确答案的生成部分，并使用Llama-3.3-70B模型从生成的响应中分离出解决方案。
🔸提出效率指标：提出了结果效率和过程效率两种指标，评估o1类模型在推理过程中计算资源的使用效率。
🔸自训练策略：采用自训练范式，通过模型本身生成训练数据来优化推理过程，探索了SFT、DPO、RPO和SimPO训练，以减少冗余解决方案。
🔸实验验证：在多个不同难度的测试集（如GSM8K、MATH500、GPQA和AIME）上进行实验，验证所提出方法的有效性和鲁棒性。

🔎分析总结

🔸解决方案分布：o1类模型在大多数情况下生成2到4轮解决方案，覆盖了76%到85%的案例。
🔸准确率提升有限：超过92%的情况下，初始轮次的解决方案已经产生正确答案，后续轮次对准确率的提升贡献有限。
🔸解决方案缺乏多样性：后续解决方案的多样性较低，往往重复前期的解决方案。
🔸简化策略效果：通过自训练和简化策略（如保留首次正确解决方案），论成功减少了模型生成的计算开销，同时在不同难度的测试集上保持了模型性能。