腾讯:o1类的LLM存在过度思考

在这里插入图片描述

📖标题:Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs
🌐来源:arXiv, 2412.21187

🌟摘要

🔸OpenAI的o1等模型的卓越性能可归因于它们在推理过程中模拟类人长时间思维的能力。这些模型采用扩展思维链(CoT)过程,探索多种策略来提高解决问题的能力。然而,一个关键问题仍然存在:如何在测试过程中智能有效地扩展计算资源。
🔸本文首次对这些模型中普遍存在的过度思考问题进行了全面研究,在这些模型中,过多的计算资源被分配给效益最小的简单问题。我们从结果和过程的角度引入了新的效率指标,以评估类o1模型对计算资源的合理使用。使用自我训练范式,我们提出了减轻过度思考、简化推理过程而不影响准确性的策略。
🔸实验结果表明,我们的方法成功地降低了计算开销,同时在不同难度级别的一系列测试集(如GSM8K、MATH500、GPQA和AIME)上保持了模型性能。

🛎️文章简介

🔸研究问题:o1类的大语言模型(LLM)在处理简单问题时会过度思考,即模型在推理过程中消耗过多的计算资源,而准确率提升有限。
🔸主要贡献:论文首次系统地分析了o1类模型的过度思考问题,提出了新的效率评估指标,并通过自训练策略有效减少了计算开销,同时保持了模型的性能。

📝重点思路

🔸定义解决方案:论文将解决方案定义为包含明确答案的生成部分,并使用Llama-3.3-70B模型从生成的响应中分离出解决方案。
🔸提出效率指标:提出了结果效率和过程效率两种指标,评估o1类模型在推理过程中计算资源的使用效率。
🔸自训练策略:采用自训练范式,通过模型本身生成训练数据来优化推理过程,探索了SFT、DPO、RPO和SimPO训练,以减少冗余解决方案。
🔸实验验证:在多个不同难度的测试集(如GSM8K、MATH500、GPQA和AIME)上进行实验,验证所提出方法的有效性和鲁棒性。

🔎分析总结

🔸解决方案分布:o1类模型在大多数情况下生成2到4轮解决方案,覆盖了76%到85%的案例。
🔸准确率提升有限:超过92%的情况下,初始轮次的解决方案已经产生正确答案,后续轮次对准确率的提升贡献有限。
🔸解决方案缺乏多样性:后续解决方案的多样性较低,往往重复前期的解决方案。
🔸简化策略效果:通过自训练和简化策略(如保留首次正确解决方案),论成功减少了模型生成的计算开销,同时在不同难度的测试集上保持了模型性能。

💡个人观点

论文提出了针对o1类模型的过度思考问题,通过自训练和简化策略能在减少无用输出的同时保持性能。

🧩附录

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值