清华:LLM推理时自主选择思考模式

在这里插入图片描述

📖标题:AdaptThink: Reasoning Models Can Learn When to Think
🌐来源:arXiv, 2505.13417

🌟摘要

🔸最近,大型推理模型通过采用类人深度思维在各种任务中取得了令人印象深刻的表现。然而,冗长的思维过程大大增加了推理开销,使得效率成为一个关键的瓶颈。
🔸在这项工作中,我们首先证明 NoThinking,它提示推理模型跳过思维并直接生成最终解决方案,在性能和效率方面都对相对简单的任务有更好的选择。受此启发,我们提出了一种新的 RL 算法 AdaptThink,用于教推理模型根据问题难度自适应地选择最佳思维模式。具体来说,AdaptThink 有两个核心组件:(1)约束优化目标,鼓励模型在保持整体性能的同时选择 NoThinking; (2) 在策略训练期间平衡 Thinking 和 NoThinking 样本的重要性采样策略,从而实现冷启动并允许模型在整个训练过程中探索和利用这两种思维模式。
🔸我们的实验表明,AdaptThink 显着降低了推理成本,同时进一步提高了性能。值得注意的是,在三个数学数据集上,AdaptThink 将 DeepSeek-R1-DistillQwen-1.5B 的平均响应长度降低了 53%,提高了 2.4% 的准确率,突出了自适应思维模式选择以优化推理质量和效率之间的平衡的前景。我们的代码和模型可在 https://github.com/THU-KEG/AdaptThink 获得。

🛎️文章简介

🔸研究问题:如何使推理模型能够根据输入问题的难度自适应地选择思考模式,从而提高推理效率而不牺牲性能?
🔸主要贡献:论文提出了一种新颖的强化学习算法AdaptThink,使推理模型能够根据问题难度自适应选择思考模式,从而显著降低推理成本并提高准确性。

📝重点思路

🔸研究采用了简化的NoThinking方法,允许模型跳过冗长的思考过程,直接生成最终答案。
🔸通过引入约束优化目标,鼓励模型在不降低整体性能的前提下优先选择NoThinking模式。
🔸采用重要性采样策略,在训练过程中平衡思考和非思考样本,以解决冷启动问题,并允许模型在整个训练过程中探索和利用两种思考模式。

🔎分析总结

🔸实验表明,对于简单问题,NoThinking模式的准确性与Thinking模式相当,甚至在最简单的问题上表现更好,同时响应长度显著更短。
🔸AdaptThink在GSM8K、MATH500和AIME2024等数据集上,平均响应长度分别减少了50.9%、63.5%和44.7%,而准确性分别提高了4.1%、1.4%和1.6%。
🔸研究发现,Thinking模式仅在面对较难的问题时才显著提升性能,而NoThinking模式在简单问题上更具优势,表明AdaptThink成功实现了根据问题难度自适应选择思考模式的目标。

💡个人观点

论文的创新点在于结合约束优化和重要性采样策略,实现了在不同问题难度下的自适应选择,极大地提升了推理效率与准确性。

🧩附录

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值