中科院:提前终止LLM深度思考

在这里插入图片描述

📖标题:Dynamic Early Exit in Reasoning Models
🌐来源:arXiv, 2504.15895

🌟摘要

🔸大型推理语言模型(LRLM)的最新进展依赖于测试时间缩放,这扩展了长思维链(CoT)生成以解决复杂任务。然而,在长CoT中过度思考不仅会降低问题解决的效率,而且由于极其详细或冗余的推理步骤,还可能导致准确性损失。
🔸我们提出了一种简单而有效的方法,允许LLM在生成过程中通过早期退出来自截断CoT序列。该方法不依赖于固定的启发式方法,而是在潜在的推理转换点(例如“等待”令牌)监控模型行为,并在模型对试验答案表现出高置信度时动态终止下一个推理链的生成。我们的方法不需要额外的训练,可以无缝集成到现有的类o1推理LLM中。
🔸在多个推理基准MATH-500、AMC 2023、GPQA Diamond和AIME 2024上的实验表明,所提出的方法在深寻序列推理LLM上始终有效,将CoT序列的长度平均缩短了31%至43%,同时将准确率提高了1.7%至5.7%。

🛎️文章简介

🔸研究问题:大规模推理语言模型(LRLM)在生成长链思维(CoT)时存在过度思考,如何提高推理的效率与准确性?
🔸主要贡献:论文提出了一种简单有效的方法DEER,允许LRLM在生成过程中自我截断链思维,通过动态判断何时提前退出推理,提升了模型的推理效率和准确性。

📝重点思路

🔸提出动态早期退出(DEER)方法,利用推理转移监控、答案诱导和置信度评估三个模块来判断是否可以提前退出推理。
🔸通过监控模型在潜在的推理转移点(如“Wait”标记)上的行为,动态终止生成过程。
🔸诱导模型在每个推理切换点生成试验答案,并评估其置信度,如果置信度高则停止进一步推理,输出最终答案。

🔎分析总结

🔸实验结果表明,DEER方法能显著减少CoT序列的长度,平均减少31%至43%,同时提高准确性1.7%至5.7%。
🔸在编程基准上,DEER方法的生成长度平均减少64.9%,并提高了pass@1的分数。
🔸不同问题的最佳提前退出点是变化的,表明需要动态的策略而非静态的提前退出策略,以优化模型性能。

💡个人观点

论文的核心在于分析模型响应中的特殊token,一旦出现后就让模型转为直接回答并计算置信度,使得LRLM能够在推理过程中自我判断何时停止。

🧩附录

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值