阿里:思维预算控制LLM性能和质量

在这里插入图片描述

📖标题:BARD: budget-aware reasoning distillation
🌐来源:arXiv, 2511.01470

🌟摘要

虽然长链思维 (CoT) 蒸馏有效地将推理能力转移到较小的语言模型中,但推理过程往往保持冗余和计算预算不可控,导致资源使用效率低下。为了解决这个限制,我们提出了预算感知推理蒸馏 (BARD),这是一个新颖的框架,可以同时提取推理能力并实现对推理长度的细粒度控制。BARD 使用思维预算作为用户指定的控制信号,允许模型动态平衡推理性能和计算效率。为了实现这一概念,BARD 引入了一种两阶段训练方案。第一阶段,监督微调 (SFT) 在教师生成的长 CoT 数据上压缩为各种预算级别,引导模型对预算约束的理解。第二阶段同时考虑推理性能和预算保真度,利用来自奖励信号的强化学习 (RL)。结合两阶段方案对于避免策略退化和确保两个目标联合优化至关重要。大量实验表明,我们的方法使 8B 学生模型在具有挑战性的推理基准 (AIME24, AIME25, GPQA) 上实现了强大的性能,同时在广泛的预算范围内对其推理长度进行精确和自适应控制。

🛎️文章简介

🔸研究问题:如何在知识蒸馏过程中实现对推理长度的精细控制,同时保持推理能力的提升?
🔸主要贡献:论文提出了一种称为BARD的框架,通过引入用户指定的思维预算,在推理蒸馏的同时实现高效的推理长度控制。

📝重点思路

🔸设计了一个两阶段的训练过程,包括预算约束的监督微调(SFT)和基于强化学习(RL)的优化。
🔸在SFT阶段,模型通过对压缩到不同预算水平的推理链进行对比训练,学习预算与推理长度之间的关系。
🔸在RL阶段,采用乘法奖励函数,强化学习模型以同时提升推理能力和预算遵循性,促使其在动态情况下根据可用预算调整推理策略。

🔎分析总结

🔸BARD在AIME24、AIME25和GPQA等数据集上的实验结果显示,该框架在推理性能和预算控制的精确度上均优于标准蒸馏方法和简单的预算强制方法。
🔸SFT阶段被验证为关键步骤,若省略则模型无法有效理解预算命令。
🔸通过RL阶段,模型表现出更好的预算遵循性和推理准确性,较好地适应了不同预算条件下的推理需求。

💡个人观点

论文将“思维预算”作为明确的控制信号引入推理过程,在推理长度和推理质量之间进行平衡。

🧩附录

在这里插入图片描述

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值