清华:长度奖励和重复惩罚优化LLM长链思维

在这里插入图片描述

📖标题:Demystifying Long Chain-of-Thought Reasoning in LLMs
🌐来源:arXiv, 2502.03373

🌟摘要

🔸缩放推理计算增强了大型语言模型(LLM)中的推理能力,通过长链思维(CoT)实现了回溯和纠错等策略。强化学习(RL)已成为发展这些能力的关键方法,但长CoT出现的条件尚不清楚,强化学习训练需要仔细的设计选择。
🔸在这项研究中,我们系统地研究了长CoT推理的机制,确定了使模型能够生成长CoT轨迹的关键因素。通过广泛的监督微调(SFT)和RL实验,我们提出了四个主要发现:(1)虽然SFT不是严格必要的,但它简化了训练并提高了效率;(2) 推理能力往往随着训练计算的增加而出现,但它们的发展并不能得到保证,因此奖励塑造对于稳定CoT长度增长至关重要;(3) 扩展可验证的奖励信号对于强化学习至关重要。我们发现,利用带有过滤机制的嘈杂的网络提取解决方案显示出巨大的潜力,特别是对于STEM推理等非分布(OOD)任务;(4)基础模型中固有地存在纠错等核心能力,但通过强化学习有效地激励这些技能完成复杂任务需要大量的计算,而衡量它们的出现需要一种细致入微的方法。
🔸这些见解为优化训练策略以增强LLM中的长CoT推理提供了实用指导。我们的代码可在以下网址获得:https://github.com/eddycmu/demystify-long-cot.

🛎️文章简介
🔸研究问题:如何有效地扩展大语言模型(LLM)中的长链思维推理能力,并提高其稳定性和性能。
🔸主要贡献:论文提出了一种余弦长度缩放奖励机制和重复惩罚,以稳定长链思维的增长,并促进模型在推理过程中出现分支和回溯等高级推理行为。

📝重点思路
🔸通过监督微调(SFT)在数据集上初始化策略,使用长链思维和短链思维的数据进行比较。
🔸利用强化学习(RL)进行策略更新,采用近端策略优化(PPO)作为主要优化方法,并设计基于可验证答案的奖励函数。
🔸进行多组实验,测试不同超参数设置对长链思维的影响,包括余弦奖励超参数和上下文窗口大小的变化。

🔎分析总结
🔸采用余弦奖励显著稳定了模型在RL训练下的链长扩展行为,提高了训练的准确性和效率。
🔸在不同上下文窗口大小下,模型表现出不同的能力,特别是在8K窗口大小时的表现优于其他窗口。
🔸引入重复惩罚能够提升下游任务的表现,同时促进更短的链思维,表明模型对推理计算的利用更为高效。
🔸实验结果表明,通过在长链思维的RL训练中使用可验证奖励信号,可以有效提升模型的推理能力。

💡个人观点
论文的核心在于RL训练过程中,引入了重复惩罚避免无效长链思维,使得长度奖励能够被正确运用而非“奖励黑客”。

🧩附录

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值