📖标题:Optimizing Chain-of-Thought Reasoners via Gradient Variance Minimization in Rejection Sampling and RL
🌐来源:arXiv, 2505.02391
🌟摘要
🔸大型语言模型 (LLM) 中的思维链 (CoT) 推理可以形式化为潜在变量问题,模型需要生成中间推理步骤。虽然先前的方法,例如迭代奖励排名微调 (RAFT) 依赖于这样的公式,但它们通常跨提示应用统一的推理预算,这无法解释难度和收敛行为的可变性。由于静态采样策略,这项工作将 CoT 训练的主要瓶颈确定为低效的随机梯度估计。
🔸我们提出了 GVM-RAFT,这是一种特定于提示的动态样本分配策略,旨在最小化计算预算约束下的随机梯度方差。该方法通过监测提示接受率和随机梯度规范来动态分配计算资源,确保得到的梯度方差最小化。
🔸我们的理论分析表明,所提出的动态采样策略导致在适当的条件下加速收敛保证。数学推理实验表明,GVM-RAFT 比普通 RAFT 实现了 2-4 倍的加速和相当大的精度改进。所提出的动态采样策略是通用的,可以合并到其他强化学习算法中,例如 GRPO,导致收敛和测试精度的类似改进。我们的代码可在 https://github.com/RLHFlow/GVM 获得。
🛎️文章简介
🔸研究问题:如何在拒绝采样和强化学习中有效优化链式思维推理器的性能。
🔸主要贡献:论文提出了一种新的算法,通过最小化梯度方差来提高模型在推理任务中的效率和准确性。
📝重点思路
🔸提出动态样本预算分配策略,基于不同提示的接受率自适应地分配计算资源,优化ELBO梯度的蒙特卡罗估计。
🔸使用拒绝采样方法来近似后验分布,并通过设置合理的采样预算来提高模型训练的有效性。
🔸实现了GVM算法并结合RAFT++框架进行在线训练。
🔸论文还提供了理论分析和实验验证,证明了所提算法的有效性和收敛性。
🔎分析总结
🔸通过实验,发现动态推理预算调度方法能够显著减少训练过程中的梯度方差,从而提高训练效率。
🔸结果表明,较大的样本量和有效的预算分配策略能有效降低训练的上界损失。
🔸论文中的GVM-RAFT++算法在多个基准测试中表现优于传统的RAFT算法,能够在固定的尝试预算内找到正确答案。
💡个人观点
论文的创新点在于引入了梯度方差最小化的概念,并通过动态预算调度策略在拒绝采样和强化学习的背景下实现了有效的模型优化。
🧩附录