UIUC：通过最小化梯度方差优化LLM

最新推荐文章于 2025-05-15 16:00:00 发布

大模型任我行

最新推荐文章于 2025-05-15 16:00:00 发布

阅读量577

点赞数 13

分类专栏：大模型-模型训练文章标签：人工智能自然语言处理语言模型论文笔记

本文链接：https://blog.csdn.net/weixin_46739757/article/details/147927013

版权

大模型-模型训练专栏收录该内容

276 篇文章

订阅专栏

在这里插入图片描述

📖标题：Optimizing Chain-of-Thought Reasoners via Gradient Variance Minimization in Rejection Sampling and RL
🌐来源：arXiv, 2505.02391

🌟摘要

🔸大型语言模型 (LLM) 中的思维链 (CoT) 推理可以形式化为潜在变量问题，模型需要生成中间推理步骤。虽然先前的方法，例如迭代奖励排名微调 (RAFT) 依赖于这样的公式，但它们通常跨提示应用统一的推理预算，这无法解释难度和收敛行为的可变性。由于静态采样策略，这项工作将 CoT 训练的主要瓶颈确定为低效的随机梯度估计。
🔸我们提出了 GVM-RAFT，这是一种特定于提示的动态样本分配策略，旨在最小化计算预算约束下的随机梯度方差。该方法通过监测提示接受率和随机梯度规范来动态分配计算资源，确保得到的梯度方差最小化。
🔸我们的理论分析表明，所提出的动态采样策略导致在适当的条件下加速收敛保证。数学推理实验表明，GVM-RAFT 比普通 RAFT 实现了 2-4 倍的加速和相当大的精度改进。所提出的动态采样策略是通用的，可以合并到其他强化学习算法中，例如 GRPO，导致收敛和测试精度的类似改进。我们的代码可在 https://github.com/RLHFlow/GVM 获得。

🛎️文章简介

🔸研究问题：如何在拒绝采样和强化学习中有效优化链式思维推理器的性能。
🔸主要贡献：论文提出了一种新的算法，通过最小化梯度方差来提高模型在推理任务中的效率和准确性。

📝重点思路

🔸提出动态样本预算分配策略，基于不同提示的接受率自适应地分配计算资源，优化ELBO梯度的蒙特卡罗估计。
🔸使用拒绝采样方法来近似后验分布，并通过设置合理的采样预算来提高模型训练的有效性。
🔸实现了GVM算法并结合RAFT++框架进行在线训练。
🔸论文还提供了理论分析和实验验证，证明了所提算法的有效性和收敛性。