📖标题:TÜLU 3: Pushing Frontiers in Open Language Model Post-Training
🌐来源:arXiv, 2411.15124
🌟摘要
🔸语言模型后训练被应用于在各种最新的语言模型中改进行为和解锁新技能,但应用这些技术的开放配方落后于专有配方。基础训练数据和训练后配方同时是拼图中最重要的部分,也是透明度最低的部分。
🔸为了弥合这一差距,我们介绍了TÜLU 3,这是一个完全开放的最先进的后训练模型系列,以及它的数据、代码和训练配方,作为现代后训练技术的综合指南。TÜLU 3建立在Llama 3.1基础模型的基础上,取得了超越Llama 3.0、Qwen 2.5、Mistral指令版本,甚至GPT-4o-mini和Claude 3.5 Haiku等封闭模型的结果。我们模型的训练算法包括监督微调(SFT)、直接偏好优化(DPO)和一种我们称之为可验证奖励强化学习(RLVR)的新方法。借助TÜLU 3,我们为训练后构建了一个多任务评估方案,包括开发和看不见的评估、标准基准实施,以及对所述基准上现有开放数据集的实质性净化。
🔸最后,我们对没有可靠提高绩效的训练方法进行了分析和讨论。TÜLU 3版本包括模型权重、演示和完整的配方——用于不同核心技能的数据集、用于数据管理和评估的强大工具包、培训代码和基础设施,最重要的是,还有一份详细的报告,用于复制和进一步将TÜLU 3方法应用于更多领域。代码在https://github.com/allenai/open-instruct
🛎️文章简介
🔸研究问题:在开放语言模型后训练过程中,如何通过多阶段的训练方法提升模型的核心技能和性能?
🔸主要贡献:论文提出了TÜLU 3的多阶段训练管道,包括改进的数据、方法、基础设施和严格的评估,以及公开了训练模型所需的全部资源。
📝重点思路
🔺套件介绍
🔸四阶段训练管道:包括数据管理、监督微调(SFT)、偏好调优和可验证奖励的强化学习(RLVR)。
🔸评估框架:设计了一个开放的评估工具包,用于指导开发过程,并通过精心选择的评估套件和去污染工具进行模型性能测量。
🔺训练细节
🔸数据管理:①确定开放式训练后方法经常落后的关键领域,而这些领域是通才语言模型所需的能力 ②聚焦知识回忆、推理、数学、编码、指令遵循、一般聊天和安全等核心技能,仔细调查和分析公开数据集的来源,并进行去污染处理,同时生成针对核心技能的合成提示。
🔸监督微调:对精心选择的提示和完成情况执行监督微调,在评估框架的指导下,确定最终的SFT数据和训练超参数,以增强目标核心技能,而不会降低其他性能。
🔸偏好调优:特别是DPO,应用于根据所选提示以及离线策略数据新策划的策略内综合创建的偏好数据。与SFT阶段一样,通过实验确定最佳偏好数据组合,揭示哪些格式的数据、方法或超参数可以带来改进。
🔸可验证奖励的强化学习:仅在模型的生成被验证正确时才提供奖励,而不是传统RLHF PPO训练中常见的奖励模型。具体来说,从给定一组提示的策略模型中对完成情况进行采样,并使用确定性函数验证其正确性,可以是答案匹配或约束验证的二进制信号。
🔎分析总结
🔸通过精心策划的提示和数据集,可以显著提升模型的核心技能。
🔸使用去污染工具确保提示不与评估套件冲突,提高了数据的有效性。
🔸在偏好调优中,使用策略数据生成偏好数据集,通过成对比较生成偏好标签,显著改善了模型在各种任务中的表现。
🔸强化学习与可验证奖励(RLVR)方法在数学问题解决等可验证任务上表现出色,同时在其他任务上保持性能。
💡个人观点
论文的核心是数据质量和可验证的奖励信号,把人类偏好奖励换成了环境反馈奖励能带来更直接的优化方向。
🧩附录