📖标题:Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning
🌐来源:arXiv, 2407.18248
🛎️文章简介
🔸研究问题:使用教师模型(如GPT4)标注推理任务的数据,成本高昂且不稳定,其行为通常是不可预测的。
🔸主要贡献:论文提出了一种结合直接偏好优化(DPO)的自训练方法,让模型从自己的输出中学习的,显著提升了数学推理任务上的性能和资源效率。
📝重点思路
🔺相关工作
🔸伪标签学习:为了降低训练标签建设成本,已经开发了各种策略来生成高质量的伪数据,主要围绕自训练和知识蒸馏。
🔸自训练:大多数研究探索了自我训练框架,包括自学推理机(STaR)和自我改进(ReSTEM)等算法。
🔸知识蒸馏:从大型语言模型中提取思想链伪标签,来增强较小语言模型的推理能力。
🔺论文方案
🔸预热阶段:人工标注数学指令集的思考过程,预训练模型进行思考过程的监督微调,得到初始的SFT模型。
🔸迭代1:给定未标注思考过程的数学指令集,模型生成多个思考过程,根据答案是否正确构建偏好数据,进行DPO训练。
🔸迭代2:整合人工标注和迭代1的正样本,这些思考过程给预训练模型做微调,自此重复迭代1-2。
🔸结束:当模型性能收敛或达到最大迭代次数时,迭代过程结束。
🔎分析总结
🔸DPO增强自训练方法,在GSM8K、MultiArith、ASDiv和SVAMP上均显著优于基线方法。
🔸迭代训练过程中,DPO步骤有效提升了自训练的质量,特别是在大模型上表现更为明显。
🔸计算成本和人类标注数据需求方面,表现出显著的资源效率。
💡个人观点
论文通过DPO增强自训练过程,使得小规模语言模型能够通过自我生成的数据显著提升其在复杂推理任务上的性能。
附录