SUTD：通过DPO增强LLM的自训练效果

大模型任我行

于 2024-08-28 13:00:00 发布

阅读量107

点赞数 5

分类专栏：大模型-模型训练文章标签：人工智能深度学习自然语言处理语言模型

本文链接：https://blog.csdn.net/weixin_46739757/article/details/141600861

版权

大模型-模型训练专栏收录该内容

16 篇文章 0 订阅

订阅专栏

在这里插入图片描述

📖标题：Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning
🌐来源：arXiv, 2407.18248

🛎️文章简介

🔸研究问题：使用教师模型（如GPT4）标注推理任务的数据，成本高昂且不稳定，其行为通常是不可预测的。
🔸主要贡献：论文提出了一种结合直接偏好优化（DPO）的自训练方法，让模型从自己的输出中学习的，显著提升了数学推理任务上的性能和资源效率。

📝重点思路

🔺相关工作

🔸伪标签学习：为了降低训练标签建设成本，已经开发了各种策略来生成高质量的伪数据，主要围绕自训练和知识蒸馏。
🔸自训练：大多数研究探索了自我训练框架，包括自学推理机（STaR）和自我改进（ReSTEM）等算法。
🔸知识蒸馏：从大型语言模型中提取思想链伪标签，来增强较小语言模型的推理能力。

🔺论文方案

🔸预热阶段：人工标注数学指令集的思考过程，预训练模型进行思考过程的监督微调，得到初始的SFT模型。
🔸迭代1：给定未标注思考过程的数学指令集，模型生成多个思考过程，根据答案是否正确构建偏好数据，进行DPO训练。
🔸迭代2：整合人工标注和迭代1的正样本，这些思考过程给预训练模型做微调，自此重复迭代1-2。
🔸结束：当模型性能收敛或达到最大迭代次数时，迭代过程结束。

🔎分析总结

🔸DPO增强自训练方法，在GSM8K、MultiArith、ASDiv和SVAMP上均显著优于基线方法。
🔸迭代训练过程中，DPO步骤有效提升了自训练的质量，特别是在大模型上表现更为明显。
🔸计算成本和人类标注数据需求方面，表现出显著的资源效率。

💡个人观点

论文通过DPO增强自训练过程，使得小规模语言模型能够通过自我生成的数据显著提升其在复杂推理任务上的性能。

附录

在这里插入图片描述

大模型任我行

关注

5
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
SUTD：通过DPO增强LLM的自训练效果

使用教师模型（如GPT4）标注推理任务的数据，成本高昂且不稳定，其行为通常是不可预测的。论文提出了一种结合直接偏好优化（DPO）的自训练方法，让模型从自己的输出中学习的，显著提升了数学推理任务上的性能和资源效率。
复制链接

扫一扫