SUTD:通过DPO增强LLM的自训练效果

在这里插入图片描述

📖标题:Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning
🌐来源:arXiv, 2407.18248

🛎️文章简介

🔸研究问题:使用教师模型(如GPT4)标注推理任务的数据,成本高昂且不稳定,其行为通常是不可预测的。
🔸主要贡献:论文提出了一种结合直接偏好优化(DPO)的自训练方法,让模型从自己的输出中学习的,显著提升了数学推理任务上的性能和资源效率。

📝重点思路

🔺相关工作

🔸伪标签学习:为了降低训练标签建设成本,已经开发了各种策略来生成高质量的伪数据,主要围绕自训练和知识蒸馏。
🔸自训练:大多数研究探索了自我训练框架,包括自学推理机(STaR)和自我改进(ReSTEM)等算法。
🔸知识蒸馏:从大型语言模型中提取思想链伪标签,来增强较小语言模型的推理能力。

🔺论文方案

🔸预热阶段:人工标注数学指令集的思考过程,预训练模型进行思考过程的监督微调,得到初始的SFT模型。
🔸迭代1:给定未标注思考过程的数学指令集,模型生成多个思考过程,根据答案是否正确构建偏好数据,进行DPO训练。
🔸迭代2:整合人工标注和迭代1的正样本,这些思考过程给预训练模型做微调,自此重复迭代1-2。
🔸结束:当模型性能收敛或达到最大迭代次数时,迭代过程结束。

🔎分析总结

🔸DPO增强自训练方法,在GSM8K、MultiArith、ASDiv和SVAMP上均显著优于基线方法。
🔸迭代训练过程中,DPO步骤有效提升了自训练的质量,特别是在大模型上表现更为明显。
🔸计算成本和人类标注数据需求方面,表现出显著的资源效率。

💡个人观点

论文通过DPO增强自训练过程,使得小规模语言模型能够通过自我生成的数据显著提升其在复杂推理任务上的性能。

附录

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 5
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值