微调实操四:直接偏好优化方法-DPO

程序猿阿三

已于 2024-02-26 20:41:49 修改

阅读量2.4k

点赞数 5

CC 4.0 BY-SA版权

分类专栏：大模型理论与实践文章标签： DPO 大模型微调

于 2024-02-26 20:36:48 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/youbingchen/article/details/136308044

大模型理论与实践专栏收录该内容

40 篇文章 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

在《微调实操三:人类反馈对语言模型进行强化学习(RLHF)》中提到过第三阶段有2个方法,一种是是RLHF, 另外一种就是今天的DPO方法, DPO通过直接优化语言模型来实现对其行为的精确控制，而无需使用复杂的强化学习，也可以有效学习到人类偏好，DPO相较于RLHF更容易实现且易于训练，效果更好.

1、DPO VS RLHF

在这里插入图片描述

DPO 是一种自动微调方法，它通过最大化预训练模型在特定任务上的奖励来优化模型参数。与传统的微调方法相比，DPO 绕过了建模奖励函数这一步，而是通过直接在偏好数据上优化模型来提高性能。相对RLHF两阶段而言具有多项优越性:

(1)简单性：DPO更容易实施和培训，使其更易于使用。

(2)稳定性：不易陷入局部最优，保证训练过程更加可靠。

(3)效率：与RLHF 相比, DPO 需要更少的计算资源和数据，使其计算量轻。

(4)有效性：实验结果表明，DPO在情感控制、摘要和对话生成等任务中可以优于 RLHF 。

并不是说DPO没有奖励模型, 而是利用同个阶段训练建立模型和强化学习, 在 DPO 中，目标函数是优化模型参数以最大化奖励的函数。除了奖励最大化目标外，还需要添加一个相对于参考模型的 KL 惩罚项，以防止模型学习作弊或钻营奖励模型。

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

程序猿阿三 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。