微调实操三:人类反馈对语言模型进行强化学习(RLHF)

最新推荐文章于 2025-03-23 19:26:36 发布

程序猿阿三

最新推荐文章于 2025-03-23 19:26:36 发布

阅读量2.1k

点赞数 29

分类专栏：大模型理论与实践文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/youbingchen/article/details/136204393

版权

大模型理论与实践专栏收录该内容

36 篇文章 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了大语言模型微调的第三阶段，包括RLHF的RM奖励模型构建和强化学习，以及DPO的直接偏好优化。重点讨论了如何通过人类反馈对模型进行对齐微调，以改进模型的行为并确保符合人类价值观。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、前言

前面我们在《微调实操一: 增量预训练(Pretraining)》和《微调实操二: 有监督微调(Supervised Finetuning)》实操的两个章节，学习了PT(Continue PreTraining)增量预训练和SFT(Supervised Fine-tuning)有监督微调过程,，今天我们进入第三阶段的微调, 第三阶段微调主流分成2种做法:

1.1 RLHF(Reinforcement Learning from Human Feedback)基于人类反馈对语言模型进行强化学习，分为两步：

1.1.1 RM(Reward Model)奖励模型建模，构造人类偏好排序数据集，训练奖励模型，用来建模人类偏好，主要是"HHH"原则，具体是"helpful, honest, harmless"

1.1.2 RL(Reinforcement Learning)强化学习，用奖励模型来训练SFT模型，生成模型使用奖励或惩罚来更新其策略，以便生成更高质量、更符合人类偏好的文本

1.2 DPO(Direct Preference Optimization): 直接偏好优化方法，DPO通过直接优化语言模型来实现对其行为的精确控制，而无需使用复杂的强化学习，也可以有效学习到人类偏好。

sft阶段解决的是指令微调（instruction Tuning）,目标是增强（或解锁）大语言模型的

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

程序猿阿三 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。