代表性 RLHF 工作介绍

InstructGPT 模型

    2022 年初,OpenAI 在论文《Training Language Models to Follow Instructions with Human Feedback》 [28] 中提出使用 RLHF 方法对齐大语言模型,成功训练了InstructGPT 模型,旨在提高语言模型遵循人类指令的能力,并加强了模型行为与人类期望的一致性。RLHF 方法在自监督文本数据预训练的基础上,结合了人类反馈与强化学习,从而能够构建更符合人类价值观的模型。具体来说,InstructGPT 模型的训练过程主要包括三个关键步骤。首先,需要收集指令数据并使用有监督微调进行训练。OpenAI 的研究团队雇佣了 40 名标注人员,针对给定任务提示编写对应的输出示例。这些数据将用于经过预训练后的GPT-3 模型的监督微调。然后,收集人类反馈数据训练奖励模型。标注人员对于模型生成的输出进行对比与排序,然后训练奖励模型来拟合标注人员的偏好。最后,使用 PPO 算法和奖励模型进行大语言模型的强化学习训练。

    在这个步骤中,使用第二步训练得到的奖励模型,对于第一步监督训练得到的语言模型进行微调,从而实现人类价值观的对齐。后两个步骤可以迭代多次,基于当前最佳的语言模型持续收集数据,进一步训练奖励模型和优化模型的生成策略。实验结果表明,即使参数量仅为 1.3B 的 InstructGP

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值