InstructGPT 模型
2022 年初,OpenAI 在论文《Training Language Models to Follow Instructions with Human Feedback》 [28] 中提出使用 RLHF 方法对齐大语言模型,成功训练了InstructGPT 模型,旨在提高语言模型遵循人类指令的能力,并加强了模型行为与人类期望的一致性。RLHF 方法在自监督文本数据预训练的基础上,结合了人类反馈与强化学习,从而能够构建更符合人类价值观的模型。具体来说,InstructGPT 模型的训练过程主要包括三个关键步骤。首先,需要收集指令数据并使用有监督微调进行训练。OpenAI 的研究团队雇佣了 40 名标注人员,针对给定任务提示编写对应的输出示例。这些数据将用于经过预训练后的GPT-3 模型的监督微调。然后,收集人类反馈数据训练奖励模型。标注人员对于模型生成的输出进行对比与排序,然后训练奖励模型来拟合标注人员的偏好。最后,使用 PPO 算法和奖励模型进行大语言模型的强化学习训练。
在这个步骤中,使用第二步训练得到的奖励模型,对于第一步监督训练得到的语言模型进行微调,从而实现人类价值观的对齐。后两个步骤可以迭代多次,基于当前最佳的语言模型持续收集数据,进一步训练奖励模型和优化模型的生成策略。实验结果表明,即使参数量仅为 1.3B 的 InstructGP