通过人类反馈微调语言模型以更好地遵循用户意图

人工智能咨询培训老师叶梓 转载标明出处

大模型在实际应用中常常表现出与用户意图不一致的行为,例如生成不真实的信息、带有偏见或有毒的内容,或是简单地不遵循用户的指令。这些问题的存在限制了语言模型在更广泛领域的应用潜力。针对这一挑战,OpenAI的研究团队提出了一种新的方法,通过人类反馈对语言模型进行微调,以期更好地对齐模型行为与用户意图。

论文链接:https://arxiv.org/pdf/2203.02155

方法及实验

研究者们采用了Ziegler等人(2019年)和Stiennon等人(2020年)在风格延续和摘要领域应用的方法。他们从一个预训练的语言模型开始,这个模型已经在互联网上的广泛数据上进行了训练,能够适应多种下游任务,但行为特征并不明确。研究者们使用以下三个步骤进行微调(图 2):

第一步:收集示范数据,并训练一个监督策略。标注者在输入提示分布上提供期望行为的示范。然后,研究者们使用这些数据通过监督学习微调预训练的GPT-3模型。

第二步:收集比较数据,并训练一个奖励模型。研究者们收集了模型输出之间的比较数据集,标注者指出他们对给定输入更偏好哪个输出。然后,他们训练一个奖励模型来预测标注者更偏好的输出。

第三步:使用PPO算法优化策略。研究者们使用奖励模型的输出作为标量奖励,微调监督策略以优化这一奖励。

数据集主要由提交给OpenAI API的文本提示组成,特别是那些使用早期版本的InstructGPT模型(通过监督学习在示范数据的子集上训练)在Playground界面上的提示。为了训练最初的InstructGPT模型,研究者们要求标注者自己编写提示。这些提示分为三种类型:普通提示、少量示例提示和基于用户的提示。这些提示被用来生成三个不同的数据集,分别用于SFT模型、RM模型的训练和PPO模型的无监督微调。

训练任务来自两个来源:标注者编写的提示集和提交给早期InstructGPT模型的提示集。这些提示非常多样化,包括生成、问答、对话、摘要、提取等自然语言任务。

为了产生示范和比较数据,并进行主要评估,研究者们雇佣了大约40名Upwork和ScaleAI的承包商。他们进行了筛选测试,以衡量标注者在不同人群偏好敏感性和识别潜在有害输出方面的表现。

研究者们从Brown等人(2020年)的GPT-3预训练语言模型开始,然后使用三种不同的技术训练模型:监督微调(SFT)、奖励建模(RM)和强化学习(RL)。

为了评估模型的“对齐”程度,研究者们首先需要明确“对齐”的含义。他们使用Askell等人(2021年)的框架,将模型定义为如果它们是有帮助的、诚实的和无害的,则被认为是对齐的。

想要掌握如何将大模型的力量发挥到极致吗?2024年10月26日叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。

留言“参加”即可来叶老师的直播间互动,1小时讲解让您轻松上手,学习如何使用 Llama Factory 微调模型。

结果

结果分为三个部分:API提示分布上的结果、公共NLP数据集上的结果以及定性结果。

API提示分布上的结果:标注者显著偏好InstructGPT模型的输出而不是GPT-3。在测试集的提示上,标注者显著偏好InstructGPT模型的输出,这一结果在图 1中展示。研究发现,GPT-3的输出表现最差,而通过精心设计的少量示例提示(GPT-3 (prompted))、使用监督学习训练(SFT)以及使用PPO训练比较数据,可以获得显著的逐步改进。在PPO训练期间添加预训练混合更新并不会显著改变标注者的偏好。当直接比较时,175B InstructGPT输出比GPT-3输出更受青睐的比例为85 ± 3%,比少量示例GPT-3更受青睐的比例为71 ± 4%。

图 3显示了模型偏好结果,通过与175B SFT模型的胜率来衡量。左侧是提交给GPT模型的API提示的结果;右侧是提交给InstructGPT模型的API提示的结果;顶部是来自未参与训练的标注者的结果;底部是来自训练标注者的结果。在评估提交给GPT-3模型的提示时,省略了GPT (prompted),因为这些提示已经为GPT-3设计得较好,与提交给InstructGPT模型的提示相对。

图 4展示了标注者在几个更具体的维度上对InstructGPT输出的有利评价。与GPT-3相比,InstructGPT输出在客户助理的背景下更合适,更经常地遵循指令中明确定义的约束(例如“将你的答案写成两段或更少”),不太可能完全不遵循正确的指令,并且在封闭领域任务中“虚构事实”(即在摘要等封闭领域任务中编造信息)的次数也较少。这些结果表明,InstructGPT模型比GPT-3更可靠、更容易控制。

公共NLP数据集上的结果:InstructGPT模型在真实性方面比GPT-3有所改进。通过在TruthfulQA数据集上的人类评估,PPO模型在生成真实和有信息量的输出方面比GPT-3有小幅但显著的改进(见图 6,TruthfulQA数据集上的结果。灰色条表示真实性的评分;彩色条表示真实性和信息量的评分)。这种行为是默认的:本模型不需要特别指示说实话就能展现出提高的真实性。1.3B PPO-ptx模型的表现略逊于同等大小的GPT-3模型。当仅在没有针对GPT-3进行对抗性选择的提示上评估时,PPO模型仍然显著比GPT-3更真实、更有信息量(尽管绝对改进幅度下降了几个百分点)。

InstructGPT在毒性方面比GPT-3有小幅改进,但在偏见方面没有。在RealToxicityPrompts数据集上以两种方式进行评估模型:通过Perspective API运行模型样本以获得自动毒性评分,这是该数据集的标准评估程序,同时还将这些样本发送给标注者以获得关于绝对毒性、与提示相关的毒性、连贯性和整体输出偏好的评分。图 7中显示,当被指示产生安全和尊重的输出(“尊重提示”)时,InstructGPT模型根据Perspective API生成的毒性输出比GPT-3少。当去掉尊重提示(“无提示”)时,这种优势消失了。

这些结果在人类评估中得到了证实:在“尊重提示”设置中,InstructGPT比GPT-3的毒性小,但在“无提示”设置中表现相似。所有的模型都被评级为比预期的提示毒性小(它们在-1到1的尺度上得到一个负分数,其中0是“和预期一样有毒”)。

定性结果: InstructGPT模型显示出有希望的泛化到RLHF微调分布之外的指令。InstructGPT能够遵循非英语语言的指令,并且能够更可靠地执行代码摘要和问答。在图 8中展示了一些定性示例。175B PPO-ptx模型能够可靠地回答有关代码的问题,并且也能够遵循其他语言的指令;然而,它经常即使在指令是另一种语言时也以英语产生输出。相比之下,GPT-3可以执行这些任务,但需要更仔细的提示,并且很少遵循这些领域的指令。

在与175B PPO-ptx模型互动时,尽管InstructGPT在许多不同的语言任务上表现强劲,但它仍然会犯简单的错误。例如:(1)当给出一个带有错误前提的指令时,模型有时会错误地假设前提是正确的,(2)模型可能会过于犹豫不决;当给出一个简单的问题时,它有时会说没有唯一的答案,并给出多个可能的答案,即使从上下文中有一个相当明确的答案,(3)当指令包含多个明确的约束(例如“列出10部在法国设定的1930年代的电影”)或当约束对语言模型具有挑战性时(例如在指定数量的句子中写摘要),模型的性能会下降。图 9中展示了这些行为的一些示例。研究者怀疑行为(2)部分是因为他们指导标注者奖励认知谦逊;行为(1)发生是因为在训练集中很少有假设错误前提的提示,模型不能很好地泛化到这些例子。通过对抗性数据收集(Dinan等人,2019b),这两种行为都可以大大减少。

这项研究表明,通过人类反馈进行微调是提高语言模型与人类意图对齐的有希望的方向。尽管InstructGPT模型仍然会犯一些简单的错误,但这项工作为未来如何进一步提升语言模型的安全性和可靠性提供了宝贵的见解。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能大模型讲师培训咨询叶梓

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值