重塑与整合奖励机制以对齐大模型

 人工智能咨询培训老师叶梓 转载标明出处

大模型的对齐问题,即如何使模型的输出倾向于具备期望的属性(如有帮助、无害、真实或创造性),是当前人工智能领域的热点问题。来自芝加哥大学、Google Research、Google DeepMind 和斯坦福大学的研究团队探讨了在人类偏好数据基础上学习奖励模型,并使用这些模型更新语言模型的过程中出现的两个关键问题:奖励模型的单调变换如何影响模型对齐,以及如何有效整合多个奖励模型以对齐语言模型至多个属性。通过概率解释对齐过程,论文提出了一种自然且有效的方法来解决这些问题。

通过变换Bradley-Terry奖励模型,可以减轻过拟合问题,并使得加法操作在效果上等同于逻辑AND

奖励模型变换

尽管任何单调变换都能保持偏好排名,但并非所有变换都是等效的。通过引入逻辑斯蒂函数(sigmoid function)对奖励模型进行变换,可以强调改善表现不佳的输出,而不是已经得分很高的输出。这种变换有助于减少模型的欠拟合和奖励黑客行为。

Bradley-Terry奖励模型没有捕捉到效用的递减特性,而对数-sigmoid变换可以解决这个问题。

图2通过这两种方式来支持奖励变换方法,即通过变换来更好地对齐语言模型,使其输出更符合人类偏好。这种变换不仅有助于减少过拟合现象,也有助于避免模型在优化过程中采取捷径(reward hacking),从而提高模型的整体性能和输出质量。

图2(a) Transformation Shape:不同奖励变换形状对于效用(utility)的影响。它说明了为什么需要变换奖励模型,以及如何通过变换来更好地反映输出质量的边际效用递减特性。在原始的Bradley-Terry模型中,每次改进都被赋予相同的权重,而变换后的奖励模型则能够反映出随着输出质量的提高,进一步改进带来的效用增加是递减的。

图2(b) Helpfulness Examples:通过具体的例子来展示变换的奖励模型如何工作。它提供了几个不同的响应示例,并展示了从响应1到响应2的改进比从响应2到响应3的改进带来的效用增加要多。这表明,尽管在原始的Bradley-Terry模型中,每次改进都得到了相同的奖励,但实际上人类评估者可能会认为从响应1到响应2的改进比从响应2到响应3的改进更为重要。

对齐的目标是修改初始策略 π0(y|x),使得生成的样本在某些属性上被人类认为是“好”的。为了实现这一目标,作者引入了一个二元语义随机变量 G,表示响应 y 对于提示 x 是否“好”。作者将对齐目标定义为产生一个在给定响应是“好”的条件下的响应分布的条件概率。作者探讨了如何使用奖励模型来定义二元好坏变量 G,并确定对齐过程中使用的效用函数与 G 的关系。

目标效用函数:作者首先将对齐效用与 G 联系起来,提出使用指数倾斜(exponential tilting)的基础策略,即通过增加一个指数项来调整原始策略,使得样本更可能来自“好”的响应。

点式奖励模型:在点式数据的情况下,每个样本包括提示 x、响应 y 和一个二元标签 G。在这种情况下,奖励函数可以通过最小化二元交叉熵目标来训练,得到的奖励 r(x, y) 可以视为 p(G = 1|x, y) 的对数几率(logit)。

成对奖励模型:对于成对数据,作者指出直接应用对数sigmoid变换到布拉德利-特里奖励上是不正确的,因为只有奖励差异可以解释为对数几率,单个提示的奖励不是。此外,奖励模型 r(x, y) 从数据中是不可识别的。为了解决这个问题,作者提出了一个合适的“好”响应的定义,并给出了变换公式:

定理 1

作者从概率论的角度推导出奖励变换,并进一步从机制的角度解释了变换的效果。作者指出,使用原始奖励模型时,效用增益永远不会减少,这可能导致对齐模型在偏好上产生巨大的变化,而这些偏好本身可能是有噪声的。

奖励聚合

对齐大型语言模型时所需达成的目标的核心思想是希望模型在处理特定提示时,其输出不仅在单一属性上表现良好,而是能够在多个期望属性上同时达到“好”的标准。例如,我们可能希望模型生成的回复既有帮助又无害。为了实现这一目标,作者提出了一种基于条件后验分布的方法,即在所有相关属性上都为“好”的条件下,对模型的输出进行采样。这种方法将对齐目标转化为寻找一种模型,它能够根据输出在所有属性上都是“好”的概率来调整其生成的样本。就是以一种概率论的视角来解释对齐过程,使得模型的训练和优化更加有的放矢,以满足多方面的性能要求。

作者设定了一个目标:我们希望对齐后的模型在所有给定的属性上都能够被认为是“好”的。例如,我们可能希望一个语言模型既有助于对话,同时又不会造成伤害。为了实现这一点,我们需要一种方法来整合代表这些不同属性的奖励模型。

作者提出了一种基于假设的方法来解决这个问题。这个假设是,对于一个给定的提示和响应,响应在每个属性上被认为是“好”的概率是相互独立的。意味着可以单独评估一个响应在帮助性或无害性上的表现,而不需要考虑其他属性。

基于这个假设,作者提出了一种奖励聚合的方案。这个方案简单地将各个属性的奖励模型变换后的效用值相加。这种聚合方法不仅直观,而且有一个重要的优点:它对应于逻辑“与”操作。也就是说,只有当模型在所有属性上都表现良好时,聚合后的效用值才会高。

这种聚合方法还有助于避免在某些属性上的表现过于突出而掩盖了其他属性上的不足。通过加权和的方法可能会遇到这样的问题,即一个属性上的高奖励可能会抵消另一个属性上的低奖励。而通过相加变换后的奖励,可以确保模型在所有属性上都有均衡的表现。

定理 2

使用原始奖励模型的简单加权和作为聚合方法存在一个关键问题:它可能导致模型在某些属性上的表现过于突出,而在其他属性上的表现不足。这是因为加权和允许一个属性的高奖励来弥补另一个属性的低奖励,这可能导致模型在追求高奖励时忽视了其他重要的属性。

为了解决这个问题,作者提出了一种基于逻辑“与”的聚合方案,即通过将各个属性的变换后奖励相加,来确保模型在所有属性上都必须表现良好。这种方法的机制是,它鼓励模型在所有目标属性上都获得较高的奖励,而不是仅仅在某些属性上表现出色。通过这种方式,模型被引导去平衡和优化所有相关的属性,而不是只关注那些能够带来最高奖励的属性。

这种基于逻辑“与”的聚合方法还有助于减少奖励黑客行为,即模型可能会学会利用奖励模型的不精确之处来获得高奖励,而不是真正提高其性能。通过确保模型必须在所有属性上都表现良好,这种方法减少了模型仅仅为了获得高奖励而采取的捷径或不当行为。

实验

实验遵循标准的从人类反馈中学习强化学习(RLHF)流程。作者使用了Anthropic Helpfulness和Harmlessness数据集,这些数据集包含了人类与数字助手之间的多轮对话。数据集分为两部分:一半用于训练奖励模型,另一半用于对齐步骤。

Reward model training(奖励模型训练):作者为帮助性和无害性任务分别训练了布拉德利-特里奖励模型,使用的是一个预训练的T5基础模型。

SFT(监督式微调):使用指导微调的PALM-2-XXS模型作为策略模型,并在帮助性数据集的“优选”响应上进行监督式微调。

RLHF setup(RLHF设置):在对齐过程中,使用近端策略优化(PPO)算法优化期望效用,同时受到KL散度惩罚。

在对齐语言模型时,传统的方法是直接使用从人类偏好数据中学习到的原始奖励模型。然而,这种方法存在一些问题,比如模型可能会过度优化某些特定的输出,而忽视了其他同样重要的输出。为了解决这个问题,作者提出了一种奖励模型的变换方法,目的是调整模型的输出分布,使其更加关注那些表现不佳的输出,而不是仅仅优化那些已经表现良好的输出。

具体而言作者采用了逻辑斯蒂变换来处理奖励模型。这种变换通过将原始奖励映射到一个新的尺度上,使得模型在对齐过程中更加注重提升那些得分较低的输出。这样做的好处是可以减少模型的欠拟合现象,即模型在某些任务上的表现不佳,同时也可以避免模型过度拟合到奖励模型的特定形式,这在实践中被称为“奖励黑客行为”。

在实验中作者通过对比使用原始奖励和变换后的奖励进行对齐的模型,发现变换后的奖励能够显著提高模型在多个属性上的表现。使用变换后的奖励进行对齐的模型,在帮助性和无害性等属性上都表现出了更好的性能。这种改进不仅体现在模型输出的整体质量上,还体现在模型能够更好地平衡不同属性的表现,避免了在某些属性上过度优化而在其他属性上表现不足的问题。

在对齐策略中,使用变换奖励和原始奖励的奖励分布比较。这些对齐策略在KL散度上进行了匹配。奖励以SFT的中位数为中心,在有用性和无害性方面,使用变换奖励的奖励分布更加集中
变换奖励如何减少生成响应中的捷径。对于有用性,识别出使用列表的捷径模式;对于无害性,一种已知的捷径模式是推荐用户寻求治疗或咨询专业帮助

作者还通过一系列的实验评估了对齐效果。他们使用了外部评估模型来评判模型输出在帮助性和无害性上的表现,并发现使用变换后的奖励进行对齐的模型在这些属性上都取得了显著的提升。这些结果表明,奖励模型的变换不仅理论上可行,而且在实际应用中也能带来显著的性能改进。

在单一奖励情况下,变换后的奖励获得了更好的KL(Kullback-Leibler散度)和胜率权衡。它显示了两种胜率:1)由PALM 2评估器判断的,对齐策略和随机SFT样本之间的胜率;2)由T5-XXL评估器判断的,与SFT分位数的胜率:85%用于有用性,95%用于无害性。

作者指出在多属性对齐中,传统的方法是将不同属性的奖励模型简单地相加,这种方法可能会导致模型在某些属性上表现过于突出,而在其他属性上表现不足。为了解决这个问题,作者提出了一种新的聚合方法,即通过对每个奖励模型应用逻辑斯蒂变换,然后将变换后的奖励相加。这种方法不仅能够确保模型在所有属性上都表现良好,而且通过逻辑“与”的方式,强化了模型在所有目标属性上的整体表现。

在实施这种奖励聚合方法中,作者使用了为帮助性和无害性任务训练的奖励模型,并在帮助性数据集的提示上进行RLHF训练。这种方法允许模型在保持原有信息的同时,通过优化期望效用并受到KL散度惩罚,来对齐到这些奖励模型。

在帮助性和无害性方面,变换奖励的总和获得了更好的KL/K和胜率权衡。图6a和6b分别展示了在best-of-k和RLHF情况下,相对于SFT中位数奖励的胜率

作者还尝试了best-of-k采样方法,这是一种从基础模型中抽取k个样本,然后根据综合奖励排名选择最佳样本的方法。这种方法可以视为另一种对齐过程,其中best-of-k采样与底层策略有一些(KL)散度,并产生具有更高期望奖励的样本。

在聚合结果部分,作者展示了通过逻辑斯蒂变换聚合奖励模型的效果。实验结果表明,使用变换后的奖励进行聚合,可以显著提高模型在多个属性上的综合表现。这种方法不仅减少了奖励黑客行为,还确保了模型在所有目标属性上都有均衡的表现。

与传统的加权和方法相比,使用逻辑斯蒂变换后的奖励聚合方法在逻辑AND效果上表现更好。这种方法导致模型在所有属性上都有更平衡的奖励分布,而不是在一个属性上表现过于突出。这种平衡对于确保模型在多个重要属性上都能达到预期的性能标准至关重要。

在消融实验中,作者分别研究了中心化和对数-sigmoid变换对模型对齐效果的影响。中心化虽然可以减少策略梯度更新中的方差,但单独使用时并没有改善对齐效果,因为它没有改变优化目标。同样,仅使用对数-sigmoid变换,即设置一个固定且对所有输入都相同的参考奖励值,实际上损害了性能。图8展示了这两种单独的方法都不能改善对齐效果。问题在于固定的参考奖励值没有考虑到不同提示下的奖励分布,如果设置得太高或太低,都不能有效地指导优化过程。因此选择基于生成响应的动态参考奖励值,可以更有意义地设定阈值,从而有效地改善对齐效果。

单独使用中心化或对数-sigmoid变换都不能改善对齐效果的实验结果

实验证明本文提出的奖励模型变换和整合方法,为大模型的对齐提供了一种新的思路。通过概率解释和逻辑斯蒂函数的应用,该方法不仅能够提高对齐的效果,还能够减少奖励黑客行为,为构建更加安全、可靠的人工智能系统提供了有力的技术支持。

论文链接:https://arxiv.org/abs/2402.00742

  • 29
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值