Salesforce:统一LLM的不同对齐技术

在这里插入图片描述

📖标题:UNA: Unifying Alignments of RLHF/PPO, DPO and KTO by a Generalized Implicit Reward Function
🌐来源:arXiv, 2408.15339

摘要

🔸LLM对数万亿个代币进行了预训练,但预训练的LLM仍可能产生不希望的响应。为了解决这个问题,提出了RLHF、DPO和KTO等对准技术。然而,这些对齐技术存在局限性。例如,RLHF需要分别训练奖励模型和策略,这在训练过程中是复杂、耗时、内存密集和不稳定的。DPO提出了最优策略和奖励之间的映射,大大简化了RLHF的训练过程。然而,它不能充分利用奖励模型,并且仅限于成对偏好数据。
🔸本文提出了统一RLHF/PPO、DPO和KTO的统一对齐框架(UNA)。首先,我们从数学上证明,在给定经典RLHF目标的情况下,最优策略是由广义隐式奖励函数诱导的。通过奖励模型和最优策略之间的这种新颖映射,UNA可以:1.将RLHF/PPO、DPO和KTO统一为最小化隐式奖励和显式奖励之间差异的监督学习;2.优于RLHF/PPO,同时简化、稳定、加速和减轻RL微调过程的内存负担;3.适应不同的反馈类型,包括成对、二进制和标量反馈。下游实验表明,UNA的表现优于DPO、KTO和RLHF。

🛎️文章简介

🔸研究问题:大语言模型(LLM)有RLHF/PPO、DPO和KTO等对齐技术,是否能够进行统一?
🔸主要贡献:论文提出了一种新的通用隐式奖励函数UNA,能够统一并简化RLHF、DPO和KTO,提高训练稳定性、减少内存需求并加速训练过程。

📝重点思路

🔺相关工作

🔸RLHF:强化学习中的人类反馈和近端策略优化,用于通过人类反馈进行策略优化。
🔸其他对齐方案:将奖励模型和最优策略两个阶段合并,直接用成对偏好数据进行训练(DPO等)、SFT对齐结合(ORPO等)或者用纳什均衡(SPPO等)。
🔸数据构建:成对数据集更难收集,将其改为二元反馈如KTO。

🔺论文方案

🔸研究目标:旨在统一不同类型的数据对齐方法,包括成对反馈、二元反馈和基于分数的反馈,适用于在线和离线模式,并结合了人类标注、奖励模型和大型语言模型(LLM)的评估方法。。
🔸UNA框架:提出了一种广义的隐式奖励函数,通过最小化隐式奖励和显式奖励之间的差异,将RLHF、DPO和KTO统一到一个监督学习框架中。
🔸损失函数:针对不同的反馈类型,设计了多种损失函数,如均方误差(MSE)和二元交叉熵(BCE),并在使用LLM或奖励模型进行评估时,选择合适的损失函数进行优化。
🔸数学证明:简化了UNA的目标函数,并证明了在特定条件下,UNA可以有效地统一RLHF、DPO和KTO。
🔸实验设计:在不同类型的数据(成对反馈、二元反馈、评分反馈)上进行实验,比较UNA与DPO、KTO和RLHF/PPO的性能。

🔎分析总结

🔸UNA简化了RLHF的训练过程,提高了训练的稳定性,并减少了内存成本,在下游任务中显著优于RLHF/PPO。
🔸UNA在成对反馈等价于DPO、在二元反馈优于KTO、在基于分数的反馈优于非基于分数的方法(包括DPO和KTO)。
🔸通过重新构造目标函数,UNA能够更有效地利用参考策略生成奖励,进一步减少内存负担。
🔸通过预先估计或逐步更新常数,可以进一步提高UNA的性能。

💡个人观点

论文的核心是广义隐式奖励函数,最小化隐式奖励和显式奖励之间的差异,简化了训练过程,提高了稳定性和性能。

附录

在这里插入图片描述
在这里插入图片描述

  • 24
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值