腾讯:LLM自监督偏好优化框架SPO

在这里插入图片描述

📖标题:Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness
🌐来源:arXiv, 2409.17791

摘要

🔸最近,人们对用人类反馈(RLHF)方法代替大型语言模型(LLM)的强化学习中的奖励模型产生了浓厚的兴趣,如直接偏好优化(DPO)及其变体。这些方法通常在成对样本上使用二进制交叉熵机制,即分别基于首选或不首选响应最小化和最大化损失。然而,虽然这种训练策略省略了奖励模型,但它也忽略了不同反应中不同的偏好程度。
🔸我们假设这是阻碍LLM充分理解人类偏好的关键因素。为了解决这个问题,我们提出了一种新的自监督偏好优化(SPO)框架,该框架将自监督偏好度损失与对齐损失相结合,从而帮助LLM提高理解偏好度的能力。
🔸在两个广泛使用的不同任务的数据集上进行了广泛的实验。结果表明,SPO可以与现有的偏好优化方法无缝集成,并显著提高其性能,以实现最先进的性能。我们还进行了详细的分析,以提供对SPO的全面见解,从而验证其有效性。该代码可在以下网址获得https://github.com/lijian16/SPO.

🛎️文章简介

🔸研究问题:现有从人类反馈(RLHF)中学习的强化学习框架,训练过程复杂度高且未能充分理解人类偏好程度。
🔸主要贡献:论文提出了一种自监督的偏好优化(SPO)方案,帮助大语言模型(LLM)学习人类偏好的程度,并显著提升了现有对齐方法的性能。

📝重点思路

🔺相关工作

🔸LLM偏好对齐:通常先在偏好数据集上训练奖励模型,再进一步微调LLM以通过强化学习最大化识别的奖励,如PPO、REINFORCE及其变体。考虑到复杂性,DPO、KTO等绕过奖励模型来简化这一过程。
🔸自监督学习:利用未标记的数据在没有明确监督的情况下学习有用的表示。

🔺论文方案

🔸SPO思想:选择性地移除LLM输出中的关键内容,以生成具有不同偏好程度的响应。
🔸步骤1-关键词提取:在LLM的输出上使用关键词提取器来提取关键内容。
🔸步骤2-内容移除与构造:通过移除不同数量的关键内容,构造具有不同偏好程度的响应(移除1项是0、2项是1),并带有标签移除的类别。
🔸步骤3-自监督分类:将这些响应输入到自监督分类模块中预测标签分类,并将分类损失与主要的偏好对齐损失结合,共同优化LLM。

🔎分析总结

🔸性能提升:SPO显著提升了现有对齐方法的性能,在多个数据集和模型上均达到了最先进的性能,证明了其有效性和鲁棒性。
🔸模型大小无关:SPO方法在不同大小的模型(如LLaMA-7B、LLaMA-13B)上均表现出色,甚至在某些情况下,优化后的LLaMA-7B模型性能超过了未优化的LLaMA-13B模型。
🔸方法通用性:SPO不仅适用于DPO方法,还对其他对齐方法(如IPO、KTO)也有显著的性能提升。

💡个人观点

论文的核心是通过移除不同的关键信息来构建偏好数据,并引入关键信息预测辅助任务。

附录

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值