Salesforce:超全面LLM对齐技术体系!

在这里插入图片描述

📖标题:A COMPREHENSIVE SURVEY OF LLM ALIGNMENT TECHNIQUES: RLHF, RLAIF, PPO, DPO AND MORE
🌐来源:arXiv, 2407.16216

🛎️文章简介

论文主要介绍了大语言模型(LLM)对齐技术的综述,包括RLHF、RLAIF、PPO、DPO等方法。文章覆盖了完整的对齐技术体系,非常建议认真看一下原文。

📝对齐关键要素

🔸奖励模型:是一个经过微调的LLM,根据提示和生成的响应分配分数。研究方向包括 ①显式或隐式奖励 ②逐点或偏好奖励 ③令牌或响应奖励 ④仅具有负偏好的奖励模型
🔸反馈:来自人类或人工智能的偏好和二元响应。研究方向包括 ①偏好反馈与二元反馈 ②成对反馈与成对列表式反馈 ③人类反馈与人工智能反馈
🔸RL策略:包含两个主要目标 ①最大化响应的奖励 ②最小化与初始参考模型的偏差。研究方向包括 ①有无参考模型 ②长度控制 ③KL分歧 ④在线与离线
🔸优化:研究方向包括 ①迭代/在线和非迭代/离线 ②是否与SFT结合

🔎主要技术路线

🔸RLHF/PPO:核心为InstructGPT,通过使用人类反馈训练奖励模型,进行在线/迭代的微调。
🔸RLAIF:在RLHF的基础上,通过"宪法"指导、引入AI反馈的监督学习
🔸直接偏好优化:直接使用偏好数据来简化对齐,无需标量奖励信号,包括SliC-HF、RSO、DPO、DPOP、β-DPO、IPO、sDPO和GPO等。
🔸令牌级DPO:DPO的奖励被分配给提示和响应,而MDP的奖励是每个行动分配的,因此可以拓展到令牌级(TDPO)
🔸迭代/在线DPO:有效地收集新的偏好数据集来持续改进LLM,提出了Self-Rewarding和CRINGE等算法。
🔸二元反馈:收集偏好反馈比收集二元反馈更具挑战性,提出了KTO和DRO等算法。
🔸整合SFT:SFT和对齐分步执行被证明耗时耗力还会导致灾难性的遗忘,提出了ORPO和PAFT等算法。
🔸长度控制:LLM常常会产生过于冗长的输出,提出了R-DPO、SimPO和RLOO等算法。
🔸列表偏好优化:列表偏好的数据集可以视为成对偏好,提出了LiPO、RRHF和PRO等算法。
🔸负偏好优化:当前都围绕有利相应训练,可以通过负面偏好优化(NPO)的过程来利用不需要的响应
🔸纳什学习:解决成对偏好内的不一致问题,使用纳什均衡来推导偏好模型,提出了SPPO和DNO等算法。
🔸反向KL:KL散度的约束会减少多样性,JSD表现出高奖励和高多样性。

附录

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值