UvA:对比偏好帮助LLM弱到强学习

在这里插入图片描述

📖标题:MACPO: Weak-to-Strong Alignment via Multi-Agent Contrastive Preference Optimization
🌐来源:arXiv, 2410.07672

摘要

🔸随着大型语言模型(LLM)的快速发展和实现接近人类的能力,将其与人类价值观相结合变得越来越迫切。在LLMs表现优于人类的情况下,我们面临着弱到强的对齐问题,我们需要通过弱教师产生的弱监督来有效地对齐强学生LLMs。现有的对齐方法主要侧重于强到弱的对齐和自对齐设置,将它们适应更难的弱到强的对齐设置是不切实际的。
🔸为了填补这一空白,我们提出了一个多智能体对比偏好优化(MACPO)框架。MACPO通过迭代强化不熟悉的积极行为,同时惩罚熟悉的消极行为,促进弱教师和强学生相互学习。为此,我们设计了一种相互积极的行为增强策略,鼓励弱势教师和强势学生从彼此的积极行为中学习,并为下一次迭代提供更高质量的积极行为。此外,我们提出了一种硬负面行为构建策略,通过微调负面行为数据,诱导弱势教师和强势学生产生熟悉的负面行为。
🔸使用自动度量和人类判断对HH-RLHF和PKU SafeRLHF数据集进行评估的实验结果表明,MACPO同时提高了优秀学生和弱势教师的对齐性能。此外,随着弱教师数量的增加,MACPO通过更多的迭代优化轮次实现了更好的弱到强对齐性能。

🛎️文章简介

🔸研究问题:如何利用弱模型监督者生成的弱标签来训练强学生模型,使其行为与人类价值观对齐?
🔸主要贡献:论文提出了一种多智能体对比偏好优化框架(MACPO),通过弱教师和强学生的相互学习,实现了更好的弱对强对齐。

📝重点思路

🔺相关工作

🔸LLM对齐:广泛使用的算法是RLH和DPO,通过强化积极行为和惩罚消极行为来调整LLM,但收集大规模人类偏好过于昂贵,改进思路包括LLM合成、RLAIF、RLCD等。
🔸弱到强学习:利用弱教师生成弱标签来有效引导强学生的行为,包括添加辅助信心损失、自适应置信度损失和共同监督学习等,但都只关注了积极行为。
🔸基于LLM的多代理系统:与单代理相比,多代理之间的协作可以提高复杂任务的性能,大多数现有方法侧重于在推理阶段而非训练阶段。

🔺论文方案

🔸问题定义:弱到强对齐问题,将原始对齐训练数据集分成两部分,一部分用于初始化弱监督者,另一部分给弱监督者生成弱标签,用于初始化强学生模型。
🔸MACPO思想:通过迭代强化不熟悉的积极行为和惩罚熟悉的消极行为,促进弱教师和强学生相互学习。
🔸相互积极行为增强策略:框架中有K个弱教师和一个强学生,学生模型对弱标签有高困惑度意味着负面噪声,从而选出最低困惑度作为积极行为。
🔸硬消极行为构建策略:和积极行为类似,可以选出消极行为。
🔸迭代训练过程:在每一轮迭代中,生成对比偏好对,迭代优化教师模型和学生模型产生更好的积极行为,但不替换消极代理。

🔎分析总结

🔸MACPO的有效性:MACPO在HH-RLHF和PKU-SafeRLHF数据集上的帮助性和无害性方面,始终优于现有的强到弱对齐基线方法。
🔸迭代优化的重要性:在多轮迭代优化过程中,MACPO持续提高对齐性能,而自我对齐方法在多次迭代后性能开始下降,表明相互学习对于弱到强对齐至关重要。
🔸弱教师数量的影响:随着弱教师数量的增加,MACPO在对齐性能和迭代优化轮数上都有所提升,表明更多的弱教师可以提高积极行为的多样性,缓解模型崩溃问题。
🔸策略的有效性:实验结果强调了惩罚消极行为的重要性,仅强化高质量积极行为的方法在对齐性能上不如MACPO。

💡个人观点

论文的核心是弱到强学习中通过学生模型来识别教师模型的弱标签,通过交互实现提升。

附录

在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值