📖标题:Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness
🌐来源:arXiv, 2409.17791
摘要
🔸最近,人们对用人类反馈(RLHF)方法代替大型语言模型(LLM)的强化学习中的奖励模型产生了浓厚的兴趣,如直接偏好优化(DPO)及其变体。这些方法通常在成对样本上使用二进制交叉熵机制,即分别基于首选或不首选响应最小化和最大化损失。然而,虽然这种训练策略省略了奖励模型,但它也忽略了不同反应中不同的偏好程度。
🔸我们假设这是阻碍LLM充分理解人类偏好的关键因素。为了解决这个问题,我们提出了一种新的自监督偏好优化(SPO)框架,该框架将自监督偏好度损失与对齐损失相结合,从而帮助LLM提高理解偏好度的能力。
🔸在两个广泛使用的不同任务的数据集上进行了广泛的实验。结果表明,SPO可以与现有的偏好优化方法无缝集成,并显著提高其性能,以实现最先进的性能。我们还进行了详细的分析,以提供对SPO的全面见解,从而验证其有效性。该代码可在以下网址获得https://github.com/lijian16/SPO.
🛎️文章简介
🔸研究问题:现有从人类反馈(RLHF)中学习的强化学习框架,训练过程复杂度高且未能充分理解人类偏好程度。
🔸主要贡献:论文提出了一种自监督的偏好优化(SPO)方案,帮助大语言模型(LLM)学习人类偏好的程度,并显著提升了现有对齐方法的性能。
📝重点思路
🔺相关工作
🔸LLM偏好对齐:通常先在偏好数据集上训练奖励模型,再进一步微调LLM以通过强化学习最大化识别的奖励,如PPO、REINFORCE及其变体。考虑到复杂性,DPO、KTO等绕过奖励模型来简化这一过程。
🔸自监督学习:利用未标记的数据在没有明确监督的情况下学习有用的表示。
🔺论文方案
🔸SPO思想:选择性地移除LLM输出中的关键内容,以生成具有不同偏好程度的响应。
🔸步骤1-关键词提取:在LLM的输出上使用关键词提取器来提取关键内容。
🔸步骤2-内容移除与构造:通过移除不同数量的关键内容,构造具有不同偏好程度的响应(移除1项是0、2项是1),并带有标签移除的类别。
🔸步骤3-自监督分类:将这些响应输入到自监督分类模块中预测标签分类,并将分类损失与主要的偏好对齐损失结合,共同优化LLM。
🔎分析总结
🔸性能提升:SPO显著提升了现有对齐方法的性能,在多个数据集和模型上均达到了最先进的性能,证明了其有效性和鲁棒性。
🔸模型大小无关:SPO方法在不同大小的模型(如LLaMA-7B、LLaMA-13B)上均表现出色,甚至在某些情况下,优化后的LLaMA-7B模型性能超过了未优化的LLaMA-13B模型。
🔸方法通用性:SPO不仅适用于DPO方法,还对其他对齐方法(如IPO、KTO)也有显著的性能提升。
💡个人观点
论文的核心是通过移除不同的关键信息来构建偏好数据,并引入关键信息预测辅助任务。
附录