📖标题:On the Limited Generalization Capability of the Implicit Reward Model Induced by Direct Preference Optimization
🌐来源:arXiv, 2409.03650
摘要
🔸基于人类反馈的强化学习(RLHF)是一种将语言模型与人类偏好相匹配的有效方法。RLHF的核心是学习用于对人类偏好进行评分的奖励函数。学习奖励模型的两种主要方法是:1)像RLHF一样训练EXplicit奖励模型(EXRM),2)使用通过直接偏好优化(DPO)等方法从偏好数据中学习到的隐含奖励。先前的工作表明,DPO的隐式奖励模型(表示为DPORM)可以在极限内近似EXRM。DPORM的有效性直接意味着学习策略的最优性,也对包括迭代DPO在内的LLM对齐方法具有实际意义。然而,目前尚不清楚DPORM在经验上与EXRM的性能有多匹配。
🔸这项工作研究了区分DPORM和EXRM的首选和拒绝答案的准确性。我们的研究结果表明,尽管DPORM与训练数据集的拟合度相当,但它的泛化效率低于EXRM,特别是在验证数据集包含分布偏移的情况下。在五种分布设置中,DPORM的平均精度下降了3%,最大下降了7%。这些发现强调了DPORM的泛化能力有限,并证实了迭代DPO方法中显式奖励模型的集成。
🛎️文章简介
🔸研究问题:直接偏好优化(DPO)隐式奖励模型,在分布偏移情况下的泛化能力不足。
🔸主要贡献:论文系统分析了不同奖励模型在分布偏移下的鲁棒性,并探讨了使用强化学习算法进行微调相对于DPO的优势。
📝重点思路
🔺相关工作
🔸虽然LLM拥有广泛的知识和推理能力,但预训练目标往往与指令遵循的目标不一致,从而产生幻觉、有害或有偏见的不良行为。
🔸LLM偏好对齐的常见做法是通过人类反馈强化学习(RLHF),基于经过训练的奖励模型,根据人类偏好注释对模型输出进行评分,但不完美的奖励模型可能在优化分布外(OOD)数据时导致更糟糕的结果。
🔸直接偏好优化(DPO)通常被认为是RLHF微调的更简单替代方案,但其泛化能力仍然不足。
🔺论文方案
🔸研究目标:探索显式奖励模型(EXRM)和隐式奖励模型(DPORM)的泛化能力差异,包括三种实验设置。
🔸实验1-混合分布:使用三种指令调优的大型语言模型(Gemma-2B, Gemma-7B, Mistral-7B),评估其在不同数据源上的ID和OOD准确性。
🔸实验2-分布偏移:在提示和响应两种类型的分布偏移(Prompt Shift和Response Shift)下进行控制实验。
🔸实验3-迭代对齐:使用迭代DPO对齐算法训练语言模型,研究奖励模型泛化能力对对齐过程的影响。
🔎分析总结
🔸实验1:DPORM和EXRM在ID数据上具有相似的准确性,DPORM在OOD数据上不如EXRM。
🔸实验2:分布偏移时,EXRM在OOD数据上的表现优于DPORM,DPORM的泛化能力较差。
🔸实验3:迭代DPO对齐过程中,使用EXRM的模型在表现优于使用DPORM的模型,表明EXRM在模型训练中的鲁棒性更好。
💡个人观点
论文系统分析了隐式奖励模型与显式奖励模型在分布偏移情况下的泛化能力,并验证了显式奖励模型在对齐过程中的优势。