📖标题:META-REWARDING LANGUAGE MODELS:Self-Improving Alignment with LLM-as-a-Meta-Judge
🌐来源:arXiv, 2407.19594
🛎️文章简介
🔸研究问题:在训练大语言模型(LLM)时,如何同时提升模型作为行动者(生成响应)和作为评判者(评估响应)的能力,以避免奖励信号的饱和或过度拟合。
🔸主要贡献:论文提出了一种名为Meta-Rewarding的方法,通过引入元评判者的角色来评估模型自身的评判,从而实现模型自我改进的能力。
📝重点思路
🔺相关工作
🔸RLHF:使LLM与人类价值观保持一致,大致分为与奖励模型对齐或直接基于偏好数据集对齐。
🔸用LLM进行评估:使用LLM进行评估和训练奖励模型已成为标准做法,核心在于如何构建训练数据。
🔸超级对齐:当前的对齐方法主要依赖于人类提供演示的监督微调(SFT)或来自人类反馈的强化学习(RLHF),超越人类水平的对齐则被称为超级对齐。
🔺论文方案
🔸架构设计:一个语言模型在不同阶段扮演不同角色,行动者生成响应,评判者评估响应,元评判者评估评判者的判断质量。
🔸关键思想:通过这种自我对弈过程,模型生成行动者和评判者的偏好数据,通过DPO改进行动者和评判者的能力。
🔸迭代流程:训练结束后,得到一个改进的模型,该模型将用于下一次迭代,既用于生成训练数据,又作为优化的初始模型。
🔸优化细节:元评判者也会表现出与评判者相似的长度偏见,需要通过一个额外的过滤步骤超长偏好对。
🔎分析总结
🔸Meta-Rewarding方法能够提高模型作为行动者和评判者的表现,优于Self-Rewarding基线方法。
🔸Meta-Rewarding语言模型显示出与人类判断更高的相关性,尽管这种改进在后续训练迭代中可能因模型生成响应与人类响应的分布差异而减弱。
🔸长度控制机制对于保持模型响应的全面性和简洁性之间的平衡至关重要。
🔸训练过程中依旧存在位置偏差,使得评判者分配更高分数的倾向,加速了分数饱和并降低了其区分反应的能力。
💡个人观点
论文引入元评判者角色,实现了模型的自我评估和自我改进,无需额外的人类监督数据,但这个自监督感觉会收敛到奖励偏差更大?
附录