Meta:通过自学习迭代LLM的奖励模型

在这里插入图片描述

📖标题:Self-Taught Evaluators
🌐来源:arXiv, 2408.02666

🛎️文章简介

🔸研究问题:基于模型的评估思路,可以用于奖励模型或替代人类评估,但训练依赖大量的偏好数据成本高昂。
🔸主要贡献:论文提出了一种新的迭代训练方法,仅使用合成训练数据来改进评估器,无需人工注释。

📝重点思路

🔺相关工作

🔸基于LLM的评估器:传统的评估基准采用自动化指标,不适用于开放性和复杂指令场景,通过LLM评估可以输出分数或者反馈,也可以对单个响应或者成对响应评测。
🔸合成数据:在难以访问现实世界数据的情况下,能够有效获取训练示例,并且可以根据特定要求定制。

🔺论文方案

🔸初始化:假设可以访问大量人工编写的用户指令,如从生产环境拉取。
🔸指令选择:通过LLM对初始化指令分类,选择有利于平衡分布且具有挑战性的指令。
🔸偏好构建:对于原始指令x,先提示LLM生成一个“嘈杂”版本x’,然后让LLM对x输出高质量响应yw、对x’输出低质量响应yl,得到一组偏好
🔸生成判断:让评估器M对(x,yw,yl)进行判断,选择判断正确的反馈j,进一步得到(x,yw,yl,j)
🔸迭代训练:使用之前步骤得到的数据训练M,迭代整个过程以实现自我改进。

🔎分析总结

🔸在RewardBench上,自学习评估器在合成数据上迭代训练后,性能从75.4提升到88.7,与使用人工标注数据训练的奖励模型性能相当或更优。
🔸在MT-Bench上,自学习评估器同样优于种子模型,并与GPT4性能相当。
🔸通过分类输入指令并选择高质量的合成响应和判断,可以进一步用于训练,提高评估器的性能。
🔸结合合成偏好数据和人工标注偏好数据进行训练,模型在不同权重下都保持了较强的性能,并在总体准确性上略有提升。

💡个人观点

论文核心在于通过自监督的方式构建伪标签数据进行迭代训练。

附录

在这里插入图片描述
在这里插入图片描述

  • 5
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值