Meta:通过自学习迭代LLM的奖励模型

在这里插入图片描述

📖标题:Self-Taught Evaluators
🌐来源:arXiv, 2408.02666

🛎️文章简介

🔸研究问题:基于模型的评估思路,可以用于奖励模型或替代人类评估,但训练依赖大量的偏好数据成本高昂。
🔸主要贡献:论文提出了一种新的迭代训练方法,仅使用合成训练数据来改进评估器,无需人工注释。

📝重点思路

🔺相关工作

🔸基于LLM的评估器:传统的评估基准采用自动化指标,不适用于开放性和复杂指令场景,通过LLM评估可以输出分数或者反馈,也可以对单个响应或者成对响应评测。
🔸合成数据:在难以访问现实世界数据的情况下,能够有效获取训练示例,并且可以根据特定要求定制。

🔺论文方案

🔸初始化:假设可以访问大量人工编写的用户指令,如从生产环境拉取。
🔸指令选择:通过LLM对初始化指令分类,选择有利于平衡分布且具有挑战性的指令。
🔸偏好构建:对于原始指令x,先提示LLM生成一个“嘈杂”版本x’,然

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值