📖标题:Self-Taught Evaluators
🌐来源:arXiv, 2408.02666
🛎️文章简介
🔸研究问题:基于模型的评估思路,可以用于奖励模型或替代人类评估,但训练依赖大量的偏好数据成本高昂。
🔸主要贡献:论文提出了一种新的迭代训练方法,仅使用合成训练数据来改进评估器,无需人工注释。
📝重点思路
🔺相关工作
🔸基于LLM的评估器:传统的评估基准采用自动化指标,不适用于开放性和复杂指令场景,通过LLM评估可以输出分数或者反馈,也可以对单个响应或者成对响应评测。
🔸合成数据:在难以访问现实世界数据的情况下,能够有效获取训练示例,并且可以根据特定要求定制。
🔺论文方案
🔸初始化:假设可以访问大量人工编写的用户指令,如从生产环境拉取。
🔸指令选择:通过LLM对初始化指令分类,选择有利于平衡分布且具有挑战性的指令。
🔸偏好构建:对于原始指令x,先提示LLM生成一个“嘈杂”版本x’,然