📖标题:Foundational Autoraters: Taming Large Language Models for Better Automatic Evaluation
🌐来源:arXiv, 2407.10817
🛎️文章简介
🔸研究问题:如何利用大语言模型(LLM)进行有效的自动评估,特别是在多样化的质量评估任务。
🔸主要贡献:论文提出了一个自动评分器模型系列FLAMe,在多个自动评估基准上优于现有的专有LLM评估模型。
📝重点思路
🔺相关工作
🔸自动评估指标:传统指标包括BLEU和ROUGE算词汇重叠,模型指标使用预训练模型来测量分布相似性或标记概率。
🔸LLM自动评分:,最近的工作已使用LLM进行评估,包括AlpacaEval、MT-Bench和WildBench等基准,但模型评估器往往倾向于自己生成的响应,表现出对长度、顺序和实体偏好等方面的“认知”偏见。
🔸通用评估器:专门针对模型训练的评估器,如TIGERScore和Prometheus等。
🔸奖励模型:主要在成对偏好数据上进行训练,针对整体偏好进行优化
🔺论文方案
🔸数据收集:汇总了102个不同的任务、合计530条人类评估数据,分成成对评估、逐点评估、分类和开放式评估四大类。
🔸能力覆盖:包括一般响应质量、事实/归因、数学推理、编码、安全和指令遵循能力。
🔸模型训练:数据处理并标准化为统一的文本到文本格式,训练和优化LLM自动评估器(FLAMe、FLAMe-RM和FLAMe-Opt-RM)。
🔎分析总结
🔸FLAMe模型在12个自动评估基准中的8个上优于所有LLM评估基线
🔸FLAMe是RewardBench上最强大的生成模型之一
🔸FLAMe在LLM-AggreFact上获得最佳性能
💡个人观点
论文梳理了训练评估器的数据集,并在多个自动评估基准上超越专有LLM评估模型。
附录