谷歌:LLM优质评估器FLAMe发布

在这里插入图片描述

📖标题:Foundational Autoraters: Taming Large Language Models for Better Automatic Evaluation
🌐来源:arXiv, 2407.10817

🛎️文章简介

🔸研究问题:如何利用大语言模型(LLM)进行有效的自动评估,特别是在多样化的质量评估任务。
🔸主要贡献:论文提出了一个自动评分器模型系列FLAMe,在多个自动评估基准上优于现有的专有LLM评估模型。

📝重点思路

🔺相关工作

🔸自动评估指标:传统指标包括BLEU和ROUGE算词汇重叠,模型指标使用预训练模型来测量分布相似性或标记概率。
🔸LLM自动评分:,最近的工作已使用LLM进行评估,包括AlpacaEval、MT-Bench和WildBench等基准,但模型评估器往往倾向于自己生成的响应,表现出对长度、顺序和实体偏好等方面的“认知”偏见。
🔸通用评估器:专门针对模型训练的评估器,如TIGERScore和Prometheus等。
🔸奖励模型:主要在成对偏好数据上进行训练,针对整体偏好进行优化

🔺论文方案

🔸数据收集:汇总了102个不同的任务、合计530条人类评估数据,分成成对评估、逐点评估、分类和开放式评估四大类。
🔸能力覆盖:包括一般响应质量、事实/归因、数学推理、编码、安全和指令遵循能力。
🔸模型训练:数据处理并标准化为统一的文本到文本格式,训练和优化LLM自动评估器(FLAMe、FLAMe-RM和FLAMe-Opt-RM)。

🔎分析总结

🔸FLAMe模型在12个自动评估基准中的8个上优于所有LLM评估基线
🔸FLAMe是RewardBench上最强大的生成模型之一
🔸FLAMe在LLM-AggreFact上获得最佳性能

💡个人观点

论文梳理了训练评估器的数据集,并在多个自动评估基准上超越专有LLM评估模型。

附录

在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值