LLM三类评估方法介绍

1.人工评估

基于人工的评估方法通常需要邀请大量的志愿者或相关领域的专家对LLM的生成进行主观评估和打分。以专业领域知识评估为例,首先,需要收集不同领域专家根据该领域专业问题给出的答案作为参考,然后根据已有知识与LLM生成的输出,主观评估LLM专业领域知识的掌握程度。此外,人工评估还可以运用于评估生成内容与人类意愿高度相关的指标,例如语义一致性、逻辑合理性、文体风格等方面。

 2.自动评估

自动评估方法是指通过使用标准化的数据集和指标来对LLM进行自动化评估的方法。该类评估方法所采用的综合评测基准通常涵盖主流LLM评估任务,并且可以快速对比不同LLM在相同任务下的性能差距。

评测基准内容详细描述
Berkeley发布的MMLU(Massive Multitask Language Understanding)57个任务涵盖了数学、历史、计算机科学、法律等领域,通
过零样本和少样本设置来评估模型蕴含的知识
AI2提出的ARC(AI2 Reasoning Challenge)7787个来自不同科学领域的考试问题根据难易程度,划分为
2590个问题组成的ARC-Challenge和5197个问题的ARC-Easy

3.其他LLM评估

基于其他LLM的评估方法,该类方法通常设定一系列用来评估LLM综合性能的开放式问题集合,用以得到LLM的输出,并且采用现有先进的LLM作为评估者,对LLM的输出进行标注输出对比或打分以评估LLM的综合性能。

AlpacaEval 斯坦福大学基于AlpacaFarm数据集,来测试LLM遵循一般用户指令的能力的评估方法,以强大的LLM (如GPT-4、Claude或
ChatGPT)为自动评估器,以GPT-3.5为基准,将目标模型与GPT-3.5的回复进行比较,计算获胜率。
MT-Bench是一种基于多轮对话来评估LLM聊天机器人能力和用户偏好的评估方法。它是一个由80个多轮问题组成的基准测试集,旨在评估聊天机器人的对话和指令跟随能力。同样使用强大的LLM (如GPT-4、Claude或ChatGPT)作为评估器,将不同的聊天机器人的回复进行比较,并给出优劣判断。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值