1.人工评估
基于人工的评估方法通常需要邀请大量的志愿者或相关领域的专家对LLM的生成进行主观评估和打分。以专业领域知识评估为例,首先,需要收集不同领域专家根据该领域专业问题给出的答案作为参考,然后根据已有知识与LLM生成的输出,主观评估LLM专业领域知识的掌握程度。此外,人工评估还可以运用于评估生成内容与人类意愿高度相关的指标,例如语义一致性、逻辑合理性、文体风格等方面。
2.自动评估
自动评估方法是指通过使用标准化的数据集和指标来对LLM进行自动化评估的方法。该类评估方法所采用的综合评测基准通常涵盖主流LLM评估任务,并且可以快速对比不同LLM在相同任务下的性能差距。
评测基准 | 内容 | 详细描述 |
Berkeley发布的MMLU(Massive Multitask Language Understanding) | 57个任务 | 涵盖了数学、历史、计算机科学、法律等领域,通 过零样本和少样本设置来评估模型蕴含的知识 |
AI2提出的ARC(AI2 Reasoning Challenge) | 7787个来自不同科学领域的考试问题 | 根据难易程度,划分为 2590个问题组成的ARC-Challenge和5197个问题的ARC-Easy |
3.其他LLM评估
基于其他LLM的评估方法,该类方法通常设定一系列用来评估LLM综合性能的开放式问题集合,用以得到LLM的输出,并且采用现有先进的LLM作为评估者,对LLM的输出进行标注输出对比或打分以评估LLM的综合性能。
AlpacaEval 斯坦福大学 | 基于AlpacaFarm数据集,来测试LLM遵循一般用户指令的能力的评估方法,以强大的LLM (如GPT-4、Claude或 ChatGPT)为自动评估器,以GPT-3.5为基准,将目标模型与GPT-3.5的回复进行比较,计算获胜率。 |
MT-Bench | 是一种基于多轮对话来评估LLM聊天机器人能力和用户偏好的评估方法。它是一个由80个多轮问题组成的基准测试集,旨在评估聊天机器人的对话和指令跟随能力。同样使用强大的LLM (如GPT-4、Claude或ChatGPT)作为评估器,将不同的聊天机器人的回复进行比较,并给出优劣判断。 |