大语言模型的评估:综述

23年8月来自吉林大学、微软、中科院自动化所、CMU、西湖大学、北大、UIC和香港科技大学等的综述论文“A Survey on Evaluation of Large Language Models“。

大语言模型(LLM)的评估变得越来越重要,不仅在任务层面,而且在社会层面,是为了更好地了解其潜在风险。本文对LLM的评估方法进行了全面的综述,重点关注三个关键维度:评估什么、在哪里评估以及如何评估。首先,从评估任务的角度进行了概述,包括一般的自然语言处理任务、推理、医学使用、伦理、教育、自然科学和社会科学、智体应用和其他领域。其次,通过深入研究评估方法和基准来回答“在哪里”和“如何”的问题,这些方法和基准是评估LLM绩效的关键组成部分。然后,总结LLM在不同任务中的成功和失败案例。最后,阐明LLM评估的未来要面临的几个挑战。

如图是该文的架构:

添加图片注释,不超过 140 字(可选)

AI模型评估是评估模型性能的重要步骤,目前已有标准的模型评估方法包括k-fold交叉验证、保留验证、leave-one-out交叉验证(LOOCV)、自举法(boot-stran)和缩减集(Berrar,2019;Kohavi等,1995)。例如,k-fold交叉验证将数据集分成k份,其中一份作为测试集,另一份作为训练集,可以减少训练数据损失,获得相对更准确的模型性能评估(Fushiki,2011);保留验证将数据集分为训练集和测试集,计算量较小,但可能存在较大偏差;LOOCV是一种独特的k-fold交叉验证方法,仅使用一个数据点作为测试集(Wong,2015);缩减集用一个数据集训练模型,用剩余数据进行测试,计算简单,但适用性有限。应根据具体问题和数据特点选择合适的评估方法,以获得更可靠的性能指标。

如图展示人工智能模型(包括LLM)的评估过程。由于训练规模庞大,一些评估协议可能无法评估深度学习模型。因此,长期以来,对静态验证集的评估一直是深度学习模型的标准选择。例如,计算机视觉模型利用静态测试集,如ImageNet(Deng 2009)和MS COCO(Lin 2014),进行评估。LLM还使用GLUE(Wang2018)或SuperGLUE(Wang2019)作为常见测试集。

添加图片注释,不超过 140 字(可选)

在哪些任务上评估 LLM 以显示其性能?在哪些任务上可以宣称 LLM 的优势和劣势?现有任务分为以下类别:自然语言处理、稳健性、道德、偏见和可信度、社会科学、自然科学和工程、医学应用、智体应用(使用 LLM 作为智体)和其他应用。

语言模型(尤其是大型语言模型)开发的最初目标是提高自然语言处理任务的性能,包括理解和生成。因此,大多数评估研究主要集中在自然语言任务上。下表是现有自然语言处理任务评估总结:NLU(自然语言理解),包括SA(情感分析)、TC(文本分类)、NLI(自然语言推理)和其他NLU任务)、Rng(推理)、NLG(自然语言生成,包括Summ(总结)、Dlg(对话)、Tran(翻译)、QA(问答)和其他NLG任务)和Mul(多语言任务)(按第一作者姓名排序)。

添加图片注释,不超过 140 字(可选)

自然语言理解代表了广泛的任务,旨在更好地理解输入序列。从几个方面总结LLM 评估的方面。

情感分析是一项分析和解释文本以确定情感倾向的任务。它通常是二元(正面和负面)或三元(正面、中性和负面)类分类问题。评估情感分析任务是一个流行的方向。ChatGPT 的情绪分析预测性能优于传统的情绪分析方法 (Lopez-Lira and Tang, 2023),接近 GPT-3.5 (Qin et al., 2023a)。在细粒度的情绪和情绪因果分析中,ChatGPT 也表现出卓越的性能 (Wang et al., 2023j)。在低资源学习环境中,LLM 比小型语言模型表现出明显的优势 (Zhang et al., 2023d),但 ChatGPT 理解低资源语言的能力有限 (Bang et al., 2023)。总之,LLM 在情绪分析任务中表现出了令人称赞的表现。未来的工作应该侧重于增强它们理解资源匮乏语言中情绪的能力。

文本分类和情绪分析是相关领域,文本分类不仅关注情绪,还包括所有文本和任务的处理。总体而言,LLM 在文本分类方面表现良好,甚至还可以处理非常规问题设置中的文本分类任务。

自然语言推理 (NLI) 是确定给定的“假设”是否在逻辑上遵循“前提”的任务。 Qin (2023a) 表明,ChatGPT 在 NLI 任务上的表现优于 GPT-3.5。他们还发现 ChatGPT 在处理事实输入方面表现出色,这可以归因于其 RLHF 训练过程有利于人类反馈。然而,Lee (2023) 观察到 LLM 在 NLI 范围内表现不佳,并且无法表示人类的分歧,这表明 LLM 在这一领域仍有很大改进空间。

语义理解是指语言及其相关概念的含义或理解。它涉及对单词、短语、句子及其之间关系的解释和理解。语义处理超越了表面层次,侧重于理解潜在的含义和意图。Tao (2023) 全面评估了 LLM 的事件语义处理能力,涵盖了对事件语义的理解、推理和预测。结果表明,LLM 能够理解单个事件,但感知事件间语义相似性的能力有限。在推理任务中,LLM 在因果关系和意向关系中表现出强大的推理能力,但在其他关系类型中的表现相对较弱。在预测任务中,随着上下文信息的增加,LLM 对未来事件的预测能力增强。Riccardi & Desai (2023) 探索了 LLM 的语义能力,并表明这些模型在评估基本短语方面表现不佳。此外,GPT-3.5 和 Bard 无法区分有意义和无意义的短语,始终将高度无意义的短语归类为有意义的。GPT-4 显示出显着的改进,但其性能仍然明显低于人类。总之,LLM 在语义理解任务中的表现较差。

在社会知识理解领域,Choi (2023) 评估了模型在学习和识别社会知识概念方面的表现,结果表明,尽管参数数量少得多,但微调监督模型(如 BERT)的性能比使用最先进的 LLM 的零样本模型(如 GPT (Radford,2018)、GPT-J-6B (Wang and Komatsuzaki, 2021) )要好得多。这句话表明,监督模型在性能方面明显优于零样本模型,强调在这种特定情况下,参数的增加并不一定能保证更高水平的社会知识。
推理任务对智能 AI 模型提出了重大挑战。为了有效地解决推理任务,模型不仅需要理解所提供的信息,而且还需要在没有明确答案的情况下利用推理和推理来推断答案。上表表明,人们对评估 LLM 的推理能力的兴趣日益浓厚,越来越多的文章专注于探索这一方面。目前,推理任务的评估大致可分为数学推理、常识推理、逻辑推理和域特定推理。

自然语言生成 (NLG) 评估 LLM 生成特定文本的能力,它包含多项任务,包括摘要、对话生成、机器翻译、QA 和其他开放式生成应用程序。

虽然英语是主要语言,但许多 LLM 都是在混合语言训练数据上进行训练的。多语言数据的结合确实有助于 LLM 获得处理输入和生成不同语言响应的能力,从而使其在全球范围内得到广泛采用和接受。然而,由于这项技术出现的时间相对较晚,LLM 主要基于英语数据进行评估,这可能导致对其多语言性能的评估出现疏漏。

在 LLM 中,事实性是指模型提供的信息或答案与现实世界的事实和可验证的事实的一致程度。LLM 中的事实性对各种任务和下游应用有重大影响,例如 QA 系统、信息提取、文本摘要、对话系统和自动事实核查,其中不正确或不一致的信息可能会导致严重的误解和曲解。评估事实性对于信任和有效使用这些模型至关重要。这包括这些模型与已知事实保持一致的能力、避免产生误导性或虚假信息(称为“事实幻觉”)以及有效学习和回忆事实知识的能力。

LLM的评估涵盖稳健性、道德、偏见和可信度等关键方面。这些因素在全面评估LLM的表现时变得越来越重要。

下表对 LLM 的稳健性、道德性、偏见和可信度的评价总结(按第一作者姓名排序)。

添加图片注释,不超过 140 字(可选)

社会科学是研究人类社会与个体行为的学科,涵盖经济学、社会学、政治学、法学等学科,评估社会科学LLM的学术表现,对学术研究、政策制定、社会问题解决等具有重要意义,有助于提升社会科学模型的适用性和质量,增进对人类社会的理解,促进社会进步。

评估LLM在自然科学和工程领域的表现有助于指导科学研究、技术开发和工程研究的应用和发展。

对于基本数学问题,大多数LLM表现出加法和减法的熟练程度,并具有一定的乘法能力。然而,它们在除法、指数运算、三角函数和对数函数方面面临挑战。另一方面,LLM在处理小数、负数和无理数方面表现出色 (Yuan,2023b)。

LLM在化学领域的应用需要进一步改进。 (Arora,2023) 表明LLM在物理问题上的表现比化学问题差,可能是因为在这种情况下化学问题的推理复杂度低于物理问题。在一般科学领域,对 LLM 的评估研究有限,目前的结果表明,LLM 在该领域的性能需要进一步提高。

在工程领域,任务可以按难度升序排列,包括代码生成、软件工程和常识规划。

如表从数学、科学、工程三个方面对自然科学与工程课题的评价汇总(按第一作者姓名排序)。

添加图片注释,不超过 140 字(可选)

LLM 在医学领域的应用最近受到了广泛关注。这些应用分为三个方面,如表所示:医疗查询、医疗检查和医疗助理。详细研究这些类别将增强对 LLM 可能给医学领域带来的潜在影响和优势的理解。

添加图片注释,不超过 140 字(可选)

LLM 不仅可以专注于一般的语言任务,还可以用作各个领域的强大工具。为 LLM 配备外部工具可以大大扩展模型的功能(Qin,2023b)。 ToolLLM(Qin,2023c)提供了一个全面的框架,使开源大语言模型具备工具使用能力。

除了上述类别外,还对其他各个领域的 LLM 进行了评估,包括教育、搜索和推荐、人格测试和特定应用。如表所示从Edu.(教育)、Sea. & Rec.(搜寻与推荐)、Pers. Test.(人格测试)及特别应用四个方面对其他领域的应用评价汇总(按第一作者姓名排序)。

添加图片注释,不超过 140 字(可选)

LLM 评估数据集用于测试和比较不同语言模型在不同任务上的性能。这些数据集,例如 GLUE(Wang et al.,2018)和 SuperGLUE(Wang et al.,2019),旨在模拟现实世界的语言处理场景,涵盖文本分类、机器翻译、阅读理解和对话生成等多种任务。

随着 LLM 基准的不断发展,出现了各种基准来评估其性能。 30 个流行的基准如表所示。每个基准都侧重于不同的方面和评估标准,为各自的领域提供了宝贵的贡献。为了更好地总结,基准分为两类:一般语言任务的基准和特定下游任务的基准。

添加图片注释,不超过 140 字(可选)

LLM 旨在解决绝大多数任务。为此,现有的基准测试倾向于评估不同任务中的表现。

Chatbot Arena (LMSYS, 2023) 和 MT-Bench (Zheng et al., 2023) 是两个重要的基准测试,它们有助于评估和改进不同环境中的聊天机器人模型和 LLM。Chatbot Arena 提供了一个平台,可以通过用户参与和投票来评估和比较不同的聊天机器人模型。用户可以与匿名模型互动并通过投票表达他们的偏好。该平台收集了大量的投票,有助于评估模型在现实场景中的表现。Chatbot Arena 为聊天机器人模型的优势和局限性提供了宝贵的见解,从而促进了聊天机器人研究和发展的进步。

除了一般任务的基准之外,还存在专门为某些下游任务设计的基准。

常见的评估方法包括:自动评估和人工评估。其实,“如何评估”的分类也没有明确的,根据评估标准是否可以自动计算来分类,如果可以自动计算,就属于自动评估,否则就属于人工评估。

要强调的是,没有证据明确表明某一特定的评估协议或基准是最有用和最成功的,而是具有不同的特点和重点。这也表明,没有一个模型可以在所有类型的任务中表现最佳。通过总结和分析现有的 LLM 评估工作,可以确定 LLM 当前的成功和失败案例,得出评估协议的新趋势,最重要的是,为未来的研究提出新的挑战和机遇。

LLM能做得好吗?

•LLM产生流畅准确的语言表达来证明其在生成文本方面的熟练程度。
•LLM在涉及语言理解的任务中获得了令人印象深刻的表现,如情感分析和文本分类。
•LLM表现出强大的上下文理解能力,使其能够产生与给定输入一致的连贯反应。
•LLM在几个自然语言处理任务中实现了令人满意的性能,包括机器翻译、文本生成和问答。

LLM什么时候会失败?

•LLM在生成过程中可能表现出偏差和不准确,导致产生有偏差的输出。
•LLM理解复杂逻辑和推理任务的能力有限,经常在复杂的环境中遇到困惑或出错。
•LLM在处理大量数据集和长期记忆方面面临限制,这可能会在处理涉及长期依赖性的冗长文本和任务方面带来挑战。
•LLM在整合实时或动态信息方面存在局限性,因此不太适合需要最新知识或快速适应不断变化环境的任务。
•LLM对提示很敏感,尤其是对抗性提示,这会触发新的评估和算法来提高其稳健性。
•在文本摘要领域,据观察,LLM可能在特定的评估指标上表现出较差的性能,这可能归因于这些特定指标中的固有局限性或不足之处。
•LLM在反事实任务中不能达到令人满意的性能。

最后说一下LLM评估的挑战和机会。

1 设计AGI基准
正如我们前面所讨论的,虽然所有任务都有可能作为LLM的评估工具,但问题仍然是哪一个可以真正衡量AGI能力。正如我们期望LLM展示AGI能力一样,全面了解人类和AGI能力之间的差异对于创建AGI基准点至关重要。主流趋势似乎将AGI概念化为超人实体,从而利用教育、心理学和社会科学等领域的跨学科知识来设计创新基准。尽管如此,仍有大量未解决的问题。就目前而言,将人的价值观作为测试构建的起点有意义吗?还是应该考虑其他选择?制定合适的AGI基准的过程提出了许多有待进一步探索的悬而未决的问题。

2 完整的行为评估
一个理想的AGI评估不仅应包含常见任务的标准基准,还应包含开放任务的评估,如完整的行为测试。所谓行为测试,意思是AGI模型也应该在开放环境中进行评估。例如,将LLM视为中心控制器,可以对LLM操纵的机器人进行评估,测试其在真实情况下的行为。将LLM视为一台完全智能的机器,还应考虑对其多模态维度的评估。事实上,完整的行为评估是对标准AGI基准的补充,应该一起工作以进行更好的测试。

3 鲁棒性评估
除了一般任务外,LLM还必须保持对各种输入的完整性,以便在最终用户广泛融入日常生活的情况下为其提供最佳性能。例如,相同的提示但具有不同的语法和表达式,可能会导致ChatGPT和其他LLM生成不同的结果,这表明当前LLM对输入不鲁棒。虽然之前有一些关于鲁棒性评估的工作(Wang 2023c;Zhu 2021),但仍有很大的进步空间,例如包括更多样的评估集,检查更多的评估方面,以及开发更有效的评估来生成稳健性任务。与此同时,鲁棒性的概念和定义也在不断演变。因此,至关重要的是要考虑更新评估系统,更好地与道德操守和偏见有关所涌现的新要求对齐。

4 动态和演化的评估
大多数人工智能任务的现有评估协议依赖于静态和公共基准,即评估数据集和协议通常是公开的。虽然这有助于在社区内进行快速方便的评估,但鉴于LLM的快速发展,它无法准确评估其不断发展的能力。LLM的能力可能会随着时间的推移而增强,而现有的静态基准无法对其进行一致的评估。另一方面,当LLM随着大模型大小和训练集大小的增加而变得越来越强大,LLM可能会记住静态和公共基准,从而导致潜在的训练数据污染。因此,发展动态和不断演化的评估系统是公平评估LLM的关键。

5 原则性的和值得信赖的评估
在引入评估系统时,确定其完整性和可信度至关重要。因此,可信计算的必要性也延伸到了对可靠评估系统的需求。这提出了一个具有挑战性的研究问题,该问题与测量理论、概率和许多其他领域交织在一起。例如,我们如何确保动态测试真正生成分布外(OOD)的示例?

6 支持所有LLM任务的统一评估
LLM还有许多其他研究领域,需要开发能够支持各种任务的评估系统,如值对齐、安全性、验证、跨学科研究、微调等。例如,PandaLM(Wang 2023h)是一个评估系统,提供开源评估模型来帮助LLM微调,该模型可以自动评估微调的性能。预计更多的评估系统将变得更加通用,并可用于某些LLM任务。

7 除了评估:LLM增强
归根结底,评估不是最终目标,而是起点。在评估之后,无疑会得出关于性能、稳健性、稳定性和其他因素的结论。一个熟练的评估系统不仅应该提供基准结果,还应该为未来的研究和开发提供富有洞察力的分析、建议和指导。例如,PromptBench(Zhu 2023)不仅提供了对抗性提示的鲁棒性评估结果,还通过注意可视化进行了全面分析,阐明了对抗性文本如何导致错误反应。该系统进一步提供了词频分析,以识别测试集中的鲁棒的和非鲁棒的单词,从而为最终用户提供及时的工程指导。后续研究可以利用这些发现来增强LLM。另一个例子是,(Wang2023g)首次探索了大型视觉语言模型在不平衡(长尾)任务上的性能,这表明了当前大模型的局限性。然后,他们探索了不同的方法来提高这些任务的性能。总之,评估后的增强有助于构建更好的LLM,并且在未来可以做很多工作。

  • 24
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值