StructEval: Deepen and Broaden Large Language Model Assessment via Structured Evaluation

三月七꧁ ꧂

于 2024-08-10 08:00:00 发布

阅读量863

点赞数 34

分类专栏：论文合集文章标签：语言模型人工智能自然语言处理 langchain microsoft gpt prompt

本文链接：https://blog.csdn.net/weixin_43961909/article/details/141069799

版权

论文合集专栏收录该内容

32 篇文章 0 订阅

订阅专栏

文章目录

题目

StructEval：通过结构化评估深化和拓宽大型语言模型评估
在这里插入图片描述

论文地址：https://arxiv.org/abs/2408.03281
项目地址：https://github.com/c-box/StructEval

摘要

评估是大型语言模型（LLM）发展的接力棒。当前的评估通常对每个原子测试目标采用单项评估范式，难以判断模型是否真正具备所需的能力，还是仅仅记住/猜测特定问题的答案。为此，本文提出了一种新颖的评估框架，称为StructEval。StructEval从原子测试目标出发，通过跨多个认知水平和关键概念进行结构化评估，深化和拓宽评估范围，从而为LLM提供全面、稳健和一致的评估。在三个广泛使用的基准测试上的实验表明，StructEval是一种可靠的工具，可以抵抗数据污染风险并减少潜在偏差的干扰，从而提供有关模型能力的更可靠和一致的结论。我们的框架还为未来设计有原则和可信赖的LLM评估协议1提供了启示。

在这里插入图片描述

评估是开发大型语言模型 (LLM) 的基础，它提供必要的测量、反馈和见解，有助于提高实用性、可靠性和安全性。因此，提出了各种大规模基准来评估 LLM 的能力，例如语言理解、指令遵循、推理能力。不幸的是，目前对 LLM 的评估通常采用单项评估范式，这种范式在有效性、稳健性和全面性方面仍然存在弱点。如图 1a 所示，为了评估 LLM 中的事实知识，他们将事实知识划分为一组原子测试目标（例如，苹果品种、胰岛素功能），并使用单个实例（例如，哪一个不是苹果品种）对每个目标进行评估。然而，这种单项评估范式很难辨别模型是否真正具备所需的能力，还是仅仅记住/猜测特定问题的答案。一方面，单项评估依赖于孤立实例的正确性，这对与特定实例相关的混杂因素很敏感，并且容易受到偏见或捷径的影响，因此很难辨别模型的正确响应是否源于真正的理解或仅仅是记忆（Cao et al，2021，2024）。

另一方面，LLM 训练数据和记忆容量的快速扩展增加了静态基准测试中数据污染的风险，可能导致对模型能力的评估过高。也就是说，由于测试实例可能污染训练数据集，因此模型的真实能力可能被高估。此外，由于基准构建所需的巨大资源，目前大多数基准测试都以静态方式评估模型。因此，由于无法及时更新、复杂性和多样性，它们可能很快达到饱和状态。

为了应对上述挑战，先前的研究主要尝试手动构建更新、更难、更多样化的基准测试。例如，Kasai 等人；Yu 等人根据最近的新闻或文章设计了评估基准；Wang 等人在原始数据集中添加扰动来评估模型的稳健性；Hendrycks 等人；Huang 等人从人类专业考试中收集测试实例以增加难度和多样性。尽管投入了大量资源，但先前基准的单项评估范式仍然难以确定评估的表现是否能够忠实、公平地反映模型的能力。

在本文中，我们提出了一种新颖的结构化评估框架 StructEval，它可以全面、稳健和有效地评估 LLM。这是通过采用由教学理论指导的结构化评估来评估模型在多个认知水平和关键概念上针对每个测试目标的能力来实现的，而不是依赖于单个测试实例的正确性。具体来说，如图 1b 所示，StructEval 包含两个模块，分别深化和拓宽当前的评估。给定一个种子实例，第一个模块确定其底层测试目标，然后围绕该测试目标生成多个测试实例，这些实例与布鲁姆分类学中概述的六个认知水平相一致。同时，第二个模块提取回答种子问题所必须理解的关键概念，然后基于这些概念开发一系列实例基于知识图谱的评估。

与单项评估不同，对于每个测试目标，StructEval 要求 LLM 展示跨多个认知层次的知识，以及对关键概念的透彻理解，以获得良好的表现。这样，对于每个测试目标，评估结论不再由单个实例的正确性决定。因此，它不依赖于特定实例引入的混杂因素，例如提示选择、表面形式捷径、数据分布等。因此，StructEval 可以减少这些混杂因素带来的偏差的影响，为各种 LLM 提供更一致、更准确的评估结论。同时，具有数据污染的模型只能记住特定的答案，但仍然缺乏相应的结构化知识，因此，即使训练数据受到污染，StructEval 也可以稳健地提供稳定的评估结果。此外，由于 StructEval 能够自动生成大规模和高质量的实例，从而通过更新知识源实现动态评估，它还可以防止基准测试快速达到饱和。

为了证明我们框架的有效性，我们基于 3 个广泛使用的基准测试实现了 StructEval。在各种 LLM 上的实验表明，StructEval：

能够自动生成大规模基准测试并完成结构化评估，同时确保实例的正确性、相关性和有用性。
有效抵御数据污染的风险，即使在数据污染设置下也能提供稳健的评估结果。
显著提高了不同实验中模型排名的一致性，从评估中得出更精确、更稳定的结论。
大大优于以前基于增强的策略，例如词语扰动、释义、回译、选项改组等。

本文的主要贡献包括：

我们提出了一个名为 StructEval 的新型评估框架，它原则上可以通过跨多个认知水平和关键概念评估每个测试目标来全面评估 LLM 的能力，而不是以前的单项评估。
我们在广泛使用的基准上实现了 StructEval，人工评估结果表明 StructEval 可以自动构建大规模基准，高质量。
我们进行了全面的数据污染和等级一致性实验，证明了 StructEval 对 LLM 评估的有效性、稳健性和一致性。

在这里插入图片描述
图2：StructEval框架示意图，由两个模块组成，第一个模块旨在评估模型在Bloom分类法中跨多个认知水平的测试目标上的能力，第二个模块旨在评估模型基于知识图谱对相关关键概念的理解能力。

前言

评估是 LLM 进步的基石。不幸的是，实现 LLM 的全面和可信评估仍然存在几个重大挑战。例如，无法以与模型能力的快速进步相同的速度扩展复杂性和多样性；导致不忠实评估的偏见或捷径；以及缺乏提供可信结果的可靠指标。为此，先前的研究主要致力于提高测试实例的多样性、规模、难度和时效性，探索当前评估中的稳健性和可信度漏洞，并提出更适合生成式语言模型的指标或协议。相比之下，本文旨在提出一个用于法学硕士评估的结构化评估框架。

StructEval 框架以两种广泛用于教育评估的教育学理论为指导。布鲁姆的分类理论是一个层次模型，用于将教育学习目标分为六个级别，包括记忆、理解、应用、分析、评估和创造。因此，为了全面评估模型在测试目标上跨各个认知水平的能力，StructEval会生成多个测试实例，涵盖布鲁姆分类学中的六个认知水平。概念图理论是另一个著名的学生评估工具。教育工作者使用概念图来评估学生对某一学科理解的广度，这表明学生对概念之间联系的掌握程度。因此，为了评估模型是否真正具备测试实例所需的知识，StructEval会基于知识图谱开发一系列围绕关键概念的实例。

StructEval框架

StructEval的总体框架如图2所示，由两个模块组成。给定一个种子实例，第一个模块将评估模型在多个认知水平上的测试目标能力。它首先确定该实例的底层测试目标，然后生成多个相关实例，涵盖布鲁姆分类学的六个认知水平。第二个模块评估模型对与种子实例相关的所有关键概念的全面理解。它提取必须理解的基本概念，并使用知识图围绕这些概念开发一系列扩展问题。下面对StructEval框架进行详细描述。

基于Bloom分类法的实例生成如图2所示，给定一个种子实例，StructEval的第一个模块通过以下步骤自动生成与Bloom分类法中的六个认知水平相对应的测试实例：

提取种子实例所考察的测试目标；
检索相关文档并根据与种子实例的相关性对文档块进行重新排序；
使用上下文学习为Bloom分类法中的每个认知水平生成候选评估实例；
选择最符合要求的实例并对其进行细化以增加挑战性。随后，将详细介绍每个组件。

测试目标提取旨在确定每个种子实例的底层测试目标。例如，“哪一个不是苹果的一个品种？”问题的测试目标是“苹果品种”。然而，这样的单一问题不足以彻底评估LLM的相关知识。因此，为了全面评估LLM对测试目标的知识掌握程度及其在不同认知层次的理解水平，我们围绕该测试目标进行了结构化评估。在我们的框架中，我们通过少样本演示提示LLM提取基准中每个实例检查的测试目标。

相关文档检索给定与种子实例相对应的测试目标，一种直观的方法是直接提示LLM为每个认知水平生成实例。然而，这种方法受到LLM幻觉的严重影响，导致相当一部分错误实例。因此，StructEval将首先检索相关段落，然后根据与种子实例的相关性对文档块进行重新排序。此过程确保后续实例的生成完全基于检索到的上下文，从而保证生成实例的准确性和针对性。候选实例生成旨在根据具有相关文档块的测试目标为Bloom分类法中的每个认知水平生成多个候选实例。如表1所示，我们精心设计了提示，让LLM生成与各个认知水平相对应的相关、正确和有用的实例。提示首先介绍布鲁姆分类法和当前的认知水平，然后是任务说明，其中包括三个原则，以确保生成的实例的可回答性、准确性和相关性。随后，我们提供手动创建的少样本演示，并要求LLM使用这些演示作为参考生成候选实例。

实例选择与细化由于这些实例的质量和难度可能差别很大，如图2所示，我们引入了一个后处理模块，旨在为每个认知水平选择最高质量的实例。

为确保实例的可回答性和正确性，我们提示LLM排除需要特定上下文信息才能解决的问题，并使用检索增强生成（RAG）模块排除基于提供的上下文无法正确回答的问题，从而确保生成答案的准确性；
提高实例的质量和难度，受到Clark et al的启发； Lin 等人，我们建立了一个全面的多样化 LM 池。所有模型都能正确回答的问题被消除，从而确保判别效力。

最后，对于原始基准中的每个实例，我们开发了一个分层评估系统，该系统能够广泛评估测试模型在布鲁姆分类法的所有六个认知水平上的知识。

基于概念图的实例扩展第二个模块使用概念图评估LLM对每个测试目标的知识。背后的假设也很直观：如果一个模型真正拥有回答给定问题的必要知识，它应该展示对关键相关概念的全面理解。具体而言，如图2所示，StructEval利用LLM和知识图谱扩展现有基准的广度，步骤如下：

确定正确回答种子问题所必须理解的关键概念；
检索每个概念的相关知识子图，并从所有候选中选择理解原始问题所需的知识三元组；
将选定的三元组转换为测试实例并优化其难度。

关键概念识别旨在识别出必须理解才能正确回答种子问题的关键概念。然后将这些概念链接到知识图谱中的条目，以方便后续的知识检索。以前的方法（例如 BLINK）受限于实体标签集，无法区分关键概念和非关键概念。因此，我们通过少量演示提示 LLM 识别实例中的关键概念。知识图谱检索和选择涉及检索整个知识图谱中已识别的关键概念，并从子图中提取相关知识三元组作为候选。考虑到候选集的潜在巨大性，其中可能包含无助于确定模型回答种子问题能力的无关三元组，与 Guan et al 类似，我们通过少量演示提示 LLM 选择有用的知识三元组。实例生成和优化将选定的事实三元组转换为评估实例。与Petroni et al类似，我们利用主语实体及其关系来表述问题，以宾语实体作为答案。

在这里插入图片描述

对于多项选择题，为了保证问题的难度，我们首先利用知识图谱的分类法来确定与正确答案相对应的最细粒度的实体类别。然后，我们从同一类别的其他实体中选择错误的选项。最后，我们为每个测试实例构建一个多节点评估框架，对语言模型对相关关键概念的掌握程度进行全面评估。

StructEval的实现

与实验在本节中，我们首先在三个广泛使用的基准测试中实现StructEval。通过人工评估，我们展示了StructEval在确保生成实例的有用性、可回答性和正确性的同时自动构建大规模基准测试的能力。然后，我们从以下角度展示了StructEval如何提高LLM评估的鲁棒性和一致性。首先，StructEval 要求 LLM 能够跨多个认知水平和关键概念理解测试目标。在这种情况下，仅记住特定答案的污染模型可能在原始基准测试中取得高性能，但由于缺乏相应的知识，无法在结构化评估中获得性能提升。因此，StructEval 可以有效抵抗数据污染问题，即使在测试数据泄露的情况下也能提供稳健的评估结果。

其次，由于评估结果不依赖于单个实例的正确性，因此它不依赖于特定实例引入的混杂因素，例如提示选择、表面形式快捷方式和数据分布。因此，与单项评估相比，StructEval 可以提供更稳健和更一致的评估结论。基于StructEval的基准测试发现：通过利用LLM先进的生成能力，并在教育学理论指导下以可靠的知识源为基础精心策划构建过程，StructEval能够自动构建大规模基准测试，同时确保生成实例的有用性、可回答性和准确性。

为了证明 StructEval 自动生成实例的可靠性和质量，我们在三个广泛使用的 LLM 基准上采用 StructEval，并从三个方面进行人工评估。种子基准包括以下三个广泛使用的 LLM 评估基准，相应的统计数据如表 2 所示

MMLU 是一个大规模基准，旨在测量大型语言模型中的知识。我们过滤掉了不适合 StructEval 的主题，例如逻辑推理和数值计算，并使用剩下的 48 个主题进行实验。
ARC 是一组来自各种来源的科学考试问题，广泛用于评估 LLM 中的知识。基准分为挑战集和简单集，我们将两者都纳入实验中。
OpenBook QA是一个由多项选择题组成的小学科学问题问答数据集。对于每个基准，我们随机抽取 200 个由 StructEval 生成的测试实例进行人工评估。

LLM 和知识源实现考虑到成本、效率和生成质量之间的平衡，我们在本文中选择 ChatGPT3 执行 LLM 生成任务，我们的框架也可以轻松应用于其他大型模型和知识源。我们采用 BM25进行文档检索，采用 BGE进行块重新排序。我们选择 Wikipedia作为知识来源，因为它涵盖了关于测试目标的绝大多数信息，并且具有很高的知识密度，并使用 Wikidata 进行事实检索，因为它是涵盖结构化知识的最全面的知识库之一。

指标我们提出以下指标来全面评估通过 StructEval 生成的测试实例的质量：

实例有用性，它通过生成的评估实例中符合目标测试目标或关键相关概念的比例来计算；
问题可回答性，计算生成的问题中不依赖外部上下文即可回答的比例。
答案正确性，计算生成的评估实例中包含正确答案的比例。附录中给出了详细的标注指南。

基准测试评估从表2可以看出，StructEval能够基于原有基准测试自动构建大规模多层次多节点评估体系，为现有基准测试提供新颖的测试实例和结构化评估协议。此外，人工评估结果如表3所示。我们可以发现，StructEval能够在构建结构化评估的同时，保证生成实例在实例有用性、问题可回答性和答案正确性等各个方面的高质量。少数错误主要是由于GPT-3.5生成的问题依赖上下文来回答或有多个正确选项，由于页数限制，我们还在附录E中提供了详细的错误分析和标注指南。

在这里插入图片描述

StructEval 的稳健性发现，通过在深度和广度维度上扩展基准，StructEval 能够稳健地评估 LLM 的能力，抵御数据污染的风险，并在数据污染设置下提供稳定的结果。数据污染是指在评估模型的训练数据集中包含测试数据，这会严重扭曲模型的表面性能和能力，从而对其真实有效性得出误导性结论。随着训练数据呈指数级增长，数据源和处理方法模糊不清，解决数据污染问题对于大型语言模型变得越来越重要。为了证明 StructEval 在抵抗数据污染风险方面的有效性，我们分别在原始基准、数据增强基准和 StructEval 构建的基准上比较了有和没有数据污染的 LLM 的性能差异。

具体来说，对于种子基准和基础模型，我们使用指令微调 (IFT) 在干净数据集和被测试数据污染的数据集上训练模型。为了进行公平的比较，我们确保两个数据集保持相同的规模和相似的数据组成。同时，我们将 Alpaca-GPT-4数据集集成到训练数据中，以确保数据多样性并防止训练崩溃。在这种情况下，污染集由 AlpacaGPT-4 和测试数据组成，而干净集由 Alpaca-GPT-4 和相等数量的多项选择题组成，这些问题是从分布外的基准 Xiezhi 中随机抽样的。为了确保结论的稳健性，我们考虑了 5 个广泛使用的不同规模的基础 LLM，包括 LLaMa-7B&30B、LLaMa-2-7B&13B和 Mistral-7B。每个模型经过 3 个 epoch 的训练，批次大小为 256 个序列，使用 Adam，学习率为 2e − 5。

在这里插入图片描述
表 4：在干净数据和受污染数据上训练的 LLM 的性能比较。“w/Test”表示指令调整数据被测试样本污染。“∆”表示干净和污染设置之间的性能差异，较低的值 (⇓) 反映相应的评估受数据污染的影响较小。评估是在零样本设置下进行的。

我们还将我们的方法与以下基于增强的方法进行了比较，包括字符级、单词级和实例级，这些方法能够生成对抗样本，同时确保测试实例的可回答性和正确性：

CharDisturb：随机替换、删除、插入和交换原始问题中的字符。
WordNet，用 WordNet 同义词随机替换单词。
释义，提示 ChatGPT 为每个测试问题生成释义。
BackTranslation，将测试问题翻译成另一种语言并将其翻译回来。
OptionShuffle ，对每个问题的选项进行重新排序，以防止 LLM 记住问题的特定选项。

表 4 中的结果清楚地证明了 StructEval 在抵抗数据污染方面的重要作用：

原始基准测试的性能由于LLM具有出色的记忆能力，mark很容易受到数据污染的严重影响，从而严重高估模型的能力。例如，当训练数据被污染时，所有模型在MMLU上的性能都会提高至少29%。
先前的基于增强的方法难以抵抗数据污染。尽管对原始实例的表面形式进行了调整，但由于LLM具有出色的记忆和语言理解能力，它们仍然能够从数据污染中获益匪浅。
无论训练数据是否被污染，StructEval都能提供稳定的评估结果。例如，由于数据污染，LLaMa-2-13B在原始MMLU上的性能提高了31.71％，但在StructEval生成的结构化MMLU上仅变化了0.79％，几乎没有变化。这一发现在所有基础LLM和基准中保持一致。这些结果有效地证明了StructEval可以在评估中发挥反攻击和污染监测的作用。

在这里插入图片描述
表 5：每个 LLM 在 10000 个任务样本中的排名一致性，每个任务由 K = 15 个来自 MMLU 的主题组成。“总体排名”表示 10000 次运行中所有模型最受欢迎排名的百分比。“⋆”表示基础模型使用干净的 IFT 进行训练。“†”表示模型的聊天版本。

StructEval的一致性发现，通过对各个认知水平和基本概念进行结构化评估，而不是仅仅基于单个实例的准确性进行评估，StructEval实现了对模型的有效评估，并就各种模型能力提供了一致的结论。正如我们上面所讨论的，StructEval还可以作为评估语言模型知识能力的更稳定的参考，可以给各种LLM提供更稳定的评估结果，并得出一致的结论。
要证明这一点，需要收集大量具有相似评估目标和分布的基准，并观察评估结论在原始数据、增强数据和StructEval构建的数据上是否一致。为了方便我们的实验，我们参考了Cao等人的文章，并使用跨多个运行时的排名一致性作为评估指标。具体来说，我们从MMLU中随机抽取了10000个包含K个主题的子集，并通过测量每个模型在10000个运行时中最受欢迎排名的百分比来评估排名一致性。例如，如果ChatGPT在10000个运行时中的6500个中排名第三，那么ChatGPT的排名一致性将是65％。

在这里插入图片描述
图 3：各方法总体排序一致性的比较。随着样本数量 K 的变化，StructEval 的表现大大优于原始基准和所有基于增强的策略。

为了进行全面的评估，我们对 13 个不同的开源大型语言模型进行了实验，涵盖不同的参数尺度，包括 LLaMA-7B&30B、LLaMA-2-7B&13B、Mistral-7B&8*7B、Baichuan2-7B&13B、Qwen-7B&14B、Qwen1.5-7B&14B和 Yi-6B。我们报告了每个模型的排序一致性，以及所有模型的排序一致性。表 5 和图 3 中的结果表明，StructEval 可以显著提高评估一致性：

当前 LLM 评估的一致性相对较差：当使用原始孤立实例比较不同模型的能力时，整体排序一致性仅为 1.24%。
以前的策略几乎无法提高排序一致性。虽然它们修改了原始数据，但仍然遵循单项评估的范式。因此，它们仍然容易受到混杂因素的干扰，难以提供更一致的评估结论在所有模型中都更一致。
StructEval对不同LLM的能力给出了更加一致的评估结论：当K=15时，整体排序一致性由1.24%提高到33.17%，大多数LLM的排序一致性都有显著提高，得出的结论更加可靠。

结论

本文提出了一种新的大型语言模型评估框架StructEval。通过对模型在多个认知水平和关键概念上对每个测试目标的能力进行结构化评估，StructEval对LLM实现了更全面、更稳健、更一致的评估。实验结果表明，StructEval能有效抵御数据污染风险，显著提高跨模型的排序一致性。相应的基准测试和排行榜即将发布，这将有助于我们了解LLM的能力。StructEval也广泛应用于各种应用。例如，StructEval 可以作为一个可定制的基准构建框架，能够自动评估任何粒度的评估目标，有关详细信息和实验，请参阅附录 A。此外，我们的研究还为未来有原则和值得信赖的实例收集和 LLM 评估协议的设计提供了启示。

局限性

考虑到基准构建的成本、效率和质量之间的平衡，我们目前在本文中使用 GPT-3.5 进行生成，这可能会限制生成实例的难度和质量。未来，我们将引入更强大的 LLM（例如 GPT-4）或将人类纳入我们的框架，以进一步提高测试实例的质量，并发布相应的更新基准。此外，为了方便评估我们的框架，我们目前选择基于多选基准实现 StructEval。还请注意，我们的框架可以轻松适应其他格式的基准，例如开放式问答和多轮对话，这些将包括在我们未来的工作中。

三月七꧁ ꧂

关注

34
点赞
踩
21

收藏

觉得还不错? 一键收藏
打赏
0
评论
StructEval: Deepen and Broaden Large Language Model Assessment via Structured Evaluation

评估是大型语言模型（LLM）发展的接力棒。当前的评估通常对每个原子测试目标采用单项评估范式，难以判断模型是否真正具备所需的能力，还是仅仅记住/猜测特定问题的答案。为此，本文提出了一种新颖的评估框架，称为StructEval。StructEval从原子测试目标出发，通过跨多个认知水平和关键概念进行结构化评估，深化和拓宽评估范围，从而为LLM提供全面、稳健和一致的评估。
复制链接

扫一扫