Automated Evaluation of Retrieval-Augmented Language Models with Task-Specific Exam Generation

最新推荐文章于 2024-10-15 01:20:33 发布

三月七꧁ ꧂

最新推荐文章于 2024-10-15 01:20:33 发布

阅读量746

点赞数 20

分类专栏：论文合集文章标签：语言模型人工智能自然语言处理 prompt gpt llama AIGC

本文链接：https://blog.csdn.net/weixin_43961909/article/details/141070538

版权

论文合集专栏收录该内容

80 篇文章 0 订阅

订阅专栏

文章目录

题目

使用任务特定考试生成功能对检索增强语言模型进行自动评估

在这里插入图片描述

论文地址：https://arxiv.org/abs/2405.13622
项目地址：https://github.com/amazon-science/auto-rag-eval

摘要

我们提出了一种新方法来测量检索增强大型语言模型 (RAG) 的任务特定准确性。评估是通过对自动生成的综合考试对 RAG 进行评分来执行的，该考试由基于与任务相关的文档语料库的多项选择题组成。我们的方法是一种自动化、经济高效、可解释且强大的策略，用于为 RAG 系统选择最佳组件。我们利用项目反应理论 (IRT) 来评估考试的质量及其对任务特定准确性的信息性。IRT 还提供了一种自然的方法来迭代改进考试，方法是消除那些对模型能力没有足够信息的考试问题。我们根据 Arxiv 摘要、StackExchange 问题、AWS DevOps 故障排除指南和 SEC 文件，在四个新的开放式问答任务上展示了我们的方法。此外，我们的实验揭示了影响 RAG 性能的因素的更一般见解，例如大小、检索机制、提示和微调。最值得注意的是，我们的研究结果表明，选择正确的检索算法往往比简单地使用更大的语言模型带来更大的性能提升。

在这里插入图片描述
图 1. 我们对 AWS DevOps 故障排除任务的考试评估的详细结果。以百分比表示不同检索方法和检索器大小的准确度。直径上的标签显示故障排除类别，即 AWS 资源。颜色对应于不同的检索方法（Oracle、DPRV2、MultiQA、ClosedBook，如第 4.2 节所述），图案对应于基本 LLM 大小（7B、13B 和 70B）。例如，我们观察到，具有 MultiQA 嵌入的小型模型（如 Mistral-7B）对于 AWS 资源“关系数据库服务”（RDS）的准确率约为 80%。

评估一组有限任务以外的大型语言模型 (LLM) 是出了名的具有挑战性。通过公共基准测试传达的 LLM 的一般能力不一定与狭窄且高度特定的客户任务上的表现有关，当这些任务涉及特定领域的知识语料库时更是如此。评估指标旨在捕捉 LLM 性能的不同方面。没有任何单一指标能够充分涵盖其各个方面。在这项工作中，我们提出了一种 LLM 驱动的基于考试的评估方法来衡量 RetrievalAugmented LLM (RAG) 在给定任务上的准确性。我们的方法是完全自动化的，不需要带注释的真实数据集。我们的指标侧重于事实准确性，即检索和利用正确信息正确回答用户查询的能力。除了使用户能够为他们的检索任务选择 RAG 系统组件的最佳组合之外，我们的方法还揭示了有关 RAG 性能因素的更一般见解，例如大小、检索机制、提示和微调。

我们的第一个贡献是一种完全自动化的定量考试评估策略，与传统的人工在环评估相比，它保证了可扩展性，同时降低了与专家或注释者参与相关的费用。考试由LLM 使用与手头任务相关的数据语料库。候选人 RAG 系统根据其成功回答考试中的多项选择题的能力进行评估。评估始终是在评分的简易性和代表性之间的权衡。对于事实评估，评分多项选择题考试的简易性不会损害有效可靠地评估事实知识的目标。此外，比较考试结果分析揭示了需要改进的领域，从而能够持续通过反馈驱动增强考试语料库。图 1 显示了 DevOps 领域中的一个示例。我们的第二个贡献是自动考试生成过程中的方法改进策略。值得注意的是，我们利用项目反应理论 (IRT) 来优化生成的考试并最大限度地提高其对特定于任务的模型性能的信息性。我们使用 4 种不同的知识语料库来说明和评估我们在开放式问答任务上的方法：AWS DevOps 故障排除指南、Arxiv 摘要、StackExchange 问题和 SEC 文件。总之，以下是我们贡献的列表。

我们基于特定任务的综合考试，为检索增强生成 LLM 管道的自动评估提供了一种全面的方法。
利用项目反应理论 (IRT)，我们开发了稳健性和可解释的评估指标，以量化和阐明影响模型功效的因素。
我们设计了一种原则性的、完全自动化的技术来构建和迭代改进考试，以最大限度地提高信息量。
我们通过基于来自不同领域的公共数据集创建四个新任务，为 RAG 系统评估提供基准数据集。
我们提供了我们提出的考试生成、评估和优化框架的开源实现，允许它在任何 RAG 任务上执行。

方法论

在本节中，我们定义了我们贡献所依据的关键概念，讨论了 RAG 管道的评估问题，并提出了两种评估模式。准备工作 RAG 管道。我们认为 RAG 管道由三个组件组成：LLM、检索机制和上下文学习部分。首先是 LLM，它用于根据某些检索到的上下文和提示策略生成答案。我们依赖于广泛可用的、预先训练过的大型语言模型。第二个组件是检索机制，用于识别语料库中与用户问题相关的文档。然后将这些文档包含在 LLM 的提示中，以提供有用的回答上下文。最后，第三个组件是给予 LLM 的提示的上下文学习部分。在本文中，上下文学习机制是我们在提示中提供的任务示例数量。请注意，我们可以结合更复杂的 RAG 设计选择：数据处理、查询重构、更精细的提示、微调和生成后处理。

但是，为了通用性，我们重点关注上述三个选择，并指出我们的方法很容易扩展到其他设置。我们在这里考虑的一般任务是开放式问答，由文档语料库支持，答案有望在文档语料库中找到。任务t ∈ T 的特征是知识语料库，该语料库由来自特定领域的文档集组成。检索机制从语料库中提取与回答用户问题最相关的文档。

评估。评估应从两个角度来看：预测性和规范性。预测性评估的目标是设计一个估计下游任务的准确性的估计器。规范性评估通过提供有关要选择的模型以及不同组件的影响的见解来指导设计决策。我们在这项工作中的主要贡献是基于考试的评估方法，它既用于预测性评估，也用于规范性评估。对于预测性评估，每个 RAG 管道都通过回答由多项选择题组成的考试来独立于其他管道进行评估。这个评估指标并不能量化所有可能感兴趣的维度，没有一个单一的指标可以量化。我们的方法在 RAG 管道最重要的性能维度上具有预测性：检索和利用外部信息的能力。规范性评估涉及联合检查多个管道以了解更广泛的模式。这允许对模型进行排名和选择，并揭示有关 RAG 管道性能驱动因素的一般见解，以指导设计决策。

考试生成考试生成器算法利用预先训练的 LLM，为给定任务 t 生成包含 n 个问题的多项选择考试。输出 Q = {q1, q2 . . . qn} 是一组问题。每个问题都由问题描述和一组可能的答案组成。在可能的答案中，有且只有一个正确答案。我们在这里利用一种两步方法：对于知识语料库中的每个文档，我们使用 LLM 和几种提示策略来创建候选问题。这种原始生成不足以生成高质量的考试，因此我们将其与几个基于 NLP 的过滤器相结合，以沿着长度、不正确性和自包含性等几个轴删除低质量问题。我们将这种改进步骤称为先验验证，因为过滤器不需要候选模型答案。特别是，我们注意到一个有趣的不对称现象：如果有一个文档语料库，LLM 相对容易生成问题和正确答案，因为这个任务在知识方面是自包含于提示中的。然而，创建高质量的错误答案（通常称为鉴别器）要困难得多。

我们利用 Jaccard 和基于嵌入的相似性指标来过滤掉遵循这种模式的退化问题。这种方法和考试生成过程在附录 A 中有进一步的详细说明。在整个工作过程中，我们的目标是平衡每个人对考试自动生成的贡献，并平等对待新的方法贡献，以评估考试的质量和评估影响。除此之外，下一节介绍了一种新颖的后验验证，使用项目反应理论 (IRT) 通过推断的问题质量来加权每个问题对最终模型分数的贡献。这确保了我们的评估方法对异常值和低质量问题更具鲁棒性。

考试评估逐点评估。为了评估 RAG 管道的性能，我们首先将其视为参加如上所述生成的考试的学生，其中我们为每个问题选择具有最大长度惩罚对数似然的答案 (Gao et al, 2023a)。RAG 获得的分数只是正确回答的问题的份额。这种考试模式允许我们根据 RAG 管道在使用与任务 t 相关的文档语料库生成的给定考试中的表现对它们进行排序。
这种简单的基于考试的评估模式是一种自动化、可扩展且计算效率高的方法，可用于获得针对特定任务设计的 RAG 管道的性能排名。性能指标，即给定 RAG 的等级，很容易解释。我们的评估方法能够提供更深入的见解，我们将在下文中讨论。
总体评估和项目反应理论。总体评估方法联合并同时评估多个 RAG 管道以及为任务 t 生成的考试 Q 的质量，RAG 以此为依据进行评分。这允许 (i) 通过提供考虑嘈杂或无信息问题的加权 RAG 能力分数来提高稳健性，(ii) 可靠地量化每个单独的 RAG 组件对最终表现的贡献，以及 (iii) 量化考试对感兴趣任务的信息性。最后一点是提供一组具有高可解释性的定量考试分析（第 6.1 和 6.2 节）并迭代改进考试以最大限度地提高信息性（第 6.3 节）的核心。

为此，我们依靠项目反应理论 (IRT)，这是一个现代框架，用于了解考生如何与考试中的各个项目（即问题）互动。项目反应理论利用逻辑模型，将考试项目 qi ∈ Q 的正确答案概率建模为考生能力 θ 和表征特定问题 qi 的三个参数的函数：难度 bi 、辨别力 di 和猜测因素 gi ： P(X = 1|θ, gi , di , bi) = gi+ (1 − gi) 1 + exp(−di(θ − bi))), (1)
其中 X = {1, 0} 表示正确或错误答案。在下文中，我们使用缩写 pi(θ) 来表示这个数量，忽略对 gi 、 di 、 bi 的依赖。
问题区分具有给定能力 θ 的学生的能力由难度参数捕获。直观地说，一个简单的问题（低 di）会被所有高能力（高 θ）的学生正确回答，因此它无助于区分其中最好的学生。具有高辨别值 di 的问题会放大能力差异，这意味着该问题更善于区分能力相近但不同的学生。在所有多项选择题中，都存在偶然正确回答问题的概率，该概率由 gi 捕获。

在本文中，我们提出了方程 1 的标准 IRT 模型的变体，该变体适用于评估 RAG 系统的任务，我们称之为分层 IRT 模型。分层模型通过使用加法模型 θm = θllm(m) + θret(m) + θicl(m) 将 RAG 分解为三个组成部分，从而提供对 RAG 能力的更高分辨率估计。这三个参数分别量化了 LLM、检索方法和上下文学习方法的能力。将此模型扩展到更复杂的 RAG 设计选择只需要添加合适的潜在变量。分层 IRT 模型是本文的主要贡献之一。它允许我们独立评估 RAG 管道组件的性能，从而大大简化了模型选择问题。此外，它还使我们能够得出一些关于 RAG 管道性能主要驱动因素的一般见解，第 5 节将详细讨论这些见解。

项目反应模型估计为了拟合 IRT 模型，我们采用对数似然优化模型来估计候选模型 m ∈ M 的能力 θm，并联合估计表征考试语料库中每个问题 qi ∈ Q 的三个参数 {gi , di , bi}。我们使用公式 1 中定义的概率函数 pi(θ)，对参数 {θm}m∈M 和 {gi , di , bi}qi∈Q 最大化对数似然函数 L。在这里插入图片描述
在公式 2 中，ri,m 是一个二元函数，表示模型 m 对问题 i 的回答是正确 (ri,m = 1) 还是不正确 (ri,m = 0)。对于分层 IRT 模型，我们将 θm 分解为 θllm(m) + θret(m) + θicl(m)，并在这个新的潜在变量空间上最大化。我们在附录 B 中进一步详细介绍了估计过程和结果。如果一个模型能够准确地回答具有挑战性的问题，则被认为具有很高的能力。相反，只有具有高水平能力的学生才能回答困难问题，才被认为是困难的。这种相互依存问题是最大化方程 2 时要解决的问题。

实验基准

在本节中，我们介绍一个基于第 3 节中定义的模型实例化的广泛基准。我们在第 5 节中报告了该基准的实验结果。任务我们在基准 T = {tops，tarx，tstk，tsec} 中引入了四个不同的任务。任务 tops 是在来自 AWS 知识中心 1 的 1249 个网页知识语料库上定义的，其中每个网页为 AWS 客户解决一个 DevOps 问题。任务 tarx 是在 13000 篇 ArXiv 论文上定义的，每篇论文都由其摘要表示。任务 tstk 是在 977 个 StackExchange2 问题上定义的。最后，任务 tsec 是在上市公司、公司内部人士和经纪人 3 每年向美国证券交易委员会 (SEC) 提交的 188 份文件中定义的。表 1 提供了与每个任务相关的语料库信息。更多细节请参见附录 A.4。我们选择这四个任务是为了覆盖广泛的知识领域，从技术运营和社区驱动的问答平台到财务收益和学术研究，确保对主题的覆盖范围多样而全面。

RAG 管道在我们的实验基准中，我们考虑了 45 种不同的 RAG 管道，结合了 5 种不同的检索机制、3 种不同的 LLM 和 3 种不同的 ICL 模式。检索机制变体。我们考虑以下 3 种检索范式：闭卷、经典检索和 Oracle。闭卷和 Oracle 是语料库可以提供给 LLM 的信息质量的下限和上限。我们还介绍了五种不同的经典检索方法，共计七种检索机制。
闭卷检索。不会通过检索向 LLM 提供任何来自文档语料库的额外知识。考生只能访问问题和可能的答案以及 LLM 权重中编码的知识（即参数知识）。我们将这种方法称为 ClosedB。在这种情况下，良好的评估分数与问题的 LLM 基础知识有关。较低的 ClosedB 评估分数表明预训练模型对该领域知之甚少，或者问题或其可能的答案表述不当。

Oracle。除了问题本身和所有可能的候选答案之外，考生还可以访问用于生成问题和答案对的特定文档。换句话说，考生可以访问基本事实知识。良好的 Oracle 分数不仅与问题的 LLM 基础知识有关，还与从基本事实中提取答案的能力有关。如果问题表述得当，考生有足够的能力提取信息以正确回答，则可以获得较高的 Oracle 分数。得益于我们的考试设计策略，Oracle 分数是唯一可能的，并且是提供校准评估指标的核心。

检索模型。考生可以搜索知识语料库，将上下文知识与其参数知识相结合，使用给定的检索算法更好地为其答案提供信息。为了给出检索模型空间的代表性视角，我们比较了多种方法。

密集模型：我们专注于两种模型：MultiQA 嵌入和暹罗网络嵌入（SIAM）。
稀疏模型：我们专注于 BM25，这是一种广泛使用的信息检索技术，它采用概率模型根据查询词的频率和分布对文档进行排名。
混合模型：我们考虑密集和稀疏基础检索器的集合，其中使用交叉编码器模型对输出进行重新排名。我们将这些模型称为 DPR（SIAM 加 BM25）和 DPRV2（MultiQA 加 BM25）。

我们的分析涵盖了一系列检索模型，包括来自 Sentence Transformers 的 MultiQA 等当代模型以及 DPR 和 DPRV2 中的交叉编码器，这些模型是社区中最常用的模型之一（截至发布时，HuggingFace 上的每月下载量分别为 160 万和 130 万次）。BM25 是信息检索中的标准载体，以其优于现代方法的稳健性而闻名。我们的模型集是密集、稀疏和混合模型的组合，以确保我们的结果代表所有主要类别。

LLM 变体。我们使用 Mistral-7B、LlamaV2-13B 和 LlamaV2-70B。我们选择这三个 LLM 的目的是研究不同规模的性能范围，旨在深入了解模型的大小如何影响其语言处理能力。这些型号在高级功能和最佳性能之间实现了平衡，出版时间、社区支持以及资源可用性和计算效率等实际考虑因素。我们最初的分析还考虑了 LlamaV27B、Falcon-40B 和 Alpaca-13B，但由于它们的表现始终优于其他，我们将其丢弃。最后，我们考虑以下 3 种上下文演示模式：ICL@0、ICL@1 和 ICL@2。在前者中，提示中未添加上下文示例。在另外两种情况下，提示中分别提供了一个和两个示例（问题、候选答案和正确答案）。

在这里插入图片描述
表 1. 实验基准中使用的所有四个任务的描述。使用 NLKT 单词标记器和标点符号删除器计算字数。

虽然我们检查这些特定 RAG 设置上的性能，但我们更广泛的目标不是最大化任何单个 RAG 公式的指标，而是拥有一个适应性强且可扩展的评估系统。考虑到顶级模型发布的频率很高，我们基于考试的框架是故意设计为独立于检索方法或 LLM 的选择，如第 3.3 节所述。在每个应用程序的基础上，我们的方法允许灵活地合并额外的 RAG 维度，如数据处理方法、查询重构、微调等。

模型评估的实验结果

在本节中，我们按照第 3 节中讨论的方法和第 4 节中介绍的基准展示模型评估的实验结果。我们首先在表 2 中介绍 RAG 管道的逐点评估结果，然后在表 3 中讨论各个 RAG 组件的基于 IRT 的能力水平。这些结果用于在任务级别做出最佳设计决策，并跨任务推断 RAG 系统模式。

在这里插入图片描述
表 2. 逐点评估结果。分数是 RAG 正确回答问题的百分比。更准确地说，我们将三次 ICL 通过中的最高分数表示为 RAG 的最佳绝对准确率。对于每个 LLM，我们用粗体表示表现最佳的检索器。

准确性和能力分析总之，我们的实验得出以下四个发现：首先，没有一种适合所有人的方法，即最佳的检索方法选择，以及在较小程度上的 LLM，通常取决于任务。根据任务和检索，Mistral-7B 和 LlamaV2-13B 的排名会有所不同。LlamaV2-70B 甚至在无检索设置中也表现出色。同样，对于 tsec 和 tarx 等一些任务，BM25 也表现出色执行 MultiQA 和 SIAM，这表明对于这些任务，稀疏检索通常比密集检索更好。一种推测是，此类任务通常包含可通过关键字搜索检索的易于识别的术语（例如，tops 中的 AWS 服务名称），而其他任务（如 tstk）大多包含常用词。然而，我们的研究结果确实表明，与仅使用密集或稀疏模型相比，集成密集和稀疏检索技术（例如 DPRV2）的混合集成模型通常在各种任务中提供更高的稳健性和适应性。其次，正确选择检索方法通常可以带来性能改进，超越仅仅选择更大的 LLM 所带来的性能改进，如比较时所见表 3 中的边际收益：以 tsec 为单位，与切换到更大的 LLM 相比，从 SIAM 切换到 DPRV2 可以获得更多的能力增益。第三，对于涉及闭源知识的任务，准确性瓶颈通常是 LLM 而不是检索方法。闭源是指公司专有的机密数据，例如内部财务报表、专有代码库、内部常见问题解答或文档。

这种类型的语料库尤其重要，因为 LLM 在预训练期间没有接触过它：所有信息都流经检索。第四，对齐不良的检索器组件可能导致比根本没有检索更差的准确性，如表 2 和表 3 中 SIAM 与 ClosedB 性能的比较所示。最后，RAG 系统中一个值得注意的现象是文档之间存在强烈的信息重叠。值得注意的是，这解释了为什么 Oracle 的表现可能不如某些检索器，如表 2 中的 tarx 和图 7 所示：某些文档块对回答问题比实际生成问题所用的文档块更有帮助。

评估：元评估在第 5.1 节中，我们介绍了我们的评估框架如何通过利用逐点评估结果和基于 IRT 的各个 RAG 组件的能力水平来评估各种 RAG 管道。另一个关键问题是如何评估我们的评估框架本身。比较和评估 LLM 的评估方法，包括我们的基于考试的评估模型，是一项复杂的元评估任务。鉴于目前直接评估 LLM 的挑战，我们强调进行元评估在难度方面要高出一步。此外，由于 LLM 绩效的多维性，LLM 评估的元评估是一个多目标问题：LLM 的评估基于多种能力，例如事实性、语言理解、连贯性和道德考虑，每种能力都需要特定的评估标准。LLM 技术的快速发展增加了这种复杂性，因为新模型可能会表现出以前未考虑的行为，因此需要不断更新元评估方法。此外，语言处理的主观性和 LLM 应用的多样性要求不同的性能指标，这进一步使元评估过程复杂化。依赖人类判断作为基准引入了可变性，因此很难建立一个通用的评估框架来平衡技术准确性与不同的人类观点和现实世界的适用性。

在这里插入图片描述
表 3. 每个 RAG 组件的 IRT 评估结果 (θllm(m)、θret(m)、θicl(m))m∈M。模型能力水平越高，θ 值就越高，并且这些值是相对的：例如，为了评估给定检索模型 MultiQA 的能力增益，我们考虑 θMultiQA − θClosedB。请注意，结果未跨任务进行标准化，因此无法直接比较。有关基于问题的参数 (gi、bi、di、)i∈M，请参见表 5。

典型的 NLP 评估方法（如 ROUGE、BLEU 和 BERTScore）通常用于评估语言模型的特定方面，但对于有效地对 LLM 进行元评估而言过于狭隘，缺乏广度、可解释性和反馈来评估能力和指导改进。最近基于 LLM 的评估方法很有前景，但在全面 LLM 评估所需的范围、适应性、可解释性、偏差减少或可操作反馈方面仍然存在局限性。与其他方法相比，我们的基于考试的评估方法的一个主要区别是它具有可解释性，并针对 RAG 需要改进的领域提供预测性和规范性指导。

考试评估的实验结果

正确定义什么是好的考试是一个难题：虽然从内容角度来看是完全正确的，但如果考试在各个模型之间的区分性不够强，或者在感兴趣的任务上提供的信息量不够大，则考试质量仍然可能较低。为了定量测量和改进这一点，我们在本节中对我们的框架在不同分类方案中生成的考试问题进行了分析。具体来说，我们利用布鲁姆分类法按认知复杂性对问题进行分类，并引入项目信息函数来量化问题的信息量，以评估模型性能。图 3 和图 4 在 StackExchange 任务的背景下说明了这个过程。最后，我们提出了一种迭代最大化考试信息量的方法，这是我们工作的一项重要贡献。

考试信息量为了衡量考试相对于任务和模型的信息量，我们引入了项目信息函数，又名 Fischer 信息。该函数通过测量对数似然函数 L 的曲率，量化了可观测随机变量 X 提供的有关未知能力参数 θ 的信息量。因此，它为评估参数估计理论中统计估计量的精度提供了关键指标，更准确地说，是评估考试问题在不同能力水平的候选模型空间中的判别能力。对于单个问题，它定义为： I(θ|gi , di , bi) = d 2 i (pi(θ) − gi) 2 (1 − gi) 2 1 − pi(θ) pi(θ) , (3)

在图 8 中，我们重点介绍了此任务的各个项目信息函数。请注意，项目信息函数在问题的难度参数处达到最大值。因此，问题在接近其难度的能力水平上为估计 θ 提供了最多的信息，而在远离其难度的能力水平上提供的信息较少。这样，项目信息函数正式描述了问题在个体之间以及围绕特定能力水平进行区分的能力。

为了评估给定问题子集 R ⊂ Q 的整体效果，我们引入了聚合信息函数： ¯IR(θ) = 1 |R| 奈 i∈R I(θ|gi , di , bi), (4) 6.2.

考试和问题的分类生成考试后，我们会执行自动问题分类，以确定给定问题的相关维度。通过使用上面介绍的项目信息函数，问题类别可以更细致地了解 RAG 管道擅长或不擅长的问题类型，以及有助于更好地跨模型区分的问题类型。为了实现这一目标，我们利用了布鲁姆修订的分类法如图 2 所示。布鲁姆分类法是一种分层模型，将学习目标分为不同级别的认知复杂性。附录 C 中的表 6 从最低到最高说明了修订后的布鲁姆分类法的级别，并简要说明了它们如何转化为多项选择题。它们区分了知识维度（事实、概念、程序和元认知）和认知过程维度（记忆、理解、应用、分析、评估和创造）。

在这里插入图片描述

图 3。tstk 的聚合信息函数 I¯cat(θ)，根据布鲁姆分类法取平均值。x 轴上的每个十字对应给定的模型能力 θm，其颜色没有特殊含义。

在图 3 中，我们展示了 tstk 的每个布鲁姆类别的平均项目信息函数 ¯Icat(θ)。使用附录 B.1 中描述的优化过程，通过最大化公式 2 中定义的对数似然 L 来拟合线条。信息量是一个不断增加的量，意味着值越高越好。如第 3.3 节所述，它也是能力水平的函数。因此，某些问题在某一能力水平上可能更具信息量，例如在中等能力学生中区分，而在其他能力水平上则不那么具有信息量，例如对于高能力学生。对于这个特定的任务 tstk ，我们观察到评估和理解是布鲁姆分类法中在不同能力水平上最具区分性的维度，而记忆是最不具有区分性的。这种针对特定任务的见解使决策者能够更好地评估和理解任务，并突出模型的优势和局限性。

图 2. 布鲁姆修订的分类法图示。技能的认知复杂性从金字塔底部到顶部不断增加。资料来源：范德堡大学教学中心

同样，图 4 显示了基于语义类型（例如，哪里、什么）的任务 tstk 中问题的聚类。我们观察到，对于较低能力水平，What 和 Which 的区分性最强，而 When 的区分性更强。一种解释是，在 tstk 领域，What 和 How 问题往往更基于事实和语法，因此，能力水平较低的 RAG 很难更多关于这些类型的问题。当问题还可能涉及更多的情境逻辑时，能力水平较高的 RAG 更有能力回答。我们请读者参阅附录 B，以进一步讨论和扩展分析其他任务上的分层 IRT 模型。

此外，我们认为，我们对布鲁姆分类法和项目反应理论的新颖程序化应用提供了对考试框架的更全面理解，从而帮助从业者识别潜在的偏见。具体而言，图 3 展示了问题类型的分布（例如，哪里、什么、谁），图 4 详细说明了问题的分类（例如，创建、评估、记忆…），表 4 提供了问题和答案的关键统计数据。这些要素共同为考试结构提供了新的见解，并对识别和减轻偏见做出了重大贡献。

在这里插入图片描述
图 4. tstk 的聚合信息函数 Icat(θ)，根据语义分类法取平均值。x 轴上的每个十字对应一个给定的模型能力 θm。

迭代式考试改进最后，为了提高考试质量，从而更好地区分表现最好的 RAG 管道，我们引入了一种迭代式方法来生成新的考试 Q1 ̹→ Q2 · · · ̹→ Qn，通过自适应地选择问题来最大化信息量。更准确地说，我们应用了一种基于推断出的判别参数 (di)i∈Q 的 IRT 模型拟合和问题丢弃的替代过程。该方法在附录 B.3 中详细讨论。图 5 说明了随着考试和 IRT 估计的发展，tarx 的最大化过程；其他任务在附录 B.3 中介绍。对于 tarx 或 tops，我们看到了持续的帕累托支配改进，尽管主要是在低到中等能力水平：随着迭代，考试变得越来越具有信息量。在 tstk 中也能看到这种改进，尽管收敛速度更快。最后，对于 tsec，演变是非单调的，有趣的是，它主要发生在高能力区域。总而言之，这个过程是迈向数据驱动的考试持续优化的第一步，我们相信这是自动评估领域最有前途的后续方向之一。

在这里插入图片描述

这种改进图 5。对于 ArXiv 任务，迭代过程中考试信息量的演变。每条曲线代表步骤 i 处的考试聚合信息函数。

结论

在本文中，我们提出并展示了一种评估检索增强大型语言模型在特定任务上的性能的稳健方法。通过自动生成针对与每个任务相关的文档语料库的多项选择考试，我们的方法可以实现不同 RAG 系统的标准化、可扩展和可解释的评分。通过以项目反应理论为指导的迭代优化，我们创建了高度信息丰富的考试，揭示了不同模型配置的优缺点。我们对四个不同领域的问答实验揭示了推动 RAG 性能的因素的关键见解。值得注意的是，我们发现优化检索机制可以带来比简单地扩展模型大小更大的收益，这凸显了共同设计方法的重要性。总体而言，我们的工作为基准测试和改进 RAG 以用于实际应用提供了一种高效、可重复的范例。我们工作的自然延伸包括研究多语言应用程序、结合基于代理的系统进行顺序决策任务以超越 RAG 系统，并在传统的 NLP 问题（如总结和翻译）中利用基于考试的方法，从而促进创建更细致入微的基准测试数据集。