翻译论文:Examining the robustness of LLM evaluation to the distributional assumptions of benchmarks

https://arxiv.org/pdf/2404.16966v2

检验基准测试对大型语言模型评估的分布假设的鲁棒性

摘要

基准测试已成为评估大型语言模型(LLMs)的核心方法。研究界通常依赖模型在基准测试提示上的平均表现来评估模型的性能。这与假设基准测试中的测试提示是来自感兴趣的现实世界分布的随机样本一致。我们注意到这通常并非事实;相反,我们认为感兴趣的分布根据特定用例而变化。我们发现(1)模型在测试提示上的表现之间的相关性是非随机的,(2)考虑测试提示之间的相关性可以改变主要基准测试上的模型排名,(3)这些相关性的解释因素包括语义相似性和常见的LLM失败点。

1. 引言

自从Transformer架构(Vaswani等人,2017)引入以来,大型语言模型(LLMs)已经发展成为具有卓越能力的复杂系统,能够理解和生成模仿人类语言的文本。这一领域的知名模型包括使用GPT-3.5-TURBO或GPT-4架构的ChatGPT1,LLaMA(Touvron等人,2023),ChatGLM(Zeng等人,2023),Alpaca(Taori等人,2023)和Falcon(Penedo等人,2023)。

由于它们的有效性,LLMs在学术界和工业界变得越来越流行,这使得它们的评估至关重要。然而,这种有效性是以复杂性增加为代价的,这使得它们的评估非常具有挑战性。尽管先前的研究已经为不同任务引入了基准测试和评估措施,但这些评估经常忽视潜在的偏见。当一个基准测试包括具有类似特征的多个提示时,它可以增加或减少模型的平均表现,因此模型比较可能会因基准测试的组成而变得脆弱(见图1的说明性示例)。在这项工作中,我们展示了当前基准测试中提示之间的内在联系影响模型的表现和它们的相对排名。

在基准测试上评估的标准方法是(i)获取基准测试中每个提示的模型响应,(ii)计算每个响应的性能指标,(iii)聚合(通常是平均)性能指标以获得基准测试上的单一性能指标,以及(iv)通过比较它们的聚合表现来比较模型。

在上述步骤iii中聚合性能指标时,每个提示通常被平等加权(Yang和Menczer,2023;Peña等人,2023)。然而,使用等权重反映了基准测试中的提示是“平等”的假设,在这个意义上,提示是目标分布的代表性样本。在LLMs的情况下,目标分布的概念(即,给定用例的所有可能提示的分布)通常没有明确定义。例如,不同的自然语言推理(NLI)应用可能具有非常不同的目标分布,我们不应该期望单一基准测试能够捕捉每一个。因此,人们必须问:基准测试中的提示代表了什么分布?考虑不同的分布是否会根本改变模型比较?在这项工作中,我们提出了一种新的方法来评估用于评估LLMs的基准测试的鲁棒性和适当性,通过分析多个LLMs在四个主要基准测试集上的表现。

我们的主要贡献概述如下:

  1. 对于每个考虑的基准测试,我们观察到模型表现在提示之间的相关性是显著的(p值<0.05)。这证明了在所调查的基准测试中提示之间存在关系。
  2. 我们探讨了基于相关结构的不同分布假设下模型比较的鲁棒性,我们观察到表现变化高达10%,排名变化高达5(14个模型中的)。
  3. 我们提供了对所有可能提示权重分布上表现的特征描述。这构成了可以纳入比较研究的鲁棒性检查。
  4. 我们展示了模型在提示上的表现相似性可以通过语义相似性来解释,但最有可能是由LLM的共同失败点推导出来的。

在这里插入图片描述
(a) 所有提示在评估期间平等贡献。
在这里插入图片描述
(b) 评估期间对提示进行加权。

图1:说明示例,展示基准测试的不同分布假设如何影响模型排名。考虑一个包含反映三种不同任务的提示的基准:数学(红色三角形)、代码生成(蓝色圆圈)和文本生成(绿色方块)。在图1(a)中,每个基准提示对模型评估的贡献是相等的。相比之下,在图1(b)中,考虑到提示之间的相关性,并相应地调整了提示的权重。在场景1(a)中,红色LLM排名第一,因为它在数学方面表现出色,而且基准偏向于数学任务(12个提示中有7个与数学相关)。当在场景1(b)中考虑不同的权重时,我们观察到不同的排名结果。

2相关工作

评估大型语言模型(LLMs)的性能已成为一个关键的研究领域,近年来引起了极大的关注。可以在Chang等人(2023年)、Guo等人(2023年)、Perlitz等人(2023年)和Liang等人(2022年)的全面调查中找到关于LLM评估和基准质量的信息。

在评估LLMs的质量时,鲁棒性方面的重要性日益增加(Wang等人,2022年;Goel等人,2021年)。鲁棒性研究模型在面对不可预见的提示时的稳定性。鲁棒性研究可以分为四个主要方向(Li等人,2023年):(i)分布偏移下的鲁棒性(Wang等人,2021年;Yang等人,2023年),(ii)对抗性输入的鲁棒性(Zhu等人,2023年;Wang等人,2023a),(iii)对提示格式的鲁棒性,包括指令模板(Mizrahi等人,2023年;Voronov等人,2023年;Weber等人,2023年;Sclar等人,2023年),以及(iv)对数据集偏见的鲁棒性(Gururangan等人,2018年;Le Bras等人,2020年;Niven和Kao,2019年)。我们的工作属于后一类。

减少基准测试中的偏见是一个长期的研究领域,涵盖了许多不同的领域。应用范围从权衡调查响应以匹配目标人群(DeBell,2018年),到考虑视觉问答中的语言偏见(Goyal等人,2017年)。在自然语言推理(NLI)的背景下,研究人员已经研究了如何提高提示的质量以减少某些类型的偏见。这方面的工作集中在通过生成最优提示(Pryzant等人,2023年;Deng等人,2022年)或基于语义相似性对提示进行聚类(Kuhn等人,2023年)来确定提示的质量。此外,研究人员还研究了基准测试和LLM训练数据之间的数据泄露问题(Zhou等人,2023年;Oren等人,2023年)。

对LLM基准测试中固有偏见的研究有限。在现有工作中,Gururangan等人(2018年)和Niven和Kao(2019年)已经表明,模型利用基准数据集中的偶然统计关系,因此它们在基准测试上的表现被高估了。同样,Le Bras等人(2020年)提议研究AFLITE(Sakaguchi等人,2023年),这是一种通过删除有偏见的数据点来过滤数据集的迭代方法,以减少对语言模型性能的高估。最近,Alzahrani等人(2024年)表明,LLMs的性能对多项选择题基准测试中的微小变化非常敏感。其他研究表明,基准测试通常包括冗余,而且可以通过显著较小的样本量实现有效的LLM评估(Polo等人,2024年;Vivek等人,2024年)。

我们的工作与以往的工作正交但互补。特别是,我们提出了一种新的方法,通过观察多个最近的LLMs在该基准测试上的表现来识别基准测试中的偏见。我们展示了性能的相似性与提示的相似性相关。据我们所知,我们的工作是第一个通过分析和利用一系列主要基准测试上集合模型的表现来接近基准测试偏见的方法;以及研究了在LLM比较研究中使用的基准测试中固有分布偏见的影响。

3 提出的方法

在本节中,我们概述了问题设置,并介绍了将贯穿全文的符号和表达式。其次,我们提出了一种方法来评估提示之间(基于模型表现)的关系是否在统计上是非随机的。此外,我们描述了我们的方法,分析模型比较对基准测试的不同分布假设的敏感性。最后,我们提出了我们提出的方法,探索提示表现向量之间关系的起源。

3.1 问题设置

考虑一个包含 ( n ) 个提示 ( { p_1, \ldots, p_n } ) 的基准测试,以及一组 ( k ) 个正在评估的大型语言模型 ( { m_1, \ldots, m_k } )。我们定义性能矩阵 ( Q ) 为一个 ( n \times k ) 矩阵,其中每个单元格 ( Q[i, j] ) 表示模型 ( m_j ) 在提示 ( p_i ) 上的表现。我们称矩阵的第 ( i ) 行 ( q_i ) 为提示 ( p_i ) 的性能向量。为了衡量两个提示在模型表现方面的相似性,我们计算它们的性能向量之间的相似度 ( \text{sim}(p_i, p_j) := \text{sim}(q_i, q_j) ),其中 ( \text{sim}(\cdot, \cdot) ) 是一个相似性函数。在这里,我们考虑余弦相似度、Jaccard 相似度和汉明相似度。给定一个性能矩阵 ( Q ) 和一个相似性函数 ( \text{sim} ),我们计算一个 ( n \times n ) 的相似性矩阵 ( T(Q) ),其中每个单元格 ( T[i, j] ) 是提示 ( p_i, p_j ) 的性能相似度:( T[i, j] = \text{sim}(p_i, p_j) )。

文本的语义含义通常通过嵌入来理解。一个提示的嵌入是一个数值向量,包含语义含义的学习表示。通过测量它们嵌入之间的距离来实现两个提示之间的语义相似度测量。在本文中,我们使用 OpenAI 提供的 ada-2 嵌入。ada-2 嵌入被广泛使用,并已在各种自然语言处理任务中证明是有效的。这些嵌入在评估文本之间的语义相似性方面表现出色(Aperdannier 等人,2024;Kamalloo 等人,2023;Freestone 和 Santu,2024)。对于一组提示 ( { p_1, \ldots, p_n } ),我们计算嵌入矩阵 ( E = { e_1, \ldots, e_n } )。( E ) 是一个 ( n \times s ) 矩阵,其中 ( s ) 是嵌入向量的大小。为了测量提示对之间的语义相似性,我们计算相应行之间的相似性度量:( \text{sem}(p_i, p_j) = \text{sim}(e_i, e_j) )。

3.2 确定性能向量是否相关

给定一个基准测试,我们评估性能向量之间的观察相似度是否显著。如果观察到的相似度显著高,则意味着提示之间存在特定的联系。这些联系导致模型在响应这些提示时表现出相似的行为。

为了检验这个假设,我们执行排列测试。我们通过随机打乱性能矩阵 ( Q ) 的每一列的单元格来生成 ( Q ) 的排列。这样,我们在保持每个模型的整体表现(即 ( Q ) 的列平均值)不变的情况下,对模型响应的值进行了排列。然后,我们计算观察到的性能矩阵 ( Q ) 的相似性矩阵 ( T(Q) ),以及性能矩阵 ( Q ) 的每个排列 ( Q’ ) 的相似性矩阵:( [T(Q’_1), T(Q’_2), \ldots] )。我们将 ( T(Q) ) 的值的分布与排列表 ( [T(Q’_1), T(Q’_2), \ldots] ) 的值的分布进行比较。我们进行排列测试,比较这些分布的平均值、第 75 个百分位数和第 95 个百分位数。排列测试的 p 值计算为排列表中统计量大于观察表中获得的统计量的表的比例。此外,我们使用 Kolmogorov-Smirnov (KS) 测试来比较观察到的和排列的相似性矩阵之间的整个值的分布。

为了进一步支持我们的发现,我们对观察到的和排列的性能向量进行聚类。如果性能向量之间存在非随机的相关性,我们期望观察到的向量的聚类具有更高的聚类质量指标,例如轮廓系数。

3.3 非均匀权重在聚合性能指标中的影响

到目前为止,我们一直专注于聚合性能指标,这些指标将提示视为来自某个感兴趣的现实世界分布的独立同分布(i.i.d.)样本——即,在计算聚合性能指标时,每个提示都被赋予了相等的权重。在本节中,我们探讨了放宽这一假设对基于模型表现进行排名的影响。一般来说,没有普遍正确的分布——它取决于每个用户的应用程序。在这里,我们探讨了三种不同的捕捉分布假设的方法(即,定义权重)。

基于聚类的:
我们利用上述描述的性能向量的聚类。我们考虑以下变体来评估性能:

  1. 仅包括聚类代表(即,聚类的中心点)的提示。这有效地减少了基准测试的大小。

  2. 包括所有提示,但根据它们与聚类代表的距离进行加权。我们采用两种类型的权重:
    (i) 基于距离的:提示与聚类代表越远,其权重越大。这种设置更多地强调了基准测试的多样性。更正式地说,设 ( p_i ) 是聚类 ( C_j ) 中的提示,( p_{jr} ) 是聚类 ( C_j ) 的代表提示,( d(\cdot, \cdot) ) 是两个提示之间的距离函数。提示 ( p_i ) 的权重 ( w ) 为:
    [
    w(p_i) = \frac{d(p_i, p_{jr})}{\sum_{p_k \in C_j} d(p_k, p_{jr})} \times \frac{|C_j|}{\sum_{i} |C_i|}
    ]
    第一个因子是提示在聚类内的权重(在聚类内归一化)。第二个因子按聚类的大小成比例地权衡给定聚类的所有提示。

    (ii) 逆距离权重:提示与聚类代表越近,其权重越大。这种设置有效地平滑了我们产生的硬聚类:所有数据点都对性能有所贡献,而不仅仅是聚类代表。提示 ( p_i ) 的权重 ( w ) 计算为:
    [
    w(p_i) = \frac{1}{d(p_i, p_{jr})} \times \frac{|C_j|}{\sum_{p_k \in C_j} \frac{1}{d(p_k, p_{jr})}}
    ]

增加基准测试大小
我们从随机提示开始,并逐步将新提示添加到基准测试中。在选择要添加的下一个提示时,我们使用两种方法:(i) 最有信息量:选择与之前选择的提示具有最大余弦距离(最低余弦相似度)的提示,以获得一个在提示之间语义相似度降低的信息丰富的测试集,(ii) 随机:随机选择一个提示。

权重的随机分布
我们对每个提示进行加权并计算加权性能,权重是随机均匀抽取的。为了实现这一点,我们使用 Smith 和 Tromble (2004) 描述的采样技术,从单位单纯形中均匀随机采样。这种方法旨在提供对所有可能的权重配置的描述。
3.4 比较提示的语义嵌入与性能向量
已经确定模型在提示上的表现是相似的,我们接下来探究这种相似性来自何处。我们的假设是,对于一对提示,如果提示在语义上相似,就可能出现相似的模型表现。

我们使用线性回归来确定语义相似性和模型表现相似性之间是否存在显著的关系:

[
\text{sim}_{\text{perf}}(p_i, p_j) = \text{sem}(p_i, p_j) \cdot \beta + \epsilon
]

其中 ( \beta ) 是语义相似性对模型的贡献系数,( \epsilon ) 是误差。

使用所有提示对会引起数据是否为独立同分布(i.i.d.)的担忧,因为每个观察是成对比较,且成对的每个成员在许多观察中都会出现。为了避免这种情况,我们为每个提示估计一个模型,包括该提示是一部分的所有配对观察。我们收集所有模型的系数的 p 值,并执行多重假设调整以生成错误发现率(FDR)值。我们对第 3.2 节中描述的 1000 次排列重复相同的方法,用于成对表现和语义相似性向量。最后,我们使用 KS 测试比较原始数据和排列之间的系数和 FDR 的分布。

4 实验设置

在这一部分,我们描述了我们实验的设置。具体来说,我们提供了我们使用的基准测试和评估指标的详细信息,我们考虑的大型语言模型(LLMs),以及我们如何评估这些模型在基准测试上的表现。

4.1 基准测试

我们研究了四个为不同任务设计的主流基准测试。

ANLI
对抗性自然语言推理(ANLI)数据集是一个大规模的自然语言推理(NLI)数据集。它是通过一种迭代的、对抗性的人类和模型相结合的程序收集的,使其比前身更困难。这里使用的数据集包括大约 100K 的训练样本,1200 的开发集样本和 1200 的测试集样本。每个样本包含一个上下文、一个假设和一个标签。目标是确定上下文和假设之间的逻辑关系。标签是指示该关系的指定类别。在 NLI 的背景下,标签通常包括“蕴含”,“矛盾”或“中立”。最后,ANLI 提供了一个原因(由人类参与者提供),解释为什么一个样本被错误分类。

HellaSwag
这是一个常识性自然语言推理数据集,任务是让机器识别事件描述的最可能的后续行动。包含 70,000 个实例,每个场景提供四个可能的结果,只有一个是准确的。为了对尖端模型构成挑战,数据集采用对抗性过滤,纳入了机器生成的错误响应,这些响应通常被预训练模型错误分类。HellaSwag 涵盖了多个领域,需要世界知识和逻辑推理的融合才能成功解释。

CommonsenseQA
这是一个多项选择题回答数据集,需要不同类型的常识知识来预测正确答案。它包含 12,102 个问题,每个问题有一个正确答案和四个干扰项答案。这些问题是众包而来的,涵盖了从开放领域问答、现实生活情境、基础科学、社交技能等广泛的话题。

CNN/Daily Mail
CNN/Daily Mail 数据集是文本摘要广泛使用的基准测试。数据集包含来自 CNN 和 Daily Mail 网站的新闻故事。总共,语料库包含 286,817 对训练、13,368 对验证和 11,487 对测试。

4.2 评估指标

对于ANLI、HellaSwag和CommonsenseQA,性能矩阵包含二元值(正确/错误答案)。因此,我们使用平均准确率来评估每个模型的表现,这在这些基准测试中是常见的做法(Nie等人,2020;Wei等人,2022;Zellers等人,2019;Talmor等人,2019)。对于CNN/Daily Mail,遵循先前的工作(See等人,2017),我们使用ROUGE得分来衡量模型表现。

4.3 考虑的大型语言模型(LLMs)

为了拥有多样化的大型语言模型集合,我们包括了来自多个开发者的模型,如OpenAI和Meta。这些模型包括GPT大型语言模型(Brown等人,2020;OpenAI,2023)、Llama大型语言模型(Touvron等人,2023)以及其他流行的大型语言模型,如Falcon-180b(Almazrouei等人,2023)、Koala 13B(Geng等人,2023)、Alpaca 7B(Wang等人,2023b)。表4.4显示了每个基准测试使用的各种模型5。

4.4 性能评估

对于ANLI,我们在包含1200个提示的测试数据集上评估每个模型。对于每个样本,我们使用从ANLI开发集中提取的7个少量样本。对于其余的基准测试,我们随机抽取每个基准测试的10%作为测试样本,并使用其余部分进行少量样本选择。这导致HellaSwag、CommonsenseQA和CNN/Daily Mail分别有1005、1221和1150个测试样本。对于HellaSwag,我们使用10个少量样本示例,而对于CommonsenseQA和CNN/Daily Mail我们使用5个少量样本。

在这里插入图片描述
LLMs在ANLI、HellaSwag (HS)、CommonsenseQA (CSQA) 和 CNN/Daily Mail (CNN/DM) 中的使用总结。勾选标记表示哪些LLMs被用于特定的基准测试。

5 结果

在本节中,我们展示了第 3 节描述的实验在基准测试上的结果。

5.1 性能向量是相关的

为了确定提示的性能向量是否相关,我们执行了第 3.2 节中描述的排列测试,使用不同的相关性度量方法。在 ANLI、HellaSwag 和 CommonsenseQA 上获得的 p 值在表 1 中展示。在 ANLI 和 CommonsenseQA 上,排列测试显示出强有力的证据,表明提示性能向量之间的相关性是显著的。对于 HellaSwag,我们的发现显示,在所有相关性度量方法中,使用第 75 个百分位数时 p 值始终很低,并且在平均 Jaccard 相似度时 p 值也很低。对于上述三个基准测试,KS 测试在所有相关性度量方法中都是显著的。

在这里插入图片描述
表 2:使用不同的相关性度量和聚合函数对ANLI、HellaSwag(HS)和CommonsenseQA(CSQA)进行排列测试和KS测试获得的p值。
对于CNN/Daily Mail,性能矩阵包含的是连续值的ROUGE得分。因此,我们使用余弦相似度来比较原始和排列后性能矩阵得到的平均相关性。结果显示原始性能向量之间的相关性显著更高。

为了进一步支持这一发现,我们使用球面 ( k )-均值(Dhillon和Modha,2001)对模型响应进行聚类。我们选择最优的聚类数量以最大化平均轮廓系数,该系数是使用余弦距离计算的。表 2包含了性能向量聚类和它们随机排列的平均轮廓系数。对于所有基准测试,性能向量产生的轮廓系数比排列后的性能向量更高。这为支持上述假设检验的结果提供了额外的证据:性能向量是相似的。

在这里插入图片描述
表 2:对各种基准测试观察到的性能向量聚类以及性能向量随机排列的平均轮廓系数。

5.2 提示权重对模型表现和相对排名的影响

在本节中,我们将展示如第 3.3 节所述的基准测试提示的不同加权方案的结果。

5.2.1 基于聚类的评估

首先,我们如前所述对每个基准测试的性能向量进行聚类。然后,我们只使用该基准测试的聚类代表来计算每个模型的平均准确率。我们还使用基于距离的和基于逆距离的权重来计算加权性能。图 2 展示了这些加权方案如何影响每个基准测试模型的相对排名。行对应不同的加权方案,而列对应不同的模型,并按原始表现递增(即排名递减)排序。每个单元格包含该行方法对当前列模型排名变化(与原始基准测试相比)。如果没有排名变化,所有值都将是 0。然而,我们观察到有多次排名变化高达 5 位(模型比原始基准测试排名高 5 位)。

在这里插入图片描述
(a) ANLI
在这里插入图片描述
(b) HellaSwag
在这里插入图片描述
© CommonsenseQA
在这里插入图片描述
(d) CNN/Daily Mail

图 2: 展示了各种基准测试修改后排名变化(与原始基准测试相比)的可视化。行显示不同的加权方法,列显示模型。每个单元格包含行方法对列模型排名变化(原始排名减去新排名)。我们观察到排名变化高达5位。

5.2.2 基准测试大小的增加

接下来,我们研究性能如何受到基准测试的大小和多样性的影响。我们从随机提示开始,逐步向基准测试中添加新的提示,要么是通过添加最信息丰富的提示(即,与当前基准测试平均距离最大的那个),要么是随机选择一个。图 3 显示了随着基准测试大小增加,每个模型的平均性能(最大基准测试大小对应原始基准测试)。观察 ANLI 的最信息丰富方法(图 3(a)),前 400 个提示对所有模型产生了随机性能(0.5)。这表明用这种方法最初选择的提示是“最难的”,因为模型表现出接近随机的性能(准确率 50%)。对 HellaSwag 和 CommonsenseQA 的观察结果类似(见附录 C,图 10),但 CNN/Daily Mail 不同(图 3(b)),在那里缩减后的基准测试上的性能遵循与原始基准测试上的性能类似的模式。随机方法跟踪所有基准测试的原始性能(见附录 C,图 11)。
在这里插入图片描述
(a) ANLI
在这里插入图片描述
(b) CNN/Daily Mail
图 3:随着基准测试大小增加,平均性能的变化。添加提示以最大化平均余弦距离。最大基准测试大小对应原始基准测试上的性能。

5.2.3 权重的随机分布

我们探索所有加权方案的分布以及它们对加权准确率和模型相对排名的影响。如第 3.3 节所述,我们抽取了 100,000 个随机权重配置。对于每个模型,我们根据这些权重计算加权性能。

对于 ANLI、HellaSwag 和 CommonsenseQA,模型的性能变化可达 10%。对于 CNN/Daily Mail,变化范围较小,最高可达 3%。详细结果包含在附录 D 中。我们注意到,所有模型在一个基准测试中的范围相似,表明这是与基准测试相关的属性,而不是特定模型。

为了进一步展示模型相对排名的变化,我们更仔细地观察成对排名差异。图 4 描述了每个基准测试加权性能的成对比较。每个单元格显示了行中的模型比列中的模型表现更好的概率。对于 ANLI,大约一半的权重配置中,前两个模型的排名被颠倒了!然而,对于 CNN/Daily Mail 数据,几乎没有逆转(少于 0.01%)。

在这里插入图片描述
(a) ANLI
在这里插入图片描述
(b) CNN/Daily Mail
图 4:加权性能的成对比较。每个单元格是行中的模型比列中的模型表现更好的概率的百分比。

5.3 提示的语义相似性与模型表现之间的关系

已经确定模型在不同提示上的表现是相关的,我们接下来探究这些相关性的原因。我们的假设是这可能是由语义相似性驱动的。我们使用第 3.4 节中描述的方法来评估语义相似性与模型表现相似性之间是否存在显著的关系。

我们的发现表明,只有 CNN/Daily Mail 在提示的语义相似性和提示表现相似性之间呈现出显著的关系(见图 5(d))。这个基准测试是一个文本摘要任务,ROUGE 指标的成功在很大程度上取决于从文本中提取相关实体的能力。例如,我们发现提及经济或全球变暖的提示在模型表现上具有高度的相关性(见附录 B,表 4)。

ANLI 还提供了一个原因部分:人类代理陈述了为什么大型语言模型给出了错误答案。我们发现,使用原因部分的语义相似性和提示表现相似性之间存在显著的关系(见图 5(a))。由上下文、假设和标签部分组成的输入提示没有显示出关系,这很可能是因为 ANLI 的创建者在确保基准测试的多样性方面付出了巨大努力(Nie 等人,2020)。这一点在图 3 中也很明显。原因部分的重要性表明,模型表现向量的关联是因为模型生成响应的方式。我们观察到,对于类似的模型表现,原因表明模型不能进行数学运算,例如,“系统可能错过了这一点,因为它没有将两组的损失加起来”和“模型可能不懂数学”(见附录 B,表 3)。

Hellaswag 和 CommonsenseQA 使用多项选择格式。在这些基准测试中没有强有力的证据支持相关性(见图 5(b) 和 5©),可能是因为嵌入捕捉到了不同选择之间的相似性,而不是大型语言模型用来得出结论的逻辑。这与我们对 ANLI 的发现一致,即显著的关系不是来自模型的输入,而是来自大型语言模型的失败点。

我们的发现表明,为什么不同提示上的模型表现向量是相关的,这是一个更大的问题,探究这一点对于理解模型表现至关重要。语义相似性可能是一个因素,但这取决于基准测试设计的任务。根据我们对 ANLI 的结果,对于任务所需的推理(即导致模型失败的推理类型),可能比语义相似性更重要。

在这里插入图片描述

(a) ANLI (原因)

在这里插入图片描述

(b) HellaSwag

在这里插入图片描述

© CommonsenseQA

在这里插入图片描述
(d) CNN/Daily Mail
图 5:所有基准测试的语义相似性系数和 FDR 的分布。红色是原始数据,蓝色是排列。所有分布的 KS 测试的 p 值均小于 2e-5。

6 结论和未来工作

LLMs 通常在可能包含多个测试类似技能的提示的基准测试上进行评估。在这项工作中,我们通过展示不同提示上的模型表现显著相关,证明了主要基准测试中的这种偏见。此外,我们展示了当在评估期间对提示使用非均匀权重时,LLM 比较研究可能会发生显著变化。建议的方法可以作为 LLM 比较研究的一致性检查,确保结果考虑了基准测试的偏见。最后,我们展示了不同提示上的类似模型表现可以通过语义相似性来解释,但更可能源于大型语言模型的共同失败点。

我们的发现可能会影响到一个更大的诊断工具,用于评估模型质量比较对基准测试分布假设的鲁棒性。未来的工作还包括确定可能解释这些偏见的其他因素。这些信息可以为提高基准测试的鲁棒性提供解决方案。这些发现可以帮助研究人员生成新的基准测试,以识别和消除偏见。

7 局限性

我们的研究需要访问多个 LLMs 来为基准测试中的每个提示生成模型表现向量。这可能是计算上昂贵的,并且需要 GPU。一些模型,如 OpenAI 的 GPT-4,有有限的 API 调用,使数据收集耗时。

虽然我们为研究人员提供了一种新颖的方法来调查他们自己研究中的偏见,但提供全面的去偏见方法不在这项工作的范围之内。

最后,我们只是触及了为什么不同 LLMs 在多个提示上的表现相似的表面。还有许多其他组成部分需要调查,例如提示的长度和提示的复杂性。这些信息可以用来提出解决方案,以改进基准测试,而无需通过多个 LLMs 运行提示。

  • 15
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值