题目
KOLA:仔细对大型语言模型的世界知识进行基准测试
论文地址:https://arxiv.org/abs/2306.09296
项目地址:https://github.com/ranahaani/GNews
摘要
大型语言模型 (LLM) 的卓越性能要求评估方法不断改进。我们认为,细致周到的设计并非仅仅探索 LLM 能力的广度,对于全面、公正和适用的评估也至关重要。鉴于世界知识对 LLM 的重要性,我们构建了以知识为导向的 LLM 评估基准 (KoLA),其中我们精心设计了三个关键因素:(1)对于能力建模,我们模仿人类认知,形成与知识相关的能力的四级分类法,涵盖 19 项任务。(2)对于数据,为确保公平比较,我们同时使用维基百科(LLM 普遍预训练的语料库)和不断收集的新兴语料库,旨在评估处理看不见的数据和不断发展的知识的能力。(3)对于评估标准,我们采用对比系统,包括总体标准分数,以便在任务和模型之间更好地进行数值比较,以及独特的自我对比指标,用于自动评估知识创造能力。我们评估了 28 个开源和商业 LLM,得到了一些有趣的发现。KoLA 数据集将每三个月更新一次,为开发 LLM 和知识系统提供及时的参考。
简介
GPT-4等大型语言模型 (LLM) 最近取得了显著突破,引起了广泛的震惊。考虑到 LLM 所展现出的广泛而深刻的自然语言理解和生成能力,传统的基准侧重于相对狭窄和肤浅的能力,对于测试它们不再那么有用。有必要构建更好的基准,以有效地比较 LLM 并提供有价值的诊断结果。为此,提出了各种基准,重点是扩大评估范围以涵盖更广泛的能力 或更具挑战性的任务。除了扩大评估范围以探索 LLM 能力的广度之外,我们认为精心的设计也是必要的,以建立有助于深入洞察、对不同 LLM 保持公正、并对有兴趣选择和提升 LLM 的受众具有高度适用性的评估。设计基准需要仔细考虑三个关键因素:
- 能力建模。基准不仅应定义所需能力的范围,还应模拟所评估能力之间的内在联系,从而为如何获得和提高这些能力提供诊断性洞察。
- 数据。鉴于 LLM 的训练数据范围极其广泛,其中可能包括某些任务的注释数据,并且通常未公开,因此确保确保训练数据的差异不影响评估的公平性是至关重要且具有挑战性的。
- 评估标准。为了获得高适用性,评估指标应该使受众能够轻松理解并获得有用的观察结果。此外,在评估像生成任务这样具有较大搜索空间的任务时,存在许多众所周知的问题。相关能力的评估仍然严重依赖于人工评估,这既耗时又不易重现。
在本文中,我们提出了一个面向知识的 LLM 评估基准(KoLA),旨在通过考虑上述三个因素进行细致的设计来仔细基准化 LLM 的世界知识:对于能力建模,我们评估 LLM 的世界知识并设计一个四级认知能力分类法。我们选择世界知识作为评估范围的原因是:
- 世界知识被广泛认为在LLM的出色表现中发挥着根本性作用,而对知识的更深层次掌握使LLM能够更好地帮助人类;
- 最近的研究表明,理解和生成结构化世界知识对LLM来说仍然具有挑战性。
与以前的工作不同,以前的工作侧重于通过涵盖各种任务和学科知识来扩大评估广度以测试LLM的知识边界,我们更注重评估的“深度”,即对知识相关能力之间的内在联系进行建模并确保可靠的评估结果。受学习理论中人类认知过程的启发,如布鲁姆分类法,我们将评估的能力分为四个层次:知识记忆、知识理解、知识应用和知识创造。这种分类法有助于提供更具体、更有帮助的评估结果,详细说明被评估模型可能在哪些知识方面存在不足。它还有助于初步探索LLM和人类学习机制的异同。
为了配合我们后面介绍的数据设计考虑,我们选择了19个任务,主要关注关于实体、概念和事件的世界知识。对于数据,我们获取已知的和不断发展的数据源。一些研究采用未发表或机器不可读的数据来降低测试数据被LLM学习的可能性。然而,考虑到LLM之间的激烈竞争,这些数据在不久的将来也可能被LLM训练。我们认为理想的方法是对新出现的数据进行评估并保持不断发展的基准,就像包括时间敏感的不断发展的数据的尝试一样。在 KoLA,我们每三个月举办一个新的比赛赛季。每个赛季,我们都会抓取并注释 500 篇最近发表的文章作为不断发展的数据。不断发展的数据源使我们能够
- 更公平地评估模型,即使某些模型可以快速更新其知识,从而展示其能力,以及
- 更好地跟踪模型开发。除了不断发展的数据外,我们还考虑 LLM 的已知数据,即所有模型都已学习的数据源。对已知数据的评估使我们能够 (i) 通过比较它们从相同训练数据中获得的不同知识来公平地比较 LLM 的学习效率,以及
- 通过比较 LLM 在已知数据和不断发展的数据上的表现来评估泛化能力。我们选择维基百科作为我们的已知数据源,因为它很常用。考虑到维基百科的局限性以及我们对不断发展的数据的注释能力,我们无法覆盖非常广泛的任务。
对于评估标准,我们设计了一个对比评估系统,包括一个总体标准分数系统和一个自我对比知识创造指