KOLA: CAREFULLY BENCHMARKING WORLD KNOWLEDGE OF LARGE LANGUAGE MODELS

题目

KOLA:仔细对大型语言模型的世界知识进行基准测试

在这里插入图片描述

论文地址:https://arxiv.org/abs/2306.09296
项目地址:https://github.com/ranahaani/GNews

摘要

    大型语言模型 (LLM) 的卓越性能要求评估方法不断改进。我们认为,细致周到的设计并非仅仅探索 LLM 能力的广度,对于全面、公正和适用的评估也至关重要。鉴于世界知识对 LLM 的重要性,我们构建了以知识为导向的 LLM 评估基准 (KoLA),其中我们精心设计了三个关键因素:(1)对于能力建模,我们模仿人类认知,形成与知识相关的能力的四级分类法,涵盖 19 项任务。(2)对于数据,为确保公平比较,我们同时使用维基百科(LLM 普遍预训练的语料库)和不断收集的新兴语料库,旨在评估处理看不见的数据和不断发展的知识的能力。(3)对于评估标准,我们采用对比系统,包括总体标准分数,以便在任务和模型之间更好地进行数值比较,以及独特的自我对比指标,用于自动评估知识创造能力。我们评估了 28 个开源和商业 LLM,得到了一些有趣的发现。KoLA 数据集将每三个月更新一次,为开发 LLM 和知识系统提供及时的参考。

简介

    GPT-4等大型语言模型 (LLM) 最近取得了显著突破,引起了广泛的震惊。考虑到 LLM 所展现出的广泛而深刻的自然语言理解和生成能力,传统的基准侧重于相对狭窄和肤浅的能力,对于测试它们不再那么有用。有必要构建更好的基准,以有效地比较 LLM 并提供有价值的诊断结果。为此,提出了各种基准,重点是扩大评估范围以涵盖更广泛的能力 或更具挑战性的任务。除了扩大评估范围以探索 LLM 能力的广度之外,我们认为精心的设计也是必要的,以建立有助于深入洞察、对不同 LLM 保持公正、并对有兴趣选择和提升 LLM 的受众具有高度适用性的评估。设计基准需要仔细考虑三个关键因素:

  1. 能力建模。基准不仅应定义所需能力的范围,还应模拟所评估能力之间的内在联系,从而为如何获得和提高这些能力提供诊断性洞察。
  2. 数据。鉴于 LLM 的训练数据范围极其广泛,其中可能包括某些任务的注释数据,并且通常未公开,因此确保确保训练数据的差异不影响评估的公平性是至关重要且具有挑战性的。
  3. 评估标准。为了获得高适用性,评估指标应该使受众能够轻松理解并获得有用的观察结果。此外,在评估像生成任务这样具有较大搜索空间的任务时,存在许多众所周知的问题。相关能力的评估仍然严重依赖于人工评估,这既耗时又不易重现。

在这里插入图片描述

    在本文中,我们提出了一个面向知识的 LLM 评估基准(KoLA),旨在通过考虑上述三个因素进行细致的设计来仔细基准化 LLM 的世界知识:对于能力建模,我们评估 LLM 的世界知识并设计一个四级认知能力分类法。我们选择世界知识作为评估范围的原因是:

  1. 世界知识被广泛认为在LLM的出色表现中发挥着根本性作用,而对知识的更深层次掌握使LLM能够更好地帮助人类;
  2. 最近的研究表明,理解和生成结构化世界知识对LLM来说仍然具有挑战性。

    与以前的工作不同,以前的工作侧重于通过涵盖各种任务和学科知识来扩大评估广度以测试LLM的知识边界,我们更注重评估的“深度”,即对知识相关能力之间的内在联系进行建模并确保可靠的评估结果。受学习理论中人类认知过程的启发,如布鲁姆分类法,我们将评估的能力分为四个层次:知识记忆、知识理解、知识应用和知识创造。这种分类法有助于提供更具体、更有帮助的评估结果,详细说明被评估模型可能在哪些知识方面存在不足。它还有助于初步探索LLM和人类学习机制的异同。

    为了配合我们后面介绍的数据设计考虑,我们选择了19个任务,主要关注关于实体、概念和事件的世界知识。对于数据,我们获取已知的和不断发展的数据源。一些研究采用未发表或机器不可读的数据来降低测试数据被LLM学习的可能性。然而,考虑到LLM之间的激烈竞争,这些数据在不久的将来也可能被LLM训练。我们认为理想的方法是对新出现的数据进行评估并保持不断发展的基准,就像包括时间敏感的不断发展的数据的尝试一样。在 KoLA,我们每三个月举办一个新的比赛赛季。每个赛季,我们都会抓取并注释 500 篇最近发表的文章作为不断发展的数据。不断发展的数据源使我们能够

  1. 更公平地评估模型,即使某些模型可以快速更新其知识,从而展示其能力,以及
  2. 更好地跟踪模型开发。除了不断发展的数据外,我们还考虑 LLM 的已知数据,即所有模型都已学习的数据源。对已知数据的评估使我们能够 (i) 通过比较它们从相同训练数据中获得的不同知识来公平地比较 LLM 的学习效率,以及
  3. 通过比较 LLM 在已知数据和不断发展的数据上的表现来评估泛化能力。我们选择维基百科作为我们的已知数据源,因为它很常用。考虑到维基百科的局限性以及我们对不断发展的数据的注释能力,我们无法覆盖非常广泛的任务。

    对于评估标准,我们设计了一个对比评估系统,包括一个总体标准分数系统和一个自我对比知识创造指

智能网联汽车的安全员高级考试涉及多个方面的专业知识,包括但不限于自动驾驶技术原理、车辆传感器融合、网络安全防护以及法律法规等内容。以下是针对该主题的一些核心知识解析: ### 关于智能网联车安全员高级考试的核心内容 #### 1. 自动驾驶分级标准 国际自动机工程师学会(SAE International)定义了六个级别的自动驾驶等级,从L0到L5[^1]。其中,L3及以上级别需要安全员具备更高的应急处理能力。 #### 2. 车辆感知系统的组成与功能 智能网联车通常配备多种传感器,如激光雷达、毫米波雷达、摄像头和超声波传感器等。这些设备协同工作以实现环境感知、障碍物检测等功能[^2]。 #### 3. 数据通信与网络安全 智能网联车依赖V2X(Vehicle-to-Everything)技术进行数据交换,在此过程中需防范潜在的网络攻击风险,例如中间人攻击或恶意软件入侵[^3]。 #### 4. 法律法规要求 不同国家和地区对于无人驾驶测试及运营有着严格的规定,考生应熟悉当地交通法典中有关自动化驾驶部分的具体条款[^4]。 ```python # 示例代码:模拟简单决策逻辑 def decide_action(sensor_data): if sensor_data['obstacle'] and not sensor_data['emergency']: return 'slow_down' elif sensor_data['pedestrian_crossing']: return 'stop_and_yield' else: return 'continue_driving' example_input = {'obstacle': True, 'emergency': False, 'pedestrian_crossing': False} action = decide_action(example_input) print(f"Action to take: {action}") ``` 需要注意的是,“同学”作为特定平台上的学习资源名称,并不提供官方认证的标准答案集;建议通过正规渠道获取教材并参加培训课程来准备此类资格认证考试
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值