CHAIN-OF-KNOWLEDGE: Integrating Knowledge Reasoning into Large Language Models by Learning from Know

三月七꧁ ꧂

已于 2024-09-24 11:38:03 修改

阅读量691

点赞数 17

分类专栏：论文合集文章标签：知识图谱深度学习人工智能语言模型 langchain gpt prompt

于 2024-09-24 11:36:59 首次发布

本文链接：https://blog.csdn.net/weixin_43961909/article/details/142484809

版权

论文合集专栏收录该内容

84 篇文章 0 订阅

订阅专栏

文章目录

题目

知识链：通过知识图谱学习将知识推理融入大型语言模型

在这里插入图片描述

论文地址：https://arxiv.org/pdf/2407.00653

摘要

大型语言模型 (LLM) 在各种自然语言处理 (NLP) 任务中表现出令人印象深刻的熟练程度，这些任务涉及越来越复杂的推理。知识推理是一种主要的推理类型，旨在从现有知识中获取新知识。虽然知识推理在知识图谱 (KG) 的背景下得到了广泛的研究，但 LLM 中的知识推理仍未得到充分探索。在本文中，我们介绍了 CHAINOF-KNOWLEDGE，这是一个全面的知识推理框架，包括数据集构建和模型学习的方法。对于数据集构建，我们通过对 KG 进行规则挖掘创建 KNOWREASON。对于模型学习，我们观察到由幼稚训练引起的规则过度拟合。因此，我们通过试错机制增强了 CoK，该机制模拟了人类内部知识探索的过程。我们对 KNOWREASON 进行了广泛的实验。我们的结果表明，CoK 不仅在知识推理方面，而且在一般推理基准方面都能有效地改进 LLM。

简介

大型语言模型 (LLM) 已在广泛的自然语言处理 (NLP) 任务中建立了新的领先地位 (Brown 等人，2020 年；Bang 等人，2023 年)。它们的影响力日益扩大，扩展到挑战推理能力的复杂问题，包括算术推理 (Cobbe 等人，2021 年)、常识推理 (Talmor 等人，2018 年) 和符号推理 (Srivastava 等人，2022 年)。这些推理能力使 LLM 能够做出明智的决策，解决复杂的问题，并提供更准确和相关的响应知识推理是推理的一个不可或缺的方面，它结合了所获得的知识来获得新知识（Chen et al，2020），如图 1 所示。它与常识推理和符号推理有相似之处，都依赖现有知识和逻辑推理来得出新结论。此前，知识推理已在知识图谱（KG）的背景下得到广泛研究。

KG 以关系三元组的形式表示事实知识，例如（柏拉图，author_of，共和国）。知识图谱上的知识推理是利用现有知识来推断和得出新知识，通常是通过显式建模或隐式学习关系模式的组合规则来推断和得出新知识。ternes（Sun et al，2019）。这丰富了KG并支持下游任务，例如链接预测（Zhu et al，2021）和事实分类（Yao et al，2019）。现有的KG推理方法可以分为基于结构化的方法，例如TransE（Bordes et al，2013）和基于描述的方法，例如LMKE（Wang et al，2022）。然而，LLM中的知识推理仍然未被充分探索，这可以作为LLM推理的宝贵补充。

在本文中，我们建议利用KG将这种知识推理能力集成到LLM中。具体来说，我们引入了CHAIN-OFKNOWLEDGE（CoK），一个用于知识推理的综合学习框架。CoK包括数据集构建和模型学习的方法。数据集构建基于KG。如图 2 所示，它包括三个步骤：

规则挖掘，挖掘 KG 中的组合规则；
知识选择，识别与这些规则匹配的相互关联的三元组；
样本生成，将三元组转换为自然语言样本。

对于模型学习，我们观察到通过行为克隆训练 LLM 通常会导致规则过度拟合，从而产生幻觉。因此，我们通过试错机制进一步增强了 CoK，该机制模拟了人类内部的知识探索过程，以提高其泛化能力。

在这里插入图片描述
图 1：当前的法学硕士在知识推理方面遇到困难，即结合已获得的知识来推断新知识。

我们进行了大量实验来验证 CoK 的有效性，它涵盖了匿名和常规设置。在匿名设置中，我们替换实体名称以确保分析不受数据泄露的影响。在常规设置中，我们展示了 CoK 不仅对现实世界知识推理的价值，而且对其他推理基准也具有价值。
本文的贡献主要概括为以下几点：

我们引入了知识推理任务来评估和丰富 LLM。我们精心挑选的数据集名为 KNOWREASON，即将发布，以促进未来在此方向的研究。
我们提出了知识链 (CoK)，这是一个用于提升 LLM 知识推理能力的综合框架。CoK 提供了数据集构建的详细方法，以及行为克隆和试错两种学习方法。
我们在各种环境下进行了广泛的实验，包括匿名环境和常规环境。我们的结果验证了 CoK 的有效性，并且有望推广到新规则和升级的挑战。此外，我们通过其在改进其他各种任务中的功效展示了 CoK 的广泛实用性。

方法论

知识图谱 KG 将事实集合存储为三元组，表示为 G = {(e, r, e′ ) | e, e′ ∈ E, r ∈ R}，其中 E 和 R 分别表示实体和关系的集合。原子与规则知识图谱包含可提取或建模以推断新知识的组合规则。这些规则由多个关系原子组成。其中一个原子可以表示为 r(X, Y )，其中 r 是关系，X、Y 是实体的变量。知识图谱中的一条规则可以用以下公式表示： rh(X, Y ) ← r1(X, Z1) ∧ . . . ∧ rn(Zn−1, Y ) (1) 其中，rh(X, Y ) 表示头原子，表示规则头，而 r1(X, Z1) . . . ∧ rn(Zn−1, Y ) 表示规则主体。例如，在规则中 LiveIn(X, Y ) ← WorkFor(X, Z1)∧LocateIn(Z1Y )∧LiveIn(X, Y ) 是规则头，而 WorkFor(X, Z1) ∧ LocateIn(Z1, Y ) 是规则主体。

任务制定给定一个原子 rh(X, Y )，其中 X 已知而 Y 未知，我们试图确定 Y 。知识推理包括确定适当的规则，然后利用支持规则主体的事实来确定 Y 的值。我们将介绍知识链方法的思想以及我们如何构建数据。在此步骤中，我们首先挖掘 2 跳规则，然后将它们组合起来以创建 3 跳和 4 跳规则。为了从知识图谱中的三元组导出数据构造规则，我们利用广度优先的方法来采样将头实体连接到尾实体的 2 跳原子组合。我们使用的算法如附录 A.1 所示，这些组合作为 2 跳规则的实例。对于例如，给定一个原子r3(e1, e3)，我们可以采样实例r1(e1, e3)←r2(e1, e2)∧r3(e2, e3)。

在这里插入图片描述
图 2：知识链（CoK）的框架。（a）数据集构建包括三个步骤，即规则挖掘、知识选择和样本生成。这产生了知识数据集和 CoK 数据集。（b）Vanilla CoK 以行为克隆的方式训练 LLM，这可能导致规则过度拟合和幻觉。（c）因此提出了 CoK（试错法），它使 LLM 能够模拟人类内部的知识探索过程。

这条路径的头和尾分别对应于原子的头实体e1和尾实体e3。对应的规则是r1(X, Y)←r2(X, Z)∧r3(Z, Y)。在整个知识图谱上采样后，我们得到一系列规则实例。首先，我们统计每个规则对应的实例数。少于1000个实例的规则被认为是不典型的，并从列表中删除，作为第一轮规则过滤。对于一条规则 r1(X, Y ) ← r2(X, Z) ∧ r3(Z, Y )，如果图中满足规则主体的实例组合数为 x，满足规则头的组合数为 y，则该规则的置信度公式为 y/x。利用该公式，我们计算每条规则的置信度，并设置一个合理的阈值 0.6。如果置信度大于 0.6，则认为该规则有效并保留；否则，我们将其丢弃。应用上述步骤后，我们获得 203 条 2 跳规则。

我们将 2 跳规则组合起来以创建更长的规则。给定两条规则，如果一条规则的规则头是另一条规则规则主体的一部分，则我们用第一条规则的规则主体替换该部分。例如，考虑以下两条规则：1) BornIn(X, Y ) ← HighSchool(X, Z1) ∧ LocateIn(Z1, Y ); 2）CitizenOf(X, Y ) ← BornIn(X, Z1) ∧ CityOf(Z1, Y )。规则1的头部BornIn(X, Y )是规则2主体的一部分，因此我们将其替换为规则1的主体，形成一个3跳规则： CitizenOf(X, Y ) ← HighSchool(X, Z1) ∧ LocateIn(Z1, Y ) ∧ CityOf(Z1, Y )。

使用这种方法，我们生成159条3跳规则和158条4跳规则。在知识推理过程中，如果LLM无法访问支持推理路径的事实，则由于缺乏关键信息而无法完成推理。另一方面，如果我们查询的事实已经嵌入在LLM的内部参数中，则由于潜在的数据泄漏，无法保证推理的有效性。因此，选择适合 CoK 数据构建的知识至关重要。我们在匿名设置和常规设置中构建数据集，不同的知识对两种设置应用选择过程。

对于获得的每条规则，我们首先从知识图谱中识别其所有实例。为了防止模型在训练期间过度拟合特定规则，从而导致路径依赖，我们确保训练数据中每条规则的数量均衡。我们通过为每个规则采样相同数量的实例来实现这一点。接下来，对于每个实例，我们收集所涉及的事实并将其用于知识选择。在匿名设置中，我们用随机的、不存在的字符串替换事实中的所有实体名称，使所有实体成为 LLM 的新知识。然后，我们收集所有匿名事实并使用它们生成知识数据以进行知识注入。

在常规设置中，事实中的实体代表现实世界的知识。对于每个实例，我们收集相关事实并使用它们对 LLM 进行知识探测。如果 LLM 知道支持实例主体的所有事实，但不知道实例头所代表的事实，我们将保留此实例以在后续步骤中生成样本。样本生成最后，我们应用高级LLM1将知识转换成自然语言句子。对于知识数据集，我们为每个实体生成一段自然语言描述。对于CoK数据集，我们为上一步获得的每个实例生成一个样本。对于规则头rh(X, Y)，我们提示高级LLM生成自然语言问题。考虑到实体之间的关系，如果多个Y对应一个X，则质疑Y会导致多个答案，使评估复杂化。因此，我们选择X和Y之间的唯一实体来生成问题。对于规则主体，我们将所有事实组合起来形成一个推理链，描述从X到Y的推理过程，并将其作为问题的答案。

样本生成的细节见附录A.3。我们的实验包括匿名和常规设置。在每种设置中，CoK数据集都用于以监督的方式微调LLM。相反，知识数据集在匿名设置的持续预训练阶段专门用于将知识注入 LLM。

朴素训练首先，我们以行为克隆的方式直接在 KNOWREASON 上训练 LLM。然而，我们观察到一种称为规则过度拟合的现象。在这种情况下，训练后的模型倾向于依赖训练期间遇到的规则，即使在没有支持事实的情况下也是如此。反复试验因此，我们在 CoK 学习中引入了反复试验 (T&E) 机制，该机制模拟了人类探索内部知识的过程。

为了模拟人类的知识推理过程，当提出问题时，我们人类首先选择一个合理的规则并开始基于该规则进行推理。在此过程中，如果我们意识到我们缺少规则所需的关键事实，我们会切换到另一条推理路径，而不是在没有基本信息的情况下继续下去。因此，我们将反复试验的概念与我们的方法相结合，将对 LLM 内部知识库的探索纳入推理过程。这种方法使 LLM 能够辨别何时应用规则以及何时由于缺乏支持事实而回溯规则，随后切换到更合适的规则。

我们设计了一个符号代理与LLM协同工作，采用反复试验的方法生成探索路径。对于每个样本，符号代理首先选择一个可能的规则作为候选路径，然后在LLM内部知识库中搜索该规则的支持事实。如果规则主体的任何部分缺少支持事实，则该过程被记录为错误，符号代理切换到另一条规则作为候选路径。这个过程重复，直到找到具有足够支持事实的推理路径，从而得到期望的结果。整个探索过程被捕获为一个数据样本，包括至少一个错误和正确的推理路径。这个反复试验的过程如算法1所示。

在这里插入图片描述

实验

我们选择Wikidata5m（Wang等，2021）作为我们的数据源，这是一个与Wikidata对齐的百万级知识图谱数据集，方便数据处理和使用。我们构建了一个数据集KNOWREASON，其中包括一个知识数据集和一个CoK数据集。构造方法详见第 3 节。匿名化设置和常规设置我们在匿名化设置和常规设置中都进行了实验。

在这里插入图片描述

在匿名化设置中，我们主要进行实验来研究LLM中的知识推理，避免LLM固有知识对此任务的影响。在这些设置中，所有实体名称都被替换为随机的、不存在的字符名称，确保模型参数不包含这些实体的先验知识。因此，我们的训练数据包括持续预训练阶段使用的知识数据集，以及指令微调阶段使用的CoK数据集。知识数据包括与每个实体相关的语料信息，这为模型注入了推理所需的先决知识。同时，CoK和CoK（T&E）数据在监督微调阶段用作CoK数据集。我们的训练数据统计数据如表1所示。

在常规设置中，我们验证了CoK在真实场景中的有效性。常规设置中的实体和关系反映了真实世界的知识。因此，我们仅使用 CoK 数据集对 LLM 进行微调，以开发知识推理能力，而无需知识注入步骤。除了知识推理之外，我们还进一步评估了 CoK 学习对 LLM 在下游任务中的一般推理能力的好处。

评估拆分为了评估模型的知识推理能力，我们设计了两个测试数据集：域内（ID）和域外领域（OOD）测试。

领域内测试 ID设置中样本的推理路径也出现在训练样本中。ID设置上的更高分数表明LLM可以通过应用学习到的规则来增强其知识推理能力。
领域外测试与ID设置不同，OOD设置中样本的推理路径不会出现在训练数据中。OOD设置上的更高分数表明LLM的知识推理能力可以有效地推广到以前未见过的规则。

在这里插入图片描述

此外，ID和OOD设置都分为三个子集，每个子集对应不同的规则长度。模型我们在Llama38B-instruct（AI@Meta，2024）和Mistral-7binstruct-v0.2（Jiang等，2023）上进行实验。在微调阶段，我们采用完全微调进行模型训练。对于每个训练数据集，模型都会进行 4 个 epoch 的训练。每个 epoch 之后，都会在评估数据集上进行测试，并报告该训练设置的最佳性能结果。方法我们在匿名设置中比较了以下四种方法。

Vanilla CoT 在这种方法中，我们提示模型通过逐步推理来回答问题，而无需进行任何微调。
上下文学习 CoK (ICL-CoK) 在这种方法中，我们从 CoK 学习数据中为模型提供了六个问答对示例。
CoK 在这种方法中，我们使用我们的 CoK 数据对模型进行微调。
CoK (T&E) 在这种方法中，我们使用我们的 CoK (T&E) 数据对模型进行微调。

指标对于知识推理任务，给定规则头 rh(X, Y)，我们用自然语言提出一个问题来识别 Y，其中 Y 是该问题的黄金实体。
我们使用精确匹配准确率作为指标。对于我们测试数据的每个子集，评估公式如下：在这里插入图片描述其中 T 表示测试数据集，E 表示预测实体与黄金答案完全匹配的样本数，L(T) 表示测试数据集 T 中的样本总数。

匿名设置下的结果我们使用第 4.1 节中提到的每种方法进行实验。对于我们的 CoK 和 CoK (T&E) 方法，我们使用不同长度的规则为每种方法构建三个版本的数据。这种方法使我们能够探索规则长度与模型知识推理能力之间的关系。实验结果如表 2 所示。
CoK 有效提升 LLM 的知识推理能力。我们的结果表明，CoK 和 CoK (T&E) 在所有测试数据集上的表现均优于基线。值得注意的是，给定一些 CoK 示例，ICL-CoK 通常优于 vanilla CoT。然而，它仍然得到相对较低的分数，这表明没有微调的 LLM 难以基于其内部知识进行知识推理，尽管其参数中包含关键信息。

通过反复试验，CoK（T&E）在 OOD 设置中进一步提高了性能。在 CoK 中，ID 数据集的分数通常高于 OOD 数据集的分数，这表明存在规则过度拟合现象，其中 LLM 依赖于训练期间遇到的推理路径。这种规则过度拟合可能导致幻觉和损失OOD 数据集上的泛化能力。CoK (T&E) 在大多数数据集上都超越了 CoK，在 OOD 数据集上的改进尤其显著。这表明 CoK (T&E) 使 LLM 能够考虑更适合问题的规则，而不是盲目地应用以前遇到的规则。

使用长规则学习。为了研究规则长度的影响，我们使用具有不同规则长度的数据集进行实验。我们观察到在 2 跳和 3 跳测试数据集上，CoK (T&E)-3-hop 获得最高分数，而 CoK (T&E)-4-hop 在 4 跳测试数据集上获得最高分数。随着数据中的规则变长，模型的性能并没有持续提高；相反，使用最大长度为 4 跳的规则进行训练实际上会降低性能。

在这里插入图片描述

为了找到原因，我们计算了模型在输出中使用的规则长度，结果如表 3 所示。从结果来看，当使用较长的规则进行训练时，模型倾向于使用较长的规则。当有较短的路径可用时，使用较长的推理路径会增加推理的难度，因为推理过程中的每一步都需要模型进行探索和决策。使用较长的规则进行训练有助于 LLM 学习在推理中使用更复杂的规则。然而，规则越长并不总是越好。使用它们进行训练可能会导致在推理过程中倾向于使用较长的规则，即使有更短或更简单的路径可用，这可能会降低简单任务的性能。

在这里插入图片描述

错误分析我们进行了额外的实验来分析模型在 ID 和 OOD 设置中预测错误的原因。我们根据模型推理过程中的第一步错误对错误类型进行分类。例如，规则错误表示模型选择了不合适的推理路径，而事实 1 错误表示模型在事实 r1(X, Y ) 中使用了错误的 Y。结果如表 4 所示。结果表明，在 ID 数据集上，大多数错误都是由模型使用不正确的事实引起的。这可能是因为 ID 数据集中的推理路径也出现在训练数据中。相反，在OOD数据集上，更多的错误归因于模型选择的推理路径。关于事实错误，我们注意到模型在实体选择的初始阶段经常出现幻觉。

我们认为这是因为在推理的后期，随着模型纳入更多支持事实，模型的知识选择范围变得更加狭窄。具体来说，我们发现在一些错误样本中，模型选择了合适的推理路径并使用了正确的事实，但仍然得出了错误的实体。这是因为对于一个事实rh(X, Y)，rh和X的组合可以对应多个Y。虽然模型由于使用不同的事实推断出与基本事实不同的结果，但推理过程仍然有效。

常规设置下的结果常规设置的下游任务在常规设置中，我们使用利用真实世界实体进行数据构建的常规数据来训练模型，并在下游任务上进一步测试模型。常规设置的结果如表5所示

在这里插入图片描述
常规设置的结果验证了匿名实验得出的结论：当使用 CoK 示例提示时，ICLCoK 在 ID 和 OOD 数据集上的表现都优于 vanilla CoT。CoK 和 CoK (T&E) 都增强了 LLM 的知识链能力。此外，CoK (T&E) 进一步降低了 LLM 的规则依赖性，从而提高了 OOD 数据集上的性能。为了进一步研究 CoK 的泛化，我们在其他流行的基准上测试了我们的 CoK 探索方法。下游任务的结果如表 6 所示。结果表明，CoK (T&E) 在三个常识推理基准上的表现优于基线，这表明 CoK 可以很好地推广到需要各种类型知识（例如世界知识）的其他推理任务。

在这里插入图片描述

结论

本文提出了 CHAIN-OFKNOWLEDGE，一个旨在将知识推理能力融入 LLM 的综合学习框架，涵盖数据构建和模型学习的方法。我们构建了 KNOWREASON 数据集用于模型训练。CoK 可以有效提升 LLM 在知识推理任务上的表现，但也可能导致规则过度拟合。通过采用反复试验的方法，CoK (T&E) 解决了这个问题并进一步提高了模型性能。在两个推理基准上进行的大量实验证明了 CoK 可以推广到其他推理任务。

局限性

知识推理能力评估由于 LLM 中的知识推理在之前的研究中仍未得到充分探索，并且没有适合我们任务的公共数据集或基准，因此我们使用构建的数据集 KNOWREASON 对模型的知识推理能力进行训练和测试。为了解决这个问题，我们努力确保数据集的多样性。常规设置的数据是特定于模型的在常规设置中，数据中的实体代表现实世界的知识。为了防止数据泄露，我们对每个模型进行知识探测，使常规设置数据特定于模型。相反，对于匿名设置，我们构建了在持续预训练阶段需要知识注入但适用于所有模型的数据。

伦理声明

在本文中，我们提出了 CHAIN-OFKNOWLEDGE 框架，该框架包括数据构建和模型学习方法，以增强 LLM 的知识推理能力。我们的数据构建基于 KG 的组合规则。首先，为了确保数据的合理性，我们根据规则的置信度对其进行筛选。但是，仍有可能某些规则仍然不合理，从而导致样本有缺陷。其次，由于我们使用先进的 LLM 进行样本生成，因此 LLM 中存在的偏见不可避免地会影响知识。为了解决这些伦理问题，我们将优化规则挖掘方法，使模型的输出更好地与人类认知保持一致。

附录

CoK 数据构建细节 A.1 规则挖掘在规则挖掘步骤中，我们首先使用广度优先搜索算法从原始知识图谱中寻找复合规则实例，所用算法为算法 2
在这里插入图片描述

A.2 知识选择在匿名化设置中，在确定规则的支持事实后，需要对数据进行额外的处理。如果一个实例的头部是另一个实例主体的一部分，则使用该实例进行样本生成和模型训练可能会导致数据泄露，从而导致不公平的评估。
为了解决这个问题，我们将实例中的头部和主体部分分开。通过遍历所有实例，我们为主体事实创建一个集合。如果实例的头部事实出现在这个集合中，则该实例存在数据泄露的风险，因此将被丢弃。

A.3 样本生成知识数据集知识数据集仅用于在匿名化设置中向 LLM 注入知识。它在持续预训练阶段使用，因此以语料库的形式呈现。对于我们知识库中的每个实体，我们建立到所有相关事实的映射。使用这些事实，我们提示高级 LLM 生成一个描述性段落，封装有关实体的知识。我们使用的提示是提示 A.3

在这里插入图片描述

为了增强模型记忆知识的能力，我们将每个实体的相关事实分成 10 个一组，输入到 LLM 中生成语料库。对于每个实体，我们提示 LLM 生成四个不同版本的知识语料库。此外，为了提高模型从内部知识库中提取知识的能力，我们将相应的 CoK 数据集成到预训练语料库中。因此，每个具有不同规则长度的 CoK 数据集子集都有相应的知识数据集用于预训练。

CoK 数据集 CoK 数据集用于监督微调阶段的模型学习，具有匿名和常规设置。我们有 3 个步骤来为 CoK 数据集生成样本：

关系模板生成对于每个关系，我们生成一个模板句子来描述原子中两个实体的关系。例如，有一个原子 CitizenOf(X, Y)，模板为 {{X 是 Y 的公民}}。我们用于生成关系模板的提示如下：

在这里插入图片描述

问题模板生成对于规则头中的每个关系，我们为其生成一个问题模板。考虑到规则的充分性和非必要性，并确保每个提出的问题只有一个正确答案，我们提示LLM为原子中唯一的实体生成一个具有可能语气且唯一的问题。
我们用于生成问题模板的提示如下：

在这里插入图片描述

样本生成CoK数据集样本是问答对的形式，所以对于一个样本，我们分别生成问题和答案。对于问题生成，我们将规则头代入相应的模板。对于答案生成，我们将规则主体和规则头中的每个事实替换，将所有生成的句子连接成一个模板答案。然后我们提示 LLM 将这些句子润色成自然语言，作为这个样本的答案。我们用来生成自然语言答案的提示如下：

在这里插入图片描述

B 实验设置 B.1 数据集详情 KNOWREASON 测试数据集 KNOWREASON 测试数据集统计情况如表 7 所示下游任务中的基准

CommonsenseQA(CSQA) (Talmor et al, 2019) CommonsenseQA 是一个新的多项选择题问答数据集，需要不同类型的常识知识来预测正确答案。它包含 12,102 个问题，其中一个正确答案和四个干扰答案。
AI2 推理挑战 (ARC) (Clark et al, 2018) ARC 是一个包含 7,787 个真正的小学水平多项选择科学问题的数据集，旨在鼓励对高级问答的研究。数据集分为挑战集 (ARC-c) 和简单集 (ARC-e)。
BIG-Bench Hard(BBH) (Suzgun 等，2022) BBH 是一个多样化的评估套件，专注于被认为超出当前语言模型能力的任务。它专注于 23 个具有挑战性的 BIG-Bench 任务，之前的语言模型评估并没有超越普通的人类评分者。

B.2 方法细节 Vanilla CoT 在 vanilla CoT 中，我们简单地用 {{让我们一步一步思考}} 提示模型。我们使用的提示如下：

在这里插入图片描述
ICL-CoK 在ICL-CoK中，我们使用CoK数据集中的6个示例来提示模型。在不同的规则长度设置中，我们使用不同规则长度的示例，详细信息如表8所示。我们使用的提示如下：