Can GPT-3 Perform Statutory Reasoning?

三月七꧁ ꧂

于 2024-08-07 11:19:29 发布

阅读量465

点赞数 13

分类专栏：论文合集文章标签： gpt-3 chatgpt 机器学习语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/weixin_43961909/article/details/140985072

版权

论文合集专栏收录该内容

28 篇文章 0 订阅

订阅专栏

文章目录

题目

GPT-3 可以进行法定推理吗？

在这里插入图片描述

论文地址：https://arxiv.org/abs/2302.06100

摘要

法定推理是用事实和法规进行推理的任务，法规是立法机关用自然语言编写的规则。这是一项基本的法律技能。在本文中，我们探讨了最强大的 GPT-3 模型 text-davinci-003 在成熟的法定推理数据集 SARA 上的能力。我们考虑了多种方法，包括动态少量提示、思维链提示和零次提示。虽然我们使用 GPT-3 获得的结果比之前发布的最佳结果要好，但我们也发现了它犯的几种明显错误。我们调查了这些错误发生的原因。我们发现 GPT-3 对 SARA 所基于的实际美国法规的先验知识并不完善。更重要的是，我们创建了简单的合成法规，保证 GPT-3 在训练期间不会看到这些法规。我们发现 GPT-3 在回答有关这些简单合成法规的直接问题时表现不佳。CCS 概念 • 应用计算 → 法律； • 计算方法 → 自然语言生成；关于信念和知识的推理。关键词自然语言处理、推理、法律、法规、GPT-3 ACM 参考格式：Andrew Blair-Stanek、Nils Holzenberger 和 Benjamin Van Durme。2023 年。 GPT-3 可以进行法定推理吗？。在第十九届人工智能与法律国际会议 (ICAIL 2023) 上，2023 年 6 月 19 日至 23 日，葡萄牙布拉加。ACM，美国纽约州纽约，10 页。https://doi.org/10。 1145/3594536.3595163

在这里插入图片描述
图 1：GPT-3 错误回答有关简短合成法规的简单问题的示例。GPT-3 生成的文本已突出显示。

人们对 GPT-3 和 ChatGPT 等大型语言模型在法律任务上的新兴能力感到非常兴奋。例如，Bommarito 和 Katz 表明，GPT-3 在美国多州律师资格考试中的证据和侵权问题上的表现通过率很高。在 Choi 等人的研究中，法学教授让 ChatGPT 参加期末考试，并盲目地将其输出与人类学生的答案一起评分；它取得了较低但及格的分数。

我们着手测试目前通过公共 API 公开的最强大的 GPT-3 模型在律师所需的最基本任务之一——法定推理上的表现如何。法规是立法机构用自然语言编写的法律规则。法定推理是将这些规则应用于同样是自然语言的事实。我们首先考虑法定推理评估 (SARA) 数据集，这是一个手工制作的计算基准，涵盖了美国税法的九个部分。我们发现，与之前完成这项任务的工作相比，直接应用 GPT-3 可以获得显着的收益，但 GPT-3 犯了许多明显的错误。然后我们问为什么会这样，首先问的是 GPT-3 对现行美国法典已经了解多少。我们发现它对美国法典的了解并不完善。然后，我们详细介绍了一项基于新型合成法规的实验，以衡量 GPT-3 在用单一事实提示时回答简单法定推理问题的能力（参见图 1 中的示例）。当呈现人类易于理解的法定语言时，我们发现 GPT-3 会经常犯错误。我们的结果表明，法定推理是2023 年 5 月 10 日的一个领域对新的人工智能研究的兴趣，作为激励大型语言模型未来改进的挑战。

SARA

数据和实验设置 SARA 代表法定推理评估。它由来自美国税法（即美国法典第 26 章）的九个法定条款和 376 个手工编写的案例组成，这些案例陈述了简单的事实，涉及名为 Alice、Bob、Charlie 和 Dan 的纳税人，并提出了一个问题，可以通过将九个条款中的一些应用于事实来回答。显然，这九个法规、事实和问题都是自然语言。但 SARA 还包括将法规、事实和问题翻译成 Prolog。通过 Prolog 解决问题的准确率为 100%。

在 376 个案例中，有 100 个是纯粹的“税务案例”，询问个人需要缴纳多少税，答案通常为数千美元。由于 GPT-3 在推理这些数字方面表现不佳，因此我们不考虑这 100 个案例。其余 276 个案例都要求“蕴涵”或“矛盾”。其中 193 个（121 个训练集，72 个测试集）涉及数字。其余 83 个（55 个训练集，28 个测试集）根本不涉及数字。对于所有测试，我们分别在 72 个有数字的测试用例和 28 个没有数字的测试用例上列出结果。在本文的所有实验中，对于我们对 GPT-3 的调用，我们将温度设置为 0.0，将 top_P 设置为 1.0.1 这些设置有两个目的。首先，它们最大限度地提高了可重复性。其次，它们将 GPT-3 偏离主题或产生幻觉的风险降至最低。在 SARA 中，每个问题都标注了一个正确答案。

在这里插入图片描述
图 2：第 3 节中用于向 GPT-3 提出 SARA 测试用例的提示。顶部的橙色方框包含法规；根据设置，法规可能包含也可能不包含。示例案例为蓝色；零样本中没有示例案例。底部的绿色是测试用例。黄色突出显示的文本由 GPT-3 生成。如果 GPT-3 的第一次回答不清楚，我们会按照 Kojima 等人的做法，第二次提示“因此答案是”。

三种方法我们尝试了三种方法来提示 GPT-3 回答 SARA 问题。首先，我们使用 4 次动态提示。对于每个测试用例，我们选择了 4 个最相似的训练用例。对于这 4 个，我们给出了案例的全文，标记“前提”、“假设”和“答案”，后者是“蕴涵”或“矛盾”。由于 SARA 是平衡的，因此这 4 个训练案例中有 2 个有“答案：蕴涵”，另外 2 个有“答案：矛盾”。然后我们附加了测试用例的“前提”和“假设”，后面跟着单词“答案”。这在图 2 的左栏中进行了说明。其次，我们使用零次提示。在那里我们根本不使用任何训练案例。我们只是把测试用例的“前提”和“假设”放在一起，然后是“答案”。这在图 2 的右栏中有所说明。第三，我们进行 10 次思维链提示，使用涉及 10 个 SARA 训练示例的提示。对于这 10 个示例中的每一个，我们都有“前提”、“假设”和“答案”，然后是人类编写的思维链，解释相关推理，并以适当的词“蕴涵”或“矛盾”结束。所有测试用例都使用相同的 10 个示例提示。这在图 2 的中心栏中有所说明。

GPT-3 并不总是用“蕴涵”或“矛盾”来完成答案。在这种情况下，按照 Kojima 等人 [11] 的做法，我们将原始提示、GPT-3 的回答以及答案提取提示传递给 GPT-3，提示内容为“因此，答案（蕴涵或矛盾）是”。“让我们一步一步思考。” Kojima 等人发现，只需在传递给 GPT-3 的提示末尾添加“让我们一步一步思考”，就可以在一系列任务上获得显着改进。他们发现这迫使 GPT-3 一步一步解释其推理，从而得出更好的答案。我们尝试了每个零样本和 4 样本动态提示实验，包括带和不带“让我们一步一步思考”的实验。表 1 中的一列表示每行的结果是否使用了这种方法。请注意，我们不对 10 次手工制作的思维链使用此方法，因为 10 个示例已经包含详细的分步推理。

有或没有法规我们假设 GPT-3 可能在其训练数据中看到了美国税法，因为美国联邦法规不能受版权保护，因此会出现在多个网站上。因此，对于每个实验设置，我们尝试所有带有和不带有法规文本的 SARA 提示，以解决所有提出的假设，如表 1 中的“包含法规”列中所述。在 4 次动态提示和零次提示中，我们使用法规中最相关的部分。对于 10 次思路链提示，我们使用与整个测试集最相关的一组章节：2(b)、63©(1) 和 (6)、152、3306(a) 和 7703。

当我们不包括法规时，我们将 SARA 前提和假设中的所有“章节”实例替换为“I.R.C. 章节”。（美国税法正式称为《国内税收法典》，“I.R.C.”是标准引用。）3.5 讨论表 1 报告了上述设置的结果。正如预期的那样，GPT-3 对提示设置非常敏感，在不同设置下的性能差异很大。提示“让我们一步一步思考。”偶尔会提高法定推理性能，但不是系统性的。我们报告的基于 BERT 的最新技术使用了一些人工提供的结构。在全部 100 个蕴涵案例中，我们的一些提示设置超越了之前的最新技术水平，而且人工输入少得多。

通过 Welch 的方差不等检验，我们基于 GPT-3 的最佳模型的表现明显优于基于 BERT 的最新技术水平（𝑝 ≈ 0.038）和多数基线（𝑝 ≈ 0.0011）。当 𝑝 < 0.05 时，只有我们最好的模型的准确率高于之前的最新技术水平，只有我们最好的两个模型的准确率高于多数基线。我们注意到，在我们的十个实验设置中的九个中，GPT-3 在 28 个不涉及数字的案例中的表现至少与在 72 个涉及数字的案例中的表现一样好。这是意料之中的，因为大多数数字都很大（例如“2016 年，爱丽丝的收入为 310192 美元。”），而 GPT-3 在进行大数字计算时存在已知的局限性。

正如预期的那样，在没有法规的零样本测试中，GPT-3 的表现为偶然（0.50）或更差。但我们非常惊讶地检查了 GPT-3 的逐步推理，这表明对美国税法有一些（有缺陷的）了解。以下是一个例子，我们的完整提示以常规字体显示，并突出显示了 GPT-3 的完整响应：前提：鲍勃自 2014 年 4 月 15 日起成为爱丽丝的兄弟。假设：根据 I.R.C. 第 152(d)(2)(A) 条，爱丽丝与鲍勃有关系。答案：让我们一步一步思考。首先，I.R.C.第 152(d)(2)(A) 条规定，如果受抚养人是“同父异母或同母异父的兄弟姐妹”，则纳税人可以申报受抚养人。由于 Bob 是 Alice 的兄弟，因此根据 I.R.C. 第 152(d)(2)(A) 条，他有资格成为受抚养人。因此，这个假设是正确的。

回想一下，提示中没有提供任何法定文本，所以我们看到 GPT-3 认为它了解美国税法。但它的知识是不正确的，因为第 152(d)(2)(A) 条实际上规定，如果个人是纳税人的“(A) 子女或子女的后代”，则该个人是合格亲属。最接近的匹配是在以下子段，即第 152(d)(2)(B) 节，其中列出了“(B) 兄弟姐妹、继兄弟或继姐妹”。换句话说，GPT-3 在两个方面出了问题：首先，它错误地引用了错误的子段；其次，它混淆了同父异母的兄弟姐妹和继兄弟姐妹。由于这个和类似的结果，我们进行了下面第 4 节中描述的实验，以确定 GPT-3 对美国法典的了解程度。

GPT-3 错误地引用法规错误部分的倾向不仅限于不包含法规文本的提示。即使我们在提示本身中包含法规，也会发生这种情况。图 3 显示了一个例子。根据提示中的事实，GPT-3 正确地推断出爱丽丝是鲍勃的继母。但随后它混淆了第 152(b)(2)(D) 条和 (b)(2)© 条并给出了错误的答案。由于这些错误，我们在第 5 节中着手测试 GPT-3 对从未见过的合成法规进行推理的能力。GPT-3 知道 SARA 吗？ SARA 于 2020 年首次在互联网上发布，因此 SARA 可能出现在 GPT-3 的训练数据中。这反过来可能会影响这些实验的结果。为了测试这种可能性，我们首先问 GPT-3“什么是法定推理评估 (SARA)？”，它给出的答案是，这是针对“法学院学生、律师和其他法律专业人士”的多项选择测试。（我们不知道有这样的测试。）然后，我们尝试通过 20 个随机选择的 SARA 案例，然后输入文本“上面的文本来自哪里？” 所有答案都与 SARA 无关。模态答案（20 个中的 5 个）是该语言来自 IRS 网站。

GPT-3 对美国法典的了解

如前所述，GPT-3 对没有任何法定文本的零次 SARA 提示的回答表明它对美国税法有一些可能不完美的了解。在本节中，我们将探讨 GPT-3 对税法和美国法典的了解。美国法典或美国法典是美国永久性联邦法规的官方汇编。它被组织成 53 个编号标题，每个标题对应一个特定的主题。第 26 条，也称为《国内税收法典》，是美国税法。我们从两个方向分析 GPT-3 对美国法典的了解。一是给 GPT-3 美国法典某一章节的全文，并要求它识别其来源，包括标题和章节。另一个是要求 GPT-3 背诵某一章节的文本，并将其答案与实际文本进行比较。

给定美国法典中的法定文本，GPT-3 通常可以识别标题编号对于美国法典的 53 个标题中的每一个，我们随机选择了 10 个章节，其正文在 100 到 1000 字之间。设置 100 个字的下限是为了排除语义内容很少的法规，例如 26 U.S.C. §8003，全文内容为“联合委员会应从其成员中选出一名主席和副主席。” 设定 1000 个单词的上限是为了避免达到 GPT-3 4000 个总标记的硬性限制，每个单词可能由多个标记组成。对于每个部分，我们传递了一个由法规文本（不包括部分的名称、编号或标题）组成的提示，后跟换行符和文本“上面的文本来自哪里？”。

在这里插入图片描述
表 1：不同设置下 GPT-3 在 SARA 上的表现。双线以下是非 GPT-3 方法。我们报告了 90% 置信区间和准确答案的原始数量。

一旦我们得到回应，按照 Kojima 等人的做法，我们传递了原始提示和响应，加上文本“那么它来自美国法典吗？答案（是或否）是”。如果答案是肯定的，我们传递所有之前的提示和响应连接起来，加上文本“它来自美国法典的哪个标题？答案（阿拉伯数字）是”。如果我们得到了正确的答案，我们会将之前的所有提示和回答串联起来，再加上文本“它来自美国法典标题 N 的哪个部分？答案（阿拉伯数字）是”，其中 N 是正确的标题。我们 530 次测试的结果见表 2。

在这里插入图片描述
图 3：SARA 得出错误答案的示例，因为它将第 152(d)(2)© 节与 (d)(2)(D) 节混淆。此示例来自包含法规的 10 次思维链提示。为了简洁起见，我们省略了大部分提示。

在 GPT-3 正确识别标题但无法正确识别章节的 265 个章节中，它为 265 个章节中的 250 个识别了一个数字章节。在这 250 个章节中，有 36 个章节只偏离了一个（例如，GPT-3 将文本识别为来自 §104，而实际上它来自 §103）。对于恰好 100 个章节，GPT-3 偏离了 9 个或更少（例如，GPT-3 将文本识别为来自 §161，而实际上它来自 §170）。甚至当被问及“那么它来自美国法典吗？答案（是或否）是”时，GPT-3 回答“否”的 64 个提示中的许多都是可以理解的。例如，GPT-3 说 34 U.S.C. §10707 的文本不是来自美国法典。相反，GPT-3 回答说：“上面的文本来自 2016 年《综合阿片类药物滥用补助计划评估法案》。该部分实际上是由 2016 年《综合成瘾和康复法案》添加的。GPT-3 对该法案的标题略有误解，完全错过了它随后编入美国法典的过程。

与理解 GPT-3 在 SARA 上的表现特别相关的是，我们单独要求 GPT-3 识别 SARA 中九项精选法规的文本。GPT-3 正确识别了九项中的八项的标题和确切章节。（它错误地将 26 U.S.C. §3301 识别为 §3111。）这种高性能是有道理的，因为 SARA 中使用的章节是个人税收计算的核心，因此更有可能在 GPT-3 的训练语料库中被广泛讨论。表 2：当给出美国法典章节正文（但不是名称、章节编号或标题编号）时，GPT-3 的答案。
在这里插入图片描述
给定美国法典引文，GPT-3 可以背诵合理但不正确的法定语言我们刚刚看到，当给定美国法典中的法定文本时，GPT-3 能够很好地识别它（89% 正确），甚至识别其标题编号（63% 正确）。现在我们转向另一面：给定美国法典的引文，GPT-3 可以背诵文本吗？对于美国法典 53 个标题中每个标题中随机选择的 10 个法规，我们提示 GPT-3 “__ 美国法典第 __ 节的文本是：”，标题编号代替第一个空白，章节编号代替第二个空白。2 我们从未见过 GPT-3 准确地背诵法定文本。它总是以与美国法典相同的风格提供答案，使用国会正式、枯燥的风格，并经常组织成编号的小节、段落、小段等。有时 GPT-3 对某一章节的背诵能正确地概括该章节的要点，但会省略一些法定语言并插入一些不存在的法定语言。但很多时候，GPT-3 背诵的文本却给出了完全不正确章节要点。

我们旨在量化 GPT-3 至少对章节要点的把握程度。一种自然的可能性是 BLEU，这是一种用于评估机器翻译与参考人工生成的高质量交易的分数 [15]。但标准 BLEU 会强烈惩罚比人工生成的参考任务短的翻译，而 GPT-3 通常只背诵法规的关键部分。因此，我们使用未惩罚的 BLEU 指标，这是没有简洁性惩罚的标准 BLEU 分数。因此，与 BLEU 一样，未惩罚的 BLEU 范围从 0（最差）到 100（最好）。在我们要求 GPT-3 背诵的 530 个章节中，我们得到的平均未惩罚的 BLEU 分数为 7.11，中位数为 4.52。530 个章节中只有 28 个的未惩罚的 BLEU 超过 20。对于机器翻译标准，这些结果相当差。

鉴于 GPT-3 经常背诵与要求不同的章节大致正确的法定语言，我们计算了背诵文本与正确标题中所有章节的未惩罚的 BLEU 分数。例如，对于 17 U.S.C. §101，我们计算了 GPT-3 背诵该章节与标题 17 中包含的所有 147 个章节的未惩罚的 BLEU 分数。然后我们可以对实际的 U.S.C. 进行排名。部分与 GPT-3 的预测。这样，我们就可以测量预期部分的排名，从而测量 recall@k。Recall@1 仅为 1.5%（采样的 530 个部分中的 8 个），recall@5 仅为 4.7%（25/530）。

这些结果促使我们评估 GPT-3 背诵的文本是否完全反映了部分编号。对于 530 个样本中的每一个，我们通过从排名中减去 1 并除以标题中的部分数再减 1 来对标题中正确答案的排名进行归一化。如果正确答案在给定部分中排名第一，则其归一化召回率将为 0.0；如果 GPT-3 完全不关注所请求的部分编号，我们预计归一化排名平均为 0.5。我们观察到平均值为 0.48，中位数为 0.46，这表明 GPT-3 很少关注所请求的部分编号。

GPT-3 在对合成法规进行简单推理时遇到困难

我们不知道有什么技术可以确定 GPT-3 对美国法典的错误了解在多大程度上影响了其在 SARA 上的表现，SARA 基于美国法典中的九个章节。为了测试 GPT-3 对从未见过的法规进行推理的能力，我们编写了代码来创建完全合成的法规，使用与美国法典相同的编号样式（即小节、段落等）。然后，我们系统地提示 GPT-3 进行基本的法定推理任务，即给它一个事实并要求它确定某个小节是否适用。3 这些法定推理提示与 SARA 类似，涉及自成体系的法规、事实，然后是简单的问题。此外，我们还从 Saparov 和 He的设置中汲取灵感。

合成法规的创建图 1 显示了我们的合成法规之一的示例。为了避免任何歧义，法规涉及重复应用最基本的逻辑形式 𝐴 =⇒ 𝐵，例如 parkinse =⇒ rolang。换句话说，法规定义了术语（而不是强加职责）。许多现实世界的法规正是由这种术语定义组成，例如 26 U.S.C. §152(a)(1) 规定了合格的 child =⇒dependent。法规是根据深度和宽度定义的。宽度是对于每个术语 𝐵，陈述关系 𝐴 =⇒ 𝐵 的次数。深度是可以应用此逻辑形式的最大次数。例如，图 1 和图 4 中的合成法规都是 2 宽和 2 深。同时，图 5 中的合成法规是 2 宽 3 深。在内部，我们的代码使用树来表示这些法规。

我们的合成法规比美国法典的许多章节简单得多。它们不涉及否定或歧义，并且完全平衡，所有叶节点与根的深度相同，所有非叶节点的子节点数量相同。相比之下，美国法典的许多章节深度为 5，包括小节、段落、小段、条款和子条款，例如 26 U.S.C. §2。为了确保我们在 GPT-3 上测试它从未见过的合成法规，我们采用两种方法来生成要定义的术语。第一种方法是使用 nonce 生成器生成的英语 nonce；示例包括 roland、parkinse 和oxideney。第二种是使用由一个字母加重复两次的相同数字组成的随机 ID；示例包括 s88、f77、m55 和 a22。

零样本实验设置对于涉及我们的合成法规的零样本提示，如图 1 所示，我们给 GPT-3 的提示由四个连接的字符串组成：

合成法规
形式为“__ is a __.”的单个事实，例如“Alexis is a portle”。该名称是从一组 30 个名称中随机选择的（15 名女性，15 名男性）。4 事实的第二部分（例如 portle）始终是合成法规中某处出现的术语。
关于某个小节是否适用的问题（例如“第 1001© 节是否适用于 Alexis？”）。这个小节是随机选择的，尽管它从来都不是叶子，这意味着它从来都不是只占用一行的小节。在尝试了各种不同的问题表述方式后，我们选择了措辞“__ 是否适用于 __？”，结果如表 3 所示。
文本“让我们一步一步思考。”，其中 Kojima 等人发现在提示末尾添加此文本可最大限度地提高各种推理任务的性能。我们用这个字符串提示 GPT-3 以获得初始响应。为了得出明确的答案，我们第二次调用 GPT-3，提示是原始提示，加上初始响应，以及文本“因此，答案（是或否）是”。这遵循了 Kojima 等人的做法，并且通常是迫使 GPT-3 给出明确答案所必需的。这种提示的示例可以在图 4 中看到。

表 3：同一问题的不同措辞风格的结果，均在随机 2 宽、2 深的合成法规上进行测量。
人是 N，S 是子部分。T 是合成法规中定义的顶级术语。请注意，在我们生成的所有合成提示中，人 N 都是 T；唯一的问题是这是否通过 S 发生。请注意，包含 T 的问题表现一致比不包含 T 的两个问题差。我们进行了额外的 2000 次实验，以在前两个措辞之间进行选择。

在这里插入图片描述

为了测试 GPT-3 是否存在关于法规推理的问题，我们的代码还生成了每个合成法规的语义相同的句子版本。对于合成法规中的每个定义术语，我们的代码都会创建一个句子，其定义语言与法规的相应部分完全相同。这些句子被编号为“句子 1”、“句子 2”等，以供参考确定某个句子是否适用。对于向 GPT-3 提出的每个零样本问题，我们测试同一法规和问题的语义相同的句子版本。图 4 底部显示了一个示例。对于这些句子版本，提示同样由四个部分组成：

编号的句子，表达与综合法规相同的定义。
与法定版本相同的事实（例如“Alexis 是一个 portle。”）•
关于句子是否适用的问题（例如“句子 3 适用于 Alexis 吗？”）•
文本“让我们一步一步思考。”我们使用 nonce 和 ids 术语运行所有测试。

在这里插入图片描述
表 4：在给定关于 Alice 的单一事实的情况下，GPT-3 在回答法定条款是否适用于 Alice 时的零样本准确率。“term”列表示法定条款是“ansgivath”和“propial”之类的随机数，还是“f55”和“q11”之类的 ID。最右边的一列是 GPT-3 基于与合成法规语义相同的句子回答问题的准确率，如图 4 所示。

我们还使用法规版本的定义和语义相同的基于句子的版本运行所有测试。我们平衡所有测试，使正事实（例如第 1001(b) 节不适用）和负事实（例如第 1001(b) 节适用）的数量相等。结果见表 4。我们的主要发现是 GPT3 表现不佳，即使是最简单的法规（如图 1 中 2 宽、2 深的法规），其性能也只有 78% 左右。随着法规变得更宽或更深，性能进一步下降。

在这里插入图片描述
图 4：顶部：GPT-3 错误回答有关 2 宽、2 深法规的零样本问题的示例。底部：GPT-3 正确回答了语义相同的问题，其中合成法规以句子形式写成。GPT-3 生成的文本已突出显示。请注意，句子 1 完全对应于第 1001(a) 节，句子 2 对应于第 1001(b) 节，句子 3 对应于第 1001© 节。

其中包括 portle 之类的 nonce 和 m77 之类的 id 的术语。这是有道理的，因为这两种类型的合成法规都是为 GPT-3 设计的。我们还观察到，无论法规是以法规版本还是语义相同的基于句子的版本呈现，其表现都相当。GPT-3 正确回答了 9000 个法规问题中的 6537 个，但正确回答了 9000 个基于句子的版本中的 6562 个。GPT-3 的错误绝大多数是假阳性，这意味着它得出结论认为某个部分或句子适用，但实际上并不适用。在 9000 次 nonce 运行中，出现了 2272 个错误。其中，2204为假阳性，61 个为假阴性。（还有 7 个 GPT-3 没有给出明确答案。）

在这里插入图片描述
图 5：GPT-3 给出错误答案的两次提示。这是一条 2 宽、3 深的法规。请注意，GPT-3 给出的两个涉及 Hannah 和 Alyssa 的示例是正确的。GPT-3 的答案表明它错误地查看了第 1001(b)(2) 节，而不是 ©(2)。

两次实验设置鉴于 GPT-3 在上述零次法规推理中表现不佳，我们转向研究 GPT-3 在两次推理中是否表现更好。在两次推理中，我们在提出实际问题之前给出了两个正确的例子（一个回答是，另一个回答否）。所有两次实验都是用合成法规进行的，其中术语是 nonce。（我们既没有使用语义相同的句子，也没有使用像 g11 这样的 id。）图 5 中出现了一个涉及 2 宽、3 深法规的两次示例。两个正确回答的问题都是“__ 是 __。第 __ 节适用于 __ 吗？”的形式，后面跟着正确的解释和答案。回答是的问题以 50% 的概率排在第一位。这两个问题都与同一部分有关，该部分从不与第三个问题中询问的部分重叠。这三个问题都涉及不同的随机选择的名称（例如 Hannah、Alyssa、Nicholas）和随机选择的术语（例如 chastiles、goghts、pushotyptopses）。
在这里插入图片描述
表 5：当提示有两个具有推理和正确答案的示例问题时，GPT-3 的两次准确率，如图 5 所示。最左边的一列重现了表 4 中可比的零次准确率。

我们发现，两次测试模型的性能均优于零次测试模型（表 5）。通过两个示例，GPT-3 似乎能够处理 100% 的 2 宽、2 深法规，例如图 1 第一页中所示的法规。与零次测试设置一样，GPT-3 的准确率往往会随着法规的深度和宽度的增加而下降。GPT-3 在 3 宽、3 深法规上的表现仍然相当差（81%），与美国法典中许多章节的复杂性相比，这些法规本身就显得微不足道。

结论

能够确定不熟悉的法规的特定小节是否适用于给定的事实集是律师所需的最基本技能之一。我们发现，给定一个非常简单的 2 宽、2 深合成法规，搭配一个事实和一个问题（零样本），GPT-3 的准确率为 78%，这让人怀疑 GPT-3 处理基本法律工作的能力。提供两个正确的法规推理示例（两次推理）可以提高 GPT3 的性能，但它仍然只能在 3 宽、3 深的合成法规上实现（81%），这比美国法典中的复杂程度要低得多。这种合成法规推理的糟糕表现让我们能够理解将 GPT-3 应用于 SARA 数据集的结果。这些结果的准确率为 71%，比之前的最先进水平要好，但仍有很大的改进空间。

三月七꧁ ꧂

关注

13
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
Can GPT-3 Perform Statutory Reasoning?

法定推理是用事实和法规进行推理的任务，法规是立法机关用自然语言编写的规则。这是一项基本的法律技能。在本文中，我们探讨了最强大的 GPT-3 模型 text-davinci-003 在成熟的法定推理数据集 SARA 上的能力。我们考虑了多种方法，包括动态少量提示、思维链提示和零次提示。虽然我们使用 GPT-3 获得的结果比之前发布的最佳结果要好，但我们也发现了它犯的几种明显错误。我们调查了这些错误发生的原因。我们发现 GPT-3 对 SARA 所基于的实际美国法规的先验知识并不完善。
复制链接

扫一扫