A Comprehensive Evaluation of Large Language Models on Legal Judgment Prediction

题目

大型语言模型在法律判决预测方面的综合评估

在这里插入图片描述

论文地址:https://aclanthology.org/2023.findings-emnlp.490/
项目地址:https://github.com/srhthu/LM-CompEval-Legal

摘要

    大型语言模型 (LLM) 已显示出在特定领域应用(例如法律领域)中的巨大潜力。然而,最近围绕 GPT-4 法律评估的争议引发了人们对其在现实世界法律任务中的表现的质疑。为了系统地调查他们在法律方面的能力,我们基于 LLM 设计了实用的基线解决方案,并在法律判断预测任务上进行了测试。在我们的解决方案中,LLM 可以单独工作以回答开放式问题,或与信息检索 (IR) 系统协调以从类似案例中学习或解决简化的多项选择题。我们表明,提示中包含的类似案例和多项选择选项(即标签候选)可以帮助 LLM 回忆对专业法律推理至关重要的领域知识。我们还提出了一个有趣的悖论,其中 IR 系统的表现优于 LLM+IR,因为较弱的 LLM 从强大的 IR 系统获得的收益有限。在这种情况下,LLM 的作用变得多余。我们的评估流程可以轻松扩展到其他任务中,以促进其他领域的评估。代码可在 https://github.com/srhthu/ LM-CompEval-

    大型语言模型在各种自然语言处理 (NLP) 任务中取得了巨大成功,但对于其在特定领域应用的潜力仍存在一些争议。 专注于法律领域,领先的LLM GPT-4据称以 90 分的成绩通过了统一律师资格考试 (UBE)。 然而,尽管这一结果令人鼓舞,但有人指出它被高估了。这就引出了一个有趣的问题:LLM 在现实世界中的各种法律任务中究竟表现如何?在本文中,我们基于 LLM 设计了实用的基线解决方案,并系统地研究了它们在法律方面的能力,以阐明其他领域。我们将之前的基准测试的主要问题归因于以下几点。首先,UBE 过于笼统,不受任何法律管辖。其次,UBE 包含多项选择题和开放式问题,需要人类专家评估。为了避免人工评估,一些数据集用多项选择题代替开放式问题。然而,在现实世界的应用中,不仅有多选题,还有开放式问题。仅使用多项选择题可能不够全面。第三,具体到普通法中(但不限于此),总是引入类似案例作为证据来支持专业知识的法律推理,而这些案例并非完全在之前的基准测试中研究过。

    对于第一个问题,我们选择法律判决预测 (LJP)作为调查的示例任务。如图 1 所示,确定司法制度下被告所犯的罪名是一个现实问题。LJP 通常被表述为分类任务,以从预定义的罪名列表中预测最可能的罪名。然后,对于第二和第三个问题,我们设计了四种设置,它们源自 LLM 的两个工作场景,以涵盖开放式和多项选择题以及类似案例的使用。在第一个场景中,LLM 单独工作,没有提示中的明确知识,假设所有领域知识都隐式存储在参数中。在第二个场景中,LLM 与信息检索 (IR) 系统协调,该系统通过类似的演示丰富提示并标记候选以有利于专业知识推理。具体而言,示范由相似案件及其指控的对组成,IR 系统根据案件事实的相似性检索这些对。检索到的案件的标签可以形成标签候选,在图 1 中显示为不同颜色的圆圈,以向 LLM 提示标签信息并缩小标签空间。

在这里插入图片描述
图 1:法律判决预测任务及评估设置。不同颜色代表不同的指控。对于相似案件,“T”表示与查询案件指控相同的真实相似案件,“F”表示虚假相似案件。对于任务设置,“ZS”是 zero-shot 的缩写,“FS”是 few-shot 的缩写。

    图 1 中的四种评估设置可以根据提示中两个元素的存在进行分类:示范(类似案件)和标签候选。示范将设置从零样本转换为少样本提示,而标签候选将任务从开放式问题简化为多项选择题1。第一种场景对应于第一种设置,其中不存在任何元素,而第二种场景包含其余三种设置。我们评估了闭源 GPT-3系列、ChatGPT 和 GPT-4的五个最新 LLM,以及开源 LLM,包括 Vicuna、ChatGLM和 BLOOMZ。评估基于中国 LJP 数据集,即 CAIL,其中包含 112 项刑事指控2 。我们重点介绍以下主要发现:

  1. 类似案例和标签候选可以帮助LLM 会回忆对专业法律推理至关重要的领域知识。
  2. 标签候选产生更一致的输出,表明 LLM 对其领域知识更有信心 。
  3. 固定案例形成的不相关演示几乎不会提高性能。这排除了它们对任务说明的影响。
  4. 悖论:IR 系统可以胜过 LLM+IR,因为较弱的 LLM 从强大的 IR 系统检索到的信息文档中获得的收益有限。

    因此,调整 LLM 以使用检索到的文档进行生成至关重要。更多类似案例同时引入了更多知识和噪音,其最终结果取决于 LLM。主要贡献总结为三个方面:

  • 我们研究了 LLM 在法律判断预测任务中的法律能力。
  • 我们为 LLM 提出了实用的基线解决方案,可解决两种情况:单独工作或与 IR 系统协调工作。
  • 我们评估了五个 LLM,并进行了全面的分析,以揭开它们专业知识推理特征的神秘面纱。

基线方法

    法律判决预测的目标是根据案件事实确定所提交的指控。为了利用 LLM 进行 LJP,我们采用了情境学习,并使用 LLM 生成以提示为条件的指控。为了增强 LLM,我们将由类似案例组成的标签候选和演示合并到提示中,这些提示由 IR 系统获取。这得出了四种基线解决方案设置,即零样本开放式问题、少样本开放式问题、零样本多选题和少样本多选题。多选设置使用标签候选,而少样本设置包括演示,如图 1 所示。最后,我们介绍如何模拟具有不同功能的 IR 系统以了解它们的效果。LLM 提示提示设计。提示以说明任务的指令开始,然后是标签以输入-输出对的形式将候选和任务演示呈现给用户。

    解析。我们对所有 LLM 采用一个自动解析函数,将 LLM 输出映射到预定义的指控标签。没有采用任何临时启发式方法进行公平比较。具体而言,我们使用 BM25 算法3 来测量输出与预定义指控之间的文本相似性并预测最相似的指控。BM25 非常稳健,在我们的试点实验中可产生与 text2vec4 等神经相似性方法相当的性能。推理。受 Wang 等人的启发,在生成过程中启用采样以获得一致的结果。每个提示采样五个输出,温度为 0.8。对它们的预定义标签的相似度得分取平均值。用于知识整合的 IR 系统 IR 系统用于检索律师和法官经常参考的类似案件,以指导他们的判断。除了提供演示之外,这些相似案例还可以通过合并来自顶级相似案例的标签来帮助生成潜在标签。通过使用这些较小的预定义指控集(即标签候选),可以将复杂的开放式问题简化为多项选择题。这种方法可以有效地增强 LM 提示,因为在提示中直接包含数百个指控是不切实际的。

    IR 系统的实现。我们使用 BM25 算法来测量案例之间的语义相似性。从训练数据集中检索相似案例。为了保证演示能够举例说明多选选项之一,我们排除了标签不在候选选项中的演示5 。IR 系统的模拟为了研究 IR 功能的影响,我们模拟了一系列具有不同功能的 IR 系统,以 Precision@16 为衡量标准。然后使用最热门的检索到的案例作为演示。我们将与查询案例具有相同指控的案例视为真正的相似案例,反之亦然。真实模拟。对于简单查询案例,我们优先返回真实相似案例,而不是随机返回。查询难度通过第 2.2 节中描述的 BM25 检索器的 Precision@10 来衡量。动机是具有影子语言特征的查询比复杂或模糊的查询更有可能获得相关的检索结果。对于要模拟的特定值(例如 a%)的 Precision@1,确保前 a% 的简单测试用例具有真实相似案例,而其余的则分配为虚假相似案例。

实验设置

    以下是对要评估的五个 LLM 的简要介绍。GPT-4和 ChatGPT 可从 OpenAI API 获得,并使用 gpt-4-0314 和 gpt-3.5-turbo-0301 版本。技术细节方面,ChatGPT 据称是 InstructGPT的姊妹模型,该模型使用 RLHF 算法 进行训练,以遵循指令并符合人类偏好。Vicuna-13B 是一个 LLaMA 模型,该模型在 70K 个与 ChatGPT 公开用户共享的对话上进行了微调。可以查看它以学习 ChatGPT 的提炼知识。ChatGLM-6B 是一种基于 GLM 架构的对话语言模型,支持英语和中文。BLOOMZ是一个指令微调的 BLOOM,这是一种多语言语言模型。我们使用针对多语言提示进行调整的 bloomz-7b1-mt 版本。除了 BLOOMZ,Vicuna 和 ChatGLM 主要针对对话数据进行微调。

    数据集和预处理 我们在实验中使用了中文 LJP 数据集 CAIL。每个样本由案件事实和作为标签的已提交指控组成。由于原始数据集非常大(训练约 100K,测试约 20K),我们从原始测试集中随机抽取一个平衡的小测试集。每个指控抽取 5 个案例,占总共 560 个测试用例,涉及 112 个费用。同样,我们也对训练集和验证集进行了采样,每个费用采样 10 个案例。训练集用于检索相似案例(第 2.3 节),而验证集用于确定 kNN 算法的最优 k。截断。由于某些案例的描述非常长,我们将演示的案例事实截断为 500 个标记,将测试样本的案例事实截断为 1000 个标记。值得注意的是,为了进行公平比较,文本在截断之前已由每个模型的标记器进行标记。最近,Petrov 等人(2023)解决了标记器可能导致不同语言性能不同的问题。

    这表明,特定语言的性能也会受到来自具有不同语言编码效率的各种模型的标记器的影响。表 1 显示了不同标记器处理的标记数统计信息8。以 token 数量中位数来衡量,效率最高的分词器是 ChatGLM 和 BLOOMZ。相比之下,ChatGPT 的分词器产生了 2 倍的 token,而 Vicuna 的分词器产生了 2.5 倍的 token。截断长度合适,可以适应大多数样本。表 1:各标记器中的标记数量统计。最后两列表示标记数低于指定值的测试样本的比例。
在这里插入图片描述

LLM 与 IR 系统的 LLM

    我们首先展示总体结果,强调标签候选和类似案例的重要性,并对模型进行比较分析。随后,我们研究标签候选与自洽之间的关系,以揭示它们对专业知识推理的实际影响。此外,我们通过用固定案例替换类似案例作为示范,进行消融研究,以进一步了解它们的影响。

图 2:四种设置的宏观对比。“+Label”代表零样本多选题;“+Sim Case”代表少样本开放题;“+Label +Sim Case”代表少样本多选题。后两种设置中模型的多个点指的是不同演示次数的运行
在这里插入图片描述

    图 2 显示了四种设置之间的宏观比较,其中每个点代表一个模型的一次特定运行的性能。标签候选和类似案例的重要性。与 LLM 单独工作的零样本开放问题设置相比,标签候选、类似案例或两者的加入都显示出值得注意的增强。这凸显了我们的基线解决方案的有效性,这些解决方案利用 IR 系统扩展了 LLM 在法律领域的功能。这些发现与之前的研究一致,该研究也认识到了这两个组成部分的重要性。标签候选和类似案例的影响在性能平均值和方差。标签候选有助于提高平均性能,而类似案例则会带来更大的方差。检查图 2 中显示的第三个设置(+Sim Case)中的模型性能,GPT-4 和 ChatGPT 从类似案例中表现出比较小的模型更显着的改进。与从标签候选中获得的收益相比,它们从类似案例中获得的收益也更多。这一观察结果可以归因于知识利用的难度水平不同。虽然标签候选中的知识易于获取且简单易懂,但利用类似案例需要更强的语言理解能力和少量学习能力。

在这里插入图片描述

图 3:比较每种设置下的模型。Fewshot 性能是 1-shot 到 4-shot 之间的平均值。

    此外,标签候选和类似案例的共存进一步提高了 GPT-4 和 ChatGPT 的性能,但降低了 Vicuna、ChatGLM 和 BLOOMZ 的性能。这表明较小的 LLM 可能会在同时有效管理多种形式的知识方面遇到挑战,从而导致混乱。模型比较。图 3 显示了零样本和少样本提示下的模型性能,其中少样本性能是 1 样本到 4 样本的平均性能。零样本设置强调理解指令的能力。当只有指令可用时,BLOOMZ 的表现优于 ChatGPT,表明其具有出色的多语言指令遵循能力。这个结果是合理的,因为 BLOOMZ 是唯一一个针对多语言指令进行微调的小型 LLM。一旦提供明确的领域知识,ChatGPT 的表现就会优于所有较小的 LLM。BLOOMZ 和 ChatGLM 的情况也是如此,ChatGLM 凭借对标签候选的知识超越了 BLOOMZ。当使用两种形式的知识提示时,BLOOMZ 的表现最差,这表明 BLOOMZ 对提示的鲁棒性不是很高。在三个较小的 LLM 中,ChatGLM 对各种形式的知识的鲁棒性最强。

在这里插入图片描述

图 4:添加标签候选后性能和自洽性的变化。每个模型的变化用从开放式问题设置指向多项选择设置的箭头表示。

    标签候选和类似情况的显著影响可以解释为它们激活了 LLM 对相关领域知识的记忆。关于标签候选和自洽性的关系以及无关案例作为固定演示的可忽略不计的影响的两个证据可以支持这一观点。标签候选增强了自洽性和置信度 为了进一步了解标签候选的效果,我们提出了一个衡量 LLM 自洽性的指标,该指标以多数预测的数量计算9。一致的输出表明对 LLM 的置信度很高,这通常与更好地掌握知识有关。引入标签候选后,性能和自洽性的变化如图 4 中的箭头所示。我们观察到,除了零样本 GPT-4 和少样本 BLOOMZ 外,标签候选的加入会导致更一致的输出(10 种情况中的 8 种)和更高的 LLM 置信度。在零样本设置中,标签候选显着提高了 LLM 的性能。我们假设标签候选通过引出具有简洁电荷名称的预存储领域知识来提供帮助。此外,自洽性也与模型性能相关(10 个案例中的 7 个)。这种相关性也出现在问答等其他任务中。值得注意的是,标签候选降低了小样本提示的 BLOOMZ 的自洽性和性能,这也与相关性一致。

    领域知识比任务说明更重要有一种可能的论点是,类似的演示可以帮助 LLM 理解指令和任务。为了理清它们对任务说明和领域知识提供的影响,我们对所有测试样本固定无关演示进行实验。我们手动选择原始数据集中两个常见且频繁出现的指控案例作为固定演示。对两个演示的 1 次测试性能取平均值。我们在图 5 中将固定和类似演示的效果与零样本开放式问题的基线设置进行了比较。从中间到左边的性能变化表明固定演示几乎不会给 LLM 带来好处,有时甚至会损害性能(例如 ChatGLM)。这表明 LLM 基本上可以理解指令,不需要一般演示来澄清任务,这意味着专业知识推理的主要挑战是回忆领域知识而不是理解特定任务。我们检查了固定演示导致 ChatGLM 性能明显下降的情况。我们发现 ChatGLM 倾向于分析演示和测试样本的案例,然后用它们的指控来回答。它的冗长风格似乎来自微调对话语料库,其中助理 LLM 应该提供丰富的信息。相比之下,类似的案例似乎鼓励按照演示的格式输出更简洁的信息。

在这里插入图片描述
图 5:固定(不相关)和类似案例作为演示的效果。除以零样本开放问题基线设置,左侧部分表示固定演示,演示次数增加,右侧部分表示类似演示。阴影区域表示标准差的范围

信息检索系统的悖论

    说明的类似演示的重要性促使人们研究以提示为导向的 IR 系统 (Rubin et al, 2021; Sun et al, 2023) 为重点,以检索高质量性演示。然而,我们提出了一个直观的问题:与利用 IR 系统进行分类任务的 kNN 基线相比,LLM 是否从 IR 系统获得了显着的改进?这个问题的灵感来自我们的观察,即 BM25 检索器通过对前 k = 17 个检索到的类似案例的多数投票实现了 48.03% 的 Precision@1 10 和 57.68% 的预测准确率。这一观察结果表明了一种自相矛盾的情景,其中 IR 系统优于 LLM 和 IR 的组合,其中 LLM 占据主导地位,而 IR 充当辅助角色。在这种情况下,LLM 变得多余,因为它未能充分利用检索到的信息丰富的文档。为了研究这个悖论,我们没有尝试不同的 IR 系统,而是操纵 BM25 检索器来模拟一系列具有不同能力的 IR 系统,这些系统由 Precision@1 测量,如第 2.3 节所述。我们以 ChatGPT 为例,其在不同 IR 系统下的 1-shot 性能(表示为 Precision@1)如图 6 所示。

在这里插入图片描述

图 6:ChatGPT 与一系列模拟 IR 系统配合使用时的性能,这些系统具有不同的能力,以 Precision@1 为衡量标准。垂直蓝线表示 IR 系统超越 ChatGPT 的 IR 能力阈值。ChatGPT 在真实环境(一次开放式问题)中的表现用红色加号表示

    结果虽然通过 IR 系统增强的 ChatGPT 的性能随着 IR 能力的提高而提高,但一旦 IR 能力超过某个阈值,它最终会表现不佳。在始终检索真实相似案例的理想情况下,ChatGPT 无法达到 100% 的准确率,并且远远落后于最佳 IR 系统。根据附录 A.4,所有较小的 LLM 都无法与 BM25 检索器相提并论。讨论研究结果表明,LLM 在有效利用信息方面面临挑战检索文档。这强调了需要进行大量研究工作,通过更多地根据检索到的文档调节模型输出来增强自回归语言模型和检索之间的协同作用。先前的研究已经探索了在预训练和微调阶段通过检索增强 LLM(Borgeaud 等人,2022;Wang 等人,2023)。此外,检索的边际和不足的改进表明现有一般 LLM 的法律推理能力有限。未来需要努力增强预训练基础模型的领域特定推理能力。

消融研究

    更多的演示并不总是更好 图 7 描绘了类似演示数量(n)的影响。很明显,GPT-4 和 ChatGPT 表现出处理大量演示的能力,从而提高了性能,而 Vicuna、ChatGLM 和 BLOOZ 的性能随着数量的增加而下降程度不同。值得注意的是,ChatGLM 对 n 的敏感度最低。此外,当 n 从 3 增加到 4 时,即使是 ChatGPT 的性能也会下降。n 值较大导致的性能提升可以归因于真实相似案例的召回率提高。相反,性能下降可以归因于更多虚假相似案例引入的噪音。性能变化。图 8 中使用热图可视化了包含额外演示后的性能变化。对于每个模型,三个热图代表从 k 次演示到 (k+1) 次演示的变化,如下所示。对于每个热图,两行表示包含真实(T)或虚假(F)相似案例的新演示,而列表示现有演示的组合。以第二张热图为例。(F,T)列和(T)行中的单元格显示(F,T)演示的 2 次演示和(F,T,T)演示的 3 次演示之间的性能变化。紫色代表性能提升,绿色代表性能下降。

    对于 ChatGPT 和 BLOOMZ,它们的三张热图的第二行主要为紫色,表明由于包含真实相似案例而导致的显着增强。然而,BLOOMZ 的第一行显示比 ChatGPT 更深的绿色,这表明 BLOOMZ 因包含虚假相似案例而经历更大程度的性能下降。这些发现表明对虚假相似演示的敏感度不同。像 GPT-4 和 ChatGPT 这样的强大语言模型在虚假相似案例中表现出对噪声的鲁棒性,使它们能够在真实相似案例中保持对相关信息的关注。相反,较弱的 LLM 容易受到这种噪声的影响。总体而言,当提供更多相似演示时,ChatGPT 的表现会更好,而 BLOOMZ 则表现出相反的情况,如图 7 所示。结论是,增加演示数量对专业知识推理既有积极影响,也有消极影响。然而,在需要清晰任务说明的任务中,LLM 可能会从额外的演示中获益。

在这里插入图片描述

图 7:五个 LLM 的表现与类似演示的数量。

    缺失真实标签的影响 我们手动将真实标签合并到标签候选中以防它们缺失,这可能是由于中描述的 IR 系统的有限召回能力而发生的。根据 IR 系统对测试样本的真实标签的检索,将测试样本分为两组,即“Easy”和“Hard”。图 9 显示了这两组的原始性能以及修改提示以包含真实标签的“Hard”组的性能,即“Hard+GT”。“Easy”和“Hard+GT”组之间的性能差距表明,对 IR 系统来说具有挑战性的样本对 LLM 来说也很困难。然而,对于强大的 GPT-4 来说,这个差距微不足道,因为它认为它们具有同等的挑战性。与“Hard”相比,“Hard+GT”的改进在GPT-4、ChatGPT和ChatGLM中很明显,但在法律能力较差的Vicuna中并不明显。考虑到“Hard”组的规模相对较小(79/560),缺少基本事实标签不会产生显着影响,尤其是对于较弱的LLM。

在这里插入图片描述

图 8:由于包含新演示而导致的性能变化热图。“T”对应于具有真实相似案例的演示,而“F”表示具有虚假相似案例的演示。每行代表包含的新演示,而每列表示现有演示的状态。

    合并法律文章我们研究了将明确定义指控的法律文章合并到提示中的效果。对于IR系统11检索到的每一项指控,ChatGPT都需要通过回答是或否来确定被告是否因特定指控而有罪。我们发现94.46%的基本事实指控被准确检测到,而只有27.31%的检测到的指控是正确的。高召回率和低准确率表明ChatGPT与法律专家在区分指控和做出精确判断的能力方面存在显着差异。

在这里插入图片描述

图 9:零样本多选题设置下“Easy”和“Hard”样本的表现。“Hard+GT”是指在标签候选中包含缺失的 ground truth 标签的改进。

讨论

    我们将 LLM 与监督基线进行比较。我们在相同的训练集上对 BERT进行了微调,并实现了与 ChatGPT 相当的 68% 的准确率,但低于 GPT-4。由于 LLM 未针对特定的 LJP 任务进行微调,因此该结果凸显了 LLM 在获取重要知识和利用迁移学习方面的显著优势。但是,我们观察到,当使用原始训练集(~10K)进行训练时,BERT 的性能提高到 89%。我们发现某些知识存在于影子特征中,可以通过监督轻松学习。这些表面特征可能导致有偏差的监督模型。幸运的是,无监督的预训练目标使 LLM 更加稳健,不易受到此问题的影响。这为各个领域的 NLP 应用描绘了光明的未来。

结论

    为了解决评估LLM在法律领域能力的不足,我们专注于法律判断预测任务,并设计了四种设置以促进全面评估,这些设置涵盖开放式和多项选择题,并结合类似案例来帮助决策过程。评估结果显示,与规模较小的LLM相比,知名llm(即 GPT4 和 ChatGPT)的行为有所不同。GPT-4 和 ChatGPT 都表现出了有效利用各种格式领域知识的非凡能力。在规模较小的LLM中,ChatGLM 表现出更高的稳健性,而 BLOOMZ 则展示了卓越的零样本能力。

  • 13
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值