题目
大型语言模型在法律判决预测方面的综合评估
论文地址:https://aclanthology.org/2023.findings-emnlp.490/
项目地址:https://github.com/srhthu/LM-CompEval-Legal
摘要
大型语言模型 (LLM) 已显示出在特定领域应用(例如法律领域)中的巨大潜力。然而,最近围绕 GPT-4 法律评估的争议引发了人们对其在现实世界法律任务中的表现的质疑。为了系统地调查他们在法律方面的能力,我们基于 LLM 设计了实用的基线解决方案,并在法律判断预测任务上进行了测试。在我们的解决方案中,LLM 可以单独工作以回答开放式问题,或与信息检索 (IR) 系统协调以从类似案例中学习或解决简化的多项选择题。我们表明,提示中包含的类似案例和多项选择选项(即标签候选)可以帮助 LLM 回忆对专业法律推理至关重要的领域知识。我们还提出了一个有趣的悖论,其中 IR 系统的表现优于 LLM+IR,因为较弱的 LLM 从强大的 IR 系统获得的收益有限。在这种情况下,LLM 的作用变得多余。我们的评估流程可以轻松扩展到其他任务中,以促进其他领域的评估。代码可在 https://github.com/srhthu/ LM-CompEval-
大型语言模型在各种自然语言处理 (NLP) 任务中取得了巨大成功,但对于其在特定领域应用的潜力仍存在一些争议。 专注于法律领域,领先的LLM GPT-4据称以 90 分的成绩通过了统一律师资格考试 (UBE)。 然而,尽管这一结果令人鼓舞,但有人指出它被高估了。这就引出了一个有趣的问题:LLM 在现实世界中的各种法律任务中究竟表现如何?在本文中,我们基于 LLM 设计了实用的基线解决方案,并系统地研究了它们在法律方面的能力,以阐明其他领域。我们将之前的基准测试的主要问题归因于以下几点。首先,UBE 过于笼统,不受任何法律管辖。其次,UBE 包含多项选择题和开放式问题,需要人类专家评估。为了避免人工评估,一些数据集用多项选择题代替开放式问题。然而,在现实世界的应用中,不仅有多选题,还有开放式问题。仅使用多项选择题可能不够全面。第三,具体到普通法中(但不限于此),总是引入类似案例作为证据来支持专业知识的法律推理,而这些案例并非完全在之前的基准测试中研究过。
对于第一个问题,我们选择法律判决预测 (LJP)作为调查的示例任务。如图 1 所示,确定司法制度下被告所犯的罪名是一个现实问题。LJP 通常被表述为分类任务,以从预定义的罪名列表中预测最可能的罪名。然后,对于第二和第三个问题,我们设计了四种设置,它们源自 LLM 的两个工作场景,以涵盖开放式和多项选择题以及类似案例的使用。在第一个场景中,LLM 单独工作,没有提示中的明确知识,假设所有领域知识都隐式存储在参数中。在第二个场景中,LLM 与信息检索 (IR) 系统协调,该系统通过类似的演示丰富提示并标记候选以有利于专业知识推理。具体而言,示范由相似案件及其指控的对组成,IR 系统根据案件事实的相似性检索这些对。检索到的案件的标签可以形成标签候选,在图 1 中显示为不同颜色的圆圈,以向 LLM 提示标签信息并缩小标签空间。
图 1:法律判决预测任务及评估设置。不同颜色代表不同的指控。对于相似案件,“T”表示与查询案件指控相同的真实相似案件,“F”表示虚假相似案件。对于任务设置,“ZS”是 zero-shot 的缩写,“FS”是 few-shot 的缩写。
图 1 中的四种评估设置可以根据提示中两个元素的存在进行分类:示范(类似案件)和标签候选。示范将设置从零样本转换为少样本提示,而标签候选将任务从开放式问题简化为多项选择题1。第一种场景对应于第一种设置,其中不存在任何元素,而第二种场景包含其余三种设置。我们评估了闭源 GPT-3系列、ChatGPT 和 GPT-4的五个最新 LLM,以及开源 LLM,包括 Vicuna、ChatGLM和 BLOOMZ。评估基于中国 LJP 数据集,即 CAIL,其中包含 112 项刑事指控2 。我们重点介绍以下主要发现:
- 类似案例和标签候选可以帮助LLM 会回忆对专业法律推理至关重要的领域知识。
- 标签候选产生更一致的输出,表明 LLM 对其领域知识更有信心 。
- 固定案例形成的不相关演示几乎不会提高性能。这排除了它们对任务说明的影响。
- 悖论:IR 系统可以胜过 LLM+IR,因为较弱的 LLM 从强大的 IR 系统检索到的信息文档中获得的收益有限。