SAILER: Structure-aware Pre-trained Language Model for Legal Case Retrieval
原文链接:https://arxiv.org/abs/2304.11370
(2023)
标题
结构感知
预训练语言模型
法律案例检索
摘要
法律文档特点:
1)具有逻辑结构、长文本
(现在模型难理解长距离)
2)对于关键要素敏感,即使细微差别也会影响相关性判断
(现在模型不能处理)
本文:
1)关注结构、关注要素
2)多个预训练目标,利用非对称 encoder-decoder
3)模型区分能力强,无标注也能区分不同案件
法律案件检索旨在为查询案件找到相关案件,在智能法律系统中发挥着核心作用。尽管预训练在临时检索任务中取得了成功,但有效的法律案例检索预训练策略仍有待探索。与一般文档相比,法律案例文档通常是具有内在逻辑结构的长文本序列。然而,大多数现有的语言模型很难理解不同结构之间的长距离依赖关系。此外,与一般检索相比,法律领域的相关性对关键法律要素很敏感。即使关键法律要素上的细微差别也会显着影响相关性的判断。然而,现有的为通用目的而设计的预训练语言模型尚未具备处理法律要素的能力
为了解决这些问题,在本文中,我们提出了 SAILER,一种用于法律案例检索的新的结构感知预训练语言模型。突出表现在以下三个方面:(1)SAILER充分利用法律案例文件中包含的结构信息,更加关注关键的法律要素,类似于法律专家浏览法律案例文件的方式。 (2) SAILER采用非对称编码器-解码器架构来集成多个不同的预训练目标。通过这种方式,跨任务的丰富语义信息被编码成密集向量。 (3)SAILER即使在没有任何法律标注数据的情况下也具有强大的判别能力。能够准确区分不同罪名的法律案件。对公开可用的法律基准进行的广泛实验表明,我们的方法在法律案例检索方面可以显着优于以前最先进的方法。
1 引言
还是两件事:一个是长,一个是关键要素
1)如何解决长:encoder-decoder 捕获 Fact 和法律案例文档中其他部分的关系
Deep encoder:将 Fact 编码成密集向量
shallow decoder:重建 Reasoning 和 Decision 段落中被 masked 的文本
2)如何解决关键要素:利用 Reasoning 和 Decision 增强对于关键要素的理解
法律案例检索是现代法律体系的重要组成部分。为了公正和公平,法律专家有必要针对具体案件查找和分析相关判例,然后再做出判决。近年来,随着法律案例文件的爆炸式增长,在整个语料库中找到相关的案例变得越来越困难。因此,法律案例检索系统的研究受到了法律界和信息检索界的广泛关注[2,3,24,31,38]。
在法律案件检索等特定领域,由于需要领域专业知识,构建高质量的带注释数据集通常是劳动密集型且令人望而却步的。然而,最先进的检索系统通常是基于用大规模注释数据训练的神经模型构建的。因此,IR研究人员建议利用预训练语言模型(PLM),即在没有监督数据的情况下训练的大规模神经模型来进行语言理解,以进行有效的检索[13,17,36,43]。之前的研究 [7,10,16,42] 表明,BERT [9] 和 RoBERTa [18] 等 PLM 在零样本和少样本设置下,文档检索数据集(如 MS MARCO 和 TREC DL)上显着优于现有的神经检索模型。
尽管预训练语言模型在即席检索和开放域搜索方面具有出色的性能,但在法律案例检索中尚未观察到预训练语言模型的有效性。与传统的检索任务相比,PLM 在法律案例检索中的应用提出了两个被现有研究忽视的重大挑战[31]。
挑战 1. 法律案件文件通常是具有内在写作逻辑的长文本序列。如图1所示,判例法体系和成文法体系1中的案件文件通常由五个部分组成:程序、事实、推理、判决和尾部(我们将在第3节中讨论这些部分的细节)。每个部分代表一个特定主题,字数从数百到数千不等。这些部分是用标准的法律逻辑编写的,并且通常是相互关联的。现有的 PLM 要么具有有限的文本建模能力,阻碍了它们对长文档进行建模的能力 [9, 18],要么忽略了法律案例文档的结构,导致它们无法捕获法律写作逻辑中的长距离依赖关系 [34]。因此,基于 PLM 的普通检索器的性能受到限制。
挑战2. 法律领域的相关性概念与一般检索中的相关性概念有很大不同。在法律案件检索中,两个法律案件之间的相关性对其关键法律要素(例如“强夺他人财物”、“任意损坏他人财物”等)敏感。这里,关键法律要素包括关键情形和关键情形或因素的法律概念抽象[24]。没有关键法律要素或关键法律要素不同的案件可能会导致不同的判决。
例如,如表 1 所示,这两个段落在即席检索中通常被认为是相关的,因为它们共享大量的关键字和句子。但在法律案件检索中,这两段内容互不相关,可能会因关键法律要素的影响而导致完全不同的判断。如果没有指导,基于开放域 PLM 的神经检索模型很难理解关键的法律要素,导致法律领域的检索性能不佳
为了应对这些挑战,我们提出了一种用于法律案例检索的结构感知预训练语言模型(SAILER)。 SAILER 采用编码器-解码器架构来显式建模并捕获事实与法律案例文档其他部分之间的依赖关系(挑战 1)。同时,SAILER利用推理和决策段落中的法律知识来增强对关键法律要素的理解(挑战2)。
具体来说,我们使用深度编码器将事实段落编码为密集向量。然后,在事实向量的帮助下,应用两个浅层解码器分别重建推理和描述段落中的积极屏蔽文本。这样,SAILER就充分利用了法律案例文件中的逻辑关系和不同结构中的知识。
为了验证我们方法的有效性,我们在零样本和微调设置下对中文和英文法律基准进行了广泛的实验。实证实验结果表明,SAILER 可以在最先进的基础上实现显着改进。
我们总结本文的主要贡献如下:(1)我们提出了一种新颖的法律案例检索预训练框架,即SAILER,这是第一个利用法律案例结构进行预训练的工作。
(2)我们提出了几个预训练目标,通过模拟法律案例文档的书写过程来捕获不同结构之间的长距离文本依赖关系和内在的书写逻辑知识。
(3)我们对公开的中英文法律基准进行了广泛的实验。实验结果证明了在法律案例检索中对长距离文本依赖性进行建模和利用结构知识的好处
2 相关工作
密集检索的发展改进:
1)负采样
2)蒸馏
3)[CLS]嵌入的学习
encoder 最后一层的跳跃连接,强制信息聚合到 [CLS]token 中
4)自动编码器
传统的预训练模型用到法律,都还是堆量(Legal-bert)和通用的长文本训练方式(lawformer),没有针对法律案例特点的预训练目标
2.1 用于密集检索的预训练语言模型
密集检索 (DR) 通常使用双编码器分别对查询和文档进行编码,并通过简单的相似性函数(余弦或点积