信息检索(33):SAILER: Structure-aware Pre-trained Language Model for Legal Case Retrieval


原文链接:https://arxiv.org/abs/2304.11370
(2023)


标题

结构感知
预训练语言模型
法律案例检索

摘要

法律文档特点:
1)具有逻辑结构、长文本(现在模型难理解长距离)
2)对于关键要素敏感,即使细微差别也会影响相关性判断(现在模型不能处理)

本文:
1)关注结构、关注要素
2)多个预训练目标,利用非对称 encoder-decoder
3)模型区分能力强,无标注也能区分不同案件

法律案件检索旨在为查询案件找到相关案件,在智能法律系统中发挥着核心作用。尽管预训练在临时检索任务中取得了成功,但有效的法律案例检索预训练策略仍有待探索。与一般文档相比,法律案例文档通常是具有内在逻辑结构的长文本序列。然而,大多数现有的语言模型很难理解不同结构之间的长距离依赖关系。此外,与一般检索相比,法律领域的相关性对关键法律要素很敏感。即使关键法律要素上的细微差别也会显着影响相关性的判断。然而,现有的为通用目的而设计的预训练语言模型尚未具备处理法律要素的能力

为了解决这些问题,在本文中,我们提出了 SAILER,一种用于法律案例检索的新的结构感知预训练语言模型。突出表现在以下三个方面:(1)SAILER充分利用法律案例文件中包含的结构信息,更加关注关键的法律要素,类似于法律专家浏览法律案例文件的方式。 (2) SAILER采用非对称编码器-解码器架构来集成多个不同的预训练目标。通过这种方式,跨任务的丰富语义信息被编码成密集向量。 (3)SAILER即使在没有任何法律标注数据的情况下也具有强大的判别能力。能够准确区分不同罪名的法律案件。对公开可用的法律基准进行的广泛实验表明,我们的方法在法律案例检索方面可以显着优于以前最先进的方法。

1 引言

还是两件事:一个是长,一个是关键要素
1)如何解决长:encoder-decoder 捕获 Fact 和法律案例文档中其他部分的关系
Deep encoder:将 Fact 编码成密集向量
shallow decoder:重建 Reasoning 和 Decision 段落中被 masked 的文本

2)如何解决关键要素:利用 Reasoning 和 Decision 增强对于关键要素的理解

法律案例检索是现代法律体系的重要组成部分。为了公正和公平,法律专家有必要针对具体案件查找和分析相关判例,然后再做出判决。近年来,随着法律案例文件的爆炸式增长,在整个语料库中找到相关的案例变得越来越困难。因此,法律案例检索系统的研究受到了法律界和信息检索界的广泛关注[2,3,24,31,38]。

在法律案件检索等特定领域,由于需要领域专业知识,构建高质量的带注释数据集通常是劳动密集型且令人望而却步的。然而,最先进的检索系统通常是基于用大规模注释数据训练的神经模型构建的。因此,IR研究人员建议利用预训练语言模型(PLM),即在没有监督数据的情况下训练的大规模神经模型来进行语言理解,以进行有效的检索[13,17,36,43]。之前的研究 [7,10,16,42] 表明,BERT [9] 和 RoBERTa [18] 等 PLM 在零样本和少样本设置下,文档检索数据集(如 MS MARCO 和 TREC DL)上显着优于现有的神经检索模型。

尽管预训练语言模型在即席检索和开放域搜索方面具有出色的性能,但在法律案例检索中尚未观察到预训练语言模型的有效性。与传统的检索任务相比,PLM 在法律案例检索中的应用提出了两个被现有研究忽视的重大挑战[31]。

挑战 1. 法律案件文件通常是具有内在写作逻辑的长文本序列。如图1所示,判例法体系和成文法体系1中的案件文件通常由五个部分组成:程序、事实、推理、判决和尾部(我们将在第3节中讨论这些部分的细节)。每个部分代表一个特定主题,字数从数百到数千不等。这些部分是用标准的法律逻辑编写的,并且通常是相互关联的。现有的 PLM 要么具有有限的文本建模能力,阻碍了它们对长文档进行建模的能力 [9, 18],要么忽略了法律案例文档的结构,导致它们无法捕获法律写作逻辑中的长距离依赖关系 [34]。因此,基于 PLM 的普通检索器的性能受到限制。

挑战2. 法律领域的相关性概念与一般检索中的相关性概念有很大不同。在法律案件检索中,两个法律案件之间的相关性对其关键法律要素(例如“强夺他人财物”、“任意损坏他人财物”等)敏感。这里,关键法律要素包括关键情形和关键情形或因素的法律概念抽象[24]。没有关键法律要素或关键法律要素不同的案件可能会导致不同的判决。

例如,如表 1 所示,这两个段落在即席检索中通常被认为是相关的,因为它们共享大量的关键字和句子。但在法律案件检索中,这两段内容互不相关,可能会因关键法律要素的影响而导致完全不同的判断。如果没有指导,基于开放域 PLM 的神经检索模型很难理解关键的法律要素,导致法律领域的检索性能不佳

为了应对这些挑战,我们提出了一种用于法律案例检索的结构感知预训练语言模型(SAILER)。 SAILER 采用编码器-解码器架构来显式建模并捕获事实与法律案例文档其他部分之间的依赖关系(挑战 1)。同时,SAILER利用推理和决策段落中的法律知识来增强对关键法律要素的理解(挑战2)。
具体来说,我们使用深度编码器将事实段落编码为密集向量。然后,在事实向量的帮助下,应用两个浅层解码器分别重建推理和描述段落中的积极屏蔽文本。这样,SAILER就充分利用了法律案例文件中的逻辑关系和不同结构中的知识。
为了验证我们方法的有效性,我们在零样本和微调设置下对中文和英文法律基准进行了广泛的实验。实证实验结果表明,SAILER 可以在最先进的基础上实现显着改进。

我们总结本文的主要贡献如下:(1)我们提出了一种新颖的法律案例检索预训练框架,即SAILER,这是第一个利用法律案例结构进行预训练的工作。
(2)我们提出了几个预训练目标,通过模拟法律案例文档的书写过程来捕获不同结构之间的长距离文本依赖关系和内在的书写逻辑知识。
(3)我们对公开的中英文法律基准进行了广泛的实验。实验结果证明了在法律案例检索中对长距离文本依赖性进行建模和利用结构知识的好处

2 相关工作

密集检索的发展改进:
1)负采样
2)蒸馏
3)[CLS]嵌入的学习
  encoder 最后一层的跳跃连接,强制信息聚合到 [CLS]token 中
4)自动编码器

传统的预训练模型用到法律,都还是堆量(Legal-bert)和通用的长文本训练方式(lawformer),没有针对法律案例特点的预训练目标

2.1 用于密集检索的预训练语言模型

密集检索 (DR) 通常使用双编码器分别对查询和文档进行编码,并通过简单的相似性函数(余弦或点积)计算相关性得分。许多研究人员通过负采样和蒸馏进一步提高了 DR 的性能[6,12,26,37,42]。

IR 社区的研究人员已经开始设计针对 DR 的预训练方法 [14,15,19,21,22,32,33]。这些方法主要旨在通过 [CLS] 嵌入更好地表示上下文语义。它们基于这样的直觉:[CLS] 嵌入应该对给定文本中的重要信息进行编码,以实现稳健的匹配。例如,Condenser [14] 和 coCondenser [15] 在编码器的最后一层设计了跳跃连接,以强制信息聚合到 [CLS] 令牌中。最近,基于自动编码器的预训练引起了广泛关注。输入句子被编码到嵌入中以重建原始句子,迫使编码器生成更好的句子表示。 SEED-Encoder [21]建议使用弱解码器进行重建。 SIMIM [32]和RetroMAE [19]修改了解码方法以加强信息瓶颈,从而提高了生成嵌入的质量。

尽管取得了成功,但基于自动编码器的模型无法完全理解法律案例文档中不同结构之间的逻辑关系,因为它们主要依赖于语料库中的有限信息。此外,由于案例文本包含大量对于判断案例相关性来说并不重要的事实,因此重建原始文本可能会降低稠密向量的判别能力。

2.2 法律案件检索

法律案例检索模型主要有两类[3]:基于专家知识的模型[30, 39]和自然语言处理(NLP)模型[5,23,31,34]。对于基于专家知识的模型,Zeng 等人[39]用一组新的子元素扩展了传统的法律问题元素,用于表示法律案件。

随着深度学习的发展,基于自然语言处理的模型在法律案例检索方面取得了巨大成功。 Shao等人[31]将法律案例文本分为几个段落,并使用BERT获得段落之间的相似度,取得了可喜的排名性能。 Paheli Bhattacharya 等人[4]结合文本和网络信息来估计法律案例相似度。

近年来,许多研究人员尝试设计预训练技术以实现法律界的绩效提升。例如,Chalkidis 等人[5]从多个领域(例如立法、法院案件、合同)收集了大量的英文法律文本并发布了 LEGAL-BERT。 Xiao等人[34]提出了针对较长法律文本的Lawformer,它可以处理具有数千个标记的文档。然而,他们都没有设计适合法律案例检索的预训练目标。我们认为预训练模型的潜力尚未得到充分利用。

3 背景和预备知识

查询和文档
query:案例中的 Fact 部分
doc:整个案例文档

在本节中,我们介绍法律案件检索的问题定义和有关法律案件文献的初步知识。

3.1 问题表述

法律案例检索任务是指从候选案例集中查找与给定查询案例相关的案例。形式上,给定一个查询案例 𝑞 和一组候选案例 D,任务是从大候选案例中检索 top-𝑘 相关案例 D𝑞 = 𝑑 * 1 , 𝑑* 2 , …, 𝑑* 𝑘水池。

为简单起见,我们重点关注已广泛用于检索任务的双编码器架构 [16, 42]。该架构由查询编码器和文档编码器组成,其主要目标是将文本映射到高维嵌入 ℎ𝑞 和 ℎ𝑑 。这里,文档编码器和查询编码器通常使用预先训练的语言模型来实现或初始化,该模型通过将原始文本作为输入来输出嵌入表示(例如,[CLS]标记的嵌入)。然后,使用点积来计算 𝑞 和 𝑑 的语义相关性得分:
在这里插入图片描述
如图 1 所示,候选案例由 Fact 𝐹 、 Reasoning 𝑅 、 Decision 𝐷 等组成。在大多数实际法律案例检索场景中,𝑞 仅由基本 Fact 𝐹 组成,而候选案例是完整的案例文档。特别是,在给定查询案件的基本事实的情况下,律师或法官通过法律案件检索系统进行检索,找到与查询案件相关的案件,以便更好地完成司法判决等下游任务。
在我们的工作中,我们遵循上述设置,并假设查询是法律案件文件的基本事实

3.2 预备知识

与网络搜索等开放域检索任务中的文档相比,法律案件文档通常具有更清晰但更复杂的结构。具体来说,在美国等实行判例法体系的国家,法律判例文件一般由程序(Procedure)、事实(Fact)、推理( Reasoning)、判决(Decision)和尾部(Tail)组成。程序部分介绍了当事人的信息和程序态势。事实部分是对当事人的论点、证据和基本事件的描述。推理部分是法院选择规则并将其应用于事实的过程。在推理中,法官解释了应用规则的原因。换句话说,与规则适用相关的事件,即关键的法律要素,在本节中被反复提及。判决书部分是法院根据案件关键事实对法律纠纷作出的具体答复。推理部分和事实部分是法院判决的基础。 Tails部分介绍法庭、法官等基本信息

在制定法体系国家,例如中国,案件文书的结构相同,但没有明确划分不同的章节。中国案件文书的结构通过文本格式隐含地传达。例如,“确认后”通常是事实部分的开头,“法院认为”之后是理由部分。尽管各国的法律制度和规定不同,但这些部分是完整案件文书的共同基础。

对于实践中的审判,法律文书的撰写流程如图2所示。首先,原告的辩论、被告的辩论及其证据被呈现给法庭。 法官将它们归纳起来形成事实部分。然后,法官识别与事实相匹配的法律以及与事实相关的案例。之后,法官提取关键的法律要素,并根据这些要素解释法律的适用,以生成理由部分。最后,法官根据对案件的理解和法律知识,做出最终的司法判决,如诉讼原因、刑罚期限、赔偿金额等。 在上述过程中,事实中的重要信息将在推理部分进行仔细分析,从而影响最终判决。事实、推理和判决之间的这种逻辑联系对于理解和建模法律案件文件非常重要,这启发我们提出了一种用于法律案件检索的结构感知预训练语言模型。下一节将详细介绍我们提出的方法。

4 方法

Fact encoder:mask 预测任务,损失函数就是负对数似然函数
Reasoning Decoder:损失函数就是负对数似然函数
Decision Decoder:损失函数就是负对数似然函数

对比损失

在本节中,我们详细描述了用于法律案例检索的结构感知预训练语言模型。为了将结构知识融入到语言模型中,我们模拟法律案例文档的书写过程,提出了SAILER,如图3所示。SAILER主要由三个组件组成,即事实编码器、推理解码器和决策解码器。具体来说,在预训练过程中,使用类似 BERT 的编码器来生成 Fact 的向量表示,并使用两个浅层解码器来重建推理和决策部分的文本。关于SAILER的详细说明如下。

4.1 Fact 编码器

在事实编码器中,我们首先用特殊标记[MASK]随机替换事实的一些标记。只有一小部分令牌被替换,因为大部分事实需要保留。

特别是,我们将事实定义为 𝐹 = [𝑓1, 𝑓2, …, 𝑓𝑛],将屏蔽标记设置为 𝑚(𝐹 ),其中 𝑓 表示标记,𝑛 表示事实的长度。因此其余标记可以表示为 𝐹 \𝑚(𝐹 ​​)。然后,掩码输入𝐹𝑚𝑎𝑠𝑘被事实编码器𝜙𝐹(·)转换为句子向量。继之前的工作[9, 14]之后,[CLS]标记的最终隐藏状态被视为整个句子的表示:
在这里插入图片描述
与 Bert 类似,我们将屏蔽事实输入编码器以恢复 𝑚(𝐹 ) 并计算屏蔽语言模型 (MLM) 损失,作为我们的预训练目标之一。具体来说,MLM 损失 𝐿𝑀𝐿𝑀 定义为:
在这里插入图片描述

4.2 Reasoning 解码器

如上所述,推理部分包含了该案的所有关键法律要素。因此,我们设计推理解码器来对推理和事实之间的逻辑关系进行建模,旨在提高编码器的焦点与案件文件中强调的关键法律要素之间的一致性。
具体来说,我们通过污染推理部分的原始文本𝑅 = [𝑟1, 𝑟2, …, 𝑟𝑛] 来构建推理解码器。
我们将推理文本拆分为标记,并随机选择一个子集𝑚(𝑅) 进行屏蔽。采用积极的掩模比(30%-60%)进行语言重建。此外,密集向量ℎ𝐹取代了通常用作解码器输入开始的原始[CLS]向量。整个解码器输入形式化为:
在这里插入图片描述
其中 𝑒𝑟𝑘 和 𝑝𝑟𝑘 表示 𝑟𝑘 的嵌入和额外位置嵌入。这样,推理解码器的学习目标就被表述为:
在这里插入图片描述

4.3 Decision 解码器

法律判决预测(LJP)旨在根据事实描述预测案件的判决结果[11]。如果两个案件的指控和法律条款相同,那么它们的稠密向量在向量空间中应该更接近。在本部分中,法律判决预测通过使用决策解码器建模为文本到文本的任务,这有​​助于向量具有更强的判别能力。
对于中国法律案件,判决通常由相关法律条款、指控和处罚条款组成。给定一个判决部分𝐷 = [𝑑1, 𝑑2, …, 𝑑𝑛],我们根据其指定的格式对其进行掩码。具体来说,判决结果通常采用如下格式:根据《中华人民共和国刑法》[𝑧1]的规定,被告人犯[𝑧2]罪,被判处[𝑧3]刑罚,其中𝑧1表示具体法律条款,𝑧2表示罪名,𝑧3表示刑期。我们用Z表示所有被屏蔽的词。
在一些判决结果没有特定格式的国家,我们选取​​一定比例的TF-IDF[1]值较高的词进行屏蔽。为方便起见,我们仍将屏蔽后的词命名为Z。
判决解码器也依赖于稠密向量ℎ𝐹来恢复原始判决结果。具体来说,判决解码器的输入为:
在这里插入图片描述
其中 𝑒𝑑𝑘 和 𝑝𝑑𝑘 表示 𝑑𝑘 的嵌入和额外位置嵌入。决策解码器的训练目标是:
在这里插入图片描述
简而言之,决策解码器巧妙地对法律判决预测任务进行建模,以帮助生成判别向量。

4.4 学习

在预训练过程中,我们旨在优化以下训练目标:
在这里插入图片描述
预训练后,我们放弃两个解码器并微调编码器。微调的目的是使查询比不相关的情况更接近向量空间中的相关情况。
因此,给定一个查询案例 𝑞,令 𝑑 + 和 𝑑 − 为相关案例和负案例,损失函数 𝐿 的公式如下:
在这里插入图片描述
根据之前的工作 [26, 41],负样本 𝑑 − 是 BM25 硬负样本。在训练期间,为每个查询案例采样许多负样本的计算成本很高。因此,采用批内负样本[16]进行对比学习,以充分利用同一批中的负样本。
具体来说,如果一批中有 𝐵 个查询,每个查询都有一个正例和 𝑁 负例,那么我们在训练期间最多可以为每个查询获得 (𝐵 −1) ∗ (𝑁 +1) 个批内负例。

5 实验

数据集:
两个中文数据集没有 train,所以直接报告 test 上面的 zero-shot 性能
两个英文数据集利用 train 进行微调,然后报告 test 上面的性能

模型结构:
fact-encoder:chinese-bert-wwm /bert-base-uncased(中文/英文)
两个decoder:随机初始化的一层 transformer layer

在本节中,我们首先介绍我们的实验设置,包括数据集和指标、基线和实现细节。然后,我们报告实验结果来证明 SAILER 的有效性。

5.1 数据集和指标

我们在四个法律案例检索基准上进行了实验。统计结果如表2所示。

  • LeCaRD[24]是中国法律体系下第一个刑事案件检索数据集。 LeCaRD 中的查询仅包含事实段落,而候选文档是整个案例。
    每个查询有 100 个候选池。

  • CAIL2022-LCR 是 CAIL2022 提供的官方测试集,其组织格式与 LeCaRD 相同。

  • COLIEE2020 [28] 是 COLIEE2020 提供的官方数据集。每个查询有 200 个候选。参与者需要对每个查询的有限数量的案例进行重新排序。

  • COLIEE2021 [27] 是 COLIEE2021 提供的官方数据集。
    由于没有候选文档池,参与者需要从整个语料库中识别相关案例,这使得检索任务比 COLIEE2020 中的难度更大。

在这里插入图片描述
由于带注释的查询数量非常有限,我们报告了 LeCaRD 和 CAIL2022-LCR 上所有模型的零样本性能。对于 COLIEE2020 和 COLIEE2021,我们直接使用两个数据集的组合训练集对基线和 SAILER 进行微调,并报告测试集上的最终性能。
我们遵循竞赛中的评估指标。对于 LeCaRD 和 CAIL2022-LCR,我们报告归一化折扣累积增益 (NDCG)、Precision@5、Recall@5 和 F1 分数。对于两个 COLIEE 任务,我们报告平均倒数排名 (MRR)、Precision@5、Recall@5 和 F1 分数。具体来说,我们报告 COLIEE2021 的 R@100。

5.2 基线

我们采用三组基线进行比较:传统检索模型、通用预训练模型和面向检索的预训练模型。

• 传统检索模型

  • BM25 [29] 是一种基于精确单词匹配的高效稀疏检索器。
  • QL[40]是另一个具有代表性的基于狄利克雷平滑的传统检索模型。

• 通用预训练模型

  • BERT [9] 是一种多层转换器编码器,它是临时检索任务的强大基线。
  • BERT_xs 是刑法专用的 BERT,经过 6.63 亿条中国刑事判决书进行预训练。
  • RoBERTa [18] 是 BERT 的增强版本,训练数据大幅增加。与 BERT 相比,RoBERTa 仅使用 MLM 任务进行预训练。
  • Lawformer [34]是法律领域第一个中文预训练语言模型,专注于处理长文档。
  • LEGAL-BERT [5]是一个使用大量英文法律文档的预训练语言模型,在多个任务中取得了state-of-the-art的结果。

• 面向检索的预训练模型

  • Condenser [14] 专为临时密集检索而设计。它利用跳跃连接将文本信息聚合成密集向量。
  • coCondenser [15]为Condenser添加了无监督语料库级别的对比损失,可以有效地预热向量空间。
  • SEED [21] 从理论上分析了自动编码器架构对于密集检索的不足。它使用弱解码器来增强编码器训练过程。
  • CoT-MAE [33] 设计了有效的数据构造方法来训练非对称编码器-解码器架构。
  • RetroMAE [19] 提出了增强解码,这使得重建文本变得更加困难,并在即席检索方面实现了最先进的性能。

对于传统模型,我们使用 pyserini 工具包和默认参数。对于通用的预训练模型,我们直接采用开源检查点来预热模型参数。对于面向检索的预训练模型,我们使用与 SAILER 相同的合法预训练语料库,并使用其论文中报告的最佳参数对其进行预训练。所有面向检索的预训练模型均使用 BERT 进行初始化。

5.3 实现细节

5.3.1 预训练程序

为了构建中国法律案例的预训练语料库,我们从中国裁判文书网收集了数千万份案例文件。我们通过正则表达式匹配将案例文档分为五个部分:Procedure、Fact、Reasoning、Decision、Tail。过滤50字以下事实的简单案例。为了预训练基于英语的模型,我们从美国联邦和州法院收集了大量案例文件 。与 LEGAL-BERT 不同,我们的预训练语料库仅包含案例文档,不包括立法和合同。
我们使用 Huggingface 的 chinese-bert-wwm/bert-base-uncased11 分别初始化 SAILER 中文/英文版本的编码器。解码器是随机初始化的变压器层。编码器的默认掩码比率为 0.15,解码器的默认掩码比率为 0.45。我们使用 AdamW [20] 优化器预训练最多 10 个 epoch,学习率为 1e-5,批量大小为 72,线性调度的预热比率为 0.1。对于Decision Decoder,我们在中文案件中屏蔽了法律条款、指控和处罚条款,而在英语案件中屏蔽了具有较高TF-IDF [1]分数的单词。决策解码器与 SAILER 英文版中的推理解码器保持相同的掩码比率。

5.3.2 微调程序
为了进行微调,给定一个查询,我们使用 BM25 从整个语料库中召回前 100 个相关文档,其中不相关文档被视为硬负样本。我们使用 AdamW [20] 优化器微调最多 20 个 epoch,学习率为 5e-6,批量大小为 4,线性调度的预热比率为 0.1。每一批包含一个查询和 16 个文档,这意味着正例和硬负例的比例为 1:15。本工作中的所有实验均在 8 个 NVIDIA Tesla A100 GPU 上进行

5.4 实验结果

5.4.1 zero-shot 评估
为了验证SAILER的有效性,我们在两个中国刑法数据集上进行了零样本实验。 SAILER 和基线之间的性能比较如表 3 所示。我们从实验结果中得出以下观察结果。

• 在零资源设置下,BM25和QL作为法律案件检索任务的预训练模型提供了有竞争力的性能。

• 通用预训练模型的性能通常比传统的词汇匹配方法差。如果没有特定的预训练目标,BERT 等语言模型无法准确捕捉法律案例检索中的相关性概念。

• 面向检索的预训练模型通常比通用预训练模型表现更好。这表明应用检索特定的预训练目标而不是通用 NLP 目标对于检索任务是有益的。

• 令人惊讶的是,chinese RoBERTa 比使用大量刑法数据训练的模型更有效。在没有下一个句子预测(NSP)任务的情况下,RoBERTa 提高了 [CLS] 嵌入的鲁棒性。这可能表明下一句预测任务对于提高 PLM 的检索性能没有帮助。

• 最后,我们可以注意到 SAILER 在两个数据集上的大多数指标中都实现了最佳性能。在没有任何监督数据的情况下,SAILER 不仅显着优于其他预训练模型,而且也是唯一击败传统检索方法的模型。这一观察结果表明将案例结构中的知识纳入预训练过程的有效性,揭示了 SAILER 在没有可用监督数据的场景中的巨大潜力。
在这里插入图片描述

5.4.2 fine-tuning 评估

如表4所示,我们在训练数据下将SAILER与各种基线进行了比较。为了公平比较,不同的预训练模型利用相同的微调数据和相同大小的超参数。从实验结果来看,我们有以下发现:

• 在微调设置下,传统的检索模型(例如BM25、QL)在两个数据集上仍然表现良好。

• 在标注数据的指导下,预训练模型得到进一步改进。然而,它们在某些方面仍然不如传统的检索方法,例如,QL 在 COLIEE2021 的 R@100 指标上优于大多数基线。

• 总体而言,SAILER 在所有基线上都取得了改进。SAILER 通过上下文标记推断专家知识,充分利用法律案件的内在结构。无需复杂的增强解码,它已经可以超越RetroMAE。在 COLIEE2021 上,SAILER 是唯一一个在Recall@100 指标上超过 QL 的预训练模型,这表明它可以更好地区分大型语料库中的混淆案例。

由于测试用例数量有限,实际上之前的工作并没有对COLIEE数据集进行显着性测试[2, 31]。尽管 SAILER 相对于 SEED 和 RetroMAE 模型的改进在 COLIEE2020 数据集上并不是非常显着,但 SAILER 仍然实现了最先进的指标值。一般来说,具有相同参数大小的 PLM 在微调后表现出接近的性能。因此,性能的非显着改善也可以表明我们的方法的有效性。

5.5 消融实验

为了更好地说明模型设计和预训练任务的有效性,我们进一步在零样本设置下对 LeCaRD 进行了消融研究。表 5 显示了不同预训练目标的影响。
SAILER_share 是 SAILER 的变体,其中推理和决策部分由共享解码器重建。我们可以观察到共享单个解码器会导致轻微的性能下降,这证实了我们的多解码器架构的有效性。此外,我们分别删除了推理解码器和决策解码器,这两者都会导致性能显着下降。与删除决策解码器相比,删除推理解码器导致的性能下降较少。一个可能的原因是我们在推理解码器中使用的随机掩码无法有效地掩码所有关键的法律元素,因此为 SAILER 提供的指导有限。如何确定推理部分关键法律要素的位置是我们未来的工作之一。最后,删除所有解码器后,性能急剧下降。上述实验验证了我们预训练目标的有效性。
在这里插入图片描述

5.6 超参数分析

5.6.1 掩模比的影响

在本节中,我们探讨不同掩蔽率对 SAILER 的影响。我们在 LeCaRD 上进行了实验,其中编码器掩蔽比从 0 变化到 0.30,解码器掩蔽比从 0.15 增加到 0.60。结果如表 6 所示。有几个有趣的发现。

(1)解码器掩码比的增加会使解码过程变得更加困难,模型性能也会有一定程度的提高。当解码器掩码率高于 0.45 时,这种增长将变得不稳定。我们认为过于困难的解码可能不利于模型的学习。
(2)适当的编码器掩码比有助于提高性能。然而,当编码器掩蔽比太高时,SAILER的性能会略有下降。这是因为掩蔽比太大会阻碍高质量句子嵌入的生成,考虑到输入句子的大部分有用信息将在这种情况。
(3)总体而言,SAILER 可以在很宽的掩模比范围内表现良好,表明其稳健性。当编码器掩码比为0.15、解码器掩码比为0.45时,SAILER实现了最佳性能。
在这里插入图片描述

5.6.2 解码器层数的影响

我们进一步探讨解码器层数对性能的影响。在我们的实验中,我们为推理解码器和决策解码器保留相同数量的层。实验结果如表7所示。随着解码器层数的增加,SAILER的性能下降,这与SEED[21]的发现类似。总体而言,SAILER 在解码层方面的性能相当稳健。
在这里插入图片描述

5.7 案例分析

为了进一步分析 SAILER 的检索机制,我们将单词的注意力权重可视化,如图 4 所示,其中颜色越深的单词获得的注意力权重越高。为了公平比较,我们选择SEED进行案例研究,它使用与SAILER相同的解码机制来重建原始文本。 SEED和SAILER的注意力分布有很多差异。可以观察到,SEED最关注咖啡醇止咳糖浆(药名)、广州(城市名)、陈(人名)等,而SAILER更关注影响最终判断的词语,例如值得一提的是,“允许”是本案的一个关键词,因为为吸毒者提供场所是一种典型的罪名,这意味着被告人允许他人在自己的场所吸食毒品。我们可以观察到SAILER中强调了“允许”。这表明SAILER融入了法律知识,更加注重法律关键要素。

5.8 可视化分析

为了进一步探索 SAILER 的判别能力,我们使用 t-SNE 可视化法律案件的向量分布。具体来说,我们选取​​了故意伤害罪、寻衅滋事罪、聚众斗殴罪、盗窃罪、抢劫罪和诈骗罪等六种容易混淆的罪名。对于每项指控,都会从预训练语料库中随机选择一定数量的法律案例。我们在零样本设置中使用现成的预训练模型生成法律案例向量。从图5中,我们可以观察到SAILER强大的判别能力。对于 Chinse BERT 来说,它总是混合不同指控的情况。虽然中文RoBERTa可以区分盗窃、抢劫和诈骗三种罪名,但它混淆了故意伤害、挑衅和聚众斗殴。通过重建原始文本,SEED 可以了解更多信息并生成均匀分布的向量。但同类罪名界限过于接近,不利于法律案件检索。相比之下,SAILER可以在没有任何监督数据的情况下更准确地区分不同指控的向量,表明它通过我们的预训练目标学到了丰富的法律知识。

6 结论

本文提出了SAILER,一种用于法律案例检索的新型结构感知预训练语言模型。SAILER的核心思想是充分利用法律案例文档的结构关系进行预训练。 SAILER通过重构关键法律要素和判决结果,生成更好的法律案件表征,并拥有更强的判别能力。通过对四个基准法律数据集进行广泛的实验,SAILER 在低资源和全资源环境中都取得了比基线显着的改进。未来,我们希望探索将更多的专业知识(例如法律知识图谱、法律文章)融入到预训练的语言模型中,以实现更好的法律案例检索。

  • 28
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值