ArgLegalSumm:利用论证挖掘改进法律文件的生成式摘要
【自用看前科普,我是法盲】论证,就是举示出一些论据来支持某种主张或判断。法律论证(legal argument),主要是指在司法过程中对判决理由的正当性、合法性或合理性进行论证,即在诉讼过程中,诉讼主体运用证据确定案件事实、得出结论的思维过程。
文章主要提出了一个argument role的标注来辅助摘要生成,没搜到应该怎么翻译才最准确,这篇笔记中暂时将argument role翻译为论证角色。
Abs
在生成法律文件摘要时,一项具有挑战性的任务是处理其论证性质的能力。我们介绍了一种简单的技术,通过将论证角色标记集成到摘要过程中来捕获法律文件的论证结构。使用预训练语言模型的实验表明,我们提出的方法在强基线下提高了性能。
1.Intro
文章是说,法律案例区别于新闻、科学文本这些东西的不同之处在于,它有分散在长文本里的隐含论证结构,但是现在的模型都没考虑这种结构。所以文章提出了一种新方法,如上图所示,主要分为两个步骤:第一步,用独立的模型把案例里每个句子都预测出它所承担的论证角色;第二步,把预测的角色和案例原文档加起来,输入到一个基于序列的生成式摘要模型里。
2.Related Work
Legal Document Summarization
之前都做抽取式,这两年得益于BART和Longformer开始搞生成式了,但还是忽略了论证结构的问题,本文就是打算把论证结构整出来,和生成式的SOTA混一块试。
Argument Mining
论证挖掘,把文本的论证结构表示到图里面去,包含论证角色和它们之间的关系。本文用的角色标签是问题、理论和结论,用的方法是上下文嵌入自动预测。
Argument Mining and Summarization
不重要
3.Dataset and Methods
Dataset
数据集是1049个法律案例和对应摘要,来自加拿大法律信息研究所。训练数据集839,验证数据集106,测试数据集104。
输入文档的最大长度是26k字。
论证角色的标注,分成三种角色:问题(法院在文件中处理的法律问题)、原因(表明法院为何得出特定结论的文本)和结论(法院对相应问题的决定)。解释一下下面这张图,这个图表示的是在原文档和参考摘要中被标出来的拥有论证角色的句子的百分比分布,虽然原文档里有角色的句子不多,但是参考摘要里的多。作者的意思可能是这个统计结果给了他思路:用输入文本中的论证角色来增强摘要模型应该能改善摘要的生成。
Methods
作者用不同的特殊token来标记不同的论证角色,如下图这个例子的下半部分,<issue>和</issue>来标记问题角色。
然后用bert、RoBERTa、legalBERT三个模型来预测句子的论证角色都试了试,最后legalBERT得到的结果最好,二元分类,所以本文就用这个。
4.Experiments and Results
做了两种情况下的实验:1. 论证角色是手动标记的,称之为oracle 2. 论证角色是预测出来的,称之为predicted
Baseline
抽取式baseline:Miller(2019)的无监督方法
生成式baseline:Vanilla BART-Large再微调(好像是吧,没看懂)
Result and Discussion
arg-BART-Large:加入了论证角色的BART / arg-LED-base:加入了论证角色的Longformer
2 makers:methods部分的图上半部分的那种标记方法 / 6 makers:图下半部分也就是本文这种分成问题原因结论三种角色的标记方法(2 makers 和6 makers的变量是为了验证是不是真有必要把论证角色分成三部分,还是其实只要标出来是论证句子就行了)
oracle情况下,arg-LED-base效果不错,表示分成三部分还是挺管用的,但是arg-BART-Large效果有点烂,回看一下文章开头的那个分布图,作者猜是因为输入文档中论证句太稀疏了,而Longformer刚好又很适合抓这种上下文范围广的信息。为了验证这个猜想又搞了个实验,分析输入文档里每个论证角色的位置,红虚线是BART的编码限制,蓝虚线是Longformer的,很明显Longformer能覆盖更多的论证角色。predicted情况下效果也还行。
最后做了一个实验是把oracle下arg-LED-base的两个和只包含参考摘要里标为irc句子的摘要来对比(好乱的一句话),论证句子的重叠性增加了,长度减少了(和baseline相比)。
5.Conclusion and Future Work
没啥其他特别的,就是好使,计划未来找找把论证挖掘和摘要生成结合在一起的方法,减少现在跑两个模型花费的资源。