一、引言
事件抽取(Event Extraction, EE)是信息抽取领域中的一个重要任务,旨在从非结构化文本中识别和抽取事件相关的信息。事件抽取通常包括识别事件触发词、事件类型以及事件中的参与者、时间、地点等元素,最终将这些信息结构化地表示出来。事件抽取是自然语言处理(NLP)中的一个挑战性问题,广泛应用于新闻分析、舆情监控、情报分析等场景。
二、分类
2.1 句子级事件抽取
句子级事件抽取指的是从单个句子中识别并提取事件信息。这包括找到事件触发词、识别事件类型,以及抽取相关的事件论元(如参与者、时间、地点等)。句子级事件抽取主要集中于以下几个方面:
-
触发词检测:识别一个句子中的事件触发词,这是事件抽取的第一步。触发词通常是某些动词或名词,表示事件的发生。
-
事件类型分类:根据识别到的触发词,对事件进行类型分类,例如“自然灾害”、“人事变动”等。
-
论元抽取:找到与事件相关的要素,如“谁做了什么”、“在什么时候”、“在什么地点”等。
句子级事件抽取的优势在于处理范围相对较小,容易利用句法和语义特征进行分析。然而,它也存在一些限制,例如无法处理跨句子分布的事件信息。
2.2 篇章级事件抽取
篇章级事件抽取则涉及对整个篇章或多句话段中事件的识别和提取。在篇章中,事件往往会跨越多个句子,形成因果、从属或并列关系,篇章级事件抽取的目标是在更大上下文中完整地捕捉这些事件及其相互关系。研究的主要任务包括:
-
跨句子事件抽取:识别分布在多个句子中的事件信息。例如,一个句子描述事件的主体,另一个句子描述事件的发生背景或时间。
-
事件链建模:通过识别多个事件之间的因果关系和时间顺序,构建事件链,以此来理解整个篇章中事件的因果逻辑和发展。
-
篇章内论元共享:在篇章级别中,事件论元往往需要共享。例如,前面某句话中提到的实体在后面的句子中继续起作用,这就需要模型有能力理解指代和篇章连贯性。
2.3 句子级与篇章级事件抽取的差异
2.3.1 抽取范围:
-
句子级事件抽取聚焦于单个句子,能够快速识别和提取特定句子中的事件。
-
篇章级事件抽取则着重于跨越句子的上下文,目标是捕获完整的篇章信息。
2.3.2 上下文理解:
-
句子级事件抽取通常可以在有限的上下文内进行,只需要理解句子内的关系。
-
篇章级事件抽取需要处理更复杂的上下文,包含跨句子的依存关系、指代消解、篇章结构等,这对事件的连贯性建模提出了更高要求。
2.3.3 研究重点:
-
句子级事件抽取的研究重点主要集中在事件触发词识别、事件类型分类以及论元的抽取。它通常利用深度学习模型(如LSTM、BERT等)来学习词汇和句法特征。
-
篇章级事件抽取的研究重点在于对跨句子的上下文建模和复杂关系的抽取。篇章级事件抽取常采用图神经网络(GNN)等方法,构建句子之间的关系图,或者利用指代消解技术和篇章推理模型来获取更深层次的关系。
2.3.4 研究挑战与方法
-
句子级事件抽取面临的主要挑战在于如何应对词语的歧义性和抽取论元时的复杂语法。一般使用依存句法分析、BERT等预训练模型来解决这些问题。
-
篇章级事件抽取的主要挑战是如何有效建模篇章内的关系和理解上下文依存。例如,篇章内的一个事件可能由多个触发词跨越不同的句子来描述,如何处理这些分布式的信息是篇章级事件抽取中的一个难点。常见的方法包括利用篇章级Transformer模型,或者通过建立图结构进行跨句子的依存关系建模。
三、篇章级事件抽取(Document-level Event Extraction, DEE)
篇章级事件抽取(Document-level Event Extraction, DEE)是从给定篇章中检测出符合预先定义事件模板的事件,并抽取与事件相关的角色和论元。根据是否需要识别事件,DEE 研究可以分为两个子任务:篇章级事件识别及其论元抽取(DocEI & AE)和篇章级事件论元抽取(DocEAE)。
3.1 篇章级事件识别及其论元抽取 (DocEI & AE)
DocEI & AE 的目标是从篇章中抽取所有符合指定类型的事件信息。这一任务的核心在于识别事件类型及其相关的论元,并形成一个完整的事件表格。任务包括以下三个子任务:
-
实体抽取:首先从篇章中识别出可能作为论元的候选实体。例如,在篇章中,实体可以是人名、地点、时间等,与事件相关的信息通常通过不同的颜色来标注。
-
事件类型判断:识别篇章中包含的事件类型。每个篇章可能包含多个事件类型,例如,事件类型 EU 和 EO,表示不同类别的事件。
-
多事件识别及论元抽取:给定事件类型后,识别篇章中多个相同类型的事件,并抽取这些事件的相关论元。例如,在篇章中可能包含同一种类型的多个事件(如一个EU事件和两个EO事件),需要对每个事件进行角色-论元抽取。
3.1.1 DocEI & AE 任务定义
假定篇章为,DocEI & AE 任务的目标包括:
-
识别篇章
中包含的所有事件类型集合
。
-
对于每个事件类型
&#x