事件抽取综述

1 基本概念

1.1 事件

事件作为信息的一种表现形式,其定义为特定的人、物在特定时间和特定地点相互作用的客观事实。在TDT(Topic Detection Tracking)中,事件是指关于某一主题的一组相关描述,这个主题可以是由分类或聚类形成的[1]。组成事件的各元素包括: 事件触发词、事件类型、事件论元和论元角色。

1.2 事件抽取

事件抽取的目的是在大量文档中快速识别事件及其实体。其中,实体是指在世界中真实存在的目标。一般来说,一个事件由某些原因、条件引起,发生在特定时间、地点,并可能伴随某些必然结果。事件可能涉及到多个实体的行为。随着事件的发生,实体的关系和状态也会不断发生变化。事件抽取则主要用于分析文本当中“谁对谁做了什么以及何时何地”,并找到事件中的一个或多个参与者。如果文档包含事件的位置和时间,它还会提取事件的位置和时间。通过这种方式,事件抽取可以在文本中找到额外的信息,提供比关系提取更丰富的人物、组织、地点和其他实体的图片。事件抽取属于信息抽取领域中的深层次研究内容,它依赖于实体抽取和关系抽取但相较于实体抽取和关系抽取难度更大,其中涉及到自然语言处理、机器学习、模式匹配等多个学科的方法与技术[2]。

2 国内外研究现状

从信息抽取的发展历史来看,事件抽取的研究几乎与信息抽取的研究同时开始。随着研究的不断发展,本世纪开始召开的ACE评测项目中,开始明确提出事件抽取(VDR)的子任务[3]。国内外对于英文事件抽取的研究展开较早,技术也较成熟。对于中文的事件抽取起步较晚,虽然也取得了一定的成果,但是距离英文还有一定的差距。国内外的事件抽取研究大多数都是围绕着ACE会议及其相关测评语料展开的。从ACE2005 的评测情况来看,参加英文事件抽取评测的单位比较多,如BBN Technology、Lockheed Marting、IBM等公司和荷兰的阿姆斯特丹大学。而参加中文事件抽取评测的机构只有BBN Technology公司,同时该机构在英文事件抽取的评测中获当年最佳成绩为[4]。

从事件抽取的方法层面上来说,机器学习方法成为了目前事件抽取的主流技术。因为机器学习方法不需要专家知识,相比较基于模式的方法更容易实现,而且扩展性强,可以移植到多个领域中。早期的机器学习方法基本都是基于词汇,词汇上下文特征的分类方法。许多研究引入推理机制来提高事件抽取性能,跨文档、跨实体、跨事件、跨语言等推理机制应用越来越多,也大大提高了机器学习方法的性能[5]。近年来,使用神经网络的事件抽取方法越来越多,相比较传统机器学习方法,神经网络进行特征自学习,不需要进行特征工程,只需要构建好的模型,显得更加先进。由传统机器学习方法到深度学习方法的转变也是目前机器学习方法的一个发展趋势,如Wang等[6]提出了一个基于生成对抗网络的事件提取模型,称为对抗-神经事件模型(AEM)。Zhang等[7]提出了一种新的基于神经网络的转化模型,用于联合预测嵌套实体、事件触发器以及它们在事件提取中的语义角色。尽管机器学习方法占据了事件抽取的主流,基于模式的方法并没有被抛弃。由于模式有着高精确率,简单等优点,出现了多个系统将这两种方法结合的例子。早先的基于模式的事件抽取方法使用手工制定的规则进行事件抽取,工作量巨大。因此,后来出现了使用有监督事件抽取和半监督事件抽取的模式学习方法。大多数的半监督方法学习出一个模式集合,模式一般由触发词和论元依据一定的词汇、句法限制构成。半监督事件抽取也是目前基于模式事件抽取的一个主要手段。

3 语料库

3.1 ACE事件语料库

ACE[8]注释任务对应于三个研究目标:实体检测和跟踪(EDT),关系检测和表征(RDC)以及事件检测和表征(EDC)。第四个注释任务,实体链接(LNK),将对单个实体及其所有属性的所有引用分组到一个复合实体中。

实体检测和跟踪(EDT):是核心注释任务,为所有剩余任务提供基础。后来的ACE任务确定了七种类型的实体:人员,组织,位置,设施,武器,车辆和地缘政治实体(GPE)。每种类型进一步分为子类型。注释器标记了文档中每个实体的所有提及,无论是命名,名义还是代名词。对于每一次提及,注释器都识别出代表实体的字符串的最大范围,并标记每个提及的头部。嵌套提及也被捕获。每个实体根据其类型和子类型进行分类,并根据其特定类别,通用,属性,负面量化或未指定类别进一步标记。在LNK注释任务期间,注释器审查整个文档,以便将同一实体的提及分组在一起。关系检测和表征(RDC):涉及实体之间关系的识别。此任务已添加到ACE的第2阶段。RDC针对物理关系,包括位置,近处和部分整体;社会/个人关系,包括商业,家庭和其他;一系列的就业或会员关系;工件与代理商之间的关系(包括所有权);从属关系,如种族; 人与GPE之间的关系,如公民身份;最后是话语关系。对于每个关系,注释器都识别出两个主要参数(即,链接的两个ACE实体)以及关系的时间属性。由明确的文本证据支持的关系与那些依赖于读者的语境推理的关系不同。ACE阶段3增加了一项新的挑战:事件检测和表征(EDC)。在EDC中,注释器识别并描述了EDT实体参与的五种类型的事件。目标类型包括交互,移动,转移,创建和销毁事件。注释器为每个事件标记文本提及或锚点,并按类型和子类型对其进行分类。他们根据特定类型的模板进一步确定了事件参数(代理,对象,源和目标)和属性(时间,位置以及其他类似工具或目的)。ACE语料库中的事件具有复杂的结构和参数,涉及实体,时间和值。ACE 2005事件语料库定义了8个事件类型和33子类型,每个事件子类型对应于一组参数角色。所有事件子类型共有36个参数角色[9],表3-1提供了这些事件类型及其相应的子类型。
表3-1 ACE 2005中的事件类型和亚型

表3-1 ACE 2005中的事件类型和亚型

3.2 MUC语料库

MUC(Message Understanding Conference)[10]是最早产生支持事件共指任务的语料库。它的五大评测任务分别是命名实体识别、共指消解、模板元素填充、模板关系确定和场景模板填充。数据语料主要来自新闻语料,限定领域为飞机失事报道和航天器发射事件报道。MUC评测中心围绕一个“场景”,根据关键事件类型和与它相关的各种角色定义。但是 MUC 未正式定义/评估事件共指:事件共指任务需要作为场景模板填充任务的一部分执行的任务。在此填充任务中,必须为文档中提到的每个事件填充一个模板(由各种事件角色/属性组成)。因此,在文档中提到两个事件时,其中一个或两个模板应该通过确定它们是否具有共指关系来填充[11]。

3.3 TDT语料库

TDT的概念最早产生于1996年,当时美国国防高级研究计划署(DARPA)根据自己的需求,提出要开发一种新技术,能在没有人工干预的情况下自动判断新闻数据流的主题。1997年,研究者开始对这项技术进行初步研究,并做了一些基础工作(包括建立了一个针对TDT研究的预研语料)。当时的研究内容包括寻找内在主题一致的片断,即给出一段连续的数据流(文本或语音),让系统判断两个事件之间的分界,而且能自动判断新事件的出现以及旧事件的再现[12]。从1998年开始,在DARPA支持下,美国国家标准技术研究所(NST)每年都要举办话题检测与跟踪国际会议,并进行相应的系统评测。2002秋季召开了TDT的第五次会议(即TD7 2002)。这个系列评测会议作为DARPA支持的TIDES (Transingual nformation Detecton, Extraction and Summarizaton,跨语言信息检测、拍取和总结)项目下的两个系列会议(另一个是文本检索会议TREC)之一,越来越受到人们的重观。

TDT会议采用的语料是由会议组织者提供并由语言数据联盟(inguitic Data Consortum,以下简称LDC))对外发布的TDT系列语料。目前已公开的训练和测试语料包括TDT预研语料(TDT Piot Corpus)、TDT2和TDT3,这些语料都人工标注了若干话题作为标准苔案。TDT2和TDT3收录的报道总量多达11万6千篇,从而很大程度上避免数据稀疏问题的影响,同时也能很好地验证算法的有效性[13]。总的来看,TDT系列评测会议呈现两大趋势:一是努力提高信息来源的广泛性,不仅包括互联网上的文本数据,还包括来自广播、电视的语音数据;二是强调多语言的特性。从1999年开始,TDT会议引入了对汉语话题的评测,2002年又计划增加阿拉伯语的测试集。

3.4 KBP语料库

知识库生成测评(Knowledge Base Population, KBP),在2014年首次加入事件抽取的评测。2016年起,KBP的评测语料从英文扩展为中文。KBP 2016提供了200篇标注的英文文档、20万词的中文文档以及12万词的西班牙文文档用于评测,但并未提供训练语料。TAC会议下的KBP评测下的ESF任务,可以视作是传统的关系抽取任务。该任务主要是抽取关于PER的25种属性和ORG的16种属性[14]。主要是使用维基百科快照作为现有的知识库,从现有的新闻或者网络文本中获取关于实体的现有信息和更新信息,以构建知识库。

3.5 ECB语料库

在 ECB(EventCorefBank)及 ECB 的改进版 ECB0.1中,事件可以表示为准时的、持续的或静态的谓词,描述“某物获得或保持真实的状态或情况”[15]。ECB中包含跨文档和文档内两种事件共指链,并且包含43种事件类型。因为它主要关注与跨文档的共指消解,所以部分标注了文档内的事件链。ECB+ [16]语料库在ECB0.1的基础上作了扩展,合并更多标注文档并根据新的标注方式重新标注了现有文档。它还通过将事件建模为四个参数(动作、时间、位置和参与者)的组合来扩展事件定义。

3.6 CEC语料库

中文事件语料库(Chinese Event Corpus, CEC)由上海大学语义智能实验室构建,包含CEC-1和CEC-2两个语料库包。其中从互联网上收集了5类(地震、火灾、交通事故、恐怖袭击和食物中毒)突发事件的新闻报道作为生语料,然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理,最后将标注结果保存到语料库中[17],CEC合计332篇。与ACE和TimeBank语料库相比,CEC语料库的规模虽然偏小,但是对事件和事件要素的标注却最为全面。

4 典型方法

4.1 限定域事件抽取

限定域事件抽取是指事件抽取使用预定义的事件模式从文本中发现和提取所需的特定类型的事件,事件模式包含多个事件类型及其相应的事件结构,常用的方法有基于模式匹配的方法和基于机器学期的方法。D.Ahn[18]首先提出将ACE事件抽取任务分成四个子任务:触发词检测、事件/触发词类型识别、事件论元检测和参数角色识别。用ACE术语介绍事件结构如下:
事件提及:描述事件的短语或句子,包括触发词和几个参数。
事件触发词:最清楚地表达事件发生的主要词,一般指动词或名词。
事件论元:一个实体,时间表达式,作为参与者的值和在事件中具有特定角色的属性。
论元角色:论元与它所参与的事件之间的关系。

4.1.1 基于模式匹配的方法

模式匹配方法是在一些模式的指导下进行事件的识别和抽取。模式主要用于指明构成目标信息的上下文约束环境[19]。因此,模式匹配方法的核心在于模式的获取。图4-1-1展示了模式匹配方法的基本组成结构。
图4-1-1:模式匹配方法基本组成

图4-1-1:模式匹配方法基本组成
基于模式匹配事件抽取主要分为有监督的模式匹配方法和弱监督的模式匹配方法两大类。有监督的模式匹配方法依赖于人工标注语料进行事件模式学习[20]。Ellen等[21]在1993年通过建立触发词词典和13种事件匹配模式进行事件识别与抽取,事件匹配模式主要利用事件元素初始描述和事件元素上下文语义进行构建,并开发了AutoSlog模式匹配事件抽取系统。Kim等[22]在1995年引入WordNet语义词典,利用语义框架和短语结弱监督的模式匹配方法只需对语料进行预分类或制定种子模式的少量人工标注工作,然后自动进行事件模式学习。Ellen等[23]在1995年在AutoSlog基础上开发出AutoSlog-ST系统,不需要对语料中的所有事件元素进行标注,只需标注事件类型,然后利用预分类语料自动学习事件模式。2004年姜吉发对模式的自动获取做了深入的研究错误!未找到引用源。,提出了一种基于领域无关概念知识库的事件抽取模式学习方法GenPAM,在模式的学习过程中,用户只需定义IE 任务,无需提供种子模式及对语料分类和标注,系统就能自动从未经分类和标准的语料中学习出IE模式,大大降低了用户的劳动量和技能要求。

总的来说,基于模式匹配的方法在特定领域内可以取得比较好的效果,但是系统的可移植性差,从一个领域移植到另一个领域时,需要重新构建模式。而模式的构建费时费力,需要领域专家的指导。虽然机器学习方法的引入可以从一定程度上加速模式的获取,但是不同模式之间造成的冲突也是一个棘手的问题。并且,现有研究的语义程度大多停留在句法层级上,需要进一步提高其语义程度。近些年来,基于模式匹配的方法越来越多地和半监督方法同时出现,半监督方法的引入,一定程度上缓解了基于模式的方法难以跨领域的缺点。

4.1.2 基于机器学习的方法

目前,绝大多数的事件抽取系统基于机器学习方法。机器学习方法多将事件抽取看作分类任务,使用最大熵、支持向量机等分类器,构建复杂的词汇、句子级别特征。这种方法系统移植性较好,重点在于特征的选取和模型的搭建。

(1)基于特征向量的分类方法
跟传统的机器学习方法把事件抽取任务视作多分类问题不一样,基于特征向量的分类方法关键在于如何从文本中获取各种有效的特征,并把它们有效地集成起来。Ahn等[18]提出了一种简单的模块化方法来提取特征,可以让事件抽取的子任务尝试各种机器学习方法,以及评估这些子任务对整体任务的影响。Liao等[25] 专注于融入篇章和背景信息,使用文档级别信息来提高ACE事件提取的性能,不会限制在相同类型事件的信息,而是使用其他类型的事件信息来使预测或解决给定的问题。实验表明,文件级信息可以提高事件抽取系统的性能。

(2)基于结构预测的方法
基于结构预测的方法则是将事件抽取转化成对事件结构的建模,最大的挑战就是如何挖掘事件中存在的关键性结构化信息。McClosky等[26]提出了一种简单的事件结构的联合提取方法,把事件的表示和论述转化成依存树结构,并通过重新排序解析器来解析这些结构。传统的机器学习方法各个子任务相对独立,无法处理全局的关系,也容易向下传递误差,导致处理的性能递减[20]。Li等在2013 年[27]和2014年[28]提出基于结构预测的事件抽取联合模型,从全局特征和整体结构中同时抽取所有的事件信息,用触发词和事件元素联合预测,避免了误差传递导致的性能下降。

(3)基于神经网络的方法
在事件抽取任务中也陆续涌现出一些基于神经网络的事件抽取方法,由于其能够自动学习有效特征,所以能使研究人员免于继续从事繁琐的特征工程[29]。ACE事件提取任务的传统方法主要依赖自然语言处理工具。这些传统方法缺乏泛化,需要大量的人力物力且易于误差传播还存在着数据稀疏问题。Chen等[30]提出了一种动态的多池卷积神经网络(DMCNN),其根据事件触发器和参数使用动态多池层以保留更重要的信息,旨在在不使用复杂的NLP工具的情况下自动提取词法级和句子级别功能。基于联合模型的神经网络事件抽取方法则采用了神经网络模型进行特征学习和联合学习,避免了复杂的特征工程。Nguyen[31]等提出一种基于RNN的模型进行事件识别和论元角色分类的联合学习。同时,文献中也构建了局部特征和全局特征来着重用于特征表示。Liu等[32] 提出了一种新的深度神经联合多事件提取(JMEE)框架用于事件提取任务,特别是用于多事件任务。此外,还通过优化由于数据集中的不平衡而导致的损失函数来联合提取事件触发器和参数。Yang等[33]首先提出了一个事件提取模型,通过根据角色分离参数预测来克服角色重叠问题。此外,为了解决训练数据不足的问题,又提出了一种自动生成标记数据的方法。

综上可知,基于机器学习的方法虽然不依赖于语料的内容与格式,但需要大规模的标准语料,否则会出现较为严重的数据稀疏问题。但现阶段的语料规模难以满足应用需求,且人工标注语料耗时耗力,为了缓解获取已标注语料的困难,有关学者探究了半监督及无监督的学习研究。另外,特征选取也是决定机器学习结果好坏的重要因素。因此,怎样避免数据稀疏现象以及如何选择合适的特征,成为基于机器学习方法研究的重要课题。

4.2 开放域事件抽取

在没有预定义的事件模式的情况下,开放域事件抽取的目的是从文本中检测事件,在大多数情况下,还可以通过提取的事件关键词聚类相似的事件。事件关键词指的是那些主要描述事件的词/短语,有时关键词还进一步分为触发器和参数。和限定域事件抽取不同,开放域事件抽取的目标类型不受限制。在进行事件识别前,可能的事件类型以及事件的结构都是未知的,因此该任务通常没有标注数据。开放域事件抽取又可以分为基于内容特征的事件抽取方法和基于异常检测的事件抽取方法。

4.2.1 基于内容特征的事件抽取方法

基于内容特征的事件抽取方法一般包括如下步骤:
(1)文本表示:对表示事件的句子、段落或者文档进行预处理,并表示为统一的特征形式,为后面的模块做准备。
(2)事件聚类与新事件发现:基于文本表示,利用无监督方法将同类事件表示聚类,并发现新事件。
在基于内容特征的事件抽取方法中,Yang等[34]1998年提出的组平均聚类方法最具代表性,它最大化了所得簇中的文档对之间的平均相似性,通过重复步骤让所有文本类别都达到指定规模。无监督事件抽取方法可以发现新的事件,但其发现的新事件往往是相似模板的聚类,难以规则化,很难被用来构建知识库,需要将其同现有知识库的事件框架进行对齐,或者通过人工方式来给每个聚类事件簇赋予语义。

4.2.2 基于异常检测的事件抽取方法

基于异常检测的方法不分析文本的内容,而是通过检测文本的异常发布情况进行事件识别。基于该思想,Krumm等[35]首先使用回归模型预测每个地区发布推特的数目,然后观测每个地区实际发布的推特数目,如果实际推特数目和预测数目相比超过一定阈值,那么就判定有事件发生,并使用文本摘要模型从这些推特文本中抽取能够描述该事件的文本。
开放域事件识别虽然可以自动发现新的事件,但其发现的事件往往缺乏语义信息,并且难以进行结构化。如果想要获得准确的语义信息,则需要通过人工标注的方式为每个类别簇赋予特定的语义标签。上述缺点导致开放域事件识别的结果很难被应用到其他自然语言处理任务中。

5 挑战和机遇

5.1 事件抽取面临的挑战

事件抽取作为信息抽取中的关键技术经过十几年的发展后已经取得了丰硕的研究成果。特别是近年来,社会化网络、电子商务应用的迅猛发展,带动信息抽取的研究与应用取得了相应进步。但整体来看其中依然存在一些问题亟待我们解决:
(1)事件抽取当前研究主要基于ACE定义的规范,使用ACE提供的标注语料。由于ACE定义的事件类型有限,现有方法通常只针对特定类型的事件,方法的可移植性和可扩展性不强。
(2)目前仍然没有形成通用的事件框架体系。依靠人工标注语料数据不仅耗时费力而且成本高昂,导致现有的事件语料数据规模不大、类型较少。现阶段各个类型的事件抽取任务性能较低,不能满足产业应用的需要。
(3)事件抽取对子任务的结果有很大的依赖性,如何设计神经网络模型以实现多任务联合是一大难点。

5.2 事件抽取的研究趋势

尽管面临诸多挑战,但事件抽取在现阶段已经受到越来越多的研究者的关注,针对上述问题,事件抽取研究的发展可能会呈现以下趋势:
(1)事件抽取中现有研究对短语句法分析和依存句法分析信息都是分开提取特征,如何综合分析两种句法分析得到的信息,提取更加有效的句法特征还需要进一步研究。由于事件抽取一定意义上偏于语义理解范畴,因此,各种相关知识库的构建与应用对于事件抽取研究走的更远也必不可少。
(2)深入分析目前方法的局限性,并量化每个子任务对事件抽取的影响程度,在提高NLP的句法分析等基本任务性能的基础上,引入新的方法和技术进一步提升事件抽取每个子任务的精度。
(3)中文事件抽取技术的研究是基于现有标注语料的,其中实体信息是标注好的语料,因此在未经标注的生语料中,事件抽取的效果会更差。如何进行有效的未标注文本中文事件抽取也是需要更深入的研究。
(4)现在事件抽取研究多集中于限定域事件抽取,未来事件抽取的研究重心将会往开放域事件抽取转移,而不是限定于某一特定的领域。

6 总结

本文重点剖析了事件抽取的研究现状、代表性数据集和主要技术手段,并从中思考获得启发,最终分析了事件抽取面临的问题,并在此基础上展望了事件抽取的发展趋势。从目前的研究现状来看,事件抽取领域还有许多方面值得研究,同时也有不少问题亟待解决。综上所述,国内外学者以对事件抽取技术进行了较多的研究,取得了一些理论和应用上的成果,但事件抽取技术仍未到达实际应用的水平。事件抽取的系统性能和可移植性问题仍然是研究人员最需要关注的地方。作为自然语言处理领域的一个分支,事件抽取的研究价值也正得到越来越多的认可和重视。当我们认可事件抽取的价值的同时,既要从纵向了解事件抽取的研究阶段和发展空间,也要进行横向比较,总结分析其与自然语言处理其他领域的联系和相似之处,以创新理念引领事件抽取研究不断取得进步。本次综述写作虽然阅读大量文献力求全面论述,但是由于作者水平有限,加之经验不足,文中难免有偏颇不妥之处,希望今后不断完善提高。

参考文献

[1] 李一男.深度学习目标检测方法研究综述[J].中国新通信,2021,23(09):159-160.
[2] 郭喜跃,何婷婷.信息抽取研究综述[J].计算机科学,2015,42(02):14-17+38.
[3] 谭红叶.中文事件抽取关键技术研究[D].哈尔滨工业大学,2008.
[4] 刘利刚,谭红叶,赵铁军等,基于TBL的中文名实体识别后处理技术.中文信息处理前沿进展,中国中文信息学会二十五周年学术会议,中国,北京:清华大学出版社,2006:114-121.
[5] 郭庆.中文事件抽取技术研究[D].南京师范大学,2018.
[6] Wang R, Deyu Z, He Y. Open Event Extraction from Online Text using a Generative Adversarial Network[C].Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 2019: 282-291.
[7] Zhang J, Qin Y, Zhang Y, et al. Extracting Entities and Events as a Single Task Using a Transition-Based Neural Model[C].IJCAI. 2019: 5422-5428.
[8] LDC,“Ace (automatic content extraction) english annotation guidelines for events,”in Linguistic Data Consortium, 2005.
[9] Xiang W, Wang B. A survey of event extraction from text[J]. IEEE Access, 2019, 7: 173111-173137.
[10] MUC-7.Proceedings of the Seventh Message Understanding Conference.1998.
[11] 王淑媛.基于深度学习的事件共指消解研究[D].新疆大学,2019.
[12] J. Allan, Topic detection and tracking: event-based information organization. Springer Science & Business Media, 2012, vol. 12.
[13] J. Allan, J. G. Carbonell, G. Doddington, J. Yamron, and Y. Yang,“Topic detection and tracking pilot study final report,” Proceedings of the Broadcast News Transcription and Understanding Workshop (Sponsored by DARPA), pp. 194-218, 1998.
[14] T. Mitamura, Z. Liu, and E. Hovy, “Overview of tac kbp 2015 event nugget track,” in Proceedings of the 2015 Text Analysis Conference,2015.
[15] J. Tiedemann, 2012, Parallel Data, Tools and Interfaces in OPUS. In Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC 2012).
[16] Agata Cybulska and Piek Vossen. Using a sledgehammer to crack a nut? Lexical diversity and event coreference resolution[C] .Proceedings of the Ninth Language Resources and Evaluation Conference. 2014: 4545-4552.
[17] Fang Zhu, Zongtian Liu, Juanli Yang, Ping Zhu. Chinese event place phrase recognition of emergency event using Maximum Entropy[C]. Cloud Computing and Intelligence Systems (CCIS), 2011 IEEE International Conference on: 614-618.
[18] Ahn D. The stages of event extraction[C].Proceedings of the Workshop on Annotating and Reasoning about Time and Events. 2006: 1-8.
[19] 郑家恒,王兴义,李飞. 信息抽取模式自动生成方法的研究[J]. 中文信息学报,2004,18 ( 1) : 48-54.
[20] 项威,王邦.中文事件抽取研究综述[J].计算机技术与发展,2020,30(02):1-6.
[21] RILOFE.Automatically constructing a dictionary for information extraction tasks[C].Proceedings of the 11th national conference on artificial intelligence.Washington D C:AAAI,1993:811-816.
[22] KIM J T,MOLDOVAN D I.Acquisition of linguistic patterns for knowledge-based information extraction[J].IEEE Transactions on Knowledge and Data Engineering,1995,7 ( 5):713-724.
[23] RILOFE,SHOEN J.Automatically acquiring conceptual patterns without an annotated corpus[C].Third workshop on very large corpora.Massachusetts,USA: ACL,1995:148-161.
[24] 姜吉发. 自由文本的信息抽取模式获取的研究[D].北京: 中国科学院,2004.
[25] Liao S, Grishman R. Using document level cross-event inference to improve event extraction[C].Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. 2010: 789-797.
[26] McClosky D, Surdeanu M, Manning C D. Event extraction as dependency parsing[C].Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. 2011: 1626-1635.
[27] Li P, Zhu Q, Zhou G. Joint modeling of argument identification and role determination in Chinese event extraction with discourse-level information[C].Twenty-Third international joint conference on artificial intelligence. 2013.
[28] Li Q, Ji H, Hong Y, et al. Constructing information networks using one single model[C].Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2014: 1846-1851.
[29] 秦彦霞,张民,郑德权.神经网络事件抽取技术综述[J].智能计算机与应用,2018,8(03):1-5+10.
[30] Chen Y, Xu L, Liu K, et al. Event extraction via dynamic multi-pooling convolutional neural networks[C].Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). 2015: 167-176.
[31] Nguyen T H, Cho K, Grishman R. Joint event extraction via recurrent neural networks[C].Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2016: 300-309.
[32] Liu X, Luo Z, Huang H. Jointly multiple events extraction via attention-based graph information aggregation[J]. arXiv preprint arXiv:1809.09078, 2018.
[33] Yang S, Feng D, Qiao L, et al. Exploring pre-trained language models for event extraction and generation[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019: 5284-5294.
[34] Yang Y, Pierce T, Carbonell J. A study of retrospective and on-line event detection[C].Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval. 1998: 28-36.
[35] Krumm J, Horvitz E. Eyewitness: Identifying local events via space-time signals in twitter feeds[C].Proceedings of the 23rd sigspatial international conference on advances in geographic information systems. 2015: 1-10.

  • 9
    点赞
  • 49
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

凡心curry

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值