论文:Entity Linking with a Knowledge Base: Issues, Techniques, and Solutions翻译笔记(实体链接与知识库: 问题、技术及解决方案)


在这里插入图片描述

论文标题:实体链接与知识库: 问题、技术及解决方案

论文链接:http://dbgroup.cs.tsinghua.edu.cn/wangjy/papers/TKDE14-entitylinking.pdf

摘要—将Web数据与知识库连接的众多潜在应用导致了实体链接研究的增加。实体链接是将文本中的实体提及与其在知识库中对应的实体进行链接的任务。潜在应用包括信息提取、信息检索和知识库填充。然而,由于名称变体和实体歧义,这项任务具有挑战性。在这篇调查中,我们对实体链接的主要方法进行了详细概述和分析,并讨论了各种应用、实体链接系统的评估以及未来方向。

索引术语—实体链接,实体消歧,知识库

1 介绍

1.1 动机

近年来,网络数据量呈指数级增长,网络已成为世界上最大的数据存储库之一。网络上的大量数据以自然语言的形式存在。然而,自然语言具有很高的歧义性,尤其是在频繁出现命名实体的情况下。一个命名实体可能有多个名称,而一个名称可能表示几个不同的命名实体。

另一方面,知识共享社区(如维基百科)的出现和发展以及信息提取技术的发展促进了大规模机器可读知识库的自动化构建。知识库包含了关于世界实体、它们的语义类别和相互关系的丰富信息。这类著名的例子包括DBpedia [1]、YAGO [2]、Freebase [3]、KnowItAll [4]、ReadTheWeb [5]和Probase [6]。

将网络数据与知识库连接起来对于注释大量原始且常常嘈杂的网络数据是有益的,并有助于实现语义网[7]的愿景。实现这个目标的一个关键步骤是将出现在网络文本中的命名实体提及与其在知识库中对应的实体进行链接,这被称为实体链接。

实体链接可以促进许多不同的任务,如知识库填充、问答和信息集成。随着世界的发展,新的事实被生成并在网络上数字化表达。因此,使用新事实丰富现有知识库变得越来越重要。然而,将从信息提取系统中提取到的新知识插入到现有的知识库中,不可避免地需要一个系统来将与提取的知识相关联的实体提及映射到知识库中的相应实体。例如,关系提取是发现文本中实体之间有用关系的过程[8,9,10,11],提取的关系需要将与关系相关的实体映射到知识库中,然后才能将其填充到知识库中。此外,许多问答系统依赖于它们支持的知识库来给出用户问题的答案。为了回答“著名篮球运动员迈克尔·乔丹的生日是什么?”这个问题,系统应该首先利用实体链接技术将查询的“迈克尔·乔丹”映射到NBA球员,而不是例如,伯克利教授;然后它从知识库中直接检索名为“迈克尔·乔丹”的NBA球员的生日。此外,实体链接还有助于强大的连接和并集操作,这些操作可以整合不同页面、文档和网站上的实体信息。

实体链接任务具有挑战性,原因在于名称变体和实体歧义。一个命名实体可能有多种表现形式,如全名、部分名称、别名、缩写和拼写变体。例如,名为“康奈尔大学”的命名实体有其缩写“康奈尔”,而名为“纽约市”的命名实体有其绰号“大苹果”。实体链接系统必须识别出各种表面形式的实体提及所对应的正确实体映射。另一方面,一个实体提及可能表示不同的命名实体。例如,“太阳”这个实体提及可以指的是太阳系中心的恒星、一家跨国计算机公司、美国广播公司电视剧《迷失》中的虚构角色“孙慧娜”(Sun-Hwa Kwon)或者许多其他可以用“太阳”来指代的实体。一个实体链接系统必须在文本上下文中消除实体提及的歧义,并为每个实体提及确定映射实体。

1.2 任务描述

给定一个包含一组实体E的知识库和一个文本集合,在其中预先识别了一组命名实体提及M,实体链接的目标是将每个文本实体提及m ∈ M映射到知识库中对应的实体e ∈ E。这里,命名实体提及m是文本中的一个标记序列,可能指的是某个命名实体,并且已经提前识别出来。在文本中提到的一些实体可能没有与其对应的实体记录在给定的知识库中。我们将这种类型的提及称为不可链接提及,并将NIL作为一个特殊标签表示“不可链接”。因此,如果匹配实体e对于实体提及m在知识库中不存在(即,e不属于E),那么实体链接系统应该将m标记为NIL。 对于不可链接的提及,有一些研究从知识库中识别它们的精细类型[12,13,14,15],这超出了实体链接系统的范围。实体链接在自然语言处理(NLP)社区中也被称为命名实体消歧(NED)。在这篇论文中,我们只关注英语语言的实体链接,而不是跨语言实体链接[16]。

通常,实体链接的任务是在命名实体识别阶段之后进行的,这个阶段识别文本中命名实体的边界。虽然命名实体识别不是本次调查的重点,但如果你想了解在命名实体识别任务中使用的具体方法的技术细节,可以参考调查论文[17]和一些特定的方法[18,19,20]。此外,还有许多公开可用的命名实体识别工具,如Stanford NER1、OpenNLP2和LingPipe3。Finkel等人[18]介绍了Stanford NER中使用的方法。他们利用Gibbs抽样[21]来增强现有的基于条件随机场的系统,并加入长距离依赖模型,强制执行标签一致性和提取模板一致性约束。最近,一些研究者[22,23,24]提出将命名实体识别和实体链接任务联合起来执行,让这两个任务相互强化,这是一个有前途的方向,特别是对于那些命名实体识别工具表现不佳的文本(如推文)。

现在,我们给出一个实体链接任务的示例,如图1所示。对于图中左侧的文本,一个实体链接系统应该利用可用的信息,如命名实体提及的上下文和知识库中的实体信息,将命名实体提及的“迈克尔·乔丹”与伯克利教授迈克尔·I·乔丹关联起来,而不是与其他名字也是“迈克尔·乔丹”的实体关联,如NBA球员迈克尔·J·乔丹和英格兰足球守门员迈克尔·W·乔丹。
在这里插入图片描述

图1。 实体链接任务的示意图。从文本中检测到的命名实体提及部分以粗体显示;正确的映射实体已下划线。 这是一个描述实体链接任务的示例。

在没有知识库的情况下,实体链接简化为传统的实体同指问题。实体同指问题[25,26,27,28,29,30]中,根据实体提及本身、上下文和文档级统计信息,将一个或多个文档中的实体提及分为几个不同的聚类,每个聚类代表一个特定的实体。与实体核心指代解析相比,实体链接需要将文本中检测到的每个实体提及与其在知识库中的映射实体进行链接,并且来自知识库的实体信息可能在链接决策中起到至关重要的作用。

此外,实体链接也类似于词义消歧(WSD)[31]的问题。词义消歧是识别语境中一个词(而不是命名实体)的含义的任务,它从一个词义库存(例如,WordNet [32])中获取信息,而不是知识库。词义消歧认为词义库存是完整的,然而知识库并不完整。例如,许多命名实体在维基百科中没有相应的条目。此外,实体链接中的命名实体提及比词义消歧中的意义提及变化更大[33]。

另一个相关的问题是记录链接[34,35,36,37,38,39,40,41](也称为重复检测、实体匹配和引用协调)在数据库社区中。记录链接是匹配来自多个数据库或源的记录的任务,这些记录指的是相同的实体,例如匹配两个关于同一论文的出版记录,这是数据集成和数据清洗的关键任务。每个描述实体的记录包含一组属性值。例如,描述一个人实体的记录可能具有诸如姓名、生日和地址等属性。大多数记录链接方法都基于这样一个假设,即重复记录应该有相等或相似的属性值。它们通常使用一组相似度量来比较记录的不同属性值,然后可以使用不同的聚合函数组合得到的相似度分数。如果一对记录的相似性分数超过某个阈值,那么它们被认为描述的是同一个实体。具体来说,Dong等人[38]提出了一种基于通用框架的新型记录链接算法,该算法通过利用上下文信息、相关实体之间的相似性和丰富的引用,将一个链接决策的信息传播到另一个链接决策中。Isele和Bizer[39]提出了GenLink,这是一种监督学习算法,它使用遗传编程从现有记录链接中学习链接规则。他们的算法能够生成链接规则,选择用于比较的有区别性的属性,应用一系列数据转换来规范化属性值,选择合适的相似度量和阈值,并使用非线性聚合函数组合多个比较的结果。

在实体链接问题中,需要链接的实体提及位于无结构文本中,并且没有与其关联的属性值。而知识库中的实体具有许多相关关系,这些关系表明其属性。对于每个实体提及,如果我们能利用一些信息提取技术从无结构文本中准确提取其对应的属性值,那么现有的记录链接方法可以用来解决实体链接问题。 然而,实体提及的相应属性值可能不存在于文本中,这样的信息提取任务是困难的。此外,记录链接中提出的一些字符串比较方法[34,42,43]可以用于生成候选实体。在第二部分介绍的候选实体生成模块中。总之,实体链接与实体指代消解、词义消歧和记录链接不同。

一般来说,一个典型的实体链接系统包括以下三个模块:
候选实体生成
在这个模块中,对于每个实体提及m ∈ M,实体链接系统旨在过滤掉知识库中的不相关实体,并检索出一个候选实体集Em,其中包含实体提及m可能指代的可能实体。为了实现这个目标,一些最先进的实体链接系统已经采用了各种技术,如基于名称字典的技术、从本地文档中扩展表面形式以及基于搜索引擎的方法。在第2节中详细调查了用于这个模块的技术。
候选实体排名
在大多数情况下,候选实体集Em的大小大于1。研究人员利用各种证据对候选实体进行排名,并试图找到属于Em的最有可能与提及m关联的实体e。在第3节中,我们将回顾用于这个排名过程的主要技术,包括监督排名方法和无监督排名方法。
难以链接的提及预测
为了解决难以链接的提及预测问题,一些工作利用这个模块来验证在候选实体排名模块中识别出的排名最高的实体是否是提及m的目标实体。如果不是的话,他们将为提及m返回NIL。在第4节,我们将概述用于预测难以链接的提及的主要方法。

1.3 应用程序

如第1.1节所述,实体链接对于许多不同的任务至关重要。在这里,我们介绍几种典型的应用程序。

1.3.1 信息提取

通过信息提取系统提取的命名实体和关系通常具有歧义性。将它们与知识库进行链接是一种很好的去歧义和精细化类型的方法,这对于进一步利用这些实体和关系至关重要。林等人[44]提出了一种高效的实体链接技术,用于将来自网络的1500万个文本提取中的实体提及与维基百科进行链接。他们指出,对这些提取的关系进行实体链接将带来好处,例如为文本关系提供语义类型、与链接数据资源的集成以及推理规则学习。PATTY[45]是这方面的一个好例子。它的目标是构建具有语义类型的关联模式分类。PATTY首先从网络中提取实体之间的二元关系。为了利用这些提取的关系来构建关系模式分类,首先采用实体链接技术将提取关系中的实体与YAGO2知识库进行链接,以消除歧义。

1.3.2 信息检索

近年来,将传统的基于关键词的搜索发展为基于语义实体的搜索这一趋势引起了广泛关注。语义实体基础搜索[47,48,49,50]无疑得益于实体链接,因为它本质上需要在网页文本中出现的消歧实体提及,以便更精确地处理实体和网页文档的语义。此外,查询歧义也是影响搜索结果质量的问题之一。命名实体通常出现在搜索查询中,它们无疑具有歧义性[51]。例如,搜索查询中的“纽约”实体提及可能表示许多不同的实体,如纽约州、纽约市、爱德华·鲁瑟福的一部历史小说名为“纽约”,以及许多名为“纽约”的歌曲。通过使用查询上下文和用户的搜索历史记录,将这些模糊的实体提及与知识库连接起来,可能会提高搜索结果的质量以及用户点击体验。

1.3.3 内容分析

从主题、观点、分类等方面分析文本的一般内容,绝对可以从实体链接的应用中受益。基于内容的新闻推荐系统[52,53]需要对新闻文章进行主题分析,以向用户推荐有趣的新闻。将新闻文章中的实体与知识库相连接,可以更好地进行主题内容分析。此外,Twitter最近已成为一个越来越重要的信息来源。为特定Twitter用户发现感兴趣的主题可以基于他们的兴趣主题推荐和搜索Twitter用户[54]。研究人员[55]通过首先检测并链接提及在推文中的命名实体与知识库,来发现Twitter用户的兴趣主题。然后他们利用从知识库中获取的链接实体类别来描述用户的兴趣主题。另一个例子是,需要收集关于一些产品、事件、名人或其他跨文档命名实体的意见或信息,这也需要将命名实体提及与知识库进行链接的过程[56]。

1.3.4 问题回答

如上所述,大多数问答系统利用其支持的知识库来给出用户问题的答案。为了回答诸如“教授迈克尔·乔丹隶属于哪所大学?”这样的问题,系统必须首先消除实体提及“迈克尔·乔丹”的歧义。他们可以利用实体链接技术将查询的“迈克尔·乔丹”映射到伯克利教授,然后直接从知识库中检索他所属的大学以回答用户的问题。文献[56]中的Gattani等人通过将查询中的实体与知识库相连接来解释用户在kosmix.com上的查询。此外,一些问答系统(如Watson [57])利用实体链接技术预测问题类型和候选答案,并取得了令人鼓舞的结果。

1.3.5 知识库填充

随着世界的发展,新的事实被生成并在网络上以数字形式表达。自动填充和丰富现有知识库,以便与新提取的事实相结合,已成为语义网和知识管理技术的关键问题。实体链接被固有地认为是知识库填充任务的一个重要子任务。给定一个需要填充到知识库的关系或事实,如果与该关系相关的实体提及其对应的实体记录在知识库中存在,那么应该进行实体链接任务,并将这个实体提及与其在知识库中的对应实体连接起来。因此,知识库填充任务可能会从实体链接问题中受益。

1.4 预处理

知识库是实体链接任务的基本组成部分。知识库提供了关于世界实体(例如,阿尔伯特·爱因斯坦和乌尔姆)的信息,它们的语义类别(例如,阿尔伯特·爱因斯坦的类型是科学家,乌尔姆的类型是城市)以及实体之间的相互关系(例如,阿尔伯特·爱因斯坦与乌尔姆有一个名为bornIn的关系)。以下,我们简要介绍四个在实体链接领域被广泛利用的知识库。

维基百科是一个免费的在线多语言百科全书,通过分散式、集体的努力,由全球数千名志愿者创建。目前,维基百科已成为世界上最大且最受欢迎的互联网百科全书,并且是一个非常动态且快速发展的资源。维基百科的基本条目是文章,它定义和描述了一个实体或一个主题,每篇文章在维基百科中都有一个唯一的标识符。目前,英文维基百科包含了超过440万篇文章。维基百科对命名实体的覆盖范围很广,包含了大量关于知名命名实体的知识。 此外,维基百科的结构提供了一系列有用的实体链接功能,如实体页面、文章分类、重定向页面、消歧义页面以及维基百科文章中的超链接。
YAGO[2]是一个开放领域的知识库,结合了维基百科和WordNet[32],具有很高的覆盖率和质量。一方面,YAGO拥有与维基百科同数量级的实体;另一方面,它采用了来自WordNet的干净的概念分类。当前,YAGO最新版本包含了一百万多个实体(如人、组织、地点等),并有关于这些实体的1.2亿个事实6,包括Is-A层次结构(如类型关系和子类关系)以及实体之间的非分类关系(如居住在关系和毕业于关系)。此外,YAGO中的手段关系表示字符串和实体之间的引用关系(例如,“爱因斯坦”表示阿尔伯特·爱因斯坦)。霍夫特等人[58]利用YAGO中的这种手段关系生成候选实体。
DBpedia[1]是一个多语种知识库,通过从维基百科中提取结构化信息构建而成,例如信息框模板、分类信息、地理坐标以及链接到外部网页。目前,英文版的DBpedia知识库描述了400万个实体,其中322万个在一致的本体论中进行了分类。此外,随着维基百科的变化,它会自动更新和演进。
Freebase [3] 是一个由社区成员共同创建的大型在线知识库。Freebase 提供了一个界面,允许非程序员编辑其中的结构化数据。Freebase 包含从许多来源(包括维基百科)获取的数据。目前,它包含超过 4300 万个实体和关于它们的 24 亿个事实。

1.5 概述

在这篇调查报告中,我们仔细回顾和分析了实体链接系统三个模块的主要技术以及其他关键方面,如特征和评估。据我们所知,这是第一篇系统性调查实体链接系统的论文。

本文余下的部分组织如下。在第2、3和4节中,我们将分别介绍和分析实体链接系统三个模块(即候选实体生成、候选实体排名和不可链接提及预测)所使用的算法和特点。然后,在第5节中,我们介绍了实体链接系统的评估。最后,在第6节中,我们将总结本文并讨论未来的研究方向。

2 候选实体生成

如第1.2节中简要介绍的那样,在候选实体生成模块中,对于每个实体提及m ∈ M,实体链接系统试图将可能与实体提及m相关的实体包含在候选实体集合Em中。候选实体生成的方法主要基于实体提及的表面形式和知识库中存在的实体名称之间的字符串比较。这个模块和候选实体排名模块一样重要,对于成功的实体链接系统来说至关重要,这是根据Hachey等人[33]进行的实验得出的结论。在本节剩余部分,我们将回顾应用于生成实体提及m的候选实体集Em的主要方法。

具体来说,在第2.1节中,我们描述了基于名称字典的技术。在第2.2节中,我们介绍了表面形式扩展方法,用于将实体提及的表面形式扩展为更丰富的形式,该形式来自实体提及出现的本地文档。在第2.3节中,我们列出了基于搜索引擎的方法。

2.1 名称字典为基础的技术

名称字典基础技术是主要的候选实体生成方法,并被许多实体链接系统所采用[22,56,59,60,61,62,63,64,65,66,67,68,69,70,71,72,73,74,75,76,77,78,79]。维基百科的结构提供了一组用于生成候选实体的有用特性,如实体页面、重定向页面、消歧义页面、从第一段中的粗体短语以及维基百科文章中的超链接。这些实体链接系统利用不同特征的组合来构建一个离线名称字典D,该字典在各种名称和可能映射实体之间建立联系,并利用这个构建的名称字典D生成候选实体。这个名称字典D包含了大量关于命名实体的各种名称信息,如名称变体、缩写、易混淆名称、拼写变体、昵称等。

具体来说,名称字典D是一个⟨键,值⟩映射,其中键列是一个名称列表。假设k是键列中的一个名称,它在值列中的映射值k.value是一个命名实体集合,可以被称作名称k。字典D通过利用Wikipedia的特征构建如下:
实体页面。维基百科中的每个实体页面描述了一个单一的实体,并包含关于这个实体的信息。通常,每个页面的标题是该页面所描述实体最常见的名称,例如,页面标题“微软”用于描述总部位于雷德蒙德的大型软件公司。因此,将实体页面的标题添加到D的关键字列中作为一个名称k,而该页面所描述的实体则作为k.value添加。
重定向页面。每个可能被用来指代维基百科中现有实体的别名都存在一个重定向页面。例如,标题为“微软公司”的文章是微软的全名,其中包含一个指向实体微软的文章的指针。重定向页面通常表示同义词、缩写或其他指向实体的变体。因此,将重定向页面的标题作为名称k添加到D的关键字列中,将被指向的实体作为k.value添加。
歧义页面。当维基百科中有多个实体具有相同的名称时,会创建一个歧义页面来区分它们,并包含这些实体的参考列表。例如,名为“迈克尔·乔丹”的歧义页面列出了13个同名的关联实体,包括著名的NBA球员和伯克利教授。这些消歧义页面在提取缩写或其他实体别名时非常有用。对于每个消歧义页面,该页面的标题作为名称k添加到D的关键字列中,而在此页面中列出的实体则作为k.value添加。
从第一段中提取加粗的短语。一般来说,维基百科文章的第一段是对整篇文章的总结。它有时包含一些用粗体写的短语。Varma等人[63,64]观察到这些粗体短语通常是文章所描述实体的昵称、别名或全名。例如,在惠普实体页面的第一段中有两个加粗的短语(即“Hewlett-Packard Company”和“HP”),它们分别是惠普实体的全名和缩写。因此,对于每个Wikipedia页面第一段中的加粗短语,将其作为名称k添加到D的关键字列中,同时将这个页面描述的实体作为k.value添加进去。
维基百科文章中的超链接。一篇维基百科的文章通常包含超链接,这些链接指向文章中提到的实体页面。指向实体页面的链接的锚文本提供了一个非常有用的信息来源,可以找到同义词和其他名称变体,也可以被视为链接到的实体的名称。例如,在惠普的实体页面中,有一个超链接指向实体威廉·雷德丁顿·休利特,其锚文本是“比尔·休利特”,这是实体威廉·雷德丁顿·休利特的别名。因此,将该超链接的锚文本添加到D中的键列作为名称k,将所指向的实体添加为k.value。

使用上述来自维基百科的这些特征,实体链接系统可以构建一个字典D。表1显示了字典D的一部分。除了利用维基百科的特征外,还有一些研究[80,81,82]利用查询点击日志和网络文档来寻找实体同义词,这对名称字典的构建也非常有帮助。
在这里插入图片描述

表1:名称字典D的一部分

根据以这种方式构建的字典,生成候选实体集Em的最简单方法是精确匹配键列中的名称k和实体提及m。如果某个k等于m,则将k.value中的实体集添加到候选实体集Em中。

除了精确匹配外,一些方法([67,69,70,83,84])在字典D中使用实体名称k和实体提及m之间的部分匹配。这些方法常用的规则包括:
• 实体名称完全包含在实体提及中,或者实体提及包含实体名称。
• 实体名称与实体提及中所有词的首字母完全匹配。
• 实体名称与实体提及之间存在多个共同词汇。
• 实体名称与实体提及具有较强的字符串相似性。已经使用了许多字符串相似度度量方法,例如字符Dice得分、跳过bigram Dice得分、Hamming距离等。由于字符串比较技术不是本次调查的重点,您可以在[34,42,43]这些论文中找到关于这些技术的全面调查。

对于每个实体提及m ∈ M,如果关键列中的某个实体名称k满足上述规则之一,那么实体集合k.value将被添加到候选实体集Em中。与精确匹配相比,部分匹配可以提高召回率,但会在候选实体集中引入更多的噪声。

在与词典匹配之前,一些方法解决了实体提及中存在的拼写错误问题,这个问题非常严重,需要特别解决。Varma等人[63]使用隐喻音算法[85]来识别给定实体提及的拼写变化。Chen等人[67]通过Lucene中的拼写检查器获得了建议的正确字符串。Nemeskey等人[86]通过SZTAKI信息检索引擎[87]的内置拼写纠正器来解决这个拼写错误问题。Zhang等人[65]提出使用维基百科搜索引擎(即“您是否意味着”)的一项功能来识别给定实体提及的拼写变化。此外,一些系统[64,68,78]尝试使用谷歌搜索引擎提供的查询拼写校正服务来纠正实体提及中的拼写错误。

2.2 从本地文档中扩展表面形式

由于某些实体提及是缩写或其全名的一部分,一类实体链接系统使用表面形式扩展技术来识别与实体提及出现的文档中可能存在的其他扩展变化(如全名)。然后他们可以利用这些扩展的形式,通过其他方法(例如上述基于名称字典的技术)生成候选实体集。我们将表面形式扩展技术分为启发式方法和监督学习方法。

2.2.1 启发式方法

对于以首字母缩写形式出现的实体提及,一些方法[61,67,69]通过搜索实体提及周围的文本环境来扩展它,这种方法是通过启发式模式匹配实现的。他们最常用的模式有:一种是首字母缩写在括号中紧邻其扩展名(例如,Hewlett-Packard(HP)),另一种是扩展名在括号中紧邻首字母缩写(例如,UIUC(University of Illinois at Urbana-Champaign))。此外,一些研究人员[63,66,68,86]通过基于N-gram的方法从整个文档中确定实体提及的扩展形式。他们检查在删除停用词后,整个文档中是否存在与首字母缩略词字符相同的’N’个连续单词。如果存在,他们认为这些’N’个连续单词是首字母缩略词的扩展形式。此外,Varma等人[64]和Gottipati和Jiang[77]使用现成的命名实体识别器(NER)从文档中识别命名实体,如果某个识别出的命名实体包含实体提及作为子字符串,他们将这个命名实体视为实体提及的扩展形式。例如,如果一个NER(命名实体识别)从包含实体提及“Jordan”的文档中识别出“Michael I. Jordan”是一个人名,那么“Michael I. Jordan”就被视为实体提及“Jordan”的扩展形式。Cucerzan [71] 使用了一个利用网络数据来识别缩略语扩展的缩略语检测器[88]。

2.2.2 监督学习方法

以前基于启发式的表层形式扩展方法无法识别一些复杂的首字母缩写形式,例如交换或丢失的首字母缩写字母(例如,“CCP”代表“中国共产党”和“DOD”代表“美国国防部”)。张等人[72]提出了一种监督学习算法,用于找到复杂首字母缩略词的扩展形式,这使得实体链接的准确度提高了15.1%(实体链接的评估指标将在第5.1节介绍),超过了最先进的首字母缩略词扩展方法。具体来说,他们通过一些预定义的策略从文档中识别出可能的候选扩展,包括文本标记(例如“惠普(HP)”和“HP(惠普)”)和首字母匹配(即,在文档中提取所有与缩写开头相同的单词序列,并且不包含标点符号或超过两个停用词作为候选扩展)。例如,从句子“中国共产党领导人已经授予……”中,关于缩写“CCP”,他们提取了包含两个停用词的“中国共产党领导人已经”以及所有以第一个匹配词开头的子字符串作为候选扩展。然后,将每个缩写与其候选扩展之一表示为一个特征向量,包括词性特征和缩写与扩展之间的对齐信息。SVM(支持向量机)分类器应用于每个候选的首字母缩略词扩展对,以输出置信度分数。对于每个首字母缩略词,选择得分最高的候选扩展。这个分类器的训练数据包括170个首字母缩略词及其在文档中的扩展。

2.3 基于搜索引擎的方法

一些实体链接系统[61,69,73,83]试图利用整个网络信息来通过网络搜索引擎(如Google)识别候选实体。具体来说,Han和Zhao[61]将实体提及及其简短上下文提交给Google API,并仅获得维基百科内的网页,将其视为候选实体。Dredze等人[83]通过使用实体提及来查询谷歌搜索引擎,并确定了一些候选实体,它们的维基百科页面出现在查询的前20个谷歌搜索结果中。Lehmann等人[69]和Monahan等人[73]指出,谷歌搜索引擎在识别一些表面形式和实体之间的非常困难的映射方面非常有效。他们使用Google API执行查询,限制在英文维基百科网站上,并过滤掉与查询的维基百科标题不具有显著相似度(基于Dice或首字母缩略词)的结果。最后,他们将排名前三的结果作为候选实体。

此外,维基百科搜索引擎也被利用来检索候选实体,当您根据关键词匹配进行查询时,它可以返回一系列相关的维基百科实体页面。张等[65]利用这一功能通过使用实体提及的字符串查询这个搜索引擎,生成了一些鲜少提到的候选实体。

3. 候选实体排名

在上一节中,我们描述了生成每个实体提及m的候选实体集Em的方法。我们用|Em|表示Em的大小,并使用1≤i≤|Em|来索引Em中的候选实体。在Em中具有索引i的候选实体表示为ei。在大多数情况下,候选实体集Em的大小大于1。例如,Ji等人[89]表明,在TAC-KBP2010数据集(TAC-KBP跟踪和数据集将在第5.2节介绍)上,每个实体提及的平均候选实体数为12.9,而在TAC-KBP2011数据集上的这个平均数为13.1。此外,CoNLL数据集在[58]中的这个平均数为73。因此,剩下的问题是如何将不同类型的证据纳入进来,对候选实体进行排名,并从Em中选择合适的实体作为实体提及m的映射实体。候选实体排名模块是实体链接系统的一个关键组成部分。我们可以将这些候选实体排名方法大致分为两类:

  • 监督排名方法。这些方法依赖于标注过的训练数据来“学习”如何对候选实体进行排名。这些方法包括二元分类方法、学习排序方法、概率方法和基于图的方法。
  • 无监督排名方法。这些方法基于未标记的语料库,不需要任何手动标注的语料库来训练模型。这些方法包括基于向量空间模型(VSM)的方法和基于信息检索的方法。

在这一部分,我们将根据上述分类详细介绍所有候选实体排名方法。此外,我们还可以将候选实体排名方法分为另外三个类别:

  • 独立排名方法。这些方法认为,在一个文档中需要链接的实体提及是独立的,并不利用一个文档中实体提及之间的关系来帮助候选实体排名。为了对候选实体进行排名,它们主要利用实体提及周围的文本和与候选实体关联的文档之间的上下文相似性[44,59,66,67,68,70,83,84]。
  • 集体排名方法。这些方法假设一个文档主要涉及来自一个或几个相关主题的连贯实体,实体提及在一篇文档中的分配相互依赖。因此,在这些方法中,通过利用这种“主题连贯性”,文档中的实体提及被共同链接[22,58,60,62,75,76,78,79,90,91,92,93]。
  • 协作排序方法。对于需要链接的实体提及,这些方法识别具有相似表面形式和相似文本上下文的其他实体提及。它们利用从其他相似实体提及获得的跨文档扩展上下文信息以及实体提及本身的上下文信息对候选实体进行排名[94,95,96,97]。

在本节的剩余部分,我们将回顾候选实体排名过程中使用的主流技术。首先,在第3.1节中,我们回顾了在候选实体排名中发现的各种有用的功能特征。然后在第3.2节中,我们介绍了监督排名方法。具体来说,在第3.2.1节中,我们描述了二元分类方法;在第3.2.2节中,我们介绍了学习排序方法。在第3.2.3节中,我们描述了概率方法;而在第3.2.4节中,我们涵盖了基于图的方法。在第3.2.5节中,我们介绍了实体排名的模型组合策略;在第3.2.6节中,我们说明了如何自动生成注释训练数据。在第3.3节中,我们介绍了无监督排名方法。具体来说,在第3.3.1节中,我们列出了基于向量空间模型的方法;在第3.3.2节中,我们展示了基于信息检索的方法。

3.1 特征

在本小节中,我们回顾了在候选实体排名中发现的各种有用的特征类型。我们将这些特征分为上下文独立特征和上下文依赖特征。上下文无关特征仅依赖于实体提及的表面形式和关于候选实体的知识,与实体提及出现的上下文无关。上下文相关特征基于实体提及出现的上下文。这里的上下文不仅指实体提及周围的文本上下文,还包括同一文档中需要链接的其他实体提及。

3.1.1 上下文独立特征

3.1.1.1 名称字符串比较

名称字符串比较:实体提及和候选实体之间的名称字符串比较是最直接的特征之一。许多字符串相似度测量方法已被用于名称比较,包括编辑距离[68,96]、Dice系数得分[69,73]、字符Dice、跳过bigram Dice以及左右Hamming距离得分[83]。常见的名称比较特征包括:
• 实体提及是否完全匹配候选实体名称。
• 候选实体名称是否以实体提及开头或结尾。
• 候选实体名称是否为实体提及的前缀或后缀。
• 实体提及是否完全包含在候选实体名称中,或者反过来。
• 实体提及的所有字母是否按相同的顺序出现在候选实体名称中。
• 实体提及和候选实体名称之间有多少个相同的词。
• 回溯最长公共子序列[98]与实体提及和候选实体名称中较短者之间的比例。

此外,Dredze等人[83]通过训练有限状态转换器来计算名称相似性,这种方法与[99]中描述的类似。这些转换器通过对所有对齐方式求和,并为所有包含的字符n-gram打分,为任何字符串对分配一个分数。最后,使用全局对数线性模型组合这些分数。

实体流行度

实体流行度:在实体链接中发现的另一个非常有用的无上下文特征是候选实体相对于实体提及的流行度,它告诉我们给定实体提及时候选实体出现的概率。他们的观察结果是,对于具有相同提及形式m的每个候选实体ei ∈ Em,它们的流行度都不同,有些实体对于给定的提及形式m来说非常模糊和罕见。例如,关于实体提及“纽约”,候选实体“纽约(电影)”比候选实体“纽约市”要罕见得多。在大多数情况下,当人们提到“纽约”时,他们指的是纽约市,而不是名字也为“纽约”的电影。许多最先进的实体链接系统[22,58,62,73,76,78,79,92,96]通过利用维基百科的计数信息对这一观察进行了形式化,并为每个候选实体ei ∈ Em相对于实体提及m定义了流行度特征Pop(ei)。该特征是具有提及形式m作为锚文本且指向候选实体ei的链接数量的比例:
在这里插入图片描述
其中countm(ei)是指向实体ei的链接数量,并且这些链接的锚文本形式为m。

一些研究[22,56]利用与每个候选实体相关的维基百科页面浏览统计数据来估计实体的受欢迎程度。为了表达候选实体的受欢迎程度,Dredze等人[83]为候选实体添加了从维基百科图形结构中获得的特征,如节点的入度、出度和维基百科页面的字节数长度。此外,他们还使用了谷歌的PageRank来增加一个功能,指示候选实体对应的维基百科页面在谷歌搜索结果页面中的排名。

由于文本中出现的大多数实体提代表着显著的实体,因此仅使用实体流行度特征在大多数情况下可以得出正确的答案。Ji和Grishman[100]进行的实验表明,一种基于网络流行度的简单候选排名方法可以达到71%的准确率,这比TAC-KBP2010赛道中的24个系统运行要好。因此,我们可以说实体流行度特征对于实体链接任务具有显著的重要性和效果。

3.1.1.3实体类型

实体类型:此特性用于指示文本中实体提及(即人、地点和组织)的类型是否与知识库中候选实体的类型一致。Nemeskey等人[86]使用他们内部的命名实体识别器[101]来识别文本中实体提及的类型,并为一些候选实体的类型在知识库中不可用。Dredze等人[83]从维基百科的infobox类信息中推断出候选实体的实体类型。Lehmann等人[69]和Monahan等人[73]使用LCC的CiceroLite命名实体识别系统[102]来确定文本中实体提及的类型,而对于候选实体的实体类型,他们采用了一系列资源的级联,从包含候选实体的知识库开始。 如果知识库中不知道类型,就会咨询DBpedia。作为最后的手段,会咨询LCC的WRATS本体资源。来自CiceroLite、DBpedia和WRATS的实体类型都会被简化为三种常见的实体类型(即人、地点和组织)。

尽管独立于上下文的特征很有用,但它们只提供了来自实体提及和候选实体的信息。非常有必要使用与实体提及出现的上下文相关的特征。我们在以下部分讨论这个问题。

3.1.2 上下文相关特征

3.1.2.1文本上下文

文本上下文:关于文本上下文最直观的特征是测量实体提及周围的上下文和候选实体关联的文档之间的文本相似度。已经使用了各种形式来表示上下文:

  • 词袋模型。对于每个实体提及,上下文被表示为从整个输入文档中收集的词袋,其中包含实体提及出现的位置[22,66,67,70,90,96],或者在文档中围绕实体提及的合适窗口[44,59,62,75,76,79]。对于每个候选实体,上下文通常表示为从整个维基百科实体页面中提取的词袋[44,59,62,66,70,75,96],维基百科页面的第一段描述[62],在维基百科页面语料库中围绕每个实体出现的合适窗口[79],或者维基百科页面的前k个词频-逆向文件频率(TF-IDF)摘要[22,76]。
  • 概念向量。对于包含实体提及的一般文档或候选实体的维基百科文章,系统会从中提取一些关键短语[58]、锚文本[62]、命名实体[65,83,94]、类别[60,83]、描述性标签[56]和维基百科概念[61,71,73,78],以组成一个概念向量来表示文档的语义内容。此外,候选实体的上下文可以通过其在维基百科中的相关链接实体、属性以及通过维基百科信息框所知道的相关事实来表示[67,69,83]。

基于这些不同的表示形式,每个实体提及或与候选实体相关的文本可以转换为一个向量。为了计算向量之间的相似性,已经采用了不同的方法,包括点积[22,62,75]、余弦相似性[44,59,62,65,66,68,70,76,79,83,90,94]、Dice系数[83]、词重叠[58,96]、KL散度[58]、基于n-gram的度量[58]和Jaccard相似性[62]。

此外,韩和孙[74]利用一元语言模型来编码每个候选实体的上下文知识,这可以告诉我们一个实体在特定上下文中出现的可能性。主题建模[103]也被用于对文档的潜在语义主题进行建模,以计算上下文相似性[70,72,96,104]。何等人[105]提出了一种深度学习技术[106],用于自动学习实体链接的上下文-实体相似度衡量方法。这种方法基于一个假设,即正确的映射实体应该比任何其他候选实体更相似于实体提及的上下文。最近,李等人[107]提出了一种生成模型,以增强知识库中实体的上下文信息,这些信息以实体-词分布的形式从内部和外部语料库中挖掘出来。

3.1.2.2 映射实体之间的连贯性

映射实体之间的连贯性:文本中实体提及的上下文无疑在实体链接中起着至关重要的作用。此外,对于一个需要在同一文档中进行链接的实体提及,其他需要链接的实体提及也对其链接至关重要。许多最先进的实体链接系统假设一个文档主要涉及来自一两个相关主题的连贯实体,这种主题连贯性可以被用来集中链接同一文档中的实体提及。因此,它们利用一个文档中映射实体之间的主题连贯性特征来辅助链接实体[22,58,60,62,75,76,78,79,90,91,92,93]。

为了测量映射实体之间的连贯性,Cucerzan [60] 首先利用两个候选实体类别的协议来实现这一目标。此外,一些方法[58,62,75,76,78,79,91,96]采用了在[108,109]中描述的基于维基百科链接的度量(WLM)来计算维基百科实体之间的主题一致性,其假设是如果有很多维基百科文章同时链接到两个维基百科实体,那么这两个实体被认为是语义相关的。WLM是根据归一化谷歌距离[110]模型构建的。给定两个维基百科实体u1和u2,它们之间的话题一致性定义如下:
在这里插入图片描述
在此,U1和U2是链接到u1和u2的维基百科文章集合,而WP是所有维基百科文章的集合。除了归一化谷歌距离模型外,Ratinov等人[76]还提出使用PMI-like(点对互信息)度量来计算维基百科实体之间的主题一致性:
在这里插入图片描述
此外,郭等人[22]使用Jaccard距离来衡量维基百科实体之间的主题一致性:
在这里插入图片描述
上述的三种度量[22,76,108]是基于维基百科的链接结构。然而,对于长尾和新兴实体,它们很少或没有与之相关的链接,这三种度量无法很好地发挥作用。为了解决这个问题,Hoffart等人[111]提出了一种高效的度量方法,称为KORE,它计算两个实体表示为加权(多词)关键词短语集之间的话题一致性,考虑部分重叠的短语。为了提高效率,他们使用了基于最小哈希草图和局部敏感哈希的两级近似技术。

最近,Ceccarelli等人[112]提出使用学习排序模型来学习实体之间的主题一致性,用于实体链接。他们认为一个好的度量标准应该促进正确映射实体之间的一致性。学习到的度量是实体之间的27种不同度量的加权组合,包括WLM[108]、点对互信息[76]和Jaccard相似性[22]等。实验结果表明,他们学习到的度量比其他先前提出的度量表现更好。然而,它比其他度量更耗时。此外,Han和Sun[93]通过主题建模技术来建模主题一致性。

为了衡量网页列表中实体之间的连贯性,沈等人[92]利用了两类信息:(1)基于类型层次结构的相似性,该相似性基于两个实体在类型层次结构中位置相近的假设;(2)分布式上下文相似性,该相似性基于发生在相似上下文中的实体在语义上相似的假设,这是分布式假说的一个扩展。

尽管在实体链接任务中发现映射实体之间的连贯性特征非常有效[22,58,60,62,75,76,78,79,90,91,92,93],但这种特征的计算并不简单和直观。为了为一个实体提及计算这个特征,系统必须了解同一文档中其他实体提及的映射实体。不幸的是,这些映射实体对我们来说是未知的,需要在这个任务中进行分配。因此,一个文档中的实体提及之间的实体分配是相互依赖的。根据文献[58,62,92,96]的研究,这个问题的优化被证明是NP困难的,这使得这个特征在实际应用中计算复杂且耗时。

3.1.3 讨论:特征

这里介绍的大量特征反映了实体链接系统在处理实体链接任务时可以考虑的众多方面。不幸的是,关于各种特征的有效性比较的研究非常少。然而,我们强调没有任何特征在所有数据集上都比其他特征更优越。甚至是一些在某些数据集上表现出强大且高性能的特征,在其他数据集上也可能表现不佳。因此,在设计实体链接系统的特征时,需要考虑许多方面,例如准确性和效率之间的权衡,以及所应用的数据集的特点。

3.2 监督排名方法

监督排名方法使用注释数据集来“学习”如何为每个实体提及分配正确的映射实体。训练数据集通常包含一组示例,其中每个实体提及都手动注释有其映射实体。在本小节的其余部分,我们将详细介绍用于对候选实体进行排名的监督排名方法。

3.2.1 二元分类方法

一些系统[63,65,66,69,73,94,104]将候选实体排名问题形式化为一个二元分类问题。给定一对实体提及和候选实体,他们使用二元分类器来决定实体提及是否指的是候选实体。训练或测试实例是由一对实体提及和候选实体⟨m,ei⟩组成的。如果实体提及m指的是实体ei,那么这个实例的标签就是正面的,否则就是负面的。在训练阶段,许多标记为⟨m, ei⟩的对被用来学习分类器。在测试阶段,每个测试⟨m, ei⟩对被呈现给分类器,然后分类器输出一个类别标签,指示它是否为正面或负面。每个⟨m, ei⟩对都被表示为一个特征向量,其中包含第3.1节中描述的特征。对于一个实体提及,如果有两个或更多被标记为正面的候选实体,一些技术被用来选择最可能的一个,如基于置信度的方法[63,69,104],基于VSM的方法[65]和SVM排名模型[66]。对于二元分类器,大多数系统采用支持向量机(SVM)[65,66,94,104]。支持向量机(Support Vector Machines)[113]基于从训练数据集中学习一个超平面的想法,该超平面将正例和负例分开。超平面位于高维空间中那个点,该点到最近的正负样本的距离最大化。除了SVM分类器外,Lehmann等人[69]和Monahan等人[73]还使用了二元逻辑分类器,而Varma等人[63]则采用了朴素贝叶斯分类器和K最近邻分类器。

3.2.2 学习排序方法

尽管二元分类法是一种自然且简单的处理候选实体排名任务的方法,但它存在几个缺点。首先,训练数据非常不平衡,因为绝大多数候选实体都是负例。此外,当多个候选实体被二元分类器判定为正例时,他们需要使用其他技术来选择最有可能的一个。

相反,许多实体链接系统[59,62,66,68,70,72,76,78,83,84,92,94]利用学习排名框架[114]为候选实体集赋予一个排名,并考虑同一实体提及的候选实体之间的关系,而不是像二元分类器那样独立考虑它们。学习排名是一种监督技术,其目标是从训练数据中自动构建排名模型。训练数据对于学习排名模型由具有部分顺序指定的项目列表组成。然而,在实体链接问题中,方法仅关注候选实体集中的单个正确映射实体,并因此施加了一个宽松的要求,即正确映射实体应排在最高位置。这种表述解决了二元分类的问题。 首先,训练数据是平衡的,因为我们为每个实体提及都有一个排名示例。其次,方法只需要在测试阶段选择得分最高的候选实体作为每个实体提及的映射实体,而不需要采用其他技术来选择最可能的一个。在这个学习框架中,每个实例也由一个特征向量组成,该向量包括第3.1节描述的特征。

大多数利用学习排名框架的实体链接系统[59,62,66,70,72,76,78,83,84,92,94]都使用排名SVM框架[115,116]来学习排名模型。它们基于训练数据集采用最大间隔技术。他们假设,给定每个实体提及m的地面真实映射实体em ∈ Em,正确映射实体的得分Score(em)应该高于任何其他候选实体的得分Score(ei)一个分数,其中ei ∈ Em且ei ̸= em。这为所有实体提及提供了通常的SVM线性约束:
在这里插入图片描述
他们最小化的是ξm,i≥0以及目标函数||w||22+CΣm,iξm,i,其中C是一个参数,允许在间隔大小和训练误差之间进行权衡。

林登(LINDEN)[78]为每个实体提及的候选实体赋予一个排名,这个排名是通过四个特征的线性组合来得出的:实体流行度、语义关联性(即基于维基百科超链接结构的语义上下文相似度)、语义相似性(即从YAGO分类体系中得出的语义上下文相似度)以及全局主题一致性(即映射实体之间的主题一致性)。林登(LINDEN)使用上述介绍的最大余量技术来学习特征权重,并在TAC-KBP2009数据集上实现了84.3%的准确率。

郑等人[68]研究了另外两种不同的学习排名框架,用于对候选实体进行排名:成对框架排名感知机[117]和列表框架ListNet[118]。在实验中,学习排序方法在候选实体排名任务中比二元分类方法取得了更好的结果,ListNet相比排名感知器有轻微的改进。他们在TAC-KBP2009数据集上实现了84.9%的整体准确率。此外,陈和 Ji [94]还利用ListNet列表级排位器对候选人进行排名。

3.2.3 概率方法

Kulkarni等人[62]提出了一种实体链接系统,该系统明确地将一个文档中的所有实体提及进行集体链接。他们的指导前提是,一个文档主要指的是主题上一致的实体,他们利用这种“主题一致性”来处理候选实体排名问题。他们的方法首先使用基于SVM的监督学习者进行局部上下文相似性建模,然后结合候选实体的成对文档级主题一致性模型,使用概率图形模型对其进行建模。该模型的优化被证明是NP困难的。为了解决这个问题,他们采用了近似和启发式方法,如山地攀登技术和线性规划松弛。实验结果表明,在他们创建的IITB数据集上,该方法达到了69%的F1度量值。然而,即使这个优化模型的近似解也具有较高的计算成本,并且耗时。

为了处理表格注释任务,李-梅耶等人[119]提出同时对表格单元格进行实体标注、对表格列进行类型标注以及对表格列对进行知识库中的关系标注。他们使用适合的联合分布建模表格注释问题,并将其表示为概率图形模型中相互关联的随机变量。这段文字的推断是寻找一种变量值的分配方式,以最大化联合概率,这个问题是NP困难的。他们采用了一种称为消息传递的近似算法[120]来解决这个问题。在表格注释中的三个子任务被共同解决,与分别对每个子任务做出决策相比,取得了更好的结果。

韩和孙[74]提出了实体提及模型,这是一种生成概率模型,用于将网络自由文本中的实体提及与知识库相连接。该模型将三种类型的异质性知识(即流行度知识、名称知识和上下文知识)整合到一个统一的概率模型中,以实现实体链接任务。具体来说,流行度知识告诉我们一个实体出现在文档中的可能性。名称知识告诉我们一个实体可能的名称以及一个名称指代特定实体的可能性。上下文知识告诉我们一个实体在特定上下文中出现的可能性。在这个模型中,每个要链接的实体提及都被建模为通过三步生成过程生成的样本。实验结果表明,该方法在TAC-KBP2009数据集上的准确率可达86%。

Demartini等人[121]提出了一种名为ZenCrowd的系统,试图利用人类智能来提高实体链接结果的质量。他们开发了一个概率推理框架,以动态地在考虑众包平台上的人类工作者和自动机器技术的结果的基础上做出关于实体链接的合理决策。如果机器技术生成的一些实体链接结果被认为是有望的但不确定,那么这些结果就会被用于动态生成微任务,然后在众包平台上发布。当众包平台上的人类工作者完成这些微任务后,他们的结果会被反馈给概率推理框架,该框架可以在结合任意人类工作者的不一致输出后生成最终结果。

3.2.4 图基方法

与之前的研宄工作[62]相比,该工作在文档级主题一致性的候选实体中以成对的方式建模,Han等人[75]提出了一种基于图的集体实体链接方法,以在全球范围内(而不仅仅是成对之间)建模不同实体链接决策之间的主题相互依赖性。首先,他们提出了一种基于图的表示方法,称为参照图,它可以模拟文本上下文相似性和实体链接决策之间的全局主题相互依赖性(即,在第3.1.2.2节中介绍的映射实体之间的一致性特征)作为其图结构。然后他们在一个参照图上使用了一个纯粹的集体推断算法来共同推断同一文档中所有实体提及的映射实体,这类似于主题敏感的PageRank算法[122]。实验结果表明,通过建模和利用全局相互依赖性,韩等人[75]可以在IITB数据集上以73%的F1度量进一步提高实体链接性能,优于对偶相互依赖模型[62]。

同时,Hoffart等人[58]也提出了一种基于图的集体实体链接方法。该模型将三个特征融合到一个图模型中:实体流行度、文本上下文相似性和映射实体之间的连贯性。他们构建了一个提及实体图,这是一个带有实体提及和候选实体作为节点的加权无向图。在这个实体提及图中,实体提及之间的边的权重是通过实体流行度特征和文本上下文相似度特征的组合来计算的。而实体之间的边的权重则是基于维基百科超链接结构的一致性(详见第3.1.2.2节)。在构建这个图之后,他们的目标是计算一个密集子图,该子图恰好包含每个实体提及的一个实体-提及边。然而,这个问题是NP困难的,因为它泛化了被广泛研究的Steiner树问题。为了解决这个问题,Hoffart等人[58]开发了一个贪心算法,并扩展了[123]中提出的算法。实验结果表明,它在集体实体链接系统[62]和Cucerzan的方法[60]上表现优越,并且在其自己的CoNLL数据集上达到了81.8%的准确率。

沈等[79]提出了一种基于图的框架,称为KAURI,通过建模用户对各种命名实体的兴趣主题,将所有由一个用户发布的推文中提到的所有命名实体与知识库相连接。他们的假设是每个用户在各种命名实体上有一个潜在的主题兴趣分布。KAURI将推文内部的局部信息和推文之间用户的兴趣信息集成到一个统一的图模型中。在推文内部的局部信息中,KAURI利用了三个特征:实体流行度、文本上下文相似性和推文中实体之间的连贯性。作为一条推文可能太短且嘈杂,无法为实体链接提供足够的上下文信息,KAURI通过建模用户的兴趣主题来利用跨推文的用户兴趣信息。实验结果显示,它在准确度方面显著优于LINDEN[78]和许多基线,并且很好地适应了推文流。

3.2.5 模型组合

模型组合,也称为集成方法,通常将具有显著不同特性和特点的学习算法聚合在一起[124,125],并力求获得比它们所组成的任何模型更好的预测性能[126]。模型组合变得越来越流行,因为它允许人们克服单个模型的弱点。最近,基于各种资源的不同实体链接系统数量的增加为模型组合在实体链接任务中提供了新的机会。

张等人[66]是第一个将模型组合策略应用于实体链接任务的人。他们开发了三个独立的系统(即基于信息检索的系统(参见第3.3.2节)、基于学习排序的系统和二元分类系统),并使用监督方法将它们组合成一个最终系统。所选的SVM三类分类器用于判断三个系统中哪个应该被信任。实验结果显示,组合系统比每个单独组件表现更好,并且在TAC-KBP2010数据集上达到了79.4%的准确率。此外,Ji和Grishman [100]还在TAC-KBP2010赛道的前九个实体链接系统上应用了投票方法,并发现所有组合顺序都取得了显著的提升,准确度最高的绝对改进为4.7%,超过了TAC-KBP2010赛道的最佳实体链接系统。陈和吉[94]使用简单的组合函数(例如,多数投票和加权平均)来整合八个基线方法,包括四个监督方法和四个无监督方法。实证结果显示,组合模型在最佳基线方法基础上获得了1.3%(多数投票函数)和0.5%(加权平均函数)的绝对准确度增益。此外,CUNY-UIUC-SRI系统[95]结合了[94]中描述的合作排名框架和基于多数投票的实体链接系统[76]。这个联合系统在TAC-KBP2011数据集上实现了77.1%的F1度量。

3.2.6 训练数据生成

监督排名方法的一个问题是需要大量标注的训练样本来训练分类器。此外,实体链接注释是昂贵且非常耗时的,因为所引用的知识库非常庞大。一些监督排名方法使用小规模的手动创建的数据集进行训练,该数据集包含数千个标记的实体提及[78,83,84,127,128]。一些系统[59,76,129]使用维基百科文章中的超链接来构建训练数据集。然而,这些训练数据集是从维基百科中创建的,这在特定的新领域[65]中可能无法很好地工作。基于这一观察,张等[65]提出了一种新颖的方法,可以自动生成大规模注释数据。具体来说,他们利用文档集合中明确的实体提及(即与知识库中仅一个实体关联的实体提及),将其替换为含糊不清的名字变体以创建更多的训练数据。此外,他们还利用维基百科文档通过领域适应方法[130]提供额外信息。最后,他们从170万份文件中生成了45,000个标注实例。通过利用生成的注释数据,他们在TAC-KBP2009数据集上的准确率达到了83.8%。

然而,自动生成的注释数据的分布与实际实体链接数据集并不一致。为了解决这个问题,Zhang等人[72]使用了一个实例选择策略(类似于主动学习[131,132]),从生成的实例中选择一个更平衡且具有信息性的子集。最后,他们在TAC-KBP2010数据集上报告了86.1%的准确率。

3.3 无监督排名方法

3.3.1 基于向量空间模型(VSM)的方法

为了避免手动标注训练数据,这种方法比较费时且成本高,一个简单的方式是使用无监督的向量空间模型(VSM)[133]为基础的方法[60,61,67]对候选实体进行排名。他们首先计算实体提及的向量表示和候选实体的向量表示之间的相似性。然后选择获得最高相似度分数的候选实体作为实体提及的映射实体。这些不同的方法在向量表示和向量相似性计算的方法上有所不同。

具体来说,Cucerzan[60]提取了候选实体文章中提到的所有实体引用以及与候选实体文章相关的所有分类标签,以构成候选实体的向量。对于实体提及,Cucerzan通过识别出现在其上下文中的实体引用集来构建它的向量。最后,该系统通过最大化候选实体和实体提及之间的向量相似度以及候选实体相关联的类别之间的一致性来确定实体分配给实体提及。最终,该系统在新闻文章数据集上达到了91.4%的准确率。

韩和赵[61]首次从实体提及的上下文和候选实体文章中检测到所有维基百科概念。向量相似度计算为实体提及和候选实体向量中所有语义相关性[108]的加权平均值。他们在TAC-KBP2009数据集上报告了76.7%的准确率。

此外,陈等人[67]通过实体提及和候选实体的上下文以及相关属性的词袋生成向量。为了计算向量之间的相似性,他们采用了TF-IDF相似度。他们在TAC-KBP2010数据集上获得了71.2%的准确率。

3.3.2 基于信息检索的方法

一些实体链接系统将候选实体排名问题视为基于信息检索的排名问题[63,64,66,77,86]。在他们的模型中,每个候选实体都被索引为一个独立的文档,对于每个实体提及,他们从实体提及及其上下文文档生成一个搜索查询。最后,搜索查询被提供给候选实体索引,具有最高相关分数的候选实体作为实体提及的映射实体被检索出来。

Gottipati和Jiang[77]利用基于统计语言模型的信息检索方法对候选实体进行排名。具体来说,他们采用了广泛使用的KL散度检索模型[134]。给定一个候选实体e和一个实体提及m,他们根据以下定义的KL散度对e进行评分:
在这里插入图片描述
其中θm和θe分别是实体提及语言模型和候选实体语言模型,V是词汇表,w是一个单词。为了估计θe,他们使用了标准的最大似然估计法,并采用狄利克雷平滑[135]从候选实体名称字符串及其消歧文本中进行估计。 为了估计θm,他们使用了实体提及字符串的实证词分布。此外,他们还使用了局部上下文和全局世界知识来扩展实体提及语言模型θm。最后,他们选择了得分最高的候选实体作为实体提及m的映射实体。该系统在TAC-KBP2010数据集上表现出竞争力(即85.2%的准确率)。

4 不可链接提及预测

在上一节中,我们回顾了用于对实体集合Em中的候选实体进行排名的主要技术。实体链接方法可以选择Em中排名最高的实体etop作为实体提及m的映射实体。然而,在实际应用中,有些实体提及并没有与其对应的记录在知识库中。因此,他们必须处理预测不可链接提及的问题。在本节中,我们将简要概述主要的预测不可链接提及的方法。

为了简化,许多研究[60、62、75、92、93、119、121]假设知识库中包含了所有实体提及的映射实体,因此忽略了实体提及的不可链接问题。一些方法[63,67,86]使用简单的启发式方法来预测不可链接的实体提及。如果候选实体集Em为空,那么他们预测提及m的实体为不可链接,并为m返回NIL。

除了这些方法外,许多实体链接系统(如文献[59,61,69,77,78,79,91,104,107])采用了一个NIL阈值方法来预测不可链接的实体提及。在这些系统中,排名最高的实体etop关联着一个分数stop。如果分数stop小于一个NIL阈值τ,他们则返回NIL作为该实体提及m的预测,并将提及m预测为不可链接的。否则,他们将etop作为提及m的正确映射实体。NIL阈值τ通常是从训练数据中自动学习得到的。

大量实体链接系统[66,68,69,70,72,73,74,76,83,84]利用监督机器学习技术来预测不可链接的实体提及。具体来说,方法[66,68,69,70,72,73,76]使用二元分类技术。给定一个实体提及与其排名最高的候选实体对⟨m, etop⟩,使用二元分类器来判断排名最高的候选实体etop是否是这个实体提及m的正确映射实体,并输出一个标签。如果对对⟨m,etop⟩的标签是正面的,那么他们返回实体etop作为m的正确映射实体,否则他们为提及m返回NIL。每个⟨m,etop⟩对都被表示为一个特征向量,此模块中使用的大多数特征与第3.1节中描述的候选实体排名模块中使用的特征相同。此外,郑等人[68]和Ratinov等人[76]为不可链接提及预测设计了一些额外的特征,如排名最高的候选实体的得分以及实体提及是否被某些命名实体识别器(NER)检测为命名实体。对于二元分类器,大多数系统[66,68,72,76]采用了SVM分类器。

此外,Dredze等人[83]、McNamee[84]和Han与Sun[74]将不可链接提及预测过程纳入实体排名过程。其中,Dredze等人[83]和McNamee[84]使用学习排序框架对候选实体进行排名,这一方法在第3.2.2节中已介绍过。为了预测不可链接的实体提及,他们将一个NIL实体添加到候选实体集中,并将NIL视为一个独立的候选者。如果排名器输出的顶部实体是NIL,那么这个实体提及被认为是不可链接的。否则,返回排名最高的实体作为正确的映射实体。[74]中提出的概率模型也无缝地考虑了不可链接实体预测问题,而不是增加一个额外的步骤。该模型假设,对于指代某个特定实体的实体提及,由这个特定实体的模型生成此实体提及的概率应显著高于由一般语言模型生成此提及的概率。它将在知识库中添加一个NIL实体,并假设该NIL实体根据通用语言模型生成提及。如果某个提及由NIL实体生成的概率大于由知识库中的任何其他实体生成此提及的概率,那么这个提及被预测为无法链接。

5 评估

在这部分,我们介绍了一些与实体链接系统评估相关的问题:评估措施和实体链接数据集。关于现有实体链接系统的实验性能,我们已经在第3节介绍这些系统时进行了讨论。

5.1 评估措施

实体链接系统的评估通常通过以下评估指标进行:精确度、召回率、F1值和准确度。实体链接系统的精确度计算为系统生成的正确链接实体提及的数量占总数的比例:
在这里插入图片描述
精度考虑了系统链接的所有实体提及,并确定了由实体链接系统链接的正确实体提及的比例。精度通常与召回率一起使用,召回率是应该被链接的正确链接的实体提及的比例:
在这里插入图片描述
召回率考虑了所有应该链接的实体提及,并确定了正确链接的实体提及与总应该链接的实体提及之间的关系。这两个度量有时会一起用于F1度量,以提供系统的单一测量。F1度量被定义为精确率和召回率的调和平均值:
在这里插入图片描述
对于许多实体链接系统[59,60,63,66,68,69,72,74,77,78,83,84,92,119],应该链接的实体提及作为这些系统的输入,因此系统生成的已链接提及数量等于应被链接的实体提及数量。在这种情况下,研究人员通常使用准确度来评估系统的性能。准确性被定义为正确链接的实体提及数量除以所有实体提及的总数量。因此,在这种情况下,精确度=召回率=F1得分=准确性。此外,准确度也被认为是TAC-KBP赛道的官方评估指标,接下来的章节将会介绍。

5.2 实体链接数据集

一些研究人员[58,60,62,83,136]手动注释了一些数据集并将其公开发布。因此,这些数据集是实体链接任务的好基准数据集。可以在论文[33,137]中找到这些数据集的一些详细摘要。此外,Cornolti等人[137]最近提出了一种公开可用的基准框架,用于比较实体注释系统,其中包括一些实体链接系统。

知识库填充(KBP)赛道是作为美国国家标准与技术研究所文本分析会议(TAC)的一部分举办的国际实体链接竞赛,自2009年起每年举行一次。实体链接被认为是该赛道的两个子任务之一。这些公开的实体链接竞赛提供了一些基准数据集[89,100,138,139],用于评估和比较不同的实体链接系统。TAC-KBP 轨道要求参与该轨道的系统独立处理实体提及,这意味着它们要求系统不能根据任务描述利用一组实体提及之间的主题一致性。此外,以TAC-KBP2009数据集为例,总共3904个实体提及分布在3688篇文档中,每篇文档在上下文中最多有两个提及。因此,几乎所有主要利用主题一致性特征链接实体的系统[58,62,75,93]都没有在TAC-KBP数据集上进行评估。

6 未来方向和结论

在这篇文章中,我们对实体链接进行了全面的调查。具体来说,我们调查了实体链接系统三个模块的主要方法(即候选实体生成、候选实体排名和未链接提及预测),还介绍了实体链接的其他关键方面,如应用、特征和评估。

尽管已经提出了许多处理实体链接的方法,但目前尚不清楚哪些技术和系统是当前最先进的,因为这些系统在多个维度上都有所不同,并且在不同的数据集上进行评估。一个单一的实体链接系统通常在不同的数据集和领域上的表现差异很大。尽管监督排名方法在候选实体排名方面似乎比无监督方法表现得更好,但实体链接系统的整体性能也受到其他两个模块(即候选实体生成和不可链接提及预测)采用的技术的显著影响[33]。监督技术需要大量的标注训练示例,而标注示例的任务是昂贵的。此外,实体链接任务高度依赖于数据,一种技术不太可能在所有数据集上都优于其他技术。对于给定的实体链接任务,很难确定哪种技术最适合。影响实体链接系统设计的因素有很多,如系统需求和数据集的特点,这类似于第3.1.3节介绍的特征选择问题。

尽管我们的调查已经展示了实体链接的许多努力,但我们认为,在这个领域仍然有很多机会实现重大改进。在以下内容中,我们指出了实体链接方面的一些有前途的研究方向。

首先,目前大多数实体链接系统都专注于从无结构文档(如新闻文章和博客)中检测实体提及的实体链接任务。然而,实体提及也可能出现在其他类型的数据中,这些类型的数据也需要与知识库进行链接,例如网络表格[140,141]、网络列表[142,143]和推文[144,145]。由于不同类型的数据具有各种特性(例如,网络表格是半结构化的文本且几乎没有文本上下文,而推文非常短且噪声很大),因此开发专门的技术来处理其中的实体链接是非常有意义和必要的。尽管一些研究人员已经初步解决了Web表格[119]、Web列表[92]和推文[tweets [22,56,79,96,146]]中的实体链接任务,但我们认为仍有很大的改进空间。此外,应该向研究人员提供一个包含这些不同类型数据的基准数据集库,以便他们开发和评估在这些不同类型的数据显示实体链接的方法。

其次,大多数实体链接工作缺乏对计算复杂性的分析,而且它们通常不评估系统效率和可扩展性。然而,在实时和大规模应用中,效率和可扩展性至关重要。此外,不断增加的网络数据将使这个问题在未来更加普遍。因此,未来研究的一个有前途的方向是设计能够显著提高效率和可扩展性的同时保持高准确性的技术。尽管最近林等人[44]研究了在数百万文本提取物上进行实体链接,但总体链接准确率并不高(约70%),有很大的潜力可以大幅度改进。此外,数据库社区中的记录链接特别注重效率,因此可以利用他们的加速技术实现高效实体链接方法。最近,一个大规模的实体链接数据集(即Google的Wikilinks语料库10 [147])已经公开发布,其中包含超过4000万个在超过1000万网页内的明确提及。这是一个绝佳的机会,用于开发和评估大规模实体链接系统。

第三,对于构建和填充特定领域知识库(例如,在生物医学、娱乐、产品、金融、旅游等领域)的需求不断增加,使得特定领域实体链接变得同样重要。特定领域实体链接专注于特定领域的数据,而特定领域的知识库可能与通用知识库(如维基百科和YAGO)具有不同的结构。到目前为止,Pantel和Fuxman[148]已经解决了将搜索引擎查询与大型产品目录中的实体关联的任务,而Dalvi等人[149]则利用了推文的地理特点来推断推文与餐厅之间的匹配关系。Dai等人[150]采用马尔可夫逻辑网络来模拟交织约束,以处理基因提及链接任务,该任务将每个基因实体提及与大规模基因数据库进行链接。此外,沈等人[151]提出了一种概率模型,该模型将实体流行度模型与实体对象模型相结合,以链接网页文本中的命名实体和DBLP引文网络。我们坚信这个方向值得研究人员深入探索。

最后,预计对实体链接问题的更多研究甚至更深入理解可能会导致更有效、更高效的实体链接系统的出现,以及在信息提取和语义网领域的改进。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值