导读
这是2015年发表在IEEE的文章,题目为《Entity Linking with a Knowledge Base: Issues, Techniques, and Solutions》,此论文主要对于实体链接工作现有的方法技术进行了全面分析(候选实体生成、候选实体链接和不可链接提及预测三个方面),并讨论了其应用前景。
选题背景
近年来网络数据快速增长,但这些自然语言较为模糊,导致一个命名实体可能存在多种表述方式,反之亦然。与此同时,一些大型知识共享社区的出现促进了机器可读知识库的自动构建。
任务描述
- 实体链接的基本过程是将实体提及(entity mention)的集合M中的元素映射到候选实体集合中E的元素的过程。如下图所示,左侧黑体字是文本当中的命名实体提及,右侧划横线的词语是正确的映射结果。
- 并非M中的每一个元素都一定有E中的元素与其对应,这种无法链接的实体被称作NIL(unlinkable)。
概念区分
- 当没有知识库的时候,实体链接任务将被简化为实体共指消解问题。共指消解是将实体提及聚类,不像实体链接需要最终映射到实体库中的实体上。
- 实体链接和词义消歧(有较完备的词语库)、记录链接(假设重复记录具有相同或相似的属性值)也不相同。
任务挑战
实体链接任务的挑战在于名称的多样性、和实体的模糊性,以及知识库不一定完整全面,因此实体链接系统必须在文本上下文中进行实体(entity mention)消歧,并为每个提及的实体(entity mention)标识映射结果。
具体应用
- 信息抽取;2. 信息检索;3. 内容分析;4. 问答;5. 知识库扩充
知识库准备
- Wikipedia;2. YAGO;3. DBpedia;4. Freebase
实体链接过程
1. 候选实体生成:
基本任务: 对于实体提及集合M中的每一个元素m,通过过滤知识库中的不相关实体,生成一个候选实体集合Em。使用到的方法包括基于词典、基于搜索引擎等。
方法:
(1)基于名称词典的技术: 名称词典D的结构是<关键词,值>的映射,关键词一列是一些词语,对于其中的每一个词k,k的值是可以被指代为k的一个命名实体集合。
D的构建是通过Wikipedia中的一些既有功能实现的:
- 实体页面: 将entity page中的title加到命名字典的key中,实体的描述加到value中。
- 重定向页面: 将redirect page 中的title加到命名字典的key中,实体的描述加到value中。
- 消歧页面: 将disambiguation page 中的title加入到key中,实体列表加入到value中。
- 首段加粗字段: 将 Bold phrases from first paragraphs 加入到key中,将当前描述的实体加入到value中。
- 超链接: 将锚文本中的信息加入key中,所指向的实体加入到value中。
除了上述的生成方式,还可用规则生成较为模糊的结果:
- 实体提及被候选实体完全包含或包含候选实体。
- 实体名称与实体提及中所有单词的首字母完全匹配。
- 实体提及和候选实体有几个相同的常用词。
- 实体提及和候选实体有较强的字符串相似度,使用character Dice score、skip bigram Dice score、 Hamming distance等计算。
相比于精确匹配,模糊匹配的方式拥有较高的召回率,但是会有较大噪音。有些方法会在构建字典前对指称项作拼写检查。
(2)本地文档的扩展形式: 主要是为了找到一些缩略词的全称实体。
启发式方法
1、 缩略语附近的括号一般是全称。
2 、利用N-gram匹配缩略词的首字母,去除停用词后进行全文匹配,如果找到与缩略词首字母完全相同的连续词语,则认为是全称。
3、采用命名实体识别器,如果识别到的命名实体中有子串和缩略词相同,则认为是全称。
超监督学习方法
启发式的方法无法识别一些存在字母交换或者缺省的缩略词。
Step1:选择候选扩展项(首字母相同或不超过两个停用词)
Step2:给每对缩略词和候选扩展项构建特征向量,然后使用SVM支持向量机进行分类,根据其置信度分数来判断。
(3)基于搜索引擎的方法:
使用搜索引擎检索实体提及,将返回的头部结果作为候选实体集合。
2. 候选实体排序:
基本任务: 对于候选实体集合Em进行排序。
特征选择:
(1)上下文独立特征:
名称字符串比较: 如编辑距离、Dice系数分数等。
- 常见特征有:是否完全匹配、开始\结尾字符串匹配、前缀\尾缀、相同字符数目等。
实体流行度: 分子表示m形式的实体提及指向候选实体ei的锚文本数量。
实体类型: 实体提及与知识库中的候选实体是否属于同一类型。
- 常用的方法有:采用命名实体识别器判断两种实体的类型;若类型未知,则使用权威知识库(DBpedia、CC’s WRATS ontology resource等)将其类型简化为三种常见类型中的一种(人名、地名、机构名)。
(2)依赖于上下文的特征:
文本上下文: 如词袋【全文、上下文窗口、top-k的tf-idf等】、概念向量【抽取文中关键短语、锚文本、命名实体、类别、描述标签以及维基百科概念组成一个向量】
- 计算向量相似度:点积、余弦相似性、Dice系数、单词重叠、基于n-gram的度量和Jaccard相似性。
映射实体的一致性:
- 对于一个实体提及,同一文档中其他实体的链接对其链接很重要。
- WLM(基于维基百科的实体链接度量):如果有许多Wikipedia文章链接到两个实体,则认为这两个实体是语义相关的。这两个实体u1和u2的主题一致性计算如下:(其中U1和U2是分别连接到u1和u2的维基百科文章集合,WP是维基百科所有文章的集合)
- 除此之外还有PMI-like(Point-wise Mutual Information)和Jaccard距离的度量方法。
特征的选择需要根据具体情况,考虑精度和效率的平衡,以及数据集的特性等,没有一种特征计算方法是十全十美的。
方法:
(1)有监督的排序方法:
二分类方法:
- 给定<实体提及,候选实体>对,使用二分类算法判断是否能够匹配。使用许多实体对进行训练,在测试中如果可以正确链接,给定正确标签,反之则给定错误标签。
- 如果有多对实体都被给定了正确标签,则选择最可能的那一个,使用例如基于置信度的方法、基于VSM的方法以及SVM的方法。对于二分类器,大部分系统采用支持向量机SVM,此外还有朴素贝叶斯分类器,K近邻分类器。
学习排序方法:
- 二分类方法存在局限:负样本远多于正样本,还需要使用其他技术去筛选同被分为正样本的实体。
- 大多数使用ranking SVM 框架实现学习排序,认为正确的映射实体的得分高于任何其他候选实体得分。
基于概率的方法:
- 基于SVM的局部上下文相似性监督学习器,并使用概率图形模型将其与候选实体的成对文档级主题一致性相结合进行建模。实验F1值达到69%,但计算时间复杂度较高。
- 使用一些相关的随机变量按照合适的联合分布对表格注释问题进行建模,并使用概率图形模型表示它们。这个任务的推论是寻找一个变量的赋值,使联合概率最大化。
- entity- mention模型:将网络中的自由文本和知识库联系起来。此模型合并了三类异构知识,包括大众知识【实体出现在一个文档中的可能性】、名称知识【实体的可能名称和名称提及特定实体的可能性】和上下文知识【实体出现在特定上下文中的可能性】,准确率达到86%。
- ZenCrowd系统:同时考虑机器和众包人工的结果。
基于图的方法
- 基于图的表示法——差异图、KAURI等。都是在相关图形上使用纯集合推理算法,共同推断同一文档中提及的所有实体的映射实体,类似于主题敏感的PageRank算法。
- 具体方法:将实体通俗性、文本上下文相似性以及映射实体之间的一致性三个特征整合到一个图形模型中。其中,实体提及和候选实体是节点,实体提及和实体之间的边是通过实体流行度特征和文本上下文相似性特征的组合进行加权,实体和实体之间的边是通过基于一致性的维基百科超链接结构进行加权。
模型融合
- 模型融合也被称为集成方法,通常将性质和特征明显不同的学习算法组合在一起,并寻求获得比它们组合的任何模型更好的预测性能。
(2)无监督的排序方法:
基于VSM的方法
- Step1: 将实体提及和候选实体都表示为向量
- Step2: 计算相似度,并按分数从高到低排序
基于信息检索的方法
- 把每个候选实体看作一个单独的文档,把每个实体提及看作一个查询。根据实体提及和候选实体中的概率分布,计算KL散度,从而得到最终的相似度。
3. 无法链接的实体预测
(1) 假设所有实体都存在于知识库中,直接忽略NIL;
(2)简单的启发式方法:如果实体提及对应的候选实体集合为空,则返回0;
(3)NIL阈值方法:从训练数据中得出一个阈值,如果候选实体中得分最高的分数仍然小于阈值,则返回标签为NIL;
(4)有监督的机器学习方法:训练二分类器对于<m,etop>给定正负标签。如果排名最高的候选实体是实体提及的正确映射,则为正向标签,反之则为NIL。
(5)将NIL预测过程纳入实体排序过程:将NIL实体也作为候选实体集合中的一个元素共同进行排序,如果NIL在排序中得分最高,则该实体提及为不可链接的。
实体链接系统的评估
评估指标
1. 查准率(Precision)
2. 查全率(Recall)
3. F1值
现阶段研究的不足
1. 实体提及的来源:
现阶段大部分entity mention都是来自于非结构化的文档,还可以考虑其他来源,如网络表格、网络列表、各类网络社区等。这些内容的特征各异,可能没有上下文,或者噪声很多,在研究上还有很大空间。
2. 实体链接系统的评估:
大多数关于实体链接的工作缺乏对计算复杂性的分析,并且通常不评估系统的效率和可伸缩性。因此,未来研究的一个有希望的方向是设计出能够在保持高精度的同时显著提高效率和可扩展性的技术。
3. 针对特定领域知识库:
构建和普及特定领域知识库(例如,在生物医学、娱乐、产品、金融、旅游等领域)的需求不断增加,使得特定领域实体之间的联系也变得非常重要。这些知识库可能和通用知识库之间存在很多差异。
4. 更加高效的实体链接系统:
对实体链接问题进行更多的研究甚至对这个问题有更好的理解,可以引领更加有效和高效的实体链接系统的出现,以及信息提取和语义Web领域的改进。