论文翻译解读：PARIS ：Probabilistic Alignment of Relations, Instances, and Schema

本文链接：https://blog.csdn.net/weixin_43923463/article/details/125836228

PARIS:关系、实例和模式的概率对齐

简要信息

序号	属性	值
1	模型名称	PARIS
2	所属领域	自然语言处理
3	研究内容	本体匹配
4	核心内容	基于概率的对齐
5	论文PDF	PARIS Probabilistic Alignment of Relations, Instances, and Schema
6	发表年份	2012

摘要

语义Web面临的主要挑战之一是集成越来越多独立设计的本体。在这项工作中，我们提出了一种自动对齐本体的方法PARIS。PARIS不仅与实例联系在一起，还与关系和阶级联系在一起。实例级的对齐与模式级的对齐相互影响。因此，我们的系统为本体对齐问题提供了一个真正全面的解决方案。**该方法的核心是概率性的，即我们根据概率估计来衡量匹配程度。这允许PARIS不需要任何参数调优就可以运行。**通过大量实验验证了该算法的有效性和精确性。特别地，我们在一些世界上最大的本体的实验中获得了大约90%的精确度。

1 介绍

**动机。**本体论是世界知识的正式集合。在本文中，我们将本体一词用于非常一般的意义上，既指模式(类和关系)，也指实例及其断言。近年来，维基百科的成功和信息提取算法的进步促进了大型通用本体的自动化构建。值得注意的此类网站包括DBpedia[2]、KnowItAll[10]、WikiTaxonomy[26]和yago[30]，以及freebase.com、trueknowledge.com和wolframalpha.com等商业服务网站。伴随这些本体论而来的是各种领域的越来越多的知识库，包括:音乐、电影、地理数据、出版物、医学和生物数据或政府数据。

这些本体中有许多包含补充数据。例如，**一般的本体可能知道是谁发现了某种酶，而生物数据库可能知道它的功能和性质。**然而，由于实体通常使用不同的术语(标识符)来表示实体，因此它们的信息不容易组合在一起。在这方面，本体论本身可以看作是知识的孤岛。语义网愿景的目标是将它们连接起来，从而创建一个大的通用本体知识体[5,6]。这个目标可以被看作是记录链接的放大版，挑战来自不同的维度:(i)与记录链接不同，实例和模式应该是一致的;(ii)必须尊重本体的语义;(iii)本体通常是相当大和复杂的。此外，我们有兴趣以全自动的方式执行对齐，并避免繁琐的调优或参数设置。

最近的一些研究调查了这个问题。已经有很多关于实体解析的研究，即传统上被称为“A-Box”[1,4,12,17,18,25,27,28,31]。在另一个方向上，许多研究集中在图式对齐，即所谓的“T-Box”[3,14,20,21,34]。然而，近年来，本体的前景发生了巨大的变化。今天的本体通常既包含丰富的模式，同时又包含大量实例，以及关于它们的无数断言。为了充分挖掘它们提供的知识，它们的对齐必须建立在实例和模式的交叉对齐的基础上。

在本文中，我们提出了一种新的、整体的本体对齐算法。我们的方法不仅链接相关的实体或关系实例，还链接相关的类和关系，从而捕获模式和实例匹配之间富有成效的相互作用。我们的最终目标是大规模地跨本体自动发现和链接相同的实体，从而允许本体真正地相互补充。

**贡献。**本文的贡献主要体现在三个方面:

我们提出了PARIS8，一个概率算法，用于同时跨本体对齐实例、类和关系。
我们展示了如何高效地实现该算法，并且它不需要任何调优
我们通过对现实世界本体的实验来证明我们方法的有效性。

本文的组织结构如下。第2节提供了相关工作的概述。然后我们在第三部分介绍一些初步的内容。第4节描述我们的概率算法和第5节它的实现。第6节讨论实验。为了方便阅读，一些技术讨论推迟到附录。

2 相关工作

**概述。**本体匹配问题的根源在于重复实体的识别问题，也称为记录链接、重复检测或共同引用解析。这个问题在数据库和自然语言处理领域都得到了广泛的研究[7,9]。这些方法在本体上下文中不太适用，原因有二。首先，他们没有考虑本体所具有的正式语义(例如分类法的子类)。其次，它们专注于实例的对齐，而不处理关系和类的对齐。

有许多调查和分析揭示了存在论中记录连接的问题。Halpin等人[15]提供了这个问题的一个很好的总体概述。它们还研究了现有的同一级联系的困难。这些链接由Ding等人[8]进一步分析。Glaser, Jaffri和Millard[13]提出了一个在语义Web中管理共同引用的框架。Hu等人提供了一项关于配对一般情况的研究。

**模式对齐。**本体匹配的传统方法主要集中在对齐类(“T-Box”)或匹配实例(“A-Box”)。对齐类的方法是多种多样的，使用了诸如语义聚类[14]、词法和结构特征[21]或复合方法[3]等技术。与PARIS不同，这些方法只能对齐类，而不考虑关系和实例的对齐。

在这个字段中，与我们的方法最相似的是[20]和[34]，它们从实例的相似性派生类的相似性。这两种方法都只考虑类的等价性，而不计算子类，就像PARIS那样。此外，它们都不能对齐关系或实例。

**实例匹配。**有许多方法可以将一个本体的实例与另一个本体的实例进行匹配。费拉拉、洛鲁索和蒙泰尼里从哲学的角度介绍了这个问题。使用了不同的技术，例如利用术语结构[25]、逻辑演绎[27]、声明性语言[1]、关系聚类[4]，或者逻辑方法和数值方法的组合[28]。ma引擎[31]使用启发式来匹配实例。与我们的方法最接近的可能是[17]，它引入了功能的概念。与他们的方法不同，PARIS不需要额外的平滑因素。

silk框架[33]允许指定手动映射规则。Hu、Chen和Qu[18]的ObjectCoref方法允许从训练数据学习实例之间的映射。在PARIS，我们的目标是一种既不使用人工输入也不使用训练数据的方法。我们在第6节的本体对齐评估计划[11]的数据集上比较了ObjectCoref和PARIS的一些结果。Hogan[16]匹配实例，并提出使用这些实例来计算类之间的相似性，但没有提供实验。因此，这些方法都不能像PARIS那样将阶级和关系统一起来。

**全面的方法。**只有很少的方法可以解决模式和实例对齐的问题:RiMOM[22]和iliads[32]系统。这两种方法都只在小型本体上进行过测试。RiMOM系统可以对齐类，但是它不能找到subclassOf关系。此外，该方法提供了一束启发式和策略选择，而PARIS是单一的。没有一个伊利亚特系统的本体在包含完整的具有属性的实例上进行过测试。相比之下，PARIS即使在具有数百万个实例的大型现实世界本体上也表现良好。