文章目录
LogMap:基于逻辑和可扩展的本体匹配
简要信息
序号 | 属性 | 值 |
---|---|---|
1 | 模型名称 | LogMap |
2 | 所属领域 | 知识库 |
3 | 研究内容 | 本体匹配 |
4 | 核心内容 | 基于逻辑的本体匹配 |
5 | GitHub源码 | LogMap |
6 | 论文PDF | Logmap:Logic-based and scalable ontology matching |
7 | 发表年份 | 2011 |
摘要:
在本文中,我们提出了logmap–一个具有“内置”推理和诊断功能的高度可扩展的本体匹配系统。据我们所知,LogMap是唯一能够处理包含数十(甚至数百)个类的语义丰富的本体的匹配系统。与大多数现有工具相比,LogMap还实现了“实时”的不满意检测和修复算法。我们对NCI、FMA和SNOMED CT本体的实验证实,我们的系统可以有效匹配现有最大的生物医学本体。此外,在许多情况下,LogMap能够生成一组“干净”的输出映射,在这种意义上,通过将LogMap的输出映射与输入本体集成而获得的本体是一致的,不包含不满意的类。
1 介绍
OWL本体广泛应用于生物和医学领域。诸如SNOMED CT、国家癌症研究所辞典(NCI)和解剖学基础模型(FMA)等本体论正在逐渐取代现有的医学分类,并成为获取、收集和共享生物医学知识和数据的核心平台。然而,这些参考生物医学本体是由不同的专家小组独立开发的,因此,它们在词汇表中使用不同的实体命名方案。因此,要在应用程序之间集成和迁移数据,至关重要的是首先要在它们各自本体的词汇表之间建立对应(或映射)。在过去的十年中,语义Web和生物信息学研究团体广泛地研究了独立开发的本体之间自动计算映射的问题,通常称为本体匹配问题(参见[8]获得全面和最新的调查)。越来越多的可用技术和越来越成熟的工具,加上大量的人力管理工作和复杂的审计协议,使得生成现实世界本体之间的映射成为可能。例如,通过映射集成生物医学本体的最全面的成果之一是UMLS后同义词库(UMLS)[2],它集成了100多个同义词库和本体。然而,尽管现代生物医学的技术水平令人印象深刻,但它仍然对现有的本体匹配工具提出了严峻的挑战。
**可扩展性不足。**虽然现有的匹配工具可以有效地处理中等规模的本体,但大规模的生物医学本体,如NCI、FMA或SNOMED CT,仍然是他们无法企及的。现有基准测试(例如,OAEI计划中的那些)中最大的测试本体包含大约20003000个类(例如,有几百万个可能的映射);然而,就我们所知,还没有任何工具能够处理具有数万或数十万类的本体(也就是说,具有数十亿种可能的映射)。
**逻辑不一致。**OWL本体具有基于一阶逻辑的良好定义的语义,映射通常表示为OWL类公理。因此,通过映射M将O1与O2整合而得到的本体O1∪O2∪M,可能包含不单单由O1、O2或r M推导出来的公理。由于M中错误的映射,或者O1和O2之间固有的分歧,许多这样的包含对应了逻辑上的不一致。最近的研究表明,即使通过精心策划的映射集成本体,也会导致数千个这样的不一致9,5,16,13。现有的大多数工具都是基于词汇匹配算法的,也可以利用本体的结构或访问外部源,如WordNet;但是,这些工具忽略了输入本体的语义,因此无法检测和修复不一致。虽然第一个基于推理的本体匹配技术在较早的时候就被提出了(如S-Match[10]),但在实践中,推理会加剧可扩展性问题(例如,我们所知的推理机无法通过UMLS对集成的NCI-SNOMED进行分类)。尽管存在技术上的挑战,但人们对本体匹配的推理技术越来越感兴趣。特别是,最近已经有了’ a-posteriori '映射调试的工作[12,13,14,15],以及一些匹配工具(例如,ASMOV [11], KOSIMap [21], CODI[19,20])结合了’即时’语义验证的技术。
在本文中,我们提出了logmap——一个新颖的本体匹配工具,可以解决这两个挑战。LogMap实现了高度优化的数据结构,在词法和结构上为输入本体建立索引。这些结构用于计算锚点映射的初始集(即“几乎精确”的词法对应),并为它们每个赋值置信度。LogMap的核心是一个迭代过程,从初始锚定开始,交替替换映射修复和映射发现步骤。为了在匹配过程中“实时”检测和修复不满意的类,LogMap实现了一个健全的、高度可伸缩(但可能不完整)的本体推理机以及一个“贪婪”诊断算法。通过从初始锚定映射开始迭代地“探索”输入本体,并使用本体的扩展类层次结构,可以发现新的映射。
据我们所知,LogMap是唯一一个能够扩展具