事实学习与语义集成调研

最新推荐文章于 2023-06-14 23:47:51 发布

zy199287

最新推荐文章于 2023-06-14 23:47:51 发布

阅读量997

点赞数 1

分类专栏：语义网文章标签：知识图谱 class 开放互联网标签

本文链接：https://blog.csdn.net/zy199287/article/details/51840192

版权

语义网专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文探讨了知识图谱中事实学习的方法，包括监督、半监督和无监督，以及语义集成中的本体映射技术，如基于文本信息、结构、背景知识和机器学习的方法。

摘要由CSDN通过智能技术生成

事实学习

在知识图谱中，事实大多以三元组的形式表示，例如：实体-属性-值和实体-关系-实体。作为实体关系的主要载体，一个知识图谱中事实的数量决定了知识图谱的丰富程度。据不完全统计，Google知识图谱到目前为止包含了5亿个实体和35亿条事实。如何从互联网信息和文档中自动地学习得到这些事实，是知识图谱构建中一个重要而又充满挑战的环节。

已有的知识图谱的事实学习方法可以分为三类：监督方法、半监督方法及无监督方法。

1)监督方法主要是语义标注法。语义标注法又可以分为基于规则学习的方法、基于分类的方法和基于序列标注的方法。这些方法都需要已标注文档作为训练集。其中基于规则学习的方法在每次迭代中，选择与已有规则最相似的规则加入候选集中，并进行剪枝、归纳和交叉验证。基于分类的方法需要提取文档内容特征，对每种语义标签训练一个分类器，用以决定测试集中的每个文本块是否具有该语义标签。基于序列标注的方法使用条件随机场对观测的文本序列进行标签，根据标签结果判别文本块的语义类型。

2)半监督法，主要包括自扩展方法(bootstrapping)、远程监督方法(distant supervision)和开放信息抽取法(open IE)。自扩展方法需要初始的种子实体对，根据这些种子实体对，发现新的语义模板，再对语料进行迭代抽取以发现新的实体对，这种方法的主要问题是语义漂移，代表工作有Mutual exclusive Bootstrapping (McIntosh et al.,2009), Coupled training(Carlson et al.,2010)和Co-Bootstrapping (Shi et al. 2014)。远程监督方法(M Mintz,IJCNLP 2009) 使用知识库中的关系启发式地标注文本，它的问题主要在于训练实例中本身带有大量噪音。开放信息抽取法主要使用自然语言处理方法，无需预先给定要抽取的关系类别，自动将自然语言句子转换为命题。这种方法在处理复杂句子时效果会受到影响。

3)无监督方法中，代表性的系统有KnowItAll (O Etzioni www2004), 这套系统具有领域无关特性，可以使用自扩展的方式从大规模互联网信息中抽取语义信息，同时会自动地对抽取信息进行评审。

语义集成

随着语义网的发展，目前已有很多学术机构和企业对语义技术进行研究，并由此产生了很多语义技术应用。大规模知识库是一种代表性的应用，已有很多种大规模知识库，其中比较著名的有DBPedia、YAGO等。然而知识库之间的异构性，对知识在整个语义网上的共享造成了阻碍。语义集成，就是在异构的知识库之间，发现实体间的等价关系，从而实现知识共享。由于知识库多以本体的形式描述，因此语义集成中的主要环节是本体映射。

本体映射根据对齐的实体类别不同，主要可以分为本体模式匹配和本体实例匹配两种。模式匹配主要对齐本体的模式层，包含概念与属性。而实例匹配的目标则是对齐本体中所包含的实例。二者在规模和结构上有一些不同，但方法上有许多共同点。

本体匹配的方法主要包括：

1. 基于文本信息的方法。这种方法主要利用本体中实体的文本信息，例如实体的label,comment。通过计算两个实体字符串之间的相似度(常用的有编辑距离相似度，Jaccard相似度)，来确定实体之间是否具有匹配关系。

2. 基于结构的方法。这种方法主要利用本体的图结构信息来对本体进行匹配。其中较为代表性的方法有SimRank(Jeh G, SIGKDD 2002) 和相似度传播(Similarity Flooding，MelnikS，ICDE 2002), 这些方法利用本体的图结构，对实体间的相似度进行传播，从而提高对齐的效果。

3. 基于背景知识的方法：这种方法一般使用DBPedia或WordNet等已有的大规模领域无关知识库作为背景知识来提高匹配效果。例如，Aleksovski等人利用DICE本体(一个医学领域的本体)来匹配结构信息缺失的两个与医学相关的本体(Aleksovski Z， EKAW 2006)。

4. 基于机器学习的方法：这种方法将本体匹配问题视为一个机器学习中的分类或优化问题，从而采取机器学习方法获得匹配结果。例如Tang J等人将本体匹配视为一个贝叶斯决策问题(Tang J,JWS 2006). Niepert 等人将本体匹配转换为一个马尔可夫逻辑网络(Markov Logic Network， MLN)问题( NiepertM AAAI 2010)，将本体中的各种信息转化为 MLN 中各种约束条件，并求出最优解.

参考文献

Carlson A, Betteridge J, Wang R C, et al. Coupled semi-supervised learning for information extraction[C]//Proceedings of the third ACM international conference on Web search and data mining. ACM, 2010: 101-110.

McIntosh T, Curran J R. Weighted mutual exclusion bootstrapping for domain independent lexicon and template acquisition[C]//Proceedings of the Australasian Language Technology Association Workshop. 2008, 2008.

Shi B, Zhang Z, Sun L, et al. A Probabilistic Co-Bootstrapping Method for Entity Set Expansion[C]//COLING. 2014: 2280-2290.

Mintz M, Bills S, Snow R, et al. Distant supervision for relation extraction without labeled data[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 2-Volume 2. Association for Computational Linguistics, 2009: 1003-1011.

Etzioni O, Cafarella M, Downey D, et al. Web-scale information extraction in knowitall:(preliminary results)[C]//Proceedings of the 13th international conference on World Wide Web. ACM, 2004: 100-110.

Jeh G, Widom J. SimRank: a measure of structural-context similarity. Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining (KDD),2002. 538–543.

MelnikS,Garcia-molinaH,RahmE.Similarityflooding:Aversatilegraphmatchingalgorithm.Proceedingsofthe18thInternationalConferenceonDataEngineering(ICDE),2002. 117–128.

Aleksovski Z, Klein M C A, Kate W, et al. Matching Unstructured Vocabularies Using a Background Ontology. Proceedings of the 15th International Conference on Knowledge Acquisition,ModelingandManagement(EKAW),2006. 182–197.

Tang J, Li J Z, Liang B, et al. Using Bayesian decision for ontology mapping. Journal of WebSemantics,2006,4(4):243–262.

NiepertM,MeilickeC,StuckenschmidtH.AProbabilistic-LogicalFrameworkforOntology Matching. Proceedings of the 24th AAAI Conference on Artificial Intelligence (AAAI), 2010. 1413–1418.