事实学习与语义集成调研

本文探讨了知识图谱中事实学习的方法,包括监督、半监督和无监督,以及语义集成中的本体映射技术,如基于文本信息、结构、背景知识和机器学习的方法。
摘要由CSDN通过智能技术生成

事实学习

在知识图谱中,事实大多以三元组的形式表示,例如:实体-属性-值和实体-关系-实体。作为实体关系的主要载体,一个知识图谱中事实的数量决定了知识图谱的丰富程度。据不完全统计,Google知识图谱到目前为止包含了5亿个实体和35亿条事实。如何从互联网信息和文档中自动地学习得到这些事实,是知识图谱构建中一个重要而又充满挑战的环节。

已有的知识图谱的事实学习方法可以分为三类:监督方法、半监督方法及无监督方法。

1)监督方法主要是语义标注法。语义标注法又可以分为基于规则学习的方法、基于分类的方法和基于序列标注的方法。这些方法都需要已标注文档作为训练集。其中基于规则学习的方法在每次迭代中,选择与已有规则最相似的规则加入候选集中,并进行剪枝、归纳和交叉验证。基于分类的方法需要提取文档内容特征,对每种语义标签训练一个分类器,用以决定测试集中的每个文本块是否具有该语义标签。基于序列标注的方法使用条件随机场对观测的文本序列进行标签,根据标签结果判别文本块的语义类型。

2)半监督法,主要包括自扩展方法(bootstrapping)、远程监督方法(distant supervision)和开放信息抽取法(open IE)。自扩展方法需要初始的种子实体对,根据这些种子实体对,发现新的语义模板,再对语料进行迭代抽取以发现新的实体对,这种方法的主要问题是语义漂移,代表工作有Mutual exclusive Bootstrapping (McIntosh et al.,2009), Coupled training(Carlson et al.,2010)Co-Bootstrapping (Shi et al. 2014)。远程监督方法(M Mintz,IJCNLP 2009) 使用知识库中的关系启发式地标注文本,它的问题主要在于训练实例中本身带有大量噪音。开放信息抽取法主要使用自然语言处理方法,无需预先给定要抽取的关系类别,自动将自然语言句子转换为命题。这种方法在处理复杂句子时效果会受到影响。

3)无监督方法中,代表性的系统有KnowItAll (O Etzioni www2004), 这套系统具有领域无关特性,可以使用自扩展的方式从大规模互联网信息中抽取语义信息,同时会自动地对抽取信息进行评审。


语义集成

随着语义网的发展,目前已有很多学术机构和企业对语义技术进行研究,并由此产生了很多语义技术应用。大规模知识库是一种代表性的应用,已有很多种大规模知识库,其中比较著名的有DBPediaYAGO等。然而知识库之间的异构性,对知识在整个语义网上的共享造成了阻碍。语义集成,就是在异构的知识库之间,发现实体间的等价关系,从而实现知识共享。由于知识库多以本体的形式描述,因此语义集成中的主要环节是本体映射。

本体映射根据对齐的实体类别不同,主要可以分为本体模式匹配和本体实例匹配两种。模式匹配主要对齐本体的模式层,包含概念与属性。而实例匹配的目标则是对齐本体中所包含的实例。二者在规模和结构上有一些不同,但方法上有许多共同点。

本体匹配的方法主要包括:

1. 基于文本信息的方法。这种方法主要利用本体中实体的文本信息,例如实体的label,comment。通过计算两个实体字符串之间的相似度(常用的有编辑距离相似度,Jaccard相似度),来确定实体之间是否具有匹配关系。

2. 基于结构的方法。这种方法主要利用本体的图结构信息来对本体进行匹配。其中较为代表性的方法有SimRank(Jeh G, SIGKDD 2002) 和相似度传播(Similarity FloodingMelnikSICDE 2002), 这些方法利用本体的图结构,对实体间的相似度进行传播,从而提高对齐的效果。

3. 基于背景知识的方法:这种方法一般使用DBPediaWordNet等已有的大规模领域无关知识库作为背景知识来提高匹配效果。例如,Aleksovski等人利用DICE本体(一个医学领域的本体)来匹配结构信息缺失的两个与医学相关的本体(Aleksovski ZEKAW 2006)

4. 基于机器学习的方法:这种方法将本体匹配问题视为一个机器学习中的分类或优化问题,从而采取机器学习方法获得匹配结果。例如Tang J等人将本体匹配视为一个贝叶斯决策问题(Tang J,JWS 2006). Niepert 等人将本体匹配转换为一个马尔可夫逻辑网络(Markov Logic NetworkMLN)问题( NiepertM AAAI 2010),将本体中的各种信息转化为 MLN 中各种约束条件,并求出最优解.

 

 

参考文献

Carlson A, Betteridge J, Wang R C, et al. Coupled semi-supervised learning for information extraction[C]//Proceedings of the third ACM international conference on Web search and data mining. ACM, 2010: 101-110.

McIntosh T, Curran J R. Weighted mutual exclusion bootstrapping for domain independent lexicon and template acquisition[C]//Proceedings of the Australasian Language Technology Association Workshop. 2008, 2008.

Shi B, Zhang Z, Sun L, et al. A Probabilistic Co-Bootstrapping Method for Entity Set Expansion[C]//COLING. 2014: 2280-2290.

Mintz M, Bills S, Snow R, et al. Distant supervision for relation extraction without labeled data[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 2-Volume 2. Association for Computational Linguistics, 2009: 1003-1011.

Etzioni O, Cafarella M, Downey D, et al. Web-scale information extraction in knowitall:(preliminary results)[C]//Proceedings of the 13th international conference on World Wide Web. ACM, 2004: 100-110.

Jeh G, Widom J. SimRank: a measure of structural-context similarity. Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining (KDD),2002. 538543.

MelnikS,Garcia-molinaH,RahmE.Similarityflooding:Aversatilegraphmatchingalgorithm.Proceedingsofthe18thInternationalConferenceonDataEngineering(ICDE),2002. 117128.

Aleksovski Z, Klein M C A, Kate W, et al. Matching Unstructured Vocabularies Using a Background Ontology. Proceedings of the 15th International Conference on Knowledge Acquisition,ModelingandManagement(EKAW),2006. 182197.

Tang J, Li J Z, Liang B, et al. Using Bayesian decision for ontology mapping. Journal of WebSemantics,2006,4(4):243262.

NiepertM,MeilickeC,StuckenschmidtH.AProbabilistic-LogicalFrameworkforOntology Matching. Proceedings of the 24th AAAI Conference on Artificial Intelligence (AAAI), 2010. 14131418.

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值