学习笔记之知识图谱简介


前言

知识图谱就是将所有不同种类的信息连接到一起而得到的关系网络

一、知识图谱简介

关键概念:图、节点、边、实体和关系、度(出度入度)、知识图谱等。
关键知识点:
1、图上点、和边分别代表实体和关系。
2、知识图谱异质图,包含三个属性:实体、类型、关系。
3、实体又分为头实体和尾实体。
4、图谱的schema如何画(一定要搞清楚图谱的实体有哪些类型)
5、知识图谱可以应用于可视化、图谱问答、关系推理、节点分类、提供更多数据特征。

二、知识图谱建立

1、头实体、关系、尾实体(Subjects、Prediction、Objects)又被称为三元组。三元组数据一般被存储于RDF格式的数据库中,或者Neo4j图数据库中。
2、从句子中识别头实体、尾实体的过程被称作实体识别。实体识别任务通常可以转化成序列标注任务。而序列标注任务本质上其实是多分类问题。
3、序列标注BIO方法:B代表实体的第一个字母,I代表实体的内部(非首字母),O代表非实体,一般来讲如果实体有N个类别,序列标注任务就是一个2N+1分类任务。
4、序列标注任务通常方法是用bert做encoding,用CRF层增加标签之间的依赖性,最后用softmax。
5、知识图谱中另外一个任务是关系抽取。本质上仍然是是一个多分类任务。根据图谱的schema只要实体的类型确定了,对应的关系是确定的有限个可能(预设好的)。
6、实体识别和关系收取任务可以分两个模型分别实现。但是考虑到可能会出现多对实体和多种关系、匹配起来还是比较复杂以及实体和关系之间也有一定关联,我们可以采取一个模型完成两个任务的方式同时实现(两个任务的loss可以相加)。

三、图谱问答

1、一般有两种类型的问题:已知subjects 和 predictions 预测 objects; 已知subjects 和 objects 预测 predicts。
2、对于第一种问题(已知SP求O)有三个挑战:a.如何确定S;b.如何确定P;c.如何根据S和P确定O。
3、如何确定S,实体链接面对的挑战是1个实体对应多个metions;1个metions也可能对应多个实体。解决方式是首先建立一个name dictionary, 然后进行实体消歧。
4、实体消歧在context独立的情况下可以选择Linkcount最大的往往不会错;在context不独立的情况下任务变为求p(s|m, c) 可以把metion和context作为inputs经过一个神经网络多分类出最可能的实体。
5、如何确定P的最简单的方法是将text作为输入做一个多分类。
6、如何从多组SPO选择最合适的那一组:SPO1.。。SPON 做Encoding1-N, TEXT做Encoding, 分别计算向量相似度,选择相似度最高的那个。

总结

理解知识图谱核心在于理解SPO三元组和实体识别和关系抽取任务的常用方法。
一个知识图谱的量级在于:实体有多少类型,类型有多少关系,SPO有多少条。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值