瑞金医院MMC人工智能辅助构建知识图谱
1、赛题解读
1、知识图谱
- 语义网络
由表示概念的节点与表示概念间关系的边组成,其主要目的是用图的形式来表达结构话的知识。 - 本体
本体主要描述领域的知识,提供领域内知识的共同理解,确定领域内共同认可的词汇,以及形式化地给出词汇与词汇之间关系的明确定义。换言之,本体是知识的抽象表达,是描述知识的顶层结构。典型的本体库有WordNet和HowNet。
- WordNet主要是用图结构来描述英文单词,将语义相近的单词划分到同一组。
- HowNet主要以中文为主,而且描述的单词之间的关系更加复杂、丰富。
- 语义网
我们日常使用的万维网通过超链接的方式描述文档之间的关系,而语义网的主要目的是描述万维网中资源和数据之间的关系。进一步说,语义网希望描述资源和数据之间的语义与逻辑关系。
2、如何表达知识
通过图的形式结构化组织知识。
- 节点:描述概念或者实体
- 边:描述概念、实体之间的语义关系。
- 为了方便地表达和存储图结构,我们使用三元组来组织这一关系,表示为SPO,SPO三元组是构成知识图谱的最小单位。通常使用RDF(资源描述框架)来组织三元组。一般采用XML语法表示。
3、如何构建知识图谱
构建知识图谱的核心是构建描述知识图谱的SPO三元组。
- 识别主体与客体的实体识别(解决S与O的识别问题)【基础】
实体识别又称命名实体识别(NER),主要目的是识别并给丁文本中具有特定意义的实体的边界及所属类别。实体的边界指的是每一个实体在句子或者段落中的起点和终点。 - 抽取实体对关系的关系预测(解决P的识别问题)【关键】
关系抽取(RE),又被称为关系分类,主要目的是识别给定实体之间的关系。这种实体之间的关系通常都是由领域专家预先定义好的。 - 对多个知识图谱的实体进行对齐的知识融合(解决不同知识图谱中三元组对齐问题)
知识融合的主要目的是对来自给定的多个不同知识图谱的三元组进行对齐,主要指实体对齐。通过在不同的知识图谱之间进行对齐工作,我们可以获得更大、更丰富的知识图谱。 -
- 无监督实体对齐:通过对实体属性提取特征,并根据特征相似度进行聚类来对齐。
-
- 有监督实体对齐:先通过PairWise的方式对来自不同知识图谱的实体进行两两配对,并通过人工标注标签来构建训练集,然后使用传统的统计机器学习或者深度学习的方法训练模型,完成监督实体对齐的工作。
- 理解句子中实体背后语义关系的指代消解(解决S与O的语义关系问题)
由于句子中的实体可能存在多种表述方式,如可能以代词的形式存在,因此需要通过指代消解来准确理解不同实体表达背后的语义信息。 -
- Mention Pair
-
- Mention Ranking
4、如何进行知识推理
- 符号逻辑推理
符号逻辑推理主要是基于描述逻辑的本体推理。描述逻辑是一种基于对象的知识形式化表达,具有很强的表达能力与可判定性。
描述逻辑系统包含4个部分: -
- 概念与关系:描述领域中子集与子集之间的关系。
-
- Tbox公理集:描述领域结构的公理集合
-
- Abox断言集:描述实例的集合
-
- 推理机制:使用定义的构造算子进行概念与关系的推理。
- 表示学习推理
通过将学习的对象自动地由机器表示为隐式特征,来获取更强的表达能力。 -
- TransE模型
-
- 随机游走
-
- 图神经网络
2、数据集
天池官网上就可以找到~
3、评测指标
F
1
=
2
∗
P
∗
R
P
+
R
F1=\frac{2*P*R}{P+R}
F1=P+R2∗P∗R
其中P是准确率,R是召回率。