疾病相关知识图谱构建
前言
在前一个研究的基础上,向其中添加如基因-表型、基因-蛋白质、疾病-药物等更丰富的信息。构建医学知识图谱
一、知识建模
- 定义类:疾病、基因、药物、蛋白质
- 定义类属性:疾病(定义、名称、ID)DiseaseOntology;基因(基因名、基因ID);药物(作用、副作用);蛋白质(蛋白质名、蛋白质ID)、表型(定义、ID)
- 定义语义关系:疾病关联的基因;基因相关的表型;药物作用于的蛋白质;基因翻译成蛋白质;蛋白质变异导致的疾病
二、知识抽取
- 命名实体识别:查找使用现有的LSTM方法进行实体识别
- 关系抽取:分为两部分一部分是从已有的结构化数据中抽取;一部分是从电子病历、文献摘要等文本数据根据现有方法进行关系抽取
三、知识融合(本体对齐)
- 研究怎样将来自多个来源的关于同一个实体或概念的描述信息融合起来
- 我们的项目用到了如基因、疾病、蛋白质、药物等多种医学方面的信息,然而在不同网络中他们的命名方式是不同的,因此我们需要将来自多个来源的关于同一个实体的描述信息融合起来。
- 统一了不同实体类型的ID类型,如:疾病使用umls id表示,DiseaseOntology为疾病的相关属性;基因使用entrez id表示,GeneOntology为基因的相关属性;蛋白质使用UNIPORT ID表示等等。
- 通过mapping实现不同类型ID的转换。对于一种mapping,统一一种方法,并尽量选择一对一的mapping。实在不能一对一的话有多重结果的就用多重结果。
四、 知识挖掘
- 从数据中获取实体及新的实体链接和新的关联规则等信息
- 主要的技术包含实体的链接与消歧、知识规则挖掘、知识图谱表示学习等。、
- 我们主要使用知识表示学习的方法,将知识图谱中的实体和关系都映射低维空间向量,用数学表达式来计算各个实体之间相似度。这类方法不依赖任何的文本信息,获取到的都是数据的深度特征。由于知识图谱中包含多种类型的节点,因此需要采用异构的图嵌入方法进行知识表示学习,并通过计算向量相似度实现实体链接