基于KG嵌入和卷积-LSTM网络的药物-药物相互作用预测——基础知识总结

一定要看本系列第三篇!!!超级重要!!https://blog.csdn.net/zhuge2017302307/article/details/117673769

本篇为毕业设计的基础知识讲解,日更。

主要写每天自己的笔记和对内容的理解,即论文的整体步骤梳理和对每块知识的总结。

2021.04.13

1. 关于过程:

第一步:知识图谱(KG)构建

     ——为了整合多个数据源,知识图是一个强大的工具。在这个图表中,节点代表不同的实体,如药物、疾病、蛋白质靶点、亚结构、副作用和途径。一旦数据以知识图的形式出现,我们就必须从其中提取信息作为交互预测器的特征。

     ——为了做到这一点,我们使用嵌入方法,将图中的每个节点投影到一个密集向量。

第二步:图形嵌入

     ——为了将该知识图中的信息转换为适合于预测模型的格式,我们采用了不同的KG嵌入技术。此处评估了不同的几个KG嵌入技术,以训练和评估ML基线模型。

     ——然后,我们训练了几个ML模型作为基线,并用Conv-LSTM模型进行了实验。

第三步:构建网络和ML基线模型

     ——通过嵌入之后得到输入向量,以此作为基线模型和Conv-LSTM的输入,进行训练网络。

     ——将基线模型结果与Conv-LSTM结果进行比较,我们发现Conv-LSTM的组合CNN和LSTM网络用于预测DDI,其准确性最高。

2. 关于功能:

(1)嵌入功能:

     ——采用TransE、TransD、TransH、HolE、RDF2Vec等图嵌入技术来克服数据的不完整性和稀疏性问题;

     ——大多数嵌入方法是基于平移的;嵌入是通过将关系作为从头部实体到尾部实体的翻译来构建的,构建成一个密集向量;

     ——一旦数据以知识图的形式出现,我们就必须从其中提取信息作为交互预测器的特征。为了做到这一点,我们使用嵌入方法,将图中的每个节点投影到一个密集向量。

     ——创建向量嵌入,例如h\bigoplus r\approx t,在这里(h,,r,t)是一个三元组(即r在h和t之间成立),对于这个等式,\bigoplus operator有各种选择。

(2)数据

     ——本文从DrugBank、京都基因与基因组百科全书、TWOSIDES和科学文献中收集了DDI信息,然后使用来自DrugBank、KEGG药物、PharmGKB和OFFSIDES的数据创建了一个集成KG(不包括上述DDI数据中的数据);

     ——在知识图中,节点代表不同的实体,如药物、疾病、蛋白质靶点、亚结构、副作用和途径;

     ——创建一个具有2898937个药物-药物相互作用对的数据集;

     ——准备一个关于DDIs的大规模集成KG,数据来自DrugBank、KEGG、OFFSIDES和PharmGKB,有12亿个元组;

     ——创建KG,提取DDI特征进行训练;

(3)基线模型

     ——监督ML方法,如DT、NB、k-NN、LR、SVM、RF和GBT,主要用于从拓扑和语义相似性特征预测DDI;

     ——决策树(DT)、朴素贝叶斯(NB)、k近邻(kNN)、Logistic回归(LR)、支持向量机(SVM)、随机森林(RF)和梯度增强树(GBT);

基础的知识总结完毕,下面一章说明具体步骤和每步的工作。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值