一定要看本系列第三篇!!!超级重要!!!https://blog.csdn.net/zhuge2017302307/article/details/117673769
本篇为毕业设计的基础知识讲解,日更。
主要写每天自己的笔记和对内容的理解,即论文的整体步骤梳理和对每块知识的总结。
2021.04.13
1. 关于过程:
第一步:知识图谱(KG)构建
——为了整合多个数据源,知识图是一个强大的工具。在这个图表中,节点代表不同的实体,如药物、疾病、蛋白质靶点、亚结构、副作用和途径。一旦数据以知识图的形式出现,我们就必须从其中提取信息作为交互预测器的特征。
——为了做到这一点,我们使用嵌入方法,将图中的每个节点投影到一个密集向量。
第二步:图形嵌入
——为了将该知识图中的信息转换为适合于预测模型的格式,我们采用了不同的KG嵌入技术。此处评估了不同的几个KG嵌入技术,以训练和评估ML基线模型。
——然后,我们训练了几个ML模型作为基线,并用Conv-LSTM模型进行了实验。
第三步:构建网络和ML基线模型
——通过嵌入之后得到输入向量,以此作为基线模型和Conv-LSTM的输入,进行训练网络。
——将基线模型结果与Conv-LSTM结果进行比较,我们发现Conv-LSTM的组合CNN和LSTM网络用于预测DDI,其准确性最高。
2. 关于功能:
(1)嵌入功能:
——采用TransE、TransD、TransH、HolE、RDF2Vec等图嵌入技术来克服数据的不完整性和稀疏性问题;
——大多数嵌入方法是基于平移的;嵌入是通过将关系作为从头部实体到尾部实体的翻译来构建的,构建成一个密集向量;
——一旦数据以知识图的形式出现,我们就必须从其中提取信息作为交互预测器的特征。为了做到这一点,我们使用嵌入方法,将图中的每个节点投影到一个密集向量。
——创建向量嵌入,例如,在这里(h,,r,t)是一个三元组(即r在h和t之间成立),对于这个等式,有各种选择。
(2)数据
——本文从DrugBank、京都基因与基因组百科全书、TWOSIDES和科学文献中收集了DDI信息,然后使用来自DrugBank、KEGG药物、PharmGKB和OFFSIDES的数据创建了一个集成KG(不包括上述DDI数据中的数据);
——在知识图中,节点代表不同的实体,如药物、疾病、蛋白质靶点、亚结构、副作用和途径;
——创建一个具有2898937个药物-药物相互作用对的数据集;
——准备一个关于DDIs的大规模集成KG,数据来自DrugBank、KEGG、OFFSIDES和PharmGKB,有12亿个元组;
——创建KG,提取DDI特征进行训练;
(3)基线模型
——监督ML方法,如DT、NB、k-NN、LR、SVM、RF和GBT,主要用于从拓扑和语义相似性特征预测DDI;
——决策树(DT)、朴素贝叶斯(NB)、k近邻(kNN)、Logistic回归(LR)、支持向量机(SVM)、随机森林(RF)和梯度增强树(GBT);
基础的知识总结完毕,下面一章说明具体步骤和每步的工作。