基于图表示学习的药物相互作用预测
论文题目 | Drug-drug Interaction Prediction with Graph Representation Learning |
---|---|
论文出自 | BIBM 2019 |
文章目录
一、现有DDI预测方法的不足之处?
- 可扩展性:依赖于不同的药物相关特征,导致在涉及大规模数据集时,大多数药物无法获得重要特征。
- 可解释性
--》建立了一个全新的模型来解决这两个问题:
-
小规模DDI数据集和大规模DDI数据集上的实验表明,与现有的各种先进方法相比,我们的模型可以实现更高的性能,这表明了我们模型的可扩展性。
-
能够找到具有注意机制的最重要的局部原子,这些原子符合领域知识,具有一定的可解释性。
(我们推断,局部化学亚结构是决定DDI发生的核心。因此,我们建议仅利用从分子图中提取的压缩结构信息来预测DDI。图卷积神经网络(GCN)可以有效地从不规则结构对象(如分子数据)中提取有用的特征)
二、模型?
- 两个连续部分组成:
- GCN:将不规则结构的分子数据转换为低维向量空间中相应的嵌入向量
- 交互预测器:预测DDI
输入SMILES,通过RDKit转换为分子图。借助RDKit,可以从分子图中提取两种结构信息。这两种结构信息是原子列表和多通道邻接矩阵,它们将被输入到下面的GCN中。
三、各模块详细介绍?
3.1 GCN
将复杂的不规则结构分子图转换为低维空间中的实值嵌入向量。
-
1) 输入:
- 原子列表:对于分子中的每个原子,根据其核电荷数的标准正态分布分配随机初始化的嵌入向量。通过叠加这些随机初始化的嵌入向量生成的嵌入矩阵。
- 多通道邻接矩阵:通道维数表示化学键的类型。集中研究了四种化学键:单键、双键、三键和芳香键。我们通过简单的一个热编码来表示键的类型。
-
2) 更新过程:通过叠加几个图卷积层实现,以考虑更广泛的化学环境。提出了两种机制来将简单的化学知识编码到更新过程中,分别是Bond-aware Message 和 Highway-based Update。
- 键感知消息:对于每个顶点,聚合由其直接邻域顶点传递的消息,并将这些消息相加。
- Highway-based Update:
- 键感知消息:对于每个顶点,聚合由其直接邻域顶点传递的消息,并将这些消息相加。
-
3) 输出:堆叠几个图形卷积层(总共L层)来学习图形中每个顶点的隐藏表示。在最后的图卷积层,得到了一个分子中每个原子的最终隐藏态集
基于Sg集合,我们需要生成一个嵌入向量g表示整个图形或分子。(假设GCN中的浅层将提取更多的具体特征,而深层将学习更多的抽象特征。)按照这种思路,整个图形的表示必须同时考虑具体和抽象特征。因此,需要注意池层:
3.2 Drug-drug Interaction Prediction
-
利用循环相关运算将两个分子嵌入向量压缩成一个嵌入向量:
关于循环相关运算:循环相关运算不满足对称性,模型可能对两种药物的顺序敏感。
–》通过复制每一对药物分子并颠倒两个药物分子的顺序,将训练集的大小增加了一倍,并在这个新的双尺寸数据集上训练模型。推理过程必须使用原始对和具有相反顺序的对进行两次,然后平均两个估计的相互作用概率以获得最终预测。
-
将g传递到一个非线性激活函数为sigmoid的单层神经网络中,以预测药物对或特定DDI类型之间存在相互作用的概率。
四、实验结果?
五、思考?
改进:在DDI预测领域仍有进一步发展的空间。使用的图卷积算子只能对平面二维分子图进行运算,这可能会丢失一些由三维结构传递的重要信息。在三维结构上发展图卷积算子是一个很有前途的方向。