DeepGS：Deep Representation Learning of Graphs and Sequences for DTA | CNN,GAT,BiGRU,Prot2Vec

最新推荐文章于 2024-09-19 14:49:12 发布

啊啦灯神叮

最新推荐文章于 2024-09-19 14:49:12 发布

阅读量2.4k

点赞数 5

分类专栏：论文解读文章标签：机器学习人工智能深度学习 cnn

本文链接：https://blog.csdn.net/xxxxxxbaby/article/details/120918294

版权

DeepGS: Deep Representation Learning of Graphs and Sequences for Drug-Target Binding Affinity Prediction（DTA）
这是一篇预测药物和靶标结合亲和力的文章，发表在ECAI2020上。文章最大的创新点在于首次提出三通道，在此之前都是使用二通道预测。

ECAI 2020：European Conference on Artificial Intelligence 欧洲人工智能会议

一、Introduction

（1）背景

近年来，随着深度学习模型在各个领域的成功应用与亲和力数据量的增加，深度学习技术被应用于DTA预测。而现存模型使用独热编码或只考虑分子的拓扑结构，而不考虑分子的局部化学背景。

（2）本文工作

本文提出了一个基于深度学习的 DTA预测模型DeepGS，将氨基酸序列和SMILES串编码为分布式表示，而且同时考虑了药物的分子结构和化学背景。作者将DeepGS与一些模型进行比较，实验结果证明了DeepGS的表现最好。

二、模型介绍

模型以蛋白质序列、药物的分子结构还有药物的SMILES串作为输入，以药物靶标结合亲和力作为输出。
模型主要分为三个部分。使用CNN来学习蛋白质序列（提取特征），使用GAT和BiGRU来学习药物。
具体来说步骤如下：
step1：分别使用Prot2Vec和Smi2Vec将蛋白质和药物序列中的符号编码成分布式表示；并将序列转换为矩阵，其中每一行表示序列中的符号；
step2：从蛋白质矩阵、分子矩阵、分子结构图中提取特征。①对于蛋白质序列，我们考虑氨基酸的局部化学背景，通过CNN提取特征；②对于药物分子图，使用GAT提取药物的拓扑结构信息（后面详细讲）；③使用BiGRU捕捉药物的局部化学背景。至此，我们获得了蛋白质的一个潜在表达和药物的两个潜在表达。
step3：DeepGS将三个潜在表示传递给神经网络以预测结合亲和力。

在这里插入图片描述

1.蛋白质的表示

（1）使用氨基酸序列表示靶蛋白。对于序列 L = { xi | i=1,2,…,l } ，采用N-gram算法将它分为三个一组的biological word ：[x1,x2,x3]，[x4,x5,x6]，[x7,x8,x9]
（2）使用Prot2Vec将biological word 编码成d维向量，目标序列就转化成了一个矩阵，每一行都是一个生物单词的嵌入。
（3）将矩阵输入到CNN，提取蛋白质的化学环境。

（1）①20种氨基酸，每一种都有对应的字母缩写。
②序列中，xi 表示第i个氨基酸，l表示序列长度。
③N-gram设置：，N设为3（为了在训练可行性和词汇量之间进行权衡）。
N-gram介绍：N-Gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度是N的字节片段序列，每一个字节片段称为gram。
（2）Prot2Vec：用n维向量来表示蛋白质。对于每个biological word，从预训练的嵌入字典中查找每个单词的嵌入向量。
这个嵌入字典来自Swiss-Prot，Swiss-Prot是一个经过注释的蛋白质序列数据库，包含56万个手工注释的序列。