DeepGS: Deep Representation Learning of Graphs and Sequences for Drug-Target Binding Affinity Prediction(DTA)
这是一篇预测药物和靶标结合亲和力的文章,发表在ECAI2020上。文章最大的创新点在于首次提出三通道,在此之前都是使用二通道预测。
ECAI 2020:European Conference on Artificial Intelligence 欧洲人工智能会议
一、Introduction
(1) 背景
近年来,随着深度学习模型在各个领域的成功应用与亲和力数据量的增加,深度学习技术被应用于DTA预测。而现存模型使用独热编码或只考虑分子的拓扑结构,而不考虑分子的局部化学背景。
(2)本文工作
本文提出了一个基于深度学习的 DTA预测模型DeepGS,将氨基酸序列和SMILES串 编码为分布式表示,而且同时考虑了药物的 分子结构和化学背景。作者将DeepGS与一些模型进行比较,实验结果证明了DeepGS的表现最好。
二、模型介绍
模型以 蛋白质序列、药物的分子结构 还有 药物的SMILES串作为输入,以 药物靶标结合亲和力 作为输出。
模型主要分为三个部分。使用CNN来学习蛋白质序列(提取特征),使用GAT和BiGRU来学习药物。
具体来说步骤如下:
step1:分别使用Prot2Vec和Smi2Vec将蛋白质和药物序列中的符号 编码成 分布式表示;并将序列转换为矩阵,其中每一行表示序列中的符号;
step2:从蛋白质矩阵、分子矩阵、分子结构图中提取特征。①对于蛋白质序列,我们考虑氨基酸的局部化学背景,通过CNN提取特征;②对于药物分子图,使用GAT提取药物的拓扑结构信息(后面详细讲);③使用BiGRU捕捉药物的局部化学背景。至此,我们获得了蛋白质的一个潜在表达和药物的两个潜在表达。
step3:DeepGS将三个潜在表示传递给神经网络以预测结合亲和力。
1.蛋白质的表示
(1)使用氨基酸序列表示靶蛋白。对于序列 L = { xi | i=1,2,…,l } ,采用N-gram算法将它分为三个一组的biological word :[x1,x2,x3],[x4,x5,x6],[x7,x8,x9]
(2)使用Prot2Vec将biological word 编码成d维向量,目标序列就转化成了一个矩阵,每一行都是一个生物单词的嵌入。
(3)将矩阵输入到CNN,提取蛋白质的化学环境。
(1)①20种氨基酸,每一种都有对应的字母缩写。
②序列中,xi 表示第i个氨基酸,l表示序列长度。
③N-gram设置:,N设为3(为了在训练可行性和词汇量之间进行权衡)。
N-gram介绍:N-Gram是一种基于 统计语言模型 的算法。它的基本思想是 将 文本里面的内容 按照字节 进行 大小为N的 滑动窗口操作,形成了长度是N的字节片段序列,每一个字节片段称为gram。
(2)Prot2Vec:用n维向量来表示蛋白质。对于每个biological word,从预训练的嵌入字典中查找每个单词的嵌入向量。
这个嵌入字典来自Swiss-Prot,Swiss-Prot是一个经过注释的 蛋白质序列 数据库,包含56万个手工注释的序列。
【Q】为什么使用Prot2Vec?【A】因为它可以捕获靶蛋白中的局部化学信息。
【Q】为什么采用N-garm模型?【A】因为单个氨基酸通常无意义。