本文原创作者知乎链接为https://www.zhihu.com/people/kexin-95-6.
「总结」:深度学习正在革新药研发行业。在本文中,我们将展示如何使用DeepPurpose,一个基于PyTorch的工具包来解锁50多个用于药物-靶标相互作用(Drug-Target Interaction)预测的模型。DTI预测是新药研发中的一项基本任务。DeepPurpose的操作模式是像scikit-learn一样。只需几行代码,就可以利用最前沿的深度学习和药物研发模型。DeepPurpose还有一个简单的界面来做DTI预测的两个重要应用:虚拟筛选(Virtual Screening)和旧药新用(Drug Repurposing)。要了解更多信息,请访问「arxiv文章」https://arxiv.org/abs/2004.08919和「Github」https://github.com/kexinhuang12345/DeepPurpose!
发现一种新药要花费10年以上的时间,成本要超过26亿美元[1]。最近,许多AI药物研发创业公司出现并成功应用了深度学习技术来辅助新药研发,并大大缩短了时间/节省成本[2,3]。在国内前两天在世界人工智能大会, 大药厂AstraZeneca的演讲和腾讯的云深智药平台发布,都预示着人工智能新药研发将会在未来非常的火。因此,这是一个非常令人兴奋和蓬勃发展的领域 !

背景
让我们从一些生物化学概念开始。疾病通常归因于疾病途径中的靶蛋白。药物可以用来调节这个靶蛋白,以此来治愈疾病。相当于是断了这个疾病的发生途径。其中一个主要的药物作用机制是“锁与钥匙”理论[4]。靶蛋白是“锁” ,而药物是那把合适的“钥匙” 以解锁这个靶蛋白。锁和钥匙的匹配程度也被称为绑定亲和力(binding affinity)。

药物-靶标相互作用(Drug-Target Interaction, DTI)测量的就是药物分子与蛋白质靶标的结合亲和力。因此,我们可以轻松地想象到,如果一个DTI深度学习预测模型能准确预测药物分子与蛋白质靶标的结合亲和,它可以极大地有益于药物的发现 [5]。更具体地说,虚拟筛选(Virtual Screening)和旧药新用(Drug Repurposing)是基于DTI的两个主要应用。虚拟筛选有助于识别可以与目标蛋白质结合的配体候选物,而药物重新定位则为现有药物找到新的治疗目的。

DeepPurpose概述
DeepPurpose将DTI模型表述为编码器-解码器(encoder-decoder)框架, 这个框架包括以前的大部分工作[6,7,8,9,10],并还包括了很多新的模型。两个编码器(encoder)分别为药物和蛋白质生成embedding,然后将它们串联到解码器(decoder)中,在decoder中预测结合亲和力(binding affinity score)。DeepPurpose是用PyTorch写的。

DeepPurpose使用最容易的输入数据格式。输入是药物靶标对(drug-target pair),其中药物使用SMILES字符串(药物分子图像上的Depth-First Traversal),而靶蛋白则使用氨基酸序列(amino acid sequence)。输出是指示药物-靶对的结合活性的分数。

对于药物分子,我们提供了8种encoder:四个经典的化学信息学指纹(Morgan,Pubchem,Daylight和RDKit 2D),并在它们之上用深度神经网络(DNN);1D卷积神经网络(CNN),在SMILES字符串上;在CNN之上加上递归神经网络,以利用序列顺序上的信息;子结构分区指纹上的Transformer[11];分子图上的图神经网络(Message Passing Neural Network)。

对于靶蛋白,我们提供了7种encoder:在四个经典计算生物学指纹(AAC,PseAAC,Conjoint Triad, Quasi-sequence)之上的DNN;在上的氨基酸序列上的1D CNN;在CNN加RNN;和在substructure fingerprint上用transformer。

DeepPurpose总共提供了56种(8乘7)模型!另外,大多数模型都是novel的!