用少于10行代码训练前沿深度学习新药研发模型

本文介绍了如何使用DeepPurpose,一个基于PyTorch的工具包,通过不超过10行代码训练深度学习模型来进行药物-靶标相互作用预测。DeepPurpose支持多种编码器,简化了DTI预测任务,包括虚拟筛选和旧药新用。通过提供的数据加载、模型配置和训练等步骤,开发者可以轻松训练前沿的深度学习模型,加速新药研发过程。
摘要由CSDN通过智能技术生成

本文原创作者知乎链接为https://www.zhihu.com/people/kexin-95-6.

「总结」:深度学习正在革新药研发行业。在本文中,我们将展示如何使用DeepPurpose,一个基于PyTorch的工具包来解锁50多个用于药物-靶标相互作用(Drug-Target Interaction)预测的模型。DTI预测是新药研发中的一项基本任务。DeepPurpose的操作模式是像scikit-learn一样。只需几行代码,就可以利用最前沿的深度学习和药物研发模型。DeepPurpose还有一个简单的界面来做DTI预测的两个重要应用:虚拟筛选(Virtual Screening)和旧药新用(Drug Repurposing)。要了解更多信息,请访问「arxiv文章」https://arxiv.org/abs/2004.08919和「Github」https://github.com/kexinhuang12345/DeepPurpose!


发现一种新药要花费10年以上的时间,成本要超过26亿美元[1]。最近,许多AI药物研发创业公司出现并成功应用了深度学习技术来辅助新药研发,并大大缩短了时间/节省成本[2,3]。在国内前两天在世界人工智能大会, 大药厂AstraZeneca的演讲和腾讯的云深智药平台发布,都预示着人工智能新药研发将会在未来非常的火。因此,这是一个非常令人兴奋和蓬勃发展的领域 !

Image by authors.

背景

让我们从一些生物化学概念开始。疾病通常归因于疾病途径中的靶蛋白。药物可以用来调节这个靶蛋白,以此来治愈疾病。相当于是断了这个疾病的发生途径。其中一个主要的药物作用机制是“锁与钥匙”理论[4]。靶蛋白是“锁”  ,而药物是那把合适的“钥匙” 以解锁这个靶蛋白。锁和钥匙的匹配程度也被称为绑定亲和力(binding affinity)。

Image permission granted by Christopher Vakoc.

药物-靶标相互作用(Drug-Target Interaction, DTI)测量的就是药物分子与蛋白质靶标的结合亲和力。因此,我们可以轻松地想象到,如果一个DTI深度学习预测模型能准确预测药物分子与蛋白质靶标的结合亲和,它可以极大地有益于药物的发现 [5]。更具体地说,虚拟筛选(Virtual Screening)和旧药新用(Drug Repurposing)是基于DTI的两个主要应用。虚拟筛选有助于识别可以与目标蛋白质结合的配体候选物,而药物重新定位则为现有药物找到新的治疗目的。

Image by authors.

DeepPurpose概述

DeepPurpose将DTI模型表述为编码器-解码器(encoder-decoder)框架, 这个框架包括以前的大部分工作[6,7,8,9,10],并还包括了很多新的模型。两个编码器(encoder)分别为药物和蛋白质生成embedding,然后将它们串联到解码器(decoder)中,在decoder中预测结合亲和力(binding affinity score)。DeepPurpose是用PyTorch写的。

Image by authors.

DeepPurpose使用最容易的输入数据格式。输入是药物靶标对(drug-target pair),其中药物使用SMILES字符串(药物分子图像上的Depth-First Traversal),而靶蛋白则使用氨基酸序列(amino acid sequence)。输出是指示药物-靶对的结合活性的分数。

Image by authors.

对于药物分子,我们提供了8种encoder:四个经典的化学信息学指纹(Morgan,Pubchem,Daylight和RDKit 2D),并在它们之上用深度神经网络(DNN);1D卷积神经网络(CNN),在SMILES字符串上;在CNN之上加上递归神经网络,以利用序列顺序上的信息;子结构分区指纹上的Transformer[11];分子图上的图神经网络(Message Passing Neural Network)。

Image by authors.

对于靶蛋白,我们提供了7种encoder:在四个经典计算生物学指纹(AAC,PseAAC,Conjoint Triad, Quasi-sequence)之上的DNN;在上的氨基酸序列上的1D CNN;在CNN加RNN;和在substructure fingerprint上用transformer。

Images by authors.

DeepPurpose总共提供了56种(8乘7)模型!另外,大多数模型都是novel的!

De

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值