用少于10行代码训练前沿深度学习新药研发模型-CSDN博客

本文链接：https://blog.csdn.net/weixin_45519842/article/details/108470443

本文介绍了如何使用DeepPurpose，一个基于PyTorch的工具包，通过不超过10行代码训练深度学习模型来进行药物-靶标相互作用预测。DeepPurpose支持多种编码器，简化了DTI预测任务，包括虚拟筛选和旧药新用。通过提供的数据加载、模型配置和训练等步骤，开发者可以轻松训练前沿的深度学习模型，加速新药研发过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文原创作者知乎链接为https://www.zhihu.com/people/kexin-95-6.

「总结」：深度学习正在革新药研发行业。在本文中，我们将展示如何使用DeepPurpose，一个基于PyTorch的工具包来解锁50多个用于药物-靶标相互作用（Drug-Target Interaction）预测的模型。DTI预测是新药研发中的一项基本任务。DeepPurpose的操作模式是像scikit-learn一样。只需几行代码，就可以利用最前沿的深度学习和药物研发模型。DeepPurpose还有一个简单的界面来做DTI预测的两个重要应用：虚拟筛选（Virtual Screening）和旧药新用（Drug Repurposing）。要了解更多信息，请访问「arxiv文章」https://arxiv.org/abs/2004.08919和「Github」https://github.com/kexinhuang12345/DeepPurpose！

发现一种新药要花费10年以上的时间，成本要超过26亿美元[1]。最近，许多AI药物研发创业公司出现并成功应用了深度学习技术来辅助新药研发，并大大缩短了时间/节省成本[2,3]。在国内前两天在世界人工智能大会，大药厂AstraZeneca的演讲和腾讯的云深智药平台发布，都预示着人工智能新药研发将会在未来非常的火。因此，这是一个非常令人兴奋和蓬勃发展的领域！

Image by authors.

背景

让我们从一些生物化学概念开始。疾病通常归因于疾病途径中的靶蛋白。药物可以用来调节这个靶蛋白，以此来治愈疾病。相当于是断了这个疾病的发生途径。其中一个主要的药物作用机制是“锁与钥匙”理论[4]。靶蛋白是“锁” ，而药物是那把合适的“钥匙” 以解锁这个靶蛋白。锁和钥匙的匹配程度也被称为绑定亲和力（binding affinity）。

Image permission granted by Christopher Vakoc.

药物-靶标相互作用（Drug-Target Interaction, DTI）测量的就是药物分子与蛋白质靶标的结合亲和力。因此，我们可以轻松地想象到，如果一个DTI深度学习预测模型能准确预测药物分子与蛋白质靶标的结合亲和，它可以极大地有益于药物的发现 [5]。更具体地说，虚拟筛选（Virtual Screening）和旧药新用（Drug Repurposing）是基于DTI的两个主要应用。虚拟筛选有助于识别可以与目标蛋白质结合的配体候选物，而药物重新定位则为现有药物找到新的治疗目的。

Image by authors.

DeepPurpose概述

DeepPurpose将DTI模型表述为编码器-解码器(encoder-decoder)框架, 这个框架包括以前的大部分工作[6,7,8,9,10]，并还包括了很多新的模型。两个编码器（encoder）分别为药物和蛋白质生成embedding，然后将它们串联到解码器（decoder）中，在decoder中预测结合亲和力（binding affinity score）。DeepPurpose是用PyTorch写的。

Image by authors.

DeepPurpose使用最容易的输入数据格式。输入是药物靶标对（drug-target pair），其中药物使用SMILES字符串（药物分子图像上的Depth-First Traversal），而靶蛋白则使用氨基酸序列（amino acid sequence）。输出是指示药物-靶对的结合活性的分数。

Image by authors.

对于药物分子，我们提供了8种encoder：四个经典的化学信息学指纹（Morgan，Pubchem，Daylight和RDKit 2D），并在它们之上用深度神经网络（DNN）；1D卷积神经网络（CNN），在SMILES字符串上；在CNN之上加上递归神经网络，以利用序列顺序上的信息；子结构分区指纹上的Transformer[11]；分子图上的图神经网络（Message Passing Neural Network）。