Bioinformatics|PocketDTA:一种先进的多模态架构,通过靶标结合口袋的3D结构增强药物-靶标亲和力预测

今天给大家分享一篇发表在Bioinformatics上的论文:“ PocketDTA: an advanced multimodal architecture for enhanced prediction of drug−target affinity from 3D structural data of target bindin g pockets”。该论文提出了一种基于先进多模态架构的PocketDTA模型,用于从目标结合口袋的3D结构数据中增强药物-目标亲和力的预测。

1介绍

药物-目标亲和力预测是药物发现过程中的关键环节,它依赖于对药物(配体)与目标(通常是蛋白质)之间相互作用强度的准确评估。传统的计算方法,如分子对接(molecular docking)和分子动力学模拟(molecular dynamics simulation),虽然能够精确模拟药物与目标的结合过程,但在面对复杂多变的生物分子结构时,其计算效率和准确性往往受到限制。

近年来,随着人工智能和深度学习的飞速发展,多模态架构在药物-目标亲和力预测中展现出了巨大的潜力。其中,PocketDTA作为一种先进的多模态架构,能够从目标结合口袋的3D结构数据中提取关键信息,从而显著增强药物-目标亲和力的预测能力。在本文中,作者提出了一种名为PocketDTA的新方法,该方法不仅融合了药物和目标的序列与结构信息,还通过几何深度学习技术精确捕捉了目标结合口袋的3D特征。与传统方法相比,PocketDTA在保持较低计算复杂度的同时,实现了更高的预测精度。在与当前最优方法(SOTA)的比较中,PocketDTA在多个评估指标上均展现出了显著优势。

值得注意的是,PocketDTA的成功不仅在于其先进的模型架构,更在于其对数据质量的深刻理解和优化。作者通过提取高置信度的蛋白质3D坐标,并对结合口袋进行预处理,显著提高了模型对药物-目标亲和力的预测能力。这一发现进一步强调了数据质量在推动药物发现领域进步中的重要性。

2模型方法

PocketDTA的总体流程如下:

(A)数据预处理模块:包括更新目标序列、移除冗余样本、获取目标的三维坐标、提取高精度蛋白质结构域以获取精确的三维坐标,以及获取目标结合口袋等步骤。

(B)多模态表示与特征提取模块:涉及药物和目标的序列与结构表征,随后进行特定的特征提取过程。

(C)交互融合模块:将(B)中提取的药物和目标特征进行融合,并使用双线性注意力网络模拟它们之间的相互作用。

GraphMVP-decoder

为了精确捕捉分子3D结构的细微特征,作者开发了GraphMVP-Decoder。该解码器首先根据药物结构表示计算位置嵌入,然后将其整合以保留空间位置信息。接着,解码器使用全连接层进行降维,并对局部特征进行初步提取:

接着作者采用CNN滑动窗口机制对药物局部特征进行进一步细化。此外,为了适应数据的复杂性,作者使用了GLU激活函数,其门控机制相比其他激活函数更有效地过滤输入并突出关键信息。同时,为了提高训练的稳定性并加速收敛速度,作者引入了残差连接、缩放因子和LayerNorm。解码器可以表示为:

GVP-GNN层

为了深入探究目标口袋的几何与空间特征,作者采用了先进的几何向量感知机来建模蛋白质图。GVP被视为线性变换的扩展,能够将特征元组处理成新的元组。最关键的是,GVP具有一个理想的特性:其标量和向量输出在三维欧几里得空间中的旋转和反射操作下表现出不变性和等变性。具体而言,如果,那么对于任何旋转和反射变换R,都有。不变性表明,在变换R下,标量s保持不变,即输出标量不受此类变换的影响。等变性确保对向量应用的任何变换R都会在输出向量中产生相应的变换。这一特性使得GVP在学习三维空间中的几何特征时,相比其他神经网络模型具有更强的表达能力。

GVP-GNN利用GVP来增强模型对几何结构特征的识别能力,通过消息传递机制来更新节点嵌入。GVP-GNN架构包含两层:图传播层和前馈层。图传播层首先根据节点和边嵌入计算一个消息,然后应用这个消息来更新节点嵌入。具体而言,第l层的图传播层可以表示为:

其中,表示第 层中节点 的嵌入, 代表从节点 到节点 的边嵌入, 表示三个堆叠的GVP(几何向量感知机)层, 象征在第 层中从节点传递到节点的消息,而 表示节点的邻接节点集合。随后,前馈层继续对节点嵌入进行细化,这一过程可以描述为:其中,表示两个堆叠的GVP(几何向量感知机)层。

为了进一步学习目标结合口袋的三维结构信息,作者开发了定制的GVP-GNN层,该层结合了GVP(几何向量感知机)和GVP-GNN,以蛋白质图 作为输入。首先,通过一个单独的GVP层对边和节点特征嵌入进行初步提取。随后,这些数据被共同输入到N层的GVP-GNN中进行信息融合以及节点和边嵌入的更新。最后,通过GVP层对整合后的信息进一步处理,该框架可以描述为:

为了促进后续的特征融合,作者采用了与目标序列表示中相同的操作来转换 。

双线性注意力网络

为了构建包含全局和局部信息的药物靶点多模态表示,执行以下操作:其中, 和 。

输入D = [d1, d2, …, dm+1]ᵀ 和 T = [t1, t2, …, tp+1]ᵀ 分别通过简单的线性层和ReLU激活函数映射到一个共享的特征空间。然后,使用Hadamard积计算它们之间的成对交互矩阵

其中, 表示可学习的权重向量,表示Hadamard积(元素对应相乘),权重矩阵,,以及Dropout操作 是一个随机丢弃操作。为了更清晰地理解双线性交互权重矩阵,矩阵A中的元素可以表示为:

接着,为了得到交互表示,作者通过双线性乘积来构造:

随后,对交互表示向量J进行池化和归一化操作:

最后,将交互表示J0直接输入到多层感知机(MLP)中,以生成预测值y:

3实验与结果

数据集与评估指标

实验中,使用了两个公开可用的基准数据集,即 Davis 和 KIBA ,来评估 PocketDTA 的性能。

评价指标包括均方误差(MSE)、一致性指数(CI)、决定系数(r²)、皮尔逊相关系数(Pearson)和斯皮尔曼等级相关系数(Spearman)等统计指标。

对比实验

各种表示方法的比较分析
  • 在实验中研究了各种药物及其靶标的序列和结构特征,以确定最适合药物-靶标亲和力(DTA)任务的特征。

  • 在药物序列表示方面,评估了Morgan指纹、Mol2Vec和Mole-BERT等分子嵌入方法。研究结果表明,在两个基准数据集上,根据所有性能评价指标,Morgan指纹的表现均优于其他方法

  • 在药物结构表示方面,比较了GraphMVP、GraphMVP-C、GraphMVP-G和3Dinfomax等方法。在这些方法中,GraphMVP表现最佳,超越了其他技术

  • 在靶标序列表示方面,评估了领先的蛋白质预训练模型的嵌入:ESM-2、ProtBert和ProtT5。图3C显示,在Davis数据集上,ProtBert的表现优于其他模型,而ESM-2在KIBA数据集上表现最佳。

  • 在靶标结构表示方面,评估了从原始和处理后的蛋白质三维坐标预测中得出的前三个结合口袋的总序列长度和平均pLDDT值分布。结果表明,更高置信度的结构信息可以提高性能,这表明数据质量的改进对于推动药物-靶标亲和力(DTA)领域的发展至关重要。

图1.基准数据集上各种表示方法的MSE条形箱形图比较分析

评估口袋数量变化的影响

表1. 基准数据集上不同口袋数量情境下预测结果的比较分析。

如表1所示,在所有评估指标中,使用前3个预测的结合口袋作为靶标结构输入获得了最佳性能。此外,由于前3个口袋已经包含了大多数的结合位点,因此决定选择前3个结合口袋。

与SOTA方法的性能比较评估

表2. PocketDTA与其他SOTA模型在基准数据集上的性能比较分析。

如表2所示,在两个基准数据集上,采用一致的实验设置,对PocketDTA与当前最优技术方法(包括DeepDTA、GraphDTA、FusionDTA、MGraphDTA、3DProtDTA、NHGNNDTA和MDFDTA)进行了比较评估。

冷启动实验

使用了三种新颖的数据集分割策略:冷药物、冷靶标和全部冷启动,以评估DTA模型的泛化性能。表3展示了KIBA数据集上的冷启动实验结果。与其他基准模型相比,PocketDTA在三种数据分割方法下均表现出优越的预测性能,凸显了模型适应新环境的鲁棒性。

表3. KIBA数据集现实设置下的性能评估。

4总结

本文介绍了一种新的端到端药物-靶标亲和力(DTA)预测方法——PocketDTA,该方法在数据集质量提升、3D结构信息的有效利用、多模态生物表征以及局部相互作用的可解释性方面做出了重要贡献。在实际应用于药物筛选时,该模型仍存在局限性。由于训练集中亲和力值分布不均,导致预测结果也出现了类似的聚合现象。因此,扩展和多样化DTA基准数据集被认为是提高深度学习DTA模型泛化能力的关键。

如何学习AI大模型 ?

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。

对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。

在这里插入图片描述
在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)

在这里插入图片描述

👉4.大模型落地应用案例PPT👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)

在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
img

在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)

在这里插入图片描述
👉学会后的收获:👈
基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值