论文解读:《ETDock:一种基于等变transformer的蛋白质-配体对接方法》

14 篇文章 0 订阅
2 篇文章 0 订阅

文章地址:https://www.semanticscholar.org/paper/ETDock%3A-A-Novel-Equivariant-Transformer-for-Docking-Yi-Wan/a3a46d1e738bc63f077374d0a7f2075680f1722e
期刊:arXiv.org
发布时间:2023年10月12日

1.文章概述

预测蛋白质和配体之间的对接对于药物发现来说是一项至关重要且具有挑战性的任务。然而,传统的对接方法主要依赖于评分函数,而基于深度学习的对接方法通常忽略了蛋白质和配体的3D空间信息以及配体的图级特征,这限制了其性能。为了解决这些限制,作者提出了一种用于蛋白质-配体对接构象预测的等变transformer神经网络。该方法涉及通过特征处理融合配体图级特征,然后使用作者提出的 TAMformer 模块学习配体和蛋白质表示。此外,作者还采用基于预测距离矩阵的迭代优化方法来生成精细的配体构象。真实数据集上的实验结果表明,该模型可以实现最先进的性能。

2.背景

在过去的几十年里,人们在研究蛋白质的结构和功能方面做出了巨大的努力。生物实体的结构对其功能有重大影响。然而,预测生物实体的结构在实验和计算上都面临着巨大的挑战。 AlphaFold 的出现极大地推动了结构生物学领域的发展,进而对药物发现产生了深远的影响。在药物发现中,通过湿实验筛选配体既昂贵又耗时。通过计算预测蛋白质和配体之间的结合亲和力可以促进药物的筛选。然而,仅结合亲和力的值并不能完全解释蛋白质和配体之间的相互作用。为了更全面地研究蛋白质-配体相互作用的机制,需要预测蛋白质-配体对接,这比预测它们的结合亲和力更具挑战性。
蛋白质-配体对接是一种广泛使用的计算方法,用于预测和分析蛋白质与小分子配体之间的相互作用,在药物发现和虚拟药物筛选中发挥着关键作用。传统的对接方法采用基于物理的评分函数和搜索算法来探索化学空间并完成对接过程。AutoDock Vina 利用高效的搜索算法和评分功能来探索配体的构象空间。 SMINA 结合了优化的搜索算法和评分功能来预测准确的结合模式。GNINA 通过结合学习的 3D 卷积神经网络 (3D CNN) 进行评分来增强 SMINA 。 QVina-W 是一款盲对接软件,它基于速度优化的 QuickVina 2,结合了先进的算法,可有效探索配体结合模式。 GLIDE是一种结合初始粗定位、扭转柔性能量优化和蒙特卡罗采样实现精确配体对接的对接方法。然而,传统的对接方法严重依赖于广阔的化学空间内配体和蛋白质的详尽构象采样,众所周知,这对计算要求很高且耗时。
最近,一些基于深度学习方法的对接方法被提出来更准确地学习评分函数,但由于其基于采样的框架,它们往往会出现推理速度较慢的问题。 Tankbind 通过预测蛋白质配体距离矩阵来减轻构象采样的负担,并使用优化算法将距离矩阵转换为对接构象。然而,Tankbind 未能解释配体和蛋白质的 3D 空间信息。 Equibind 是一种等变模型,可直接预测绑定构象结构的坐标。它使用图神经网络细化配体构象,并使用关键点对齐机制将细化的配体与结合口袋对齐。但Equibind没有考虑配体的图级信息,这限制了其预测的准确性。
为了克服上述挑战,作者提出了一种新颖的等变transformer对接算法,名为 ETDock,用于预测蛋白质-配体对接构想。所提出的ETDock模型包括两个主要模块:集成原子级和图级信息的特征处理模块和由三个提取多层次信息组成的TAMformer模块来进行蛋白质和配体的对接预测。在特征处理模块中,作者首先采用图同构网络(graph isomorphism networks,GIN)和图向量预测(graph vector prediction,GVP)分别从配体和蛋白质学习特征。为了集成图级和原子级特征,作者引入了功能类指纹( functional-class fingerprintsF,CFP)并将其与 GIN 学习到的原子级特征融合。然后使用可学习的外积来捕获配体和蛋白质之间的相互作用特征。然后,这些特征被输入到由 triangle层、注意力层和消息层组成的模块(称为 TAMformer)中。在 TAMformer 模块中,第一层是triangle层,旨在捕获配体-蛋白质相互作用的物理约束。triangle层可以有效地编码几何和空间信息,以在对接预测期间强制执行结构约束。第二层是注意力层,专注于提取配体和蛋白质的相关特征,以帮助预测对接构象。通过采用注意力机制,模型可以选择性地关注重要区域和交互,从而提高预测的准确性。第三层是信息层,促进配体和蛋白质的标量和矢量信息之间的交互。这允许分子的不同成分之间进行有效的信息交换和集成。此外,ETDock 生成配体和蛋白质之间的距离矩阵,以及不同口袋的置信度得分。由于 ETDock 是一个两阶段模型,ETDock 利用生成的距离矩阵迭代优化配体构象。
通过在 PDBbind v2020 数据集上应用 ETDock 模型来预测蛋白质-配体对接,作者观察到所提出的模型具有显着的归纳偏差,有助于实现卓越的性能。根据实验结果,ETDock 在预测配体对接构象方面优于传统对接方法和基于深度学习的对接方法。此外,作者还验证了特征融合、triangle层、注意力层、信息层和等变向量分量的功效。
本文的主要贡献总结如下:

  1. 作者设计了一个特征融合块来集成配体的原子级和图级特征,有助于捕获更全面的配体表示。
  2. 作者开发了一个信息层,用于从配体、蛋白质和配体-蛋白质对中提取标量和等变向量信息,这使得能够从这三个视图中相互学习信息,并增强配体和蛋白质的表示。
  3. 作者引入了一种用于蛋白质-配体对接预测的新型等变transformer框架。该框架利用等变向量对 3D 空间信息进行建模,并将化学特征与 3D 空间信息相结合来预测配体构象。
  4. PDBbind v2020 数据集上的实验结果表明,所提出的 ETDock 模型优于以前的传统方法和深度学习方法。具体而言,ETDock 对于低于 2 Å 的配体构象实现了 23.2% 的 RMSD,对于低于 5 Å 的配体构象实现了 61.1% 的 RMSD。

3.数据

PDBbind 数据集包括从蛋白质数据库 (PDB) 收集的结构数据以及相关的实验测量结果。 PDBbind 数据集还提供有关蛋白质-配体复合物的结构信息,包括蛋白质的原子坐标以及配体的结构和化学信息。此外,PDBbind 数据集包含通过实验确定的蛋白质配体复合物的结合亲和力。作者使用具有 19443 个蛋白质-配体复合物的 PDBbind v2020,并采用 EquiBind 中描述的时间分割策略,即数据集根据蛋白质-配体复合物结构的沉积年份进行分割。训练和验证集包括 2019 年之前存放的结构,而测试集包括 2019 年之后存放的结构。通过消除无法使用 RDKit 处理的结构子集,最终训练集由 17,787 个结构组成,验证集由 968 个结构组成,测试集由 363 个结构组成。

4.方法

作者所提出的ETDock的整体流程如图1所示。模型包括三个基本组件:(1)特征处理模块,融合配体的原子级和图级特征,并学习配体和蛋白质之间的相互作用特征。 (2) TAMformer 模块,通过合并triangle层、注意力层和信息层来捕获配体和蛋白质的信息。 (3)配体构象预测生成蛋白质-配体复合物的距离矩阵,并基于该矩阵迭代优化对接构象。
在这里插入图片描述

5.1 特征处理

配体被视为分子图, 配体节点通过图同构网络 (GIN )嵌入。同时,将学习到的原子级特征和图级特征本身融合在一起,使模型能够更好地捕获配体的完整信息。蛋白质通过 K 近邻图来表示,其节点嵌入是通过几何向量感知(GVP)来学习的。然后使用可学习的外积来获得蛋白质-配体相互作用特征。

5.1.1 特征融合

过去的方法主要集中在原子级特征上,忽视了图级特征。作者通过使用多层感知器(MLP)将图级特征映射到原子级特征空间,实现了在同一特征空间内的融合,并利用了注意力机制,从而丰富了模型对配体的理解。

5.1.2 特征交互

传统方法使用外积来表示交互特征,但这缺乏参数学习能力。作者引入了一种可学习的外积操作,使用 MLP,从而增加了可学习的参数并提高了预测准确性。

5.2 TAMformer: Triangle Attention Message former

5.2.1 Triangle层

当配体与蛋白质结合时,不同原子之间的距离可以认为是固定的,作者利用 Triangle 层来模拟该约束。

5.2.2 Attention 层

传统的自注意力模型无法同时学习蛋白质和配体的单独特征。作者在自注意力中添加了一个门控机制,使其能够有效地捕获单独和交互特征。

5.2.3 信息层

早期方法没有有效地结合化学特征和三维空间信息。作者使用等变图神经网络(EGNNs)来学习和更新特征,确保了更具物理意义的学习。

5.3 优化

5.3.1 蛋白质-配体距离矩阵

使用均方根误差(RMSE)来最小化预测和实际蛋白-配体复合物距离矩阵之间的差异。

5.3.2 结合自信度

为解决多个潜在结合口袋的问题,研究者使用一个自信度函数,该函数考虑了配体与前十个预测口袋结合的概率。

5.4 生成结合配体构象

该模型具有根据预测的蛋白-配体距离图重建配体三维结构的能力。作者使用了一个两阶段的方法,该方法采用距离和局部原子结构约束来迭代生成最终的配体结合结构。
在这里插入图片描述

5.结果

5.1 整体比较

在这里插入图片描述

5.2 消融实验

在这里插入图片描述
在这里插入图片描述

5.3 超参数优化

通过距离矩阵生成配体构象时,参数β对构象的生成就有显著影响,所以对β进行了优化。
在这里插入图片描述
在配体构象生成阶段,作者采用基于距离矩阵的迭代优化算法,所以对迭代次数也进行了优化。
在这里插入图片描述

5.4 可视化

这些分布图直观地展示了 RMSD 和质心距离的分布以及出现频次。
在这里插入图片描述
为了更好地理解这些百分比,作者使用累积分布函数 (ECDF) 的估计器将它们可视化,它提供了图 6 中值分布的清晰表示。

5.5 案例分析

作者将测试数据集上的 6JMF 对 ETDock、TankBind 和 EquiBind 之间的配体构象预测进行了比较分析。通过对精心挑选的代表性样本的案例研究,作者观察到 ETDock 表现出明显较低的 RMSD与其他两种最先进的方法相比,为 0.78 ˚A。这一结果凸显了 ETDock 在捕获配体真实构象方面的卓越预测准确性。
在这里插入图片描述

6.总结

首先,作者开发了一个专门的功能处理模块,用于编码蛋白质和配体的各种特性。该模块不仅捕获了不变的信息,还通过等变向量信息来优化蛋白质和配体的嵌入表示。这一环节对模型性能起到了关键作用,因为它为后续的计算提供了丰富且精确的信息基础。其次,作者进一步集成了 TAMformer 模块,这一模块能有效地学习蛋白质和配体的标量以及等变向量信息。采用 TAMformer 模块明显提升了模型在处理复杂生物分子结构时的准确性和适应性。最后,在 PDBbind v2020 数据集上进行的实验验证了 ETDock 模型优于先前的传统方法和深度学习手段,实现了业界领先的性能。这些实验成果不仅印证了该模型的有效性,同时也为该领域未来的研究提供了坚实的支撑。通过引进功能处理模块和 TAMformer 模块,并在 PDBbind v2020 数据集上进行实验验证,ETDock 模型在蛋白质与配体的相互作用预测上表现卓越,确立了其在该领域的领先地位。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
标题:一种基于Swin-Transformer的特征聚合RGB-D显著性目标检测方法 技术领域:本发明涉及计算机视觉技术领域,具体涉及一种基于Swin-Transformer的特征聚合RGB-D显著性目标检测方法。 背景技术:目标检测技术是计算机视觉领域的重要研究方向之一,它在实际应用中具有广泛的应用价值。传统的目标检测方法主要基于RGB图像进行处理,但是对于复杂场景和光照化等问题,其检测性能存在一定的局限性。为此,近年来,基于RGB-D图像的目标检测方法逐渐受到关注,并取得了一定的成果。但是,现有的RGB-D目标检测方法大多采用手工设计的特征提取方法,对于复杂场景和目标形状的化等问题,其检测性能仍有待提高。 发明内容:为了解决现有RGB-D目标检测方法的不足,本发明提出了一种基于Swin-Transformer的特征聚合RGB-D显著性目标检测方法。该方法主要包括以下步骤: (1) 输入RGB-D图像,将其分别输入到Swin-Transformer模型中,提取出多层特征图。 (2) 对于每一层特征图,分别进行特征聚合和显著性分析。具体地,采用自适应池化和多尺度特征融合的方法,将不同尺度的特征图聚合起来,并利用显著性分析方法对目标区域进行提取。 (3) 将不同层次的特征图进行融合,得到最终的显著性图。具体地,采用自适应融合的方法,将多层特征图融合起来,并利用显著性分析方法对目标区域进行提取。 (4) 对于提取出的目标区域,进行分类和定位。具体地,采用基于区域提议的方法,对目标区域进行分类和定位。 本发明的优点在于: (1) 采用Swin-Transformer模型进行特征提取,具有较高的检测精度和较快的处理速度。 (2) 采用多尺度特征聚合和自适应融合的方法,能够有效提高目标检测性能。 (3) 采用基于区域提议的方法进行分类和定位,能够提高目标检测的准确性和鲁棒性。 实施方式:本发明的实施方式可采用软件、硬件或者软硬件结合的方式实现。具体地,可采用Python等编程语言编写相应的程序,实现上述步骤。对于硬件实现,可采用GPU等高性能计算设备进行加速。 结论:上述说明仅为本发明的一种实施方式,而且并不限于此。对于本领域的技术人员而言,在不脱离本发明的实质和范围的情况下,还可以进行各种化和改进。因此,本发明应该包括在范围内。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值