论文笔记《TAG-DTA:Binding-region-guidedstrategytopredictdrug-target affinity using transformers》

TAG-DTA:结合区域引导策略,使用transformer预测药物-靶标亲和力

对目标特异性化合物选择性的适当评估在药物发现环境中至关重要,促进药物-靶标相互作用 (DTI) 的识别和潜在线索的发现。考虑到这一点,准确预测无偏药物-靶标结合亲和力 (DTA) 指标对于理解绑定过程至关重要。然而,大多数硅计算方法忽略了蛋白质组学、化学和药理学空间之间的相互依赖关系以及模型构建过程中的可解释性。此外,这些方法尚未在学习过程中积极包含与绑定口袋相关的信息,这对于 DTA 预测性能和模型可解释性至关重要。在这项研究中,我们提出了一种基于端到端绑定区域引导的基于 Transformer 的架构,该架构同时预测 1D 绑定口袋和 DTI 对的结合亲和力,其中一维绑定口袋的预测指导并调节 DTA 的预测。

该架构使用一维原始顺序和结构数据分别表示蛋白质和化合物,并结合多个 Transformer-Encoder 块来捕获和学习蛋白质组学、化学和药理学上下文。预测的 1D 绑定口袋调节用于学习药理学空间的 Transformer-Encoder 的注意力机制,以便对绑定相关位置之间的相互依赖关系进行建模。结果表明,与最先进的基准(包括蛋白质组学和化学表示空间的未知子集)相比,所提出的架构 TAG-DTA 在 DTA 预测中实现了最佳性能。此外,一维结合口袋预测提高了药理学空间聚合表示的判别力和稳健性,提高了 DTA 预测性能。总体而言,本研究验证了基于端到端 Transformer 的架构在药物发现的背景下的适用性,并且结合计算不同但上下文相关的任务对于 DTI 领域的新发现至关重要。此外,它表明 TAG-DTA 由于注意块的性质和一维结合口袋的预测,能够提供越来越多的 DTI 和预测理解。
什么是1D口袋:
"1D binding pocket"是一个用于描述蛋白质与配体相互作用的概念。在蛋白质中,"binding pocket"或"结合口袋"是指一些特定的氨基酸残基形成的小口袋,这些口袋可以与小有机配体结合,形成特定的化学特异性和亲和力¹。这些口袋通常由少数几个残基形成,而其余的蛋白质结构则作为框架,提供正确的结合残基定向¹。

"1D"可能是指这个口袋在一维蛋白质序列中的表示。在一些研究中,科学家们开发了算法和工具,如DeepDrug3D¹和TAG-DTA²,来预测和分类蛋白质中的1D结合口袋。这些工具可以帮助我们理解小分子如何与蛋白质交互,以及这些交互如何影响蛋白质的功能。

总的来说,"1D binding pocket"是一个描述蛋白质与配体相互作用的方式,它考虑了蛋白质一维序列中的信息,以及这些信息如何影响蛋白质的结构和功能。这是一个在计算生物学和药物设计中非常重要的概念。¹²

Source: Conversation with Bing, 08/04/2024
(1) DeepDrug3D: Classification of ligand-binding pockets in proteins … - PLOS. https://journals.plos.org/ploscompbiol/article?id=10.1371%2Fjournal.pcbi.1006718.
(2) GitHub - larngroup/TAG-DTA: TAG-DTA: Binding Region-Guided Strategy to … https://github.com/larngroup/TAG-DTA.
什么叫做端到端
在计算机科学和信息技术领域,"端到端"的概念指的是一种通信方式,数据从发送方直接传输到接收方,而不需要中间环节对数据内容进行解析和处理1。例如,在网络通信中,"端到端"强调的是数据传输过程中的直接性和完整性1。

在深度学习和人工智能领域,"端到端"的概念表示模型可以直接利用输入数据而不需要其他处理1。例如,卷积神经网络(CNN)就是一个典型的端到端模型,它可以直接接收原始图像作为输入,然后输出识别结果,而无需进行特征提取等预处理步骤

“门控一维卷积神经网络”(Gated 1D CNN)
是一种深度学习模型,它结合了卷积神经网络(CNN)和门控机制¹。在这种网络中,一维卷积被应用于输入数据(例如时间序列数据),而门控机制则用于控制信息的流动¹。
在这种模型中,“门控”(Gated)是一种机制,它可以学习如何最好地利用输入信息。例如,它可以学习在何时忽略某些输入信息(通过将门的值设为接近0),以及何时允许某些信息通过(通过将门的值设为接近1)¹。
“一维卷积神经网络”(1D CNN)是一种特殊类型的神经网络,它使用一维卷积而不是传统的二维卷积。这使得它们特别适合处理具有时间或空间顺序的数据,例如音频信号、时间序列数据或一维化学结构²³⁴⁵。

Source: Conversation with Bing, 08/04/2024
(1) Gated Convolution Network Explained | Papers With Code. https://paperswithcode.com/method/gated-convolution-network.

ChEMBL和BindingDB
都是收集药物-靶点对生物活性数据的数据库,它们提供了关于药物分子与其靶标蛋白质相互作用的详细信息。

ChEMBL 是一个手工策划的数据库,收集具有类药属性的生物活性分子。它汇集了化学、生物活性和基因组数据,以帮助将基因组信息转化为有效的新药物。ChEMBL数据库涵盖多种生物活性数据类型和时间段,为药物发现平台提供支持¹。

BindingDB 是一个公开访问的数据库,主要收集药物靶标蛋白质和类药小分子之间相互作用亲和力的数据。BindingDB的数据来源包括文献报道数据、专利信息、PubChem BioAssays数据和ChEMBL记录数据。亲和力数据来自多种测量技术,包括酶抑制活性和酶动力学、等温滴定量热法(ITC)、核磁共振(NMR)以及放射性配体竞争测定法等,数据类型包括Ki、IC50、Kd、EC50等²³。

这些数据库对于药物设计和研究人员来说是非常宝贵的资源,因为它们提供了大量的数据,可以用来预测新药物的效果,或者寻找现有药物的新用途。

Source: Conversation with Bing, 21/04/2024
(1) ChEMBL Database. https://www.ebi.ac.uk/chembl/.
(2) Binding Database Home. https://www.bindingdb.org/bind/index.jsp.
(3) 药物设计人员都在使用的权威免费药物-靶点相互作用数据库推荐 - 知乎. https://zhuanlan.zhihu.com/p/552997366.
(4) ChEMBL靶点及化合物的生物活性数据 | 药研导航. https://drugx.cn/sites/chembl%E9%9D%B6%E7%82%B9/.
(5) 靶点与生物活性数据库ChEMBL-广东药科大学图书馆. https://library.gdpu.edu.cn/info/1008/10332.htm.
(6) undefined. https://chrome.google.com/webstore/search/bdbfind.
(7) undefined. https://addons.mozilla.org/addon/bdbfind.
(8) undefined. https://www.ebi.ac.uk/chembl/详细描述ChEMBL数据库是欧洲生物信息研究所.


前言

提示:这里可以添加本文要记录的大概内容:

例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。


提示:以下是本篇文章正文内容,下面案例可供参考

一、Introduction

选择性与相关和可配体蛋白结合的化合物的发现仍然是药物发现的最大挑战之一。近年来,计算机方法因其利用全面的化学和蛋白质组库的能力而获得了接受,克服了高通量生物测定的缺点,提高了药物发现早期阶段的有效性(Schneider等人,2020)。出于这个原因,已经探索了许多计算方法来解决药物-靶标相互作用 (DTI) 预测的挑战,重点关注推理过程中的二元分类 (D'Souza et al., 2020)。虽然这些方法可以分为不同的领域,或定量结构-活性关系(QSAR)建模(Luo et al., 2014;Ma et al., 2015),越来越多的生物和化学数据导致了基于蛋白质化学计量(PCM)方法的预测解决方案(Bongers et al., 2019)。PCM研究探索了各种属性和表征来表征蛋白质和化合物,包括Morgan或扩展连接的指纹(Morgan, 1965;Rogers & Hahn, 2010)、进化保守的剖面(Altschul et al., 1997)、CDK (Willighagen et al., 2017)描述符、物理化学性质(van Westen, Swier, Cortes-Ciriano等人,2013;van Westen, Swier, Wegner等人,2013)或PaDEL-Descriptor (Yap, 2011)特征。这些明确的配体衍生描述符和目标衍生描述符通常是组合的并用作机器学习模型和深度学习架构的输入,包括随机森林(RF) (Coelho等人,2016)、支持向量机(SVM) (Peng等人,2017)、前馈神经网络(FFN) (Tian等人,2016)或长短期记忆(LSTM)神经网络(Wang等人,2020)。为了克服使用全局描述符的局限性,最近的PCM研究探索了使用一维结构,如氨基酸序列和SMILES(放大分子输入线输入系统)字符串,以及结合卷积神经网络(CNNs)和图神经网络(GNNs)的图表示(Lee等人,2019;Monteiro等人,2021年;Tsubaki等人,2019)。尽管在DTI分类研究中获得了有趣的发现和令人鼓舞的结果,但使用浅二进制关联来表征DTI对限制了结果的质量,导致缺乏目标选择性。
与已知生物活性测量的相互作用增加以及结合相关数据库的扩展,如ChEMBL (Gaulton et al., 2017)、BindingDB (Gilson et al., 2016)或PDBbind (Liu et al., 2017)有助于追求更现实和信息丰富的研究,即药物-靶标亲和力(DTA)预测。DTA预测问题被视为一个回归任务,它比二元DTI分类更具挑战性。它最初是由虚拟筛选中使用的评分函数的局限性驱动的。考虑到这一点,机器学习模型和深度学习架构结合 3D 结构特征 (Kumar & Kim, 2021; Meli et al., 2021) 或 3D 单实例学习 (Jiménez et al., 2018; Jones et al., 2021) 已被提出作为这些评分函数的潜在替代品。然而,最近的研究一直在探索基于化学基因组学和较低结构信息的 PCM 方法进行实验,克服了 3D 结构空间的局限性,并导致 DTA 预测领域更具可重复性的方法。除了一些传统的机器学习算法,包括 Kronecker 正则化最小二乘 (Pahikkala et al., 2014) 或梯度提升回归树 (He et al., 2017),许多研究探索了基于 CNN 的模型,例如 1D CNN、2D CNN 或图 CNN (GCN),以从不同的蛋白质和复合表示中提取知识和有意义的信息以预测结合亲和力(Abbasi 等人,2020;Nguyen 等人,2020;Öztürk 等人,2018;Rifaioglu 等人,2021;Shim 等人,2021;Wang 等人,2021)。
然而,大多数研究,尤其是那些基于深度学习的研究,侧重于不可靠的结合亲和力指标的来源,例如抑制常数 (broi)、半最大抑制浓度 (ṣ50) 或 KIBA (Tang et al., 2014) 分数,以提高模型的性能由于可用数据点的数量。尽管当数据集变大时,基于深度学习的架构表现得更好,但使用有偏见的生物活性指标限制了结果在药理学领域的有效性。声学领域。鉴于计算能力的进步,最近处理DTI或DTA预测的研究探索了深度学习策略,取得了比传统机器学习解决方案更好的结果(Rifaioglu等人,2018年)。尽管这些架构能够学习顺序和/或结构主题并提取鲁棒表示的模块化能力不断提高,但最终预测大多无法被人类解释,这影响了对内部决策周围潜在方面的理解(Castelvecchi,2016;伦敦,2019)。此外,这些模型中的一些忽略了每个绑定组件的顺序单元和结构单元(以及它们的内部关联)或围绕绑定子结构(交互上下文)的关联之间的相互依赖关系,导致基于本地和独立的(没有上下文)分散主题的预测(Agamah 等人,2019;Hanson 等人,2020;Schenone 等人,2013)。为了克服上述限制,已经提出了基于注意力的模型来学习蛋白质或化合物单元之间的短期和长期上下文依赖关系,并调节给定输入元素的权重。例如,赵等人。(2022)提出了HyperAttentionDTI,其中使用了一维CNN
识别局部模式并从蛋白质序列和SMILES字符串中提取特征,以及基于sigmoid的注意机制来建模每个绑定组件单元之间的关联。受 Transformer (Vaswani et al., 2017) 在几个计算领域的巨大成功及其在两个序列之间捕获特征的潜力的启发,Chen 等人。 (2020)提出了 TransformerCPI,它采用分类编码器-解码器方案来预测 DTI。在他们的方法中,蛋白质序列被转换为序列表示并用作编码器的输入,该编码器基于门控 1D CNN。另一方面,SMILES字符串被转换为图表示并通过GCN传播以获得原子特征。这些分子特征被用作 Transformer-Decoder 的输入,它学习交互序列。受堆叠 Transformer-Encoders 以提取输入的增强上下文表示的有效性的启发(Devlin 等人,2019 年),Huang 等人。 (2021 年)引入了一种基于 Transformer-Encoders 和 CNN 的架构,其中 Transformer-Encoders 用于特征提取过程,以学习蛋白质或化合物的 1D 子结构之间的内部关联,以及 CNN 对高阶交互进行建模。为了学习每个绑定组件的各个单元的联合贡献以及用于预测 DTA 的交互子结构,Monteiro,Oliveira 等人。 (2022) 提出了 DTITR,它将自注意力和交叉注意力 Transformer-Encoder 堆叠到端到端框架中。
尽管基于注意力的架构的优越性能和在DTI领域提供增加模型理解的能力,但考虑到结合位点/口袋的信息不积极集成到学习过程中,预测的可靠性是有限的。蛋白质配体结合口袋的识别对于理解蛋白质的生物功能和DTIs所涉及的机制至关重要。考虑到这一点,已经提出了几种预测绑定口袋的计算解决方案。这些方法根据算法的策略进行分类,例如几何、模板或基于学习的(机器学习),或通过结构数据级别,即基于序列或 3D 结构。例如,Yang 等人的工作。 (2013b)、COACH 专注于模板和基于 3D 结构的代表性共识方法,该方法结合了不同算法得分最高的预测,包括 TM-SITE (Yang et al., 2013b)、S-SITE (Yang et al., 2013b)、COFACTOR (Roy et al., 2012)、FINDSITE (Brylinski & Skolnick, 2007) 和 ConCavity (Capra et al., 2009),使用线性 SVM。P2Rank (Krivák & Hoksza, 2018) 采用基于 3D 结构的方法来预测结合口袋,其中位于蛋白质的溶剂可访问表面具有高配体性分数的残基被聚类以形成结合口袋。配体性分数是使用 RF 分类器和与局部几何邻域相关的不同特征来确定的。受神经机器翻译与结合残基预测的现有相似性的启发,Cui等人(2019)提出了一种基于序列的方法DeepCSeqSite,其中cnn用于从蛋白质序列中识别和提取基序,每个残基被预测为结合或非结合残基。
基于这些报告的特征和缺点,我们提出了一个基于端到端 Transformer 的框架,以同时预测根据解离常数 (Kd) 测量的 1D 结合口袋和 DTA,其中二元结合向量的预测,表示每个蛋白质残基的结合性质,引导(条件)预测结合亲和力。目标和化合物分别使用一维序列和结构信息来表示,特别是蛋白质序列和SMILES字符串。这种架构 TAG-DTA 由两个基于 Transformer-Encoder 的预测模型组成,特别是 1D 绑定口袋分类器和绑定亲和回归器,并共享三个核心层,包括较低的 TransformerEncoder 和基于条件的连接块。我们利用较低的自我注意层分别学习蛋白质和化合物的顺序单元和结构单元之间的短期和长期蛋白质组学和化学上下文依赖关系,以及
基于条件的连接层来表示药理(相互作用)空间。绑定口袋 Transformer-Encoder 使用药理学空间表示进行二进制标记,其中预测的二进制 1D 绑定口袋用于调节结合亲和力 Transformer-Encoder 的注意力机制,从而在结合相关残基上交换蛋白质组学和化学域之间的信息交换。将蛋白质组学、化学和结合区域的药理学空间的最终聚合表示连接起来并馈送到全连接前馈网络 (FCNN),该网络预测 DTI 对的结合强度。实验结果表明,与最先进的基准相比,所提出的模型可以实现卓越的结合亲和力预测性能,包括在与新蛋白质、化合物和DTI对相关的实验设置中。此外,它不仅由于注意块的性质,而且还提供了越来越多的DTI和模型理解,它提供了关于输入组件及其内部关联的整体重要性的信息,而且还由于一维结合口袋的预测,它决定了相互作用空间上注意机制,并展示了蛋白质序列中潜在的关键残基的明确证据,用于结合过程。

二、材料和方法

2.1绑定亲和力数据集

为了建立结合亲和力预测模型,我们从Davis等人(2011)的研究研究中收集了药物-靶标对,该研究包括与人类催化蛋白kinome相关的选择性测定,该测定是根据定量解离常数(Kd)测量的。本研究涵盖了442激酶和72激酶抑制剂之间的相互作用,产生了31 824个DTIs。Kd表示受体配体复合物与解离组分之间的平衡的直接无偏测量,其中较低的值与强相互作用相关。

使用相应的登录号从UniProt(Consortium, 2023)收集Davis数据集的蛋白质序列。蛋白质的特征是独特的氨基酸序列,导致序列长度不同。为了标准化特征的数量并避免相关顺序信息的损失或增加噪声,我们根据 95% 的信息密度阈值固定 264 和 1400 个残基之间的序列长度。考虑到표O(n^2)自我注意层相对于序列长度的计算复杂度,我们应用了Huang等人提出的方法。(2021)研究研究,将频繁连续子序列(FCS)挖掘方法与字节对编码(BPE)算法相结合,对蛋白质序列进行表示和编码。该方法将每个蛋白质序列分解为一组有序的非重叠频繁子序列,其中所有子序列的聚合都必须恢复原始序列。频繁子序列的层次结构字典 (푡 ) 包含 16 693 个不同的子词。

Davis 数据集的 SMILES 字符串是根据 PubChem CID 从 PubChem (Kim et al., 2023) 中提取的。为了确保一致的符号来表示所有化合物的化学结构,我们将 RDKit (Landrum, 2021) 规范变换应用于每个 SMILES 字符串。与蛋白质序列类似,我们只选择了序列长度在 38 到 72 个化学字符之间的 SMILES 字符串。为了将SMILES字符串表示为数值,我们使用了基于字符整数字典的基于整数的编码,它将每个化学标记转换为相应的数值。字符整数字典 (푡 ) 总共包含 72 个独特的字母(标签),这是由于从 ChEMBL (Gaulton et al., 2017) 数据库中扫描大约 1.3 M 个 SMILES 字符串造成的。

Davis Kd 值的分布显着偏向 Kd 等于 10 000 nM,这与极其弱或几乎不存在的相互作用有关。此外,分布的方差相当大,因此,为了避免高学习损失,我们使用等式将 Kd 值转换为对数空间 (pKd)。 (1)。pKd 值的分布范围从 5 (10 000 nM) 到大约 11。
在这里插入图片描述
Davis 数据集使用化学基因组代表性折叠 (Monteiro, Oliveira et al., 2022) 方法分为六个不同的折叠,其中其中一个折叠被选为独立的测试集来估计架构的性能和泛化能力和剩余的折叠以确定结合亲和力预测模型的超参数。化学基因组学代表性折叠方法考虑了分裂过程中pKd值分布、蛋白质序列相似度和SMILES字符串相似度,导致问题背景下的代表性折叠。

2.2. 1D binding pocket dataset

化合物和蛋白质之间的相互作用源于3D空间中特定官能团(结合位点)的识别和互补性。为了构建一维结合口袋数据集,我们从scPDB (Desaphy et al., 2015)、PDBBind (Liu et al., 2017)和BioLiP (Yang et al., 2013a)收集了3D复合物,其中包含可用的绑定信息,即与注释的相互作用残基的复合物,并与类药物分子相关。为了过滤和选择生物学相关的配体,我们使用了来自 BioLiP (Yang et al., 2013a) 和 P2Rank (Krivák & Hoksza, 2018) 的 HET 组列表,并排除了少于五个结合残基的复合物。单链 3D 复合物被视为单个 DTI 对,多链 3D 复合物被分成单链相互作用对。然而,这些基于3D复合体的DTI对大多对应于一维空间中蛋白质序列的特定部分。因此,为了识别整个蛋白质序列中相互作用残基的位置,需要将这些片段映射到相应的UniProt (Consortium, 2023)序列上。考虑到这一点,我们应用了 Biopython (Cock et al., 2009) 的成对顺序局部对齐函数来确定最佳对齐并识别相应的绑定位置,其中原始数据集和对齐绑定口袋残基之间不匹配大于 50% 的条目从数据集中删除。此外,属于同一PDB复合体和相同UniProt序列的单链对的绑定信息被统一为单个1D绑定口袋。

结合位点通常基于与配体的距离低于某个阈值的蛋白质残基来确定。然而,在多个研究或数据库中,绑定口袋的定义不一致,导致识别正确交互残基的一些噪声,尤其是在一维表示中。此外,特定结合残基附近的残基可能会影响其配体性,这与一维表示中结合位点的分布一致。然而,这些位置在一维序列中是不连续的,它们容易集中在分散的局部绑定区域。因此,为了合理地定义一维绑定口袋,还考虑了每个单个交互位置的邻域,即对于每个绑定位置푡,间隔内的残基]푡−푡,푡+푡[,其中푡固定在3(Monteiro,SimÕes等人,2022),也被认为是与绑定相关的位置。生成的一维结合口袋被转换为与相应蛋白质序列长度相同的二进制绑定向量,其中1和0分别表示结合残基和非结合残基。
在这里插入图片描述
图 1. 青霉素 G 酰基酶 - 同源酸复合物 (PDB: 1AJP 链 B) 的 1D 结合口袋的生成。3D 复合物是从与绑定相关的数据库之一 (scPDB (Desaphy et al., 2015)、PDBBind (Liu et al., 2017) 或 BioLiP (Yang et al., 2013a) 收集的,并解析为一维空间,其中检索蛋白质序列片段和绑定位置。使用biopython (Cock et al., 2009) 包将一维绑定信息映射到相应的 UniProt (Consortium, 2023) 序列,其中还考虑了每个绑定位置的邻域。生成的 1D 绑定口袋被转换为二进制绑定向量,其中 1 和 0 分别表示绑定和非绑定残基(子词)。

与青霉素 G 酰基酶相关的结合口袋 - 同源酸复合物 (PDB: 1AJP 链 B)。对与生成的一维结合口袋数据集相关的蛋白质序列和SMILES字符串进行处理和编码,这些方法类似于应用于绑定亲和数据集的蛋白质序列和SMILES字符串。考虑到这一点,我们只选择了长度为 30 到 575 个子词和 SMILES 字符串的蛋白质,序列长度在 10 到 100 个化学标记之间。为了选择一维绑定口袋预测模型的超参数,我们将得到的一维绑定口袋数据集拆分为 90/10% 的训练/验证数据集比率。另一方面,为了估计结合位点预测模型的性能,我们考虑了 COACH (Yang et al., 2013b) 测试数据集,该数据集广泛用于与结合位点预测相关的几项研究。COACH测试数据集与一维结合口袋数据集处理相同,并从一维结合口袋数据集中删除了重复的PDB复合物。

2.3. SMILES pre-train MLM dataset

为了使用掩码语言建模 (MLM) 方法预训练 SMILES Transformer-Encoder 块,我们从 ChEMBL (Gaulton et al., 2017) 收集了 SMILES 字符串,该字符串与遵循 Lipinski 规则的五个的小化合物相关联(零违规)。Lipinski 的规则定义了某些物理化学性质的边界,包括分子量、亲脂性、极性表面积、氢键受体的数量、氢键供体的数量和可旋转键的数量,以确定分子的类药物(或活性)。我们只选择了顺序长度为 10 到 100 个化学标记的 SMILES 字符串,并使用 72 个字符整数字典将每个字符编码为相应的整数。此外,将得到的SMILES预训练MLM数据集分为90/10%的训练/验证比,选择SMILES Transformer-Encoder块的超参数。表1总结了结合亲和力、1D结合口袋和SMILES预训练MLM数据集的统计数据。

2.4. TAG-DTA framework

TAG-DTA 框架同时学习预测 DTI 的 1D 绑定口袋和绑定强度,其中结合位点向量的预测指导并调节 DTA 的预测。该框架包括两个模型,特别是一维绑定口袋分类器和绑定亲和回归器,并共享三个核心层,包括较低的 Transformer-Encoders 和基于条件连接块。架构使用两个并行的 TransformerEncoders 来计算上下文嵌入并分别捕获蛋白质序列和 SMILES 字符串中存在的蛋白质组学和化学上下文,其中 SMILES Transformer-Encoder 使用 MLM 方法进行预训练。SMILES字符串的聚合表示对应于添加到SMILES字符串的起始标记的最终隐藏状态,与生成的蛋白质标记连接,然后进行条件编码和位置编码。结合位点分类器块由一个具有位置 FFN 的 TransformerEncoder 组成,使用生成的基于条件的连接标记作为二进制标记标记学习的输入,预测一维绑定口袋。预测的一维结合口袋用于通过屏蔽非结合残基来调节绑定亲和回归器块的 Transformer-Encoder 的注意力机制,该回归器块也使用基于条件的连接标记作为输入。考虑到这一点,它学习与绑定相关的子词之间的药理学空间和相互依赖关系。生成的结合亲和力 Transformer-Encoder、蛋白质 Transformer-Encoder 和 SMILES Transformer-Encoder 的聚合表示被连接起来并用作 FCNN 的输入,它输出根据 pKd 测量的结合亲和力。图 2 说明了所提出的 TAG-DTA 架构。

2.4.1. Embedding block

蛋白质序列和SMILES字符串分别根据FCS/BPE和字符整数编码方法进行标记,其中每个标记被转换为一个数值,每个序列/字符串填充到最大值Np/Ns。此外,特殊的起始标记已添加到每个蛋白质序列 (Tp ) 和 SMILES 字符串 (Ts ) 的开头。
为了将语义含义映射到几何空间中,我们为蛋白质序列和SMILES字符串分配了一个嵌入层,它将每个令牌转换为固定大小的学习连续向量(嵌入)dpmodel和dsmodel通过可学习的字典查找矩阵
在这里插入图片描述
在这里插入图片描述
与循环神经网络相反,Transformer-Encoders 没有内置的机制来处理序列的顺序,即它们对序列顺序完全是不变的。为了向模型提供序列中标记的绝对或相对位置信息,我们通过可学习的字典查找矩阵包含一个位置嵌入在这里插入图片描述
最终嵌入与蛋白质序列和SMILES字符串的“th和”输入标记分别关联,由标记嵌入的总和给出(푥 푡和푥 푡)和

总结

提示:这里对文章进行总结:

例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

  • 13
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值