Phosformer：蛋白激酶特异性磷酸化预测的一个可解释的transformer模型

Super齐

已于 2023-02-16 20:13:13 修改

阅读量1.7k

点赞数 2

分类专栏：生物信息学文章标签： transformer 深度学习

于 2023-02-16 14:09:08 首次发布

原文链接：https://academic.oup.com/bioinformatics/article/39/2/btad046/7000331?login=false

版权

生物信息学专栏收录该内容

15 篇文章

订阅专栏

文章介绍了一种名为Phosformer的深度学习模型，该模型专门用于预测激酶特异性的磷酸化位点。通过预训练和微调，Phosformer能够学习底物特异性基序，并区分不同功能的激酶家族，优于现有方法。其创新之处在于使用Transformer架构和无监督学习，仅基于序列信息进行预测，解决了特征工程和负样本定义的挑战，提供了更一般化、可解释的预测框架。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文链接：https://academic.oup.com/bioinformatics/article/39/2/btad046/7000331?login=false
DOI：10.1093/bioinformatics/btad046
期刊：Bioinformatics
数据集与代码链接：https://github.com/esbgkannan/phosformer
发布时间：2023 年1月24日

前言

人类基因组编码超过500种不同的蛋白激酶，它们通过蛋白质底物的特定磷酸化来调节几乎所有的细胞过程。虽然质谱和蛋白质组学研究的进展已经确定了跨物种的数千个磷酸化位点，但对于绝大多数磷酸化位点，目前缺乏关于磷酸化这些位点的特定激酶的信息。最近，预测激酶-底物关联的计算模型的发展得到了广泛的关注。然而，目前的模型只允许对研究充分的激酶子集进行预测。此外，在训练和测试数据集中利用手工处理的特征和不平衡，对开发激酶特异性磷酸化预测的准确预测模型提出了独特的挑战。由于最近开发了通用蛋白质语言模型，该模型从初级序列信息自动生成上下文感知特征，我们试图开发一个预测的统一框架，允许更大的研究效用，并能够在整个基因组水平上进行底物预测。

我们提出了一个激酶特异性磷酸化预测的深度学习模型，称为Phosformer，它预测给定任意一对未对齐的激酶和底物肽序列的磷酸化概率。我们证明了Phosformer能学习底物的特异性基序，并能够区分功能不同的激酶家族。基准测试表明，与最先进的模型相比，Phosformer显示出了显著的改进，同时也提供了一个更一般化、统一和可解释的预测框架。

一、Introduction

蛋白质磷酸化是一种重要的翻译后修饰（PTM），由蛋白激酶酶催化。磷酸化作为最广泛观察和研究广泛的PTMs之一，被用作一种细胞信号传导，依赖于正确的激酶在正确的地点和时间磷酸化正确的底物。因此，调节失调可能导致各种疾病，如癌症、糖尿病和发育缺陷。尽管质谱和抗体分析的进步允许在蛋白质组中高通量发现磷酸位点，识别磷酸化特定氨酸丝氨酸/苏氨酸或酪氨酸残基的激酶是一个主要挑战，并依赖于针对特定激酶和底物的低通量抗体的分析。因此，绝大多数的磷酸化蛋白质组仍然注释不佳，而缺乏磷酸化位点的激酶标记是理解人类基因组中编码的近500个蛋白激酶调控的细胞信号网络的主要瓶颈。

由于与激酶-底物相互作用的实验表征相关的成本和时间，许多研究都用于建立预测磷酸化的机器学习模型。早期模型针对一般磷位预测，而最近的模型提高了激酶特异性磷位的分辨率预测。然而，后一项任务一直具有挑战性，因为许多运动特异性的磷酸化位点已经偏向于一个研究充分的激酶子集。为了开发一个更准确的激酶特异性磷酸位点预测模型，我们采用了一种领域知识驱动的方法。在这里，我们首先系统地强调了与蛋白质磷酸化相关的重要生物直觉，回顾了每个生物直觉是如何被现有的机器学习方法建模的，并提出了可能改进这些方法的方法。

磷酸化高度依赖于序列、结构和其他上下文特征，如激酶和底物蛋白的细胞定位。因此，许多预测模型通过利用序列、结构和功能特征。此外，一些模型还利用了进化特征，这是识别具有相似序列、结构和功能的密切相关的蛋白质的有用的启发式方法。虽然明确地包含这些特征可以提高性能，但蛋白质的初级序列理论上应该已经编码了结构、功能和进化信息。事实上，蛋白质语言模型（pLMs）已经被证明能够以无监督的方式隐式地提取这些信息。使用pLMs，应该可以训练一个只需要初级序列信息的预测模型。这将避免需要开发一个独立的特征生成管道，也可以避免在特征选择和工程中潜在的人类偏见。

所有的蛋白激酶都进行相同的反应，但是不同的激酶家族可以识别和催化不同的底物序列基序。为了分离具有不同底物特异性的激酶家族，一种常见的方法是训练多个模型——每个模型都专门针对一个特定的激酶家族或组。虽然这可以提高预测精度，但训练多个模型进一步划分了有限的训练数据，并使单个模型更难学习关于磷酸化的一般特征。为了开发一个更统一的框架，最近的工作提出了一个针对五个激酶家族的单一模型。更进一步，一个能够代表任何激酶-底物对的框架将允许更大的研究效用，并有可能将预测模型扩展到未被充分研究的蛋白激酶。

负样本，未被磷酸化或未被特定激酶磷酸化的序列，是训练机器学习模型的另一个重要方面。定义一般磷酸化预测的负样本是相对简单的——所有缺乏磷酸化的丝氨酸、苏氨酸或酪氨酸残基。这些可能包括在底物序列上不能被激酶访问的埋藏残基。相比之下，由于缺乏实验验证的阴性数据集，激酶特异性的负样本更难定义。因此，大多数激酶特异性磷酸基预测方法简单地将负样本定义为没有磷酸化的残基。然而，这种负样本的定义任意引入了非常容易与真正的磷酸基区分的随机肽，导致预测性能的膨胀。此外，一些模型使用正负例子的平衡比例进行训练，而磷酸化序列基序实际上只占生物序列空间的一小部分。对阴性例子的改进管理将允许预测模型区分磷酸化和非磷酸化残基的边界，从而加速激酶特异性磷酸化预测的训练。

在这里，我们实现了所提出的改进，这是一种深度学习模型，基于一对输入——未对齐的激酶结构域序列和底物肽序列进行特异性磷酸基预测。通过两步训练程序，我们首先预先训练Phosformer，从未标记的蛋白质序列中理解“生物语言”，然后微调模型，以预测特异性的磷酸位点。为了对模型进行微调，我们策划了一个定义不同类型的负例子的数据集，并开发了一种新的多层次负抽样策略。此外，我们还实现了一种极端正负样本不平衡的训练手段。我们的基准测试表明，与其他最先进的模型相比，Phosformer表现出了显著的改进，同时也提供了一个更一般化和统一的预测框架。

二、Materials and methods

2.1 Dataset curation and split

我们通过整合多个数据源手动整理了一个激酶特异性的磷酸基数据集。数据集中的每一行表示一个未对齐的激酶结构域序列，一个11-mer的肽序列，以及一个正/阴性标记，表明该激酶是否磷酸化了肽序列的中间残基。在这里插入图片描述
对于我们数据集中的所有肽，中间残基总是丝氨酸、苏氨酸或酪氨酸。如果磷酸基发生在蛋白质的N端或c端5个残基内，则序列被一个特殊的标记填充，以确保所有肽的长度相同，并且磷酸基出现在中心位置。

正样本：实验验证的激酶特异性底物是从三个公开可访问的数据库中筛选出来的。在整合这些数据库的同时，我们通过交叉引用UniProt数据库来验证每个数据点。总的来说，我们筛选出了来自13种生物体的800个独特的激酶的24 534个独特的激酶-底物对。

负样本：定义一个消极的例子是具有挑战性的，因为磷酸基数据库只报告积极的结果，而消极的例子必须推断。在我们的数据集中，我们将积极的例子称为激酶特异性磷酸化位点。对于每一种激酶，我们明确地定义了两类独立的阴性例子（图1）：

Hard negative examples是肽有磷酸化的实验证据，但不是配对激酶。

Easy negative examples是含有S/T/Y中心残基的随机肽，没有证据表明被任何激酶磷酸化。

在这里插入图片描述
图1。激酶特异性磷酸化数据集的定义。对于每个激酶，阳性例子被定义为包含中心S/T/Y位点的底物，已知被激酶磷酸化。Hard negative examples的例子被定义为包含中心S/T/Y位点的底物，这些位点已知被其他激酶磷酸化，但不是配对激酶。Easy negative examples被定义为包含中心S/T/Y位点的底物，这些位点不会被任何激酶磷酸化

负样本是通过使用在我们的数据集中出现的全长底物蛋白中出现的所有独特的11-mer肽片段来生成的。虽然之前的许多方法在模型训练中使用了Easy negative examples，我们认为这些随机的S/T/Y位点非常容易区分。为了便于公平和有意义的比较，我们决定在AUC ROC和AUC PRC评分评估中不包括Easy negative examples，以避免夸大绩效。

数据集分割。对于有50个以上正样本的激酶，我们按照70:15:15的比例将阳性例子分成不重叠的训练、验证和测试集，而正样本少于50个的激酶则被限制在训练数据集中。

在测试和验证集中，共包含了106个独特的激酶。对于训练集中的每个正样本，我们添加了n+m个负样本（n个简单的Easy negative examples，m个Hard negative examples），其中n和m是一个可调参数（见第2.2节）。我们还开发了应用于训练数据的多种数据增强技术，以使模型更加健壮（见第2.2节）。对于验证和测试集中的每个正样本，我们添加了一个Hard negative examples。我们定义了一个额外的阴性测试集，由8504个Easy negative examples组成，用于基准测试。由于正负样本的比例高度不平衡，大多数负样本没有被使用。
验证数据集用于超参数调优，而测试数据集则作为用于比较所有模型的标准基准数据集保存出来。

2.2 蛋白质特异性数据增强

数据增强技术通过对原始数据进行有意义的修改，从而增加训练集的大小，避免过拟合。在这里，我们开发了四种与我们的蛋白质序列输入兼容的增强策略。我们表现最好的模型是使用所有四种增强策略的组合进行训练的。这些基准测试稍后将在结果中显示。

重新采样代表性不足的激酶：虽然我们整理的数据集包括了来自800个独特的激酶的例子，但每个激酶的实验验证的底物肽的数量是高度倾斜的。例如，PKA-a有1118个正样本，在我们的数据集中最多，而122个激酶每个只有一个正样本。为了防止模型用更多的训练样本对激酶进行过拟合，我们用较少训练样本的激酶随机重采样正样本，以平衡训练数据。有超过50个阳性样本的激酶（包括在测试集中的）被上采样到1118个，而有少于50个阳性样本的激酶（只包括训练）被上采样到50个。为了避免重复使用完全相同的例子，我们还实现了几种基于排列的数据增强策略，它们将在以下章节中描述。这就引入了变化，并确保了重新采样的示例是不同的。

改变激酶结构域边界：与大多数通过分离模型编码特定激酶的磷酸基预测模型相比，Phosformer仅基于其未对齐的激酶结构域序列来编码激酶。因此，相同的激酶可以用略微不同的序列表示，这取决于激酶结构域边界。为了使模型对这种可变性具有稳健性，我们将激酶结构域的N端和c端边界随机移位多达5个残基位置。移位在每个终端上独立执行。这种增强也阻止了该模型依赖于精确的结构域边界作为识别激酶的一种手段。

激酶序列掩蔽：我们用特殊标记将5%的标记随机替换为激酶序列标记，从而在序列信息中添加噪声，这表明氨基酸的身份是不确定的。这在概念上类似于计算机视觉研究中常见的一种增强方法，即在图像中添加随机高斯噪声，目的是在不改变上下文意义的情况下在输入数据中创造变化。此外，这种增强也使模型不能过度依赖高度信息的残基位置的一个小子集，并迫使模型考虑整个激酶序列。

多层次负抽样：如前所述的数据管理下，我们定义了两类负样本。这两类中比较容易的是Easy negative examples——中心含有S、T或Y残基，但没有被任何激酶磷酸化的肽。这些可能是由激酶无法访问的隐藏的序列区域组成的。更困难的类别是Hard negative examples——已知被磷酸化但激酶标签不是配对的肽。我们设计了一种新的多级负采样策略，为训练数据集中的每个正样本对应n+m负样本（n个Easy negative examples，m个Hard negative examples），其中n和m是一个可调参数。n值越高，类别的不平衡就越严重。这些负样本也会发生激酶转移和掩蔽增强，而由于大量的负样本，不需要重采样增强（图2）。

在这里插入图片描述
图2。对我们完整的端到端工作流的总体概述。从左边开始，我们从三个公开可访问的磷酸基数据库中整理了一个激酶-肽对的数据集。数据点按激酶分组，每个激酶都与许多肽相关，这些肽可以进一步分为Easy negative examples、Hard negative examples和正样本。数据点被分成一个不重叠的训练集、一个验证集和两个独立的测试集。我们的深度学习模型首先由MLM进行了预训练。使用训练和验证集对预训练模型进行了激酶特异性磷酸基预测的微调。最终的模型使用这两个测试数据集和其他可用的方法进行了基准测试

2.3 Phosformer模型训练

我们在两个阶段训练模型。在预训练阶段（图3A），该模型通过对生物观察到的蛋白质序列进行掩蔽语言建模（MLM）来理解“生命的语言”。在微调阶段（图3B），该模型被用来预测激酶特异性磷酸化。具体来说，该模型需要两个输入——一个11-mer的肽序列和一个未对齐的激酶结构域序列。根据输入，模型预测了肽中中间磷酸化残基（S/T/Y）被给定的激酶磷酸化的可能性。
在这里插入图片描述
图3。我们的模型训练工作流程的总体概述。(A)我们在来自UniProt的全长蛋白序列上的MLM上预训练了一个Transformer模型。我们的模型是通过交叉熵（CE）损失来训练的。(B)经过预训练后，我们调整了我们的模型，以预测给定的激酶是否磷酸化给定的肽序列。微调阶段利用focal loss来抵消大的不平衡比

为了为我们的设计提供理论基础，我们的目标是定义一个通用的框架，允许我们模拟任何蛋白激酶与任何潜在的底物肽之间的关系。出于这个原因，我们明确地使用其初级序列来编码蛋白激酶，而不是将它们分离成不同的模型，这将把模型的范围限制在一组预定义的激酶上。为了避免与特征工程相关的潜在偏差，我们没有为我们的模型提供任何额外的特征，如激酶进化分类、结构-功能信息和物理-生化特性。此外，我们的理由是，我们特定的模型架构应该能够仅根据主序列推断出这些信息。

2.3.1蛋白质语言预训练
我们利用一个由编码器和解码器组成的Transformer模型，其中编码器由6个注意层组成。每个注意层由12个注意头组成，并产生一个包含768个嵌入维度的输出张量。转换器模型读取不同大小（未对齐）的蛋白质序列作为输入。作为预处理，蛋白质序列被编码为一系列的序列标记，每个标记代表一个氨基酸。除了序列标记外，我们还添加了两个特殊的标记来表示蛋白质序列的开始和结束。编码器读取标记化的序列，解码器读取序列嵌入向量并返回标记化的序列。

该模型使用掩蔽语言建模（MLM），在激酶和底物序列的语料库上进行训练。具体来说，我们使用了来自NCBI非冗余数据库的295 320个不同的激酶结构域序列，跨越18 832个独特的生物体。我们还使用了5338个全长底物蛋白，这些蛋白由出现在我们策划的激酶特异性磷酸基数据集中的所有底物定义，这些蛋白来自UniProt数据库，涵盖29个独特的生物体。激酶部分共包含86 944 788个氨基酸，而底物部分包含3 845 761个氨基酸。为了概述MLM过程，我们随机选择15%的氨基酸标记，用掩模标记替换它们，然后根据可用上下文预测原始氨基酸标记的身份。

2.3.2激酶特异性磷酸化微调
我们使用部分预先训练的Transformer模型构建了Phosformer模型，然后建立一个新的模块以促进预测。Phosformer架构由由六个注意层组成的预训练编码器组成，然后是一个前馈层，以一个对应于正或负预测的二进制分类层结束。使用softmax函数将预测值转换为概率。为了总结输入和输出，Phosformer读取序列信息作为输入，并提供一个概率值作为输出。

为了训练Phosformer，我们将激酶特异性磷酸基预测建模为一个基于上下文的问题回答（CBQA）任务，这是一个灵感来自于自然语言处理的训练目标。为了概述CBQA系统，模型被给出一个“上下文”和“问题”，它必须提供一个“答案”。在我们的模型中，肽被建模为“上下文”，激酶序列被建模为“问题”，磷酸化的概率被建模为“答案”。

在预处理过程中，肽和激酶序列被标记化，然后连接形成一个单一的肽-激酶对。具体来说，这对肽-激酶对由标记化的11- mer肽序列组成，其两侧有两个特殊的标记来表示起始和结束，然后是标记化的激酶结构域序列，其两侧也有两个特殊的标记。用于填充肽序列，使用< pad>特殊标记进行编码。编码器读取标记化的肽-激酶对，并返回一个大小为 ðtpeptideþt激酶þ4768Þ
的嵌入。从这个嵌入过程中，这个位置对应于磷酸盐的中间残基——潜在的磷酸化基——被导向一个前馈层，然后是最终的二进制预测。

我们的训练数据集包含的负样本明显多于正样本。为了有效地训练模型，我们寻找了一个能够处理类的不平衡并防止模型只关注负样本的损失函数。为此，我们实现了focal loss，这是一个动态缩放的交叉熵损失函数，专注于学习常见的错误分类的例子。

2.4 Performance evaluation
我们利用几个指标来评估我们的模型在激酶特异性磷酸基预测中的性能。首先，我们使用曲线下面积受试者工作特征（AUC ROC）评分，这是以往研究报告的常用指标：在这里插入图片描述
由于我们管理的数据集包含的负面例子比正面例子多得多，传统的指标可能在这种情况下提供不准确的比较。为了解释这种类别的不平衡并提供一个公平的比较，我们使用了曲线下面积精度-召回曲线（AUC PRC）评分。
在这里插入图片描述
最后，我们通过量化假阳性率（FPR）来衡量我们的模型对假阳性预测的敏感性，FPR可以评估给定一个只有负样本的数据集的模型的性能。

TP、TN、FP、FN分别代表真阳性、真阴性、假阳性和假阴性。TPR由TP/（TP+FN）定义，而FPR由1-TN/（TN+FP）定义。精度由TP/（TP+FP）定义，召回率由TP/（TP+FN）定义。较高的AUC ROC和AUC PRC评分表明模型越好，而FPR越低表明模型不太可能产生假阳性预测。

三、Results

3.1 数据增强策略的评估

为了找到预测激酶特异性磷酸位点的最佳模型，我们使用训练和评估数据集训练不同超参数的Phosformer。之后，我们使用两个不同的测试集对这些模型进行了基准测试，它们都包含了在训练中从未见过的例子。第一个测试集只包含已知被磷酸化的肽，其中一半与正确的磷酸化激酶配对（正样本），一半与不正确的激酶配对（hard negative examples）。第二个测试集只包含没有磷酸化证据的多肽段（easy negative examples）。我们选择定义单独的测试集，以便独立地对模型的不同方面进行基准测试。

我们的基准测试表明，我们的激酶重采样、转移和掩蔽增强提高了模型根据AUC ROC和AUCPRC评分区分激酶特异性底物肽的能力（图4a和B），也提高了模型根据FPR评分区分非磷酸基的能力（图4C）。从实际的角度来看，这些增强也使模型对用户定义的激酶结构域序列的潜在变化更健壮(补充图。S3).
在这里插入图片描述
图4。模型性能的比较。我们展示了四种模型的AUC ROC (A)、AUC PRC (B)和FPR ©图，这些模型的正负样本比例不同，有（出）增强。我们根据所使用的训练数据集和增强策略来分离模型。在图例表中，每一行对应于一个训练过的模型，Pos列定义正数据比率，HardNeg列定义hard negative examples的比率，EasyNeg列定义easy negative examples的比率。Aug列定义了是否使用Mask+Shift+Resample增强策略。正如每个图左上角的图标所示，AUC ROC和AUC PRC图是使用包含正样本和负样本混合的测试集生成的，而FPR图是使用只包含简单的负样本的单独测试集生成的。

==接下来，我们通过在训练数据集中引入没有磷酸化证据的多肽，对我们的多水平负采样策略的效果进行了基准测试。这极大地提高了模型对非磷酸位点的区分能力（图4C），也导致了激酶特异性磷酸位点预测的边际改善（图4a和B）。==通过在我们的训练数据集中引入更多负样本，我们获得了进一步的改进——建模磷酸基基序代表生物学中很小的序列空间的事实。为了有效地训练这些模型，我们使用了focal loss，它能够容忍我们的正负样本的极端不平衡比例(补充图。S2).基于我们的基准测试，我们选择了经过所有增强训练的Phosformer模型，使用一个包含1比16个正与负例子比例的训练数据集。除非另有说明，我们将此模型作为最终模型作为基准，并在下面的章节中进行讨论。

3.2 激酶特异性磷酸基预测的评估

我们进一步研究了Phosformer在单个激酶上的性能。基准显示所有测试集例子的AUC ROC评分为0.885（图4A）或平均AUC ROC评分为0.860，是我们测试集中包含的所有106个激酶的平均值（图5）。Phosformer提供了相对一致的性能，大多数激酶得分高于0.800。此外，该模型对来自不同生物体的激酶的表现与它们的人类同源性相似。总体结果表明，Phosformer能够对不同的科/群体和生物体做出准确的预测。鉴于该模型是仅在序列信息上训练的，这些结果也表明，我们的训练课程允许Phosformer对激酶特异性磷酸基预测很重要的广义特征。这些特性的例子将在后面的章节中讨论示例。在这里插入图片描述
图5。不同激酶的模型性能。一个柱状图描述了在我们的测试集中包含的106个激酶的AUC ROC评分。人类激酶用黑条表示，灰色条表示非人类激酶。每个激酶的UniProt加入都通过x轴提供。在这些材料下，我们提供了激酶的分类层次，包括基因、家族和组名

3.3 与现有方法比较

我们使用我们的两个测试集，将Phosformer与最近发表的五种磷酸基预测方法进行了比较。与前面的部分一样，AUC ROC和AUC PRC得分使用第一个测试集计算，其中包含正样本和hard negative examples，而FPR得分使用第二个测试集计算，其中只包含简单的负样本。Phosformer只利用激酶结构域和肽序列作为输入，因此我们必须明确地添加额外的特征来满足其他方法的输入要求。这些附加的特征包括激酶家族/组标签和蛋白质-蛋白质相互作用。==许多相互竞争的方法还实现了多个家族/群体特定的模型，这限制了它们的通用性。==例如，MusiteDeep没有组级模型，而DeepPhos无法获得TK和Src模型。使用一种稍微不同的方法，EMBER是一个单一的模型，可以容纳来自五个不同的激酶家族的输入。与这些方法相比，Phosformer是一个单一的模型，理论上可以容纳任何输入激酶，尽管对训练中未使用的未被充分研究的激酶的预测应该谨慎解释。

Phosformer在单个激酶水平上进行预测。因此，我们的模型不能直接与其他在家族/群体水平上进行预测的方法相比较。为了便于有意义的比较，我们报道了由家族/组标签组织的激酶的表现。与其他模型相比，Phosformer在群体预测中表现出优越的性能，同时在激酶家族中表现出可比性或更好的性能（表1）。在之前发表的模型中，我们的基准显示，群体水平模型倾向于比家庭水平模型预测明显更多的假阳性，如FPR评分所示。相比之下，Phosformer始终表现出较低的假阳性率。与最近发表的其他方法相比，Phosformer允许预测更多的激酶，使用更少的特征（需要更少的用户输入），并在大多数蛋白质基因组中表现出最先进的性能。
在这里插入图片描述

3.4 Phosformer仅从初级序列中学习进化和生化特征

虽然磷酸基预测通常需要蛋白质序列、结构、功能和进化特征，但Phosformer仅使用序列就实现了最先进的性能。进一步的研究揭示，我们的新训练程序允许Phosformer隐式地从未对齐的初级序列学习生物特征。该模型首先使用MLM进行预训练，然后对激酶特异性磷酸基预测进行微调。从一个随机初始化的模型开始，训练前阶段旨在提供对生物学上观察到的蛋白质序列的一般理解。在微调阶段，我们鼓励该模型将其现有的知识应用于磷酸基预测。然后，我们通过比较预训练模型和微调模型来研究训练过程。

我们的训练直接影响Phosformer如何解释肽激酶序列对。使用我们的测试数据集，我们比较了预训练后生成的嵌入向量和微调后生成的嵌入向量。经过预训练后，UMAP显示，该模型能够根据潜在的磷酸位点的身份来组织多肽（图6A）。这三个主要簇中的每一个都对应于丝氨酸、苏氨酸或酪氨酸。每个主要的簇进一步细分为更小的簇，对应于主要的激酶进化群。事实上，先前的研究进一步表明，序列嵌入可以编码系统发育关系。有趣的是，不属于三个主要簇的数据点对应于磷酸基距离N端或c端小于5个残基的肽。总体结果表明，预先训练的模型了解与肽和激酶蛋白有关的一般生化和进化特征。在这里插入图片描述
图6。比较Phosformer模型经过两个不同训练阶段后生成的嵌入向量——预训练后的(A)和微调后的(B)。使用我们包含肽-激酶对的测试集，我们使用编码器模块生成序列嵌入向量。我们绘制了从全序列嵌入中提取的残基嵌入的UMAP投影图。在这两个投影中，我们用虚线的边界定义了9个主要集群。如前所述，==每个数据点代表一个特定的肽-激酶对的嵌入载体。每个数据点的颜色对应于图例中所示的激酶组，而更具体的激酶家族标签直接在散点图上提供。==我们还显示了从9个簇的每个11个肽序列的序列标志。

经过微调后，Phosformer学习基于底物特异性组织肽激酶序列对。我们从微调后的模型中生成了嵌入，并创建了一个UMAP投影，它显示了6个主要的簇（图6B）。簇4和簇5对应于嗜碱性激酶，其中簇4更倾向于磷酸基两侧含有碱性残基的底物，而簇5更倾向于磷酸基之前含有碱性残基的底物。第6类对应于脯氨酸定向激酶，第7类对应于嗜酸激酶，第8类对应于识别SQ家族基序的PIKK家族激酶，第9类对应于酪氨酸激酶。总体结果表明，微调模型已经学会了识别主要的底物特异性组——关于激酶功能的专门知识，这是建立在训练前学习到的更一般的生物学知识的基础上的。

考虑到语言模型也能够学习蛋白质功能基序，我们还通过研究模型关注的哪些底物残基，证明了Phosformer识别底物特异性基序的能力。这被量化为编码器的最终注意层的函数(补充图。S1).使用我们的测试集，预训练和微调模型之间的比较表明，Phosformer只有在微调后学会注意底物特异性决定因素。例如，给定底质ERK2，微调模型将最关注Pþ1位置是脯氨酸激酶，而预训练模型最关注Pþ5位置不是一个特异性决定因素（图7左）。

我们在PKA中观察到类似的结果，微调模型将注意力指向P-2和P-3位置（图7中间），这是嗜碱性激酶的主要决定因素。对于CK2a1，我们注意到微调后的注意发生了变化，但注意在整个底物序列中分布更均匀（图7右），这可能表明所有位置的贡献都是分布的。事实上，嗜酸激酶的底物往往是酸性残基斑块。除了典型的酸性残基，谷氨酸和天冬氨酸，我们注意到磷酸化残基，如丝氨酸在修饰后也可以变成酸性。这种特殊的嗜酸激酶子集更具体地称为磷酸盐定向激酶。通过直接分析模型的“注意”机制，我们发现我们的微调是Phosformer识别不同激酶底物特异性组的特异性决定因素。

Discussion

我们提出了Phosformer，一个可解释的深度学习模型，有着激酶特异性磷酸化预测的最新性能。利用我们新颖的基于transformer的架构，Phosformer在训练前以一种无偏见和无监督的方式学习“生活语言”。在使用激酶特异性磷酸化数据集进行微调后，Phosformer获得了具有生物学意义的特征，能够对底物进行准确预测。该模型不需要辅助特征作为输入，因此高度易于进行高吞吐量预测。预测管道经过高度优化，以促进多线程或CUDA加速，使模型能够在使用一个RTX 2080 GPU卡的普通计算机上平均每秒进行220次预测。

Phosformer在多个方面是运动特异性磷酸化预测的主要技术优势。首先，与其他需要人为特征的模型相比，如蛋白质-蛋白质相互作用、蛋白激酶家族分类或序列相似性，Phosformer采用了一种更无监督的方法，允许transformer架构仅基于主要的、未对齐的序列生成自己的特征。这给了模型独特的灵活性，以适应和预测任何输入激酶和底物。此外，认识到管理激酶特异性磷酸化预测的负样本的挑战，我们开发了一种新的方法来定义负样本，通过在训练中加入多层次的负抽样。这种新的数据采样策略有助于提高模型的性能，并很大幅度地降低假阳性预测率。除此之外，与之前的许多模型不同，为每个激酶组或家族开发了单独的模型，Phosformer将所有激酶统一在一个单一的结构下。统一模型允许Phosformer最大限度地提高激酶家族之间的知识共享，从而提高了较少代表的家族的表现。最后，与大多数缺乏透明度的深度学习模型不同，Phosformer凭借其注意机制和我们开发的基底注意可视化，具有高度的可解释性。该模型能够将不同长度的激酶-底物输入翻译为固定大小的嵌入载体，从而研究激酶-底物特异性决定因素的景观。对训练模型的进一步分析显示，Phosformer可以学习底物特异性基序（图7），并区分功能不同的蛋白激酶家族——嗜酸、嗜碱性或脯氨酸导向（图6B）。这一能力被先前的结果证实，这些结果表明，transformer蛋白质语言模型是生化的无监督学习者在这里插入图片描述
图7。Phosformer模型中的基底注意。在最上面一行，我们显示了三个激酶的底物的序列标识，取自测试集。条形图显示了经过训练前的参考文献（上）和微调后（下）的Phosformer模型的平均注意力得分