iRice-MS：一种检测水稻多型翻译后修饰位点的集成XGBoost模型

Super齐

已于 2022-04-03 17:36:32 修改

阅读量613

点赞数 1

分类专栏：生物信息学文章标签：深度学习机器学习

于 2022-03-10 17:10:24 首次发布

本文链接：https://blog.csdn.net/weixin_45156147/article/details/123385826

版权

生物信息学专栏收录该内容

15 篇文章

订阅专栏

文章链接：https://doi.org/10.1093/bib/bbab486
DOI：10.1093/bib/bbab486
期刊：BiB
发布时间：2022 年 1 月 13日
数据集：http://lin-group.cn/server/iRice-MS/download.html
补充数据：https://academic.oup.com/bib.

前言

翻译后修饰(PTM)是指蛋白质生物合成后蛋白质的共价修饰和酶修饰，协调多种生物过程。在蛋白质组规模上检测PTM位点是深入了解其调控机制的关键步骤之一。
在本研究中，我们提出了一种基于极限梯度增强(XGBoost)的综合方法iRice-MS，来鉴定水稻中的2-羟基异丁基化、巴豆酰化、丙二酰化、泛素化、琥珀酰化和乙酰化。对于每个PTM特定的模型，我们采用了8种特征编码方案，包括基于序列的特征、基于物理化学属性的特征和基于空间映射信息的特征。从每个编码中识别出最优特征集，并建立了它们各自的模型。大量的实验结果表明，iRice-MS在5倍交叉验证和独立数据集测试上始终表现出良好的性能。此外，我们的新方法在AUC价值方面提供了比其他现有工具的优势。基于所提出的模型，建立了一个名为iRice-MS的web服务器，并可通过http://lin-group.cn/server/iRice-MS免费访问。

一、简介

翻译后修饰(PTMs)是对前体蛋白的一种共价修饰，对调节[1]的多种生物学功能具有重要意义。PTMs与几乎所有已知的代谢过程和细胞途径有关，如DNA修复、转录调控、信号通路、蛋白-蛋白相互作用、凋亡和细胞死亡[2,3]。越来越多的证据支持经前磁刺激可以通过不同类型的修饰位点广泛扩展蛋白质组的多样性和复杂性的观点。随着现代蛋白质组学技术的发展，在组蛋白和非组蛋白中越来越多的经颅磁刺激数量已经被发现。特别是，酰化是最常见的PTM之一，如2-羟基异丁基化(Khib)[4]，巴豆酰化(Kcr)[5]，丙二酰化(Kmal)[6]，泛素化(Kubi)[7]，琥珀酰化(Ksu)[6]和乙酰化(Kac)[8]（图1）。
在这里插入图片描述
图1。Khib、Kcr、Kmal、Kubi、Ksu和Kac分别的工艺过程和三维化学结构示意图

水稻(水稻Sativa)是一种具有重要研究价值的单子叶模式植物，也是世界上约一半人口[9–11]的主食。到目前为止，全基因组重测序和深度蛋白质组学分析已经使水稻成为在蛋白质水平上注释最广泛的作物。据报道，基于质谱的水稻蛋白质组中大量PTM的大规模分析[12–16]。然而，基于生化实验的制图技术的耗时和劳动密集型特点使其适应性较差。因此，需要计算方法来指导感兴趣的经前磁刺激的询问。

在过去的几年中，计算方法，特别是基于机器学习(ML)的方法，已经被开发出来用于预测多个物种[17,18]中的PTM位点。对于2-羟基异丁基化，Ju和Wang[19]提出了一种新的基于ML的工具iLysKhib，用于预测哺乳动物细胞中的Khib位点。
后来，Wang等人[20]开发了一种针对物种的在线计算工具，即KhibPred，来识别四种不同物种中的Khib位点。
随后，Zhang等人[21]设计了一种基于卷积神经网络的深度学习算法，采用单热编码方法DeepKhib来区分Khib和非Khib站点。

对于巴豆酰化问题，Huang和Zeng[22]建立了一个名为CrotPred的离散隐马尔可夫模型来识别Kcr位点。类似地，Lv等人[23]提出了一种基于深度学习的方法，称为DEEP-Kcr的Kcr位点预测，通过将基于序列的特征、基于物理化学性质的特征和数值空间衍生信息与信息增益特征选择相结合。之后，通过结合各种特征向量和LightGBM算法，Liu等人[24]建立了一种名为LightGBM_CroSite的Kcr位点预测方法

此外，Chen等人[25]开发了一种基于深度学习的网络服务器，称为nhKcr，用于非组蛋白的Kcr位点预测。

对于丙二酰化，Xu等人[26]开发了一种预测因子Mal-Lys，它整合了残基序列顺序信息、位置特异性氨基酸倾向和物理化学性质，来识别Kmal位点。通过利用序列和预测的结构特征，塔赫尔扎德等人的[27]提出了SPRINT-Mal对Kmal位点的鉴定。

此外，Chen等人[28]构建了一个基于长短期记忆的深度学习网络分类器，用于Kmal位点的预测。
Liu等人结合主成分分析和支持向量机，提出了Mal-PrecKmal位点预测的预测模型。

对于泛素化，Wang等人[30]提出了一种基于进化筛选算法的预测方法ESA-UbiSite来识别人类Kubi位点。
最近，He等人[31]设计了一个多种模式的深度架构来预测Kubi站点。
Mosharaf等人[32]构建了一个基于随机森林的预测因子和CKSAAP编码方案来识别拟南芥中的Kubi位点。

对于琥珀酰化，Thapa等人[33]构建了深琥珀酰化位点，这是一种新的预测工具，使用深度学习方法和嵌入，基于蛋白质的初级结构来识别蛋白质中的Ksu位点。
通过结合氨基酸组成和信息丰富的k间隔氨基酸对，Kao等人[34]开发了一个基于网络的工具，SuccSite，来识别Ksu位点。

Ning等人[35]通过将深度学习和传统机器学习算法集成到一个用于识别Ksu站点的单一框架中，实现了一种混合式学习架构。
对于乙酰化，Gnad等人[36]利用了大量人体内的Kac位点，创建了第一个高精度的Kac位点预测因子。

Chen等[37]基于弹性网特征优化，提出了一种在线工具ProAcePred，用于预测原核生物Kac位点。

==尽管上述模型在预测各种PTM位点方面表现良好，但一个重要的问题是缺乏一个特定的预测器来识别水稻中的多个PTM位点。因此，为了填补这一空白，我们开发了第一个集成的基于极限梯度增强(XGBoost)的工具iRice-MS，用于检测水稻中的Khib、Kcr、Kmal、Kubi、Ksu和Kac位点。==不同特征编码方案、不同分类器的预测性能以及与现有工具的比较表明了iRice-MS的鲁棒性。

二、材料和方法

2.1 基准数据集构建

本研究从文献中收集了经实验验证的水稻Khib、Kcr、Kmal、Kubi、Ksu、Kac位点[16、38-42]。原始数据的详细信息见表S1。在这里插入图片描述
为了构建一个方便、实用的基准数据集，我们使用固定的2n+1的窗口大小来提取以目标残基(K)为中心、包含n个上游和n个下游f侧翼氨基酸的序列片段。根据使用不同长度的窗口进行的初步评估，窗口大小为51(n=25)可以最大限度地预测上述PTM站点的性能。在此基础上，
如果一个片段的中心K为PTM位点，则将其定义为阳性样本；否则，则定义为阴性样本。

如果上游和下游的残基小于25，那么我们使用一个伪氨基酸(‘X’)来创建等长度的片段。为了减少修饰蛋白的序列冗余度，避免模型过拟合，采用CD-HIT程序[43]，序列识别阈值为30%。结果，产生了大量的阴性样本。为了平衡正数据和负数据，采用K-means聚类算法选择与正样本比例为1：1的非冗余的负样本。在完成所有这些之后，获得每个PTM的基准数据集，并以4：1的比例随机分为训练数据集和独立数据集。数据的详细描述已列于表1中。

2.2 特征编码方案

为了构建一种性能良好的基于ML的PTM站点预测方法，我们采用三种分组特征编码方案提取序列信息，分别是基于序列的特征、基于物理化学性质的特征和基于空间映射信息的特征，即[44]。

2.2.1 第1组：基于序列的特性

（1）Position weight amino acid (PWAA) composition.

PWAA已被广泛用于提取目标中心残基周围的序列信息。给定一个氨基酸残基在这里插入图片描述
ai在序列片段P中含有2L+1个氨基酸的位置信息可由如下式计算：

式中，如果ai为蛋白质序列片段P中的第j位残基，则L表示蛋白质序列片段P，
中上游残基或下游残基的数量，否则为
。基于PWAA的特征向量的维数为20。

（2）Amino acid relative position composition (AARPC)

我们直接对每个氨基酸残基赋值不同的位置整数值，并计算氨基酸之间的相对位置。(i)使用1到20的数字编码20个氨基酸；(ii)给定一个长度为2L+1的蛋白质片段，从中心开始的每个残基的位置记录为d，范围为[−L，L]；(iii)对于蛋白质片段上的某个残基，相应的特征向量可以用nd表示。最后，基于AARPC的特征向量的维数为51。

（3）Composition of k-space amino acid pairs (CKSAAP)

CKSAAP是一种最经典的编码方法之一，它可以改变氨基酸对[45,46]之间的短程相互作用。==如果一个窗口大小为2L+1和20种氨基酸的序列片段，可能包含20×20=400种氨基酸对(即AA、AC、AD，……、YY)。==特征向量可以用以下公式来计算：
在这里插入图片描述
其中
是总组成残基的长度(例如，如果蛋白质片段残基长度L为31和k=0、1、2、3、4和5，那么
等于L-K-1.
将分别为30、29、28、27、26和25)。

表示片段内氨基酸对的频率。考虑到本研究中CKSAAP方案在上面使用了k=0、1、2、3、4和5，基于CKSAAP的特征向量的总维数为400×6=2400。

2.2.2 第2组：基于物理化学性质的特征

（1）Composition of physical and chemical properties(CPCP)

每个氨基酸残基都有不同的理化性质，这可能会影响蛋白质的结构和功能。因此，我们利用20个氨基酸的9种理化性质来编码蛋白质片段。这九个属性包含
在这里插入图片描述
在此基础上，基于CPCP的特征向量的维数为9×51=459。9种理化性质的值列于表S2。

表2。本研究中超参数的微调步骤

（2）Encoding based on grouped weight (EBGW)

EBGW方案[48]根据20个氨基酸的疏水性和电荷特征分为四类，可表示为：
在这里插入图片描述
然后，根据以下不相交的基团对氨基酸进行划分：C1+C2vsC3+C4，C1+C3vsC2+C4，C1+C4vsC2+C3。对于一个蛋白质序列P，它可以转化为三个二进制序列：

每个二进制序列可以分为一个长度增加的J子序列。例如，对于H1，第j个子序列被定义为：
在这里插入图片描述
其中Sum(j)是第j个子序列中1的个数，

是指第j个子序列的长度，函数int()将十进制舍入到最接近的整数。 EBGW方案将一个蛋白质序列定义为3×j维向量。在这里，J被选为1、2、3、4、5。因此，基于EBGW的特征向量的维数为3×15=45。

（3）Composition, transition and distribution (CTD)

CTD方案将20个氨基酸的极性、中性和疏水性分为三类。关于氨基酸划分的详细信息见表S3。

每个氨基酸根据其所属的类由1、2或3编码。组成compositional©描述了20种天然氨基酸的整体组成百分比，定义为：
在这里插入图片描述
式中，
为编码序列中s的个数，L为蛋白质片段序列的长度。
过渡Transition(T)表征了一种天然氨基酸和另一种天然氨基酸的频率百分比，可以通过以下方法计算：

其中，
为分别为编码为“xy”和“yx”的二肽的数量
分布Distribution(D)测量了每种类型的20种天然氨基酸的第一个、25%、50%、75%和100%的各自位置，对描述符在这里插入图片描述
的定义为：
其中，P1、P25、P50、P75和P100分别测量第一个残基的位置，x的发生率分别为25%、50%、75%和100%。最后，基于CTD的特征向量的维数为(3+3+3×5)×7=147。

2.2.3 第3组：基于信息的空间映射特征

Cone feature space (CFS)

这种新的特征编码方案首次由Zhang等人提出，用于识别蛋白质碳基化位点[49]。
CFS的基本假设是具有相似理化性质的氨基酸分布在相同的锥形表面。
20种天然氨基酸首先根据其理化性质分为四类：
在这里插入图片描述
假设每个氨基酸都可以映射到三维空间中的一个点
，x、y和z可以用以下公式计算：

其中，r为某一氨基酸的分子量，见表S1。因此，
是第i组(i=1、2、3、4)组中第j组(j=1、2、···、Ni)氨基酸的分子量。Ni表示第i个基团中氨基酸的数量。在这里插入图片描述
可以定义为：

表示第m个标准值(m=1、2、···、9)与CPCP相同。
然后，某些蛋白质片段的几何中心可以表示为特征向量：

其中，a表示该氨基酸所属的组；Na表示某一蛋白质片段中属于a组的氨基酸总数；
在这里插入图片描述

分别表示某一蛋白质片段中属于a组的氨基酸对应的坐标值

另外，蛋白质片段积累的累积几何中心在这里插入图片描述
可进一步计算为：

式中，N为蛋白质片段中的氨基酸总数；
表示第n个氨基酸对应的坐标；

分别表示整体几何中心的坐标；

分别表示累计坐标的平均值。最后，基于CFS的特征向量的维数为18。

三、XGBoost

XGBoost是一种可伸缩的ML技术，用于树的增强。以往的研究表明，XGBoost模型在PTM预测[51]问题上可以产生令人满意的性能。其原则是从许多弱学习者中构建一个强学习者。XGBoost的目标函数表示如下：
在这里插入图片描述
其中，
均为已知条件，模型只需要学习第t棵树

；然后，对误差函数
进行二阶泰勒展开，得到以下结果：

其中gi和hi是损失函数的一阶和二阶梯度统计量。
在定义了树的复杂度并对叶节点进行分组后，损失函数可以表示为：
在这里插入图片描述
其中T表示叶节点的数量；Gj和Hj表示叶节点j中包含的样本的第1和第2个偏导数的和；w是叶节点的权重。最后，可以计算出最优损失函数：

在我们的工作中，XGBoost是基于sklearn界面实现的。此外，我们还使用了XGBoost中内置的特征重要性方法，在训练前对特征集进行排序。

四、评价指标

采用五倍交叉验证的方法来检验模型的性能。并采用不同的阈值[52–56]，根据特异性和敏感性计算并绘制ROC曲线。有两个指标被定义为在这里插入图片描述
式中，TP为在预测中被正确分类的阳性样本数，TN表示被预测因子正确分类的阴性样本数。FP和FN分别表示错误分类的阳性或阴性样本的数量。此外，auc也基于梯形近似[57,58]进行了计算。

五、结果

5.1 序列组成分析

隐藏在保守片段中的潜在模式可以作为PTM位点预测的有用属性。这些模式可以使用两个样本标志表示[59]来可视化，它识别并显示了多序列比对[60]的正和负数据集之间的位置特异性氨基酸组成的显著差异。如图2所示，我们观察到以下几点。在这里插入图片描述
图2。PTM位点周围的序列模式，包括基于修饰肽和非修饰肽的显著富集和耗尽的残基(P<0.05，t-test)。
对于2-羟基异丁基化，与Khib位点相邻的f侧翼区域（从−5到+5）富含带负电荷的天冬氨酸(D)和谷氨酸(E)；相反，在上游和下游都有大量的带正电荷的赖氨酸(K)。此外，极性残基丝氨酸(S)、疏水残基丙氨酸(A)和D几乎在所有位置都被耗尽，阳性和阴性样本的序列模式存在显著差异。在巴豆酰化方面，疏水亮氨酸(L)、缬氨酸(V)和异亮氨酸(I)富集在Kcr位点上游的+2位。此外，一个保守的基序，即KKxxK/KxxKK，被确定为从−9到−5和+5到+9位置两侧的显著过度代表热点，其中‘x’代表任何氨基酸。对于丙二酰化，在含kmal的序列中没有明显的物理化学性质偏好，而在非含kmal的序列中，带正电荷的K和精氨酸®在+1到+5的位置明显耗尽。

在泛素化方面，PP、RR和EE对Ubi位点表现出更强的偏好。此外，与2-羟基异丁基化、巴豆酰化和丙二酰化相比，泛素化的类似现象是，带正电荷的残基似乎更频繁地分布在非Ubi位点周围。在琥珀酰化方面，疏水V和甘氨酸(G)分别富集在−1和+1位置，具有对称结构的氨基酸对KK分别位于−9到−8、+8到+9位置。在乙酰化方面，疏水苯丙氨酸(F)、极性酪氨酸(Y)和带负电荷的D的丰度相对较高，分布在−3到+2的区域。此外，带正电荷的氨基酸(K和R)在远离Kac位点的区域富集。

基于以上分析，我们得出结论：(i)不同类型的PTM位点可能包含轻微相似的氨基酸残基，但它们仍然被具有不同理化性质的不同特征氨基酸集所包围。(ii)不同类型的含ptm的序列表现出特定的特征模式。
因此，赖氨酸残基周围氨基酸的理化性质和保守基序可能被用作构建模型的信息特征，以预测相应的PTM位点。

5.2 基于基准数据集的不同 PTMs间的串扰分析

2-羟基异丁基化、巴豆酰化、丙二酰化、泛素化、琥珀酰化和乙酰化均存在于赖氨酸残基上，使不同类型的PTM形成复杂的调控机制。例如，泛素化和乙酰化可以协同协调蛋白质活性和特定过程[61]。为了分析上述6个PTMs在水稻中的重叠，在不同的PTMs中整合。相应的串扰衬底列于表S4中。
为了表征串扰底物的功能分布，我们对基因本体论(GO)术语进行了富集分析，以选择具有统计学意义的结果(图S1)。如图S1所示，这些串扰底物在生物调控、细胞过程、定位和代谢过程等方面都很丰富。对于细胞成分，串扰底物倾向于位于细胞解剖实体、细胞内和含蛋白质的复合体中。在分子功能方面，串扰底物主要参与结合、催化活性和结构分子活性。这些结果表明，一些关键蛋白在不同的经前磁刺激中总是起着重要的生物学作用。深入探索这些串扰，将有助于了解水稻在不同环境条件下的调控机制。

5.3 XGBoost算法参数的选择

一般来说，通过网格搜索来微调一些全局优化问题的超参数组合成为XGBoost算法[62,63]参数优化方法的更好选择。受此启发，我们对XGBoost中涉及的三种类型的超参数进行了参数优化：用于指导建模方向的一般超参数，增强用于指导节点分裂的超参数，以及学习用于控制训练过程性能的目标超参数。在这里，我们分别从内部基本参数max_depth、min_child_weight、gamma、sub_sample、colsample_bytree、reg_lambda、reg_alpha和learning_rate中选择变量。为了节省计算成本，采用了基于局部最优解的网格搜索方法，对不同的超参数进行排列和组合，并根据影响程度对其进行微调。8个超参数的详细信息列于表2。最后，生成所有基于最优参数的模型，并用于后续的特征分析。
在这里插入图片描述
表2。本研究中超参数的微调步骤

5.4 不同特征编码方案的性能评价

评估并比较了XGBoost算法使用的7种不同的特征编码方案（分为三个主要组）的预测性能，并在6个基准数据集上进行了5倍交叉验证。AUC值如表3和图3所示。
在这里插入图片描述
如图3所示，CKSAAP特性在所有PTM类型中产生最好的性能。一方面，这一结果表明，设置CKSAAP的参数k来表示相邻氨基酸之间的间隔是合理的，这有效地反映了氨基酸对中隐藏的短程和长程相关信息。另一方面，CKSAAP能够充分捕获氨基酸序列的一个特征，并以合理的尺寸控制特征尺寸，从而保证了计算效率。此外，基于理化性质的CTD特性可以达到可接受的性能。

这表明CTD的三类信息，即总体组成百分比、过渡频率、极性残基、中性残基和疏水残基的位置偏好，对提高模型预测结果具有重要意义。根据上述结果，在大多数PTM位点预测模型中，基于理化性质的特征(CPCP和EBGW)比基于序列信息(PWAA和AARPC)的特征可以产生更高的AUC值。考虑到PWAA和AARPC只提取了氨基酸序列的20维和51维特征，我们推测两者都更适合与其他类型的特征结合，而CPCP和EBGW在单独使用时具有较好的预测能力。

除此之外，我们发现，尽管基于空间映射信息的CFS特征只生成了18维向量，但它在几乎所有AUC值大于0.7的PTM位点上都表现出了惊人的性能。一个可能的原因是，该方法将氨基酸的理化性质映射到锥体的三维空间中，并相对准确地揭示了氨基酸在空间结构中的排序信息。

先前的研究表明，特征融合策略在预测Kcr位点方面是有效的，从而产生显著的性能改善[23]。本研究通过融合PWAA、AARPC、CKSAAP、CPCP、EBGW、CTD和CFS特征，建立模型。采用5倍交叉验证的方法来检验这些模型的性能。如表3和图3所示，基于特征融合的模型在AUC方面比除CKSAAP外的所有其他个体模型都有显著改善。这一结果表明，特征融合策略能够为PTM位点的识别提供更高的预测性能。实际上，XGBoost算法在模型训练过程之前已经对特征的重要性进行了排序。之后，XGBoost计算每个特征的信息增益比，并选择值最大的特征来分割模式。
在这里插入图片描述
因此，在本研究中不存在削弱模型性能的冗余特征。我们推测，根据融合特征的分布，自动选择将特征集划分为多个分段的加权分位数点只是局部最优，最终产生较弱的竞争力。总之，我们基于CKSAAP特征建立了六种类型的PTM站点的最终模型。

5.5 XGBoost与不同分类器的比较

XGBoost[50]被认为是梯度树增强技术的一种新实现，已在不同的数据集中进行了测试。为了证明XGBoost算法的优越性，我们采用了四种不同的常用分类器，即决策树(DT)、随机森林(RF)、AdaBoost(AB)和LogitBoost(LB)，这些分类器的最优训练模型是使用相同的训练数据集和5倍交叉验证开发的。为了全面了解每个分类器的性能，我们计算了每个训练数据集上的AUC值，并将其性能与XGBoost进行了比较（表4和图4）。在这里插入图片描述

我们注意到，XGBoost获得的6个模型的auc都高于其他四种算法，这表明XGBoost是构建区分PTM位点和非PTM位点的预测器的最合适的选择。因此，我们选择了XGBoost作为最终的分类器。

5.6 模型鲁棒性和可转移性的性能评价

通常使用一个独立的数据集来评估一个完全指定的分类器的鲁棒性。因此，我们建立了六种类型的PTM的独立数据集（见表1），以进一步评估所提出的模型的性能。上述模型得出的检测检查结果见表5和图5。在这里插入图片描述

图5。对模型的鲁棒性和可转移性的性能评估。(A)六种类型的PTM在独立数据集上的性能。(B)显示交叉PTM型预测性能的热图。一旦在其行训练数据集上建立了特定于PTM的模型，就会对来自相同PTM的数据以及列中其他数据集的独立数据进行验证。

如图5A所示，我们观察到Khib、Kcr、Kmal、Kubi、Ksu和Kac模型的auc分别为0.9058、0.9069、0.8696、0.8813、0.8443和0.8903。此外，我们将PLMD数据库[64–66]中包含的数据作为一个不可见的独立集来测试模型。结果表明，iRice-MS分别能正确识别77.82%（663/852）Kubi位点，72.36%（466/644）Ksu位点和76.88%（399/519）Kac位点。如上所述，我们提出的方法在训练数据集上表现出了良好的性能，同时保持了其在独立数据集上的鲁棒性。

为了保证模型的可移植性，我们研究了由一种PTM训练的模型是否能够识别其他类型的PTM。图5B绘制了热图，描述cross-PTM型验证的预测性能。一旦在其行训练数据集上建立了特定于PTM的模型，就会对来自相同PTM的数据以及列中其他数据集的独立数据进行验证。从热图中，我们注意到基于其数据集的模型总是取得最好的性能(AUC=1)，而在其他类型的PTM上产生性能较差，AUC范围为0.5-0.75。这说明不同类型的PTM具有较高的特异性，导致模型之间的转移不佳。因此，构建相应的具体模型是合理和必要的。

5.7 将预测性能与最先进的方法进行比较

为了评估提出的 iRice-MS的预测性能，我们在 iRice-MS和各种代表性计算方法之间进行了多次对比实验，如DeepKhib[21]，nhKcr
[25]、Mal-Prec[29]、ArabidopsisUbq[32]、HybridSucch[35]和ProAcePred[37]。

在上述模型中，只有DeepKhib[21]和杂交体[35]两种工具可以直接应用于水稻蛋白质组，预测Khib和Ksu位点。因此，我们可以在独立数据集上直接将iris-MS与两种工具进行比较。由于nhKcr是一种设计用于识别人类非组蛋白中Kcr位点的预测因子。我们只能使用独立的数据集来进行一个粗略的比较。在丙二酰化、泛素化和乙酰化方面，我们利用我们的训练数据重建了 Mal-Prec [29], ArabidopsisUbq [32] 和ProAcePred [37]，并在独立数据上与iRice-MS进行了比较。

无偏结果如图6所示。
在这里插入图片描述
图6。我们提出的方法iRice-MS和其他现有工具基于独立数据集检验的ROC曲线。

很明显，我们提出的方法iRice-MS产生的AUC值优于其他工具。这一结果证明了iRice-MS与这些基于ML的方法相比的优越性。

六、web服务器的使用

为了方便起见，建立了一个名为iRice-MS的在线网络服务器。在web服务器上提供的分步指南如下：
步骤1。在http://lin-group.cn/server/iRice-MS/webServer.html上打开web服务器，您将看到web服务器页面。将查询的蛋白质序列输入到输入框中或直接上传FASTA格式的文件。
步骤2。选择感兴趣的PTM类型，截止，并点击“提交”按钮，预测结果将作为一个表格列表显示，包含蛋白质名称、位置、序列和分数。
或者，用户可以通过单击“示例”按钮加载演示序列，或者通过单击“清除”按钮清除输入。

总结

本研究提出了一种基于XGBoost的预测模型，可以同时识别水稻中的Khib、Kcr、Kmal、Kubi、Ksu和Kac位点。我进行了各种实验来证明iRice-MS比其他现有工具具有更好的性能。此外，还建立了一个名为iRice-MS的可免费访问的web服务器。

当然，在改造场地研究领域的许多方面都有待改进。在这里，我们总结了以下可以进一步研究的方面。(i)显然，XGBoost中基于信息增益的特征选择方法在处理融合特征时并不能产生最好的性能。因此，我们推测其他非树状结构的分类算法更适合于融合特征。此外，基于相关系数或卡方检验的特征选择方法比基于信息增益的方法具有更好的性能。(ii)既往研究表明，不同PTMs之间的串扰具有协同效应，共同调控基因转录活性[15]。例如，大多数丁基化和kcr标记的基因也被H3K9ac标记，并具有转录活性。因此，挖掘不同串扰之间的分布对于了解植物的生长发育和胁迫响应机制具有重要意义。