GPS-Uber:一个用于预测一般和e3特异性赖氨酸泛素化位点的混合学习框架

文章链接:https://academic.oup.com/bib/advance-article-abstract/doi/10.1093/bib/bbab574/6509047
DOI:10.1093/bib/bbab574/6509047
期刊:BiB
发布时间:2022 年 1 月 17 日
初始基准数据集、二次训练数据集和独立测试数据集均可在:http://gpsuber.biocuckoo.cn/userguide.php上免费下载。


前言

赖氨酸泛素化作为一种​​重要的翻译后修饰,参与众多生物学过程并涉及人类疾病,而泛素化的位点特异性主要由泛素-蛋白连接酶(E3s)决定。尽管已经开发了许多泛素化预测因子,但 E3 特异性泛素化位点的计算预测仍然是一个巨大的挑战。在这里,我们仔细回顾了预测一般泛素化位点的现有工具。
此外,我们开发了一个名为 GPS-Uber 的工具,用于预测E3 特异性泛素化位点。从文献中,我们手动收集了 1311 个实验确定的特定位点 E3-底物关系,根据不同级别的相应 E3 将其分类为不同的簇。为了预测一般泛素化位点,我们整合了 10 种序列和结构特征,以及逻辑回归、深度神经网络和卷积神经网络三种算法。与其他现有工具相比,GPS-Uber 中的通用模型表现出极具竞争力的精度,曲线下面积值为 0.7649
然后,对每个E3聚类采用迁移学习方法构建E3特异性模型,共实现112个个体E3特异性预测因子
利用GPS-Uber,我们对人类癌症相关的泛素化事件进行了系统的预测,这可能有助于进一步的实验考虑。GPS-Uber将定期更新,其在线服务将在http://gpsuber.biocuckoo.cn/上免费进行学术研究。

一、简介

赖氨酸泛素化是最不可或缺的翻译后修饰(PTMs)之一,它调节着广泛的生物过程,包括蛋白质降解和周转、细胞膜运输、细胞周期和脱氧核糖核酸(DNA)损伤修复。1978年,Ciehanover等人发现了一种76氨基酸的蛋白质泛素,它可以通过泛素活化酶(E1s)、泛素结合酶(E2s)和泛素蛋白连接酶(E3s)催化的一系列生化反应,与蛋白质底物中的赖氨酸残基共价连接。
e3是一种结构多样的酶,在决定泛素化反应的底物特异性和效率方面起着关键作用。e3和泛素化靶点的畸变与许多人类疾病有关,如癌症、自身免疫性疾病、代谢综合征和神经退行性疾病。因此,识别e3特异性靶点和位点特异性e3-底物关系(ssESRs)是理解赖氨酸泛素化的分子机制和调控作用的基础。
传统上,e3特异性靶点和泛素化位点的生化鉴定是低通量(LTP)、劳动密集型和耗时的。在过去的几年中,人们发展了一些高通量(HTP)实验方法,如酵母双杂交筛选、噬菌体显示、全局蛋白稳定性谱、亲和纯化串联质谱(AP-MS/MS)和Gly-Gly(diGly)残余亲和纯化。例如,在2008年,Yen等人开发了一种基于f荧光的系统,称为全局蛋白质稳定性谱,该系统可以监测不同生理和疾病条件下的蛋白质周转。利用这种方法,Yen等人系统地鉴定了359个Skp1-cullin-F-box(自洽场)泛素连接酶的高潜力底物,并且大多数已知的自洽场靶点被覆盖。在AP-MS/MS的帮助下,Low等人鉴定出了221个潜在的含有DpSGXX(X)pS基序的SCFβTrCP底物,这是一个可被SCFβTrCP特异性识别的主要degron。此外,Elia等人利用diGly残余亲和纯化策略鉴定了33 503 个泛素化位点,并发现EXO1作为一个新的自洽场靶点,以应对DNA损伤的自洽场靶点。
除了LTP和HTP的实验分析外,e3-底物相互作用(ESIs)或泛素化位点的计算预测也已成为一种非常有用的方法。对于ESIs的预测,2017年,李等人整合了多种信息特征,包括同源ESI、丰富域对、丰富基因本体(GO)项对、网络拓扑和E3识别主题(又名“主ESI”),并开发了一种基于贝叶斯的方法,名为泛浏览器。最近,UbiBrowser2.0覆盖了更多的物种,并实现了去泛素基底物相互作用的预测。与此同时,Chen等人整合了基于转录组学、蛋白质组学、基于网络和通路的关联,并使用递归特征消除和随机森林(RF)算法开发了一种预测ESIs的新方法。通过进一步的实验,他们分别验证了SCFSKP2和SCFFBXL6的3个和5个潜在的新靶点。
为了预测一般或物种特异性的泛素化位点,也开发了各种工具,包括UbiPred, UbPred,UbSite , CKSAAP_UbSite , WPNNA , UbiProber, hCKSAAP_UbSite , RUBI , iUbiq-Lys ,UbiSite , ESA-UbiSite, PTM-ssMP , PTMscape, ModPred , deepUbiquitylation , DeepUbi, MUscADEL , DL-plant-ubsites-prediction ,MusiteDeep , UbiSite-XGBoost , UbiComb [40],
CNNAthUbi , DeepTL-Ubi and MultiLyGAN.虽然在泛素化的计算分析方面已经做出了大量的努力,但预测准确的ssESRs仍然是一个巨大的挑战。

在这里,我们首先提供了目前可用的工具来预测一般和物种特异性泛素化位点的简要回顾。然后,我们开发了一个基于群体的泛素E3连接酶-底物关系预测系统(GPS-Uber)在线服务,该系统可以从蛋白质序列中预测一般和E3特异性赖氨酸泛素化位点。对于GPS-Uber的训练模型,我们考虑了7个序列和3个基于结构的特征,并将二维(2D)卷积神经网络(CNN)、深度神经网络(DNN)和惩罚逻辑回归(PLR)三种机器学习算法集成到混合学习架构中。

与现有其他工具相比,GPS-Uber表现出较高的竞争精度,预测一般泛素化位点的曲线下面积(AUC)值为0.7649。在迁移学习的帮助下,我们还构建了111个个体的e3特异性预测因子(图1)
==为了研究泛素化与癌症之间的潜在关系,我们利用GPS-Uber在E3组水平上预测了已知癌症蛋白的泛素化位点,为进一步的实验考虑提供了有用的资源。==综上所述,我们预计GPSUber将有助于促进e3介导的泛素化的研究。
在这里插入图片描述
图1。本研究的实验程序。首先,从PLMD中提取实验鉴定的泛素化位点,并通过CD-HIT聚类去除同源位点,生成包含61161 个泛素化位点的初始训练数据集。然后,利用GPS、DNN、PLR和CNC、CKSAAP、OBC、AAindex、ACF、PSSM、ASA、SS和BTA进行模型训练。同时,从PubMed中手工收集已知的E3特异性泛素化位点,并根据iUUCD的信息将其分类为各种E3簇。对不同的E3聚类进行迁移学习,基于一般模型构建E3特异性模型。最后,为该领域的研究人员开发了一种用户友好的在线服务。

二、方法

2.1 数据收集和准备

首先,将“泛素化”、“泛素化”和“泛素化”等关键字的组合,加入“赖氨酸”、“残基”、“站点”和“蛋白质组学”等后缀,从PubMed中搜索实验鉴定的 ssESRs。我们只收集了智人中已知的 ssESRs,因为在其他物种中发现的 ssESRs要少得多。通过文献生物鉴定,我们在391个蛋白的177个e3的1117个人类泛素化位点之间获得了1311个已知的 ssESRs(补充表S1)。关于已知 ssESRs收集的更多细节见补充方法。2017年,我们建立了蛋白赖氨酸修饰数据库(PLMD),该数据库包含了25103 个蛋白中的121742 个实验鉴定的赖氨酸泛素化位点。为了预测一般的泛素化位点,我们以这些位点作为基准数据集。采用了一个广泛使用的聚类程序CD-HIT,以40%的序列相似性阈值将该数据集分类为不同的聚类。
为了避免同源冗余,每个聚类中只提取一个代表性序列到训练数据中。然后,我们将一个泛素化位点肽USP(m,n)定义为赖氨酸残基,位于上游m残基和下游n残基,本研究选择USP(10,10)进行快速训练。如前所述,&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值