期刊:communications biology
中科院分区:1区
影像因子:6.548
Github: https://github.com/houzl3416/EDLMPPI
摘要
- 蛋白质-蛋白质相互作用(PPIs)通过显著影响蛋白质的功能表达来控制细胞通路和过程。因此,准确识别蛋白质-蛋白质相互作用结合位点已成为蛋白质功能分析的关键步骤。
- 现有问题:大多数计算方法都是基于生物特征,数据不平衡。
- 本文开发了一种基于集成深度学习模型(EDLM)的蛋白质-蛋白质相互作用(PPI)位点识别方法(EDLMPPI)。在Dset_448、Dset_72和Dset_164三个广泛使用的基准数据集上都优于现有方法。
背景
蛋白质相互作用通过显著影响蛋白质功能表达来控制细胞细胞通路和过程,目前已经存在一些方法用于解决蛋白质相互作用和相关位点。
出了大量的蛋白质序列编码方法来将蛋白质序列建模为特征矩阵。蛋白质相互作用位点的单热编码是一种非常有效的方法,已被用于许多计算方法。然而,它们不能准确地表达氨基酸之间的功能差异。位置特定评分矩阵(Position-specific scoring matrix, PSSM)经常被用于序列级和残差级预测任务,由于PSSM需要对大型数据库的序列进行比对,因此相对耗时。为了应对不平衡数据集的影响,我们训练多个深度学习模型来形成集成深度学习,然后进行预测。
数据集
对于数据集,我们收集了三个广泛使用的基准数据集,Dset_186, Dset_72和Dset_164。Dset_186由PDB数据库构建,包含186个蛋白序列,分辨率<3.0 Å,序列同源性<25%。该数据集经过多个步骤的细化,包括去除具有相同UniprotKB/Swiss-Prot序列的链,去除跨膜蛋白,去除二聚体结构,去除表面可达性和界面极性埋藏在一定范围内的蛋白质,以及去除相似性。Dset_72和Dset_164的构建方法与Dset_186相同,分别由72个和186个蛋白质序列组成。
Dset_1291是来自BioLip数据库的数据集,如果一个残基的一个原子和一个给定蛋白质伙伴的原子之间的距离为0.5 Å加上两个原子的范德华半径之和,则定义了一个结合位点。。
最后使用Dset_843 (Dset_1291中的843个序列)来训练我们的模型,其余448个序列(Dset_448)作为独立的测试集。
方法
深度记忆胶囊网络扩展了传统记忆网络的并行性,将它们与不同的输出大小连接起来,以捕获不同深度尺度上氨基酸之间的相关性。此外,胶囊结构可以进一步挖掘特征之间的内在联系,保留样本之间的位置信息。此外,为了提高模型的泛化性和稳定性,我们引入了非对称bagging算法来解决样本间高度不平衡的问题。
结合域
蛋白质结合域分析。蛋白质结构域与蛋白质生理功能的完成密切相关,是蛋白质细胞功能的结构基础。为了深入了解蛋白质结构域和蛋白质-蛋白质相互作用位点之间的潜在关系,我们进行了一个实验来验证EDLMPPI是否能准确预测蛋白质结构域中的PPIs。我们利用Pfam对Dset_448数据集中的448个蛋白质序列进行注释,去除重叠的结构域,最终得到501个结构域。图3b显示了每个尺寸的结构域与其中ppi数量的对应关系,我们比较了EDLMPPI、DELPHI和SCRIBER13的预测结果。此外,为了增强实验的合理性,我们增加了一个对照组:从序列中随机选取一个与蛋白质结构域大小相同的片段。从结果来看,EDLMPPI的预测结果比其他两种方法更为乐观,随着结构域的增大,EDLMPPI预测的PPIs数量增加。根据之前的一项研究52,长度偏差结构域超家族具有高度相互作用,功能更加混合,并受多种蛋白质调控,这支持了EDLMPPI预测蛋白质功能的合理性。此外,我们计算了EDLMPPI、DELPHI和SCRIBER对每个结构域估计的预测PPIs的比例,并计算了与真实比例向量的Pearson相关系数。EDLMPPI与原生注释的相关性最高,得分为0.70,而DELPHI、SCRIBER和对照组的相关性分别为0.63、0.57和0.21。