摘要: 多类型蛋白质−蛋白质相互作用(protein-protein interaction, PPI)的研究是从系统角度理解生物过程和揭示疾病机制的基础。现有的GNN-PPI、PIPR等针对多类型PPI预测方法在采用广度和深度优先搜索对数据集进行划分时,测试准确率会显著下降,因此本文基于Doc2vec方法思想和图卷积神经网络(graph convolutional network, GCN)技术,提出了一种新的多类型PPI预测方法GDP(GCN Doc2vec PPI )。该方法无需依赖蛋白质的物理和生物学特性,仅用序列信息对蛋白质进行编码,并结合网络结构信息对蛋白质进行特征聚合形成PPI信息,从而对其进行多类型预测。实验结果表明,该方法在不同规模的真实数据中可以有效地提高多类型PPI预测准确率,尤其是在训练集中未曾见过的新蛋白质之间的PPI。
- 关键词:
- PPI网络 /
- 图神经网络 /
- 蛋白质功能预测 /
- 深度学习 /
- 生物学意义 /
- 复杂网络 /
- 图卷积神经网络 /
- 非监督学习 /
- 蛋白质序列
蛋白质−蛋白质相互作用(protein-protein interaction, PPI)在许多生物过程中都有着重要作用,在这些过程中,蛋白质通过与其他蛋白质相互作用形成特定功能。建立准确的 PPI 预测模型对于理解正常及疾病状态下的细胞生物至关重要,推动了现代医学的发展,如靶点治疗[1]和新药设计[2]。
生物实验技术[3-5]虽然能够直接发现和验证PPI,但价格昂贵、检测