Nature Methods 级别的图注意力网络！单个细胞蛋白质情境 AI 模型

本文链接：https://blog.csdn.net/weixin_49214410/article/details/141218034

生信碱移

蛋白质情境 AI 模型

蛋白质是细胞的功能单位，其相互作用使其能够执行不同的生物功能。高通量方法的发展使得大规模蛋白质相互作用图谱的表征成为可能。利用这些蛋白质相互作用网络，已开发出计算方法来提高对蛋白质结构的理解，准确预测功能注释，并指导治疗靶点的设计。

一个可能的假设是，蛋白质的作用受其所处生物环境的影响：

蛋白质在不同情境下可能具有不同的作用。虽然几乎每个细胞都包含相同的基因组，但基因的表达和这些基因编码的蛋白质的功能依赖于细胞和组织情境。基因表达和蛋白质功能在健康和疾病状态之间也可能存在显著差异。因此，结合生物学情境的计算方法可以改善蛋白质的表征。
现有方法产生的是不考虑情境的蛋白质表示。每个蛋白质仅有一个表示，这个表示从单一情境或多个情境的综合视角中学习得来。这些方法为每个蛋白质生成一个表示，提供蛋白质的综合摘要。虽然这种蛋白质表示可能有价值，但它们并未针对特定生物情境（如细胞类型和疾病状态）进行定制。这使得使用蛋白质表示来预测随细胞类型变化的分子表型以及预测多效性和蛋白质在不同细胞类型中的其他角色变得具有挑战性。

▲ 生物基因组学交互数据库（BioGRID）:收集和提供蛋白质、基因、化学物质及其相互作用的信息。

综上所述，蛋白质相互作用网络是研究蛋白质功能和治疗潜力的重要组成部分。然而，准确建模跨越不同生物环境（如组织和细胞类型）的蛋白质相互作用，对于现有算法仍是一个重大挑战。就在这个月22号，来自哈佛大学的研究团队于 Nature Methods [IF: 36.1] 上发表了一篇研究文章，其中介绍了 PINNACLE，一种灵活的几何深度学习方法，训练于情境化的蛋白质相互作用网络，用于生成情境化的蛋白质表示。利用人类多器官单细胞转录组图谱，PINNACLE提供了 394,760 个蛋白质表示，分布在 24 个组织和器官中的 156 种不同的细胞类型情境下。

▲ DOI: 10.1038/s41592-024-02341-3

结果表明，PINNACLE 情境化的蛋白质表示反映了细胞和组织的组织结构，PINNACLE 的组织表示可以实现零样本检索组织层次结构。明确了细胞和组织情境后，PINNACLE 的蛋白质表示可以适用于下游任务：如增强基于 3D 结构的蛋白质表示（即PD-1/PD-L1和B7-1/CTLA-4）以及研究药物在不同细胞情境下的基因组效应。通过情境化学习，PINNACLE 的蛋白质表示在筛选类风湿性关节炎和炎症性肠病的治疗靶点时，比最先进但不考虑情境的模型分别在18.6%（156种细胞类型中的29种）和8.6%（152种细胞类型中的13种）情境下表现更优。

▲ PINNACLE 使用特定于每个节点和关系类型的注意机制在蛋白质、细胞类型和组织上传播信息

模型的部分细节

1. 该模型的训练数据

模型训练使用的数据包括两个主要来源：

「人类物理蛋白质相互作用网络参考（PPI）」：这是 BioGRID、Human Reference Interactome (HuRI) 和 Menche 等人提供的多重验证的物理相互作用的联合，包含15,461个节点和207,641条边。
「人类多器官单细胞转录组图谱」：利用 Tabula Sapiens 数据源，包含 15 位捐赠者的 59 个样本，共 483,152 个细胞，经过质量控制后，细胞分为 264,824 个免疫细胞、104,148 个上皮细胞、31,691 个内皮细胞和 82,478 个基质细胞。

2. 模型的架构

PINNACLE是一个多尺度图神经网络模型，其架构包括以下几个部分：

「多尺度网络构建」：包括蛋白质-蛋白质物理相互作用、细胞类型-细胞类型通信、细胞类型-组织关系和组织-组织层次结构。
「细胞类型特异的蛋白质相互作用网络」：每个细胞类型的网络表示在该细胞类型中可能表达的蛋白质（或基因）之间的物理相互作用。
「跨尺度消息传递」：通过蛋白质、细胞类型和组织进行生物学信息传递，以学习细胞类型特异的蛋白质表示、细胞类型表示和组织表示。
「注意力机制」：在各个生物学层级上应用注意力机制（蛋白质层级、细胞类型层级和组织层级），用于捕捉节点和边类型的重要性。

3. 模型的训练策略

PINNACLE的训练策略包括以下几个方面：

「数据分割」：将蛋白质-蛋白质边随机分为训练集（80%）、验证集（10%）和测试集（10%）。
「负采样」：在链接预测中生成假（或负）边，正负边比例为1:1。
「超参数调优」：使用随机搜索优化超参数，最佳超参数通过优化验证集上的 ROC 和 Calinski-Harabasz 评分选出。
「自监督学习」：通过自监督链接预测和细胞类型识别任务进行训练，掩蔽一部分边进行预测以学习图的连通性。

4. 模型的损失函数项及其作用

PINNACLE的损失函数优化三个生物学层级的拓扑结构：蛋白质层级、细胞类型层级和组织层级。具体损失函数包括：

「蛋白质层级」：损失函数包含预测每个细胞类型特异PPI网络中的PPI和预测每个蛋白质的细胞类型身份。使用二元交叉熵最小化预测正负PPI的错误，使用中心损失区分不同细胞类型的蛋白质表示。
「细胞类型层级」：使用二元交叉熵最小化预测细胞类型间交互和细胞类型-组织关系的错误。
「组织层级」：使用二元交叉熵最小化预测组织间和组织-细胞类型关系的错误。
「总体损失函数」：三个生物学层级的损失函数组成总体损失函数，每个层级的贡献由可调参数决定。

单个细胞从精细度层面确实非常有利

用来做模型训练会有很多新奇的思路

多多思考一下中心法则的细节

就分享到这里了

欢迎各位老铁关注一手