图神经网络/生物信息交叉 Paper reading

WHSINE

已于 2024-03-18 18:36:01 修改

阅读量1k

点赞数 28

文章标签：神经网络人工智能深度学习

于 2024-02-29 16:02:09 首次发布

本文链接：https://blog.csdn.net/weixin_45951642/article/details/136371566

版权

1. SMILES字符串

2. 利用图马尔可夫神经网络（GMNN）来进行关联性预测

11.Pre-trained protein models (PYPMS)

12. 利用分子的三维信息

痛苦地读论文。。。for 。。。。

持续更新中 :)

1. SMILES字符串

参考:

SMILES:一种简化的分子语言_smiles格式-CSDN博客

如何将化学分子SMILES字符串转化为Pytorch图数据结构——ESOL分子水溶性数据集解析_smiles string-CSDN博客

SMILES,全称是Simplified Molecular Input Line Entry System,是一种用于输入和表示分子反应的线性符号,是一种ASCII编码。

SMILES强大的一点就是存在一种唯一的SMILES,使用标准的SMILES,分子的名字和结构是同义的,在唯一的SMILES里面,这也是通用的,世界上任何使用SMILES命名分子的人都会选择完全相同的名字。

2. 利用图马尔可夫神经网络（GMNN）来进行关联性预测

例如：

采用图马尔可夫神经网络（GMNN）算法来预测未知的circRNA-疾病关联

论文：

GMNN2CD: identification of circRNA–disease associations based on variational inference and graph Markov neural networks

该论文摘要：通过对循环RNA（circRNAs）的特性和功能进行分析，人们意识到它们在疾病中发挥着关键作用。探索circRNAs与疾病之间的关系对于寻找疾病的病因病理和治疗具有深远意义。然而，仅通过生物技术学习新的关联是低效的。因此，作者提出了一种计算方法，GMNN2CD，它采用图马尔可夫神经网络（GMNN）算法来预测未知的circRNA-疾病关联。首先，利用已验证的关联，作者计算疾病的语义相似性和高斯交互特征核相似性（GIPs），以及circRNA的GIPs，然后将它们合并形成统一的描述符。接着，GMNN2CD采用融合特征变分映射自编码器来学习深层特征，并使用基于已知关联的标签传播映射自编码器来传播标签。基于变分推断，GMNN交替训练增强了GMNN2CD从低维表示中获取高效高维特征的能力。最后，对五个基准数据集进行的5倍交叉验证表明，GMNN2CD优于最先进的方法。此外，案例研究表明，GMNN2CD能够检测潜在的关联。

3. 图池化算法

参考：

GNN中的Graph Pooling-CSDN博客

相关论文：

Struct2GO: protein function prediction based on graph pooling algorithm and AlphaFold2 structure information

论文摘要：近年来，蛋白质结构预测取得了突破性进展，DeepMind团队的AlphaFold2模型将蛋白质结构预测的准确性提高到了原子水平。目前，基于深度学习的蛋白质功能预测模型通常从蛋白质序列中提取特征，并将其与蛋白质-蛋白质相互作用网络结合以获得良好的结果。然而，对于不在蛋白质-蛋白质相互作用网络中的新序列蛋白质，这种模型无法进行有效的预测。为了解决这个问题，本文提出了Struct2GO模型，它结合了蛋白质结构和序列数据，以提高蛋白质功能预测的精度和模型的普适性。作者提出了一种新的基于图池化算法和AlphaFold2结构信息的蛋白质功能预测器（protein function prediction based on graph pooling algorithm and AlphaFold2 structure information）。通过图表示学习获取蛋白质结构中的氨基酸残基嵌入，利用基于自注意机制的图池化算法获取整个图结构特征，并将其与从蛋白质语言模型中获取的序列特征进行融合。结果表明，与传统的基于蛋白质序列的功能预测模型相比，Struct2GO模型取得了更好的结果。Gene Ontology（GO）数据库是目前最常用的描述基因和蛋白质功能的数据库。本文利用蛋白质结构信息对GO数据库中的蛋白质功能进行预测，因而称为Struct2GO。作者通过图表示学习获得蛋白质结构中的氨基酸残基嵌入，利用基于自注意力机制的图池化算法获得整个图结构特征，并将其与蛋白质语言模型获得的序列特征融合。结果表明，与传统的基于蛋白质序列的功能预测模型相比，Struct2GO模型取得了更好的结果。具体而言，Struct2GO采用图池化模型从AlphaFold2预测的三维蛋白质结构中获取结构特征，并整合SeqVec提取的序列特征来训练蛋白质功能分类器。AlphaFold2预测的三维蛋白质结构数据为蛋白质功能预测提供了强有力的支持，可以有效提高模型的通用性。同时，与以往基于实验确定的蛋白质结构预测蛋白质功能的方法相比，AlphaFold2提供了足够的高分辨率结构信息，有效提高了预测的准确性。对比实验表明，Struct2Go达到了最先进的性能，从而最终证明了结构信息对蛋白质功能预测的有效支持。

注意：在该论文当中，通过使用节点选择算法，该算法保留了输入图的一些节点和边，并生成一个新的子图作为下一层的输入。池化比率k确定将保留的节点数。

4. 合成致死性（SL）预测

相关论文：

SLGNN: synthetic lethality prediction in human cancers based on factor-aware knowledge graph neural network

论文摘要：合成致死性（SL）是一种基因相互作用形式，可以选择性地杀死癌细胞而不损害正常细胞。利用这种机制在靶向癌症治疗和抗癌药物开发领域日益受到欢迎。由于从实验室实验中识别SL相互作用的局限性，越来越多的研究小组正在设计计算预测方法，以引导潜在的SL配对的发现。尽管现有方法已经尝试捕捉SL相互作用的潜在机制，但仍需要开发更深入理解并尝试解释SL机制的方法。作者通过知识图的信息聚合获得基因的初始嵌入，这避免了对基因特征的手动设计，并且可以通过知识图中所代表的丰富信息生成特征。KGNN（Lin等人，2020年）使用了知识图卷积网络来自动生成实体嵌入，作者遵循这种信息聚合机制并进行了轻微修改。在基于消息传递机制的知识图卷积网络中，知识图中的关系起着重要作用，因为它们连接实体。知识图的一个显著特征是，相同的实体可以通过不同的关系连接，这些关系对应着不同的生物过程。因此，在信息聚合过程中需要区分不同的关系。在先前的工作中，KGNN使用了注意机制来模拟知识图关系作为衰减因子，以控制不同邻居的影响。为了提高模型的性能，作者采取了一种不同的方法，对不同的关系聚合消息的过程是显式的在这项工作中，作者提出了一种新颖的SL预测方法，称为SLGNN。该方法基于以下假设：SL相互作用是由不同的分子事件或生物过程引起的，作者将其定义为导致SL相互作用的SL相关因素。除了识别SL相互作用对，SLGNN还模拟了基因对不同SL相关因素的偏好，使结果对生物学家和临床医生更具解释性。SLGNN包括三个步骤：首先，作者将基因相关知识图中的关系组合建模为SL相关因素。接下来，作者通过知识图的显式信息聚合过程导出基因的初始嵌入。最后，作者通过一个SL图，利用已知的SL基因对构建，利用基于因素的信息聚合导出最终的基因嵌入。在这个阶段，采用了监督的端到端训练模型进行SL相互作用预测。根据实验结果，所提出的SLGNN模型优于所有当前最先进的SL预测方法，并提供了更好的可解释性

值得注意的是，该论文通过对知识图谱（KG）进行消息聚合来获得基因的初始嵌入，这避免了基因特征的手工设计，并且可以通过知识图谱中所表示的丰富信息生成特征。KGNN（Lin等人，2020年）使用了知识图谱卷积网络来自动生成实体嵌入。

参考：

KGNN：基于知识图谱的图神经网络预测药物与药物相互作用 - 知乎

5. 蛋白质溶解度研究

相关论文：

Enhancing Protein Solubility Prediction through Pre-trained Language Models and Graph Convolutional Neural Networks

论文摘要：蛋白质作为驱动多种生物过程的关键实体，其功能性归功于复杂的结构特征和性质。在蛋白质科学领域中，溶解度凸显为一个关键的决定因素。蛋白质的溶解度是其主要序列与周围环境条件之间复杂相互作用的结果。溶解度的重要性在蛋白化学、结构生物学、药学等领域得到体现，并在涉及溶液中蛋白质的研究中保持其核心意义。其影响涵盖生物技术、生物化学和医学应用，特别是在蛋白表达和纯化工作中。本研究介绍了创新的PPSol模型，旨在以卓越的效果预测蛋白质的溶解度。PPSol的方法论包括几个关键步骤。首先，它利用ESM2直接获取蛋白质接触图，这是蛋白质结构中的关键元素。这些接触图作为构建蛋白质图的基石，富含各种蛋白质特征作为节点属性。随后，这些蛋白质图被输入到图卷积神经网络中，有效地吸收蛋白质结构信息的复杂性。此外，PPSol利用ESM2生成蛋白质序列特征，这是理解序列特征的宝贵基础。这些特征经过全连接层的处理，以编码与序列相关的见解。这两条不同路径的结合，即结构和序列，导致了对蛋白质溶解度的强大预测。值得注意的是，PPSol的性能超越了其同行，突显了其在蛋白质溶解度预测领域的有效性。

注意：在这篇论文当中，使用利用ESM2直接获取蛋白质接触图。

ESM相当于是一个蛋白质预训练语言模型。

官网：

GitHub - facebookresearch/esm: Evolutionary Scale Modeling (esm): Pretrained language models for proteins

6. 药物疾病关联预测（DAA）

相关论文：

Hierarchical Semantic Augmentation Graph Neural Network for Drug-Disease Association Predictio

论文摘要：作为药物干预发现中的关键步骤，预测药物-疾病关联（DDA）探索了给定药物和疾病中的潜在治疗关联。由于药物和疾病中的各种联系包含高阶关系和复杂的治疗语义，图神经网络（GNNs）已被引入到DDA预测中并取得了巨大成功。然而，大多数先前的方法要求给定药物和疾病的节点具有平滑属性，在实际应用中很难满足。此外，基于GNN的模型在异质图中进行DDA预测时存在语义混淆的问题。这些挑战限制了模型在药物-疾病网络中发现治疗语义的有效性。为了解决DDA中的这些挑战，作者提出了一种名为HSAGNN的新型图神经网络模型，通过应用SGNN方法的语义引导思想，分层增强节点语义，包括拓扑嵌入学习、属性补全和语义引导聚合等三个关键步骤。HSAGNN首先学习拓扑嵌入，并采用学习到的拓扑关系通过注意力机制来完成缺失属性，从而使节点能够包含更丰富的邻居聚合信息。然后，模型在节点和语义层面上使用语义引导聚合来聚合邻居信息。在这里，HSAGNN将学习到的通用知识作为跳跃知识注入，以减轻语义混淆。作者使用各种基线在DDA任务中评估了模型，并进行了广泛的研究来探索模型的有效性。实验结果表明，HSAGNN能够通过增强语义发现潜在的治疗关联.

7. tRNA-疾病关系预测

PTDA-SWGCL: Predicting tRNA-Disease Associations using Supplementarily Weighted Graph Contrastive Learning

论文摘要：tRNA在蛋白质合成中扮演着关键角色，根据mRNA的指令将氨基酸运输到核糖体。这些分子在各种生物过程中起着重要调节作用，其失调与人类疾病密切相关。预测tRNA与疾病之间的关联对于发现有助于疾病预防、检测、预后、诊断和治疗的生物标志物至关重要。然而，实验验证这些关联是资源密集型的，需要开发强大的计算方法。在本研究中，作者提出了PTDA-SWGCL，这是一个用于预测潜在tRNA-疾病关联的新模型。PTDA-SWGCL整合了从高斯核相似性、序列相似性和语义相似性中得出的tRNA和疾病相似性信息。它使用这些相似性信息初始化tRNA和疾病嵌入，并通过在tRNA-疾病关联图上进行补充权重和图比较学习训练来对其进行改进。最终的关联对预测是通过tRNA和疾病嵌入的内积获得的。实验结果表明，PTDA-SWGCL优于最先进的方法。案例研究证实了其在预测tRNA-疾病关联方面的有效性。

8.异构体功能预测

相关论文：

Isoform Function Prediction Based on Heterogeneous Graph Attention Networks

论文摘要：

异构体指的是从同一基因转录而来、可以转译为具有不同结构和功能的蛋白质的不同mRNA分子。预测异构体功能是生物信息学中一个重要的课题，因为它可以为基因调控和生物过程的复杂机制提供宝贵的洞察力。传统上，基因功能标签是以基因本体（GO）术语标准化的。然而，用于预测异构体功能的传统方法在很大程度上受到异构体特定标签的缺失、稀疏注释以及大量GO术语的限制。为了解决这些问题，我们提出了HANIso，这是一种基于深度学习的异构体功能预测方法。HANIso利用预训练的蛋白质语言模型从蛋白质序列中提取特征。它还使用异构图注意力网络（HAN）集成了异构信息，如异构体序列特征、GO注释和异构体相互作用数据。这使得模型能够通过注意力机制学习不同信息来源的重要性及它们之间的语义关系。我们的方法可以在基因水平和异构体水平上预测功能标签。我们在两个物种数据集上进行实验，结果表明我们的方法在AUROC和AUPRC上均优于现有方法。HANIso有潜力克服传统方法的局限性，并提供对异构体功能更准确、更全面的理解

9. 蛋白质配体亲和力预测

相关论文：

Predicting Protein-Ligand Binding Affinity with Multi-Scale Structural Features

论文摘要：

在药物发现、基因调控和信号转导等领域，预测蛋白质-配体结合亲和力是非常重要的。基于蛋白质结构的DTA（药物-靶标亲和性）方法不仅可以有效弥补缺乏结合信息的问题，而且更符合真实生物过程。尽管基于结构的DTA方法取得了良好的性能，但现有方法仍然存在只考虑单尺度结构特征、忽略多尺度结构特征的问题。为了解决这一问题，我们提出了MSSDTA（多尺度结构表示药物-靶标亲和性预测），该方法通过整合蛋白质的表面节点特征和结构节点特征来提取多尺度蛋白质特征。同时，药物表示网络用于融合药物的二维分子结构特征和化学特征，以有效区分具有类似平面结构的药物分子。最后，亲和性预测网络用于生成蛋白质-配体结合亲和力分数。我们在PDBbind v.2019数据集上验证了该模型的性能。实验结果表明，所提出的方法取得了出色的性能。

10. InterProScan

官网：InterPro

11.Pre-trained protein models (PYPMS)

Pre-trained language models (PTLMs) have prevailed in natural language processing (NLP). Recently,some methods (Alley et al., 2019; Elnaggar et al., 2021; Rives et al., 2021) use PTLMs toencode protein sequences to predict biological functions, which are called pre-trained protein models(PTPMs).

使用PTLMs对蛋白质序列进行编码以预测生物功能，这些方法被称为预训练蛋白质模型

与自然语言相比，蛋白质结构有四个明显的层次（Kessel & Ben-Tal，2018）。第一级是由氨基酸组成的蛋白质序列，第二级指的是局部折叠结构（例如α螺旋和β折叠片），第三级描述了自然折叠的三维结构，第四级是由多个多肽组成的蛋白质多聚体。蛋白质可以专注于不同的结构水平以实现其特定功能，包括保留一段序列，展现整体的三维结构作为构象元素，甚至与其他蛋白质合作。因此，在预测蛋白质功能时，灵活利用多级结构信息至关重要

12. 利用分子的三维信息

相关论文：

TOWARDS 3D MOLECULE-TEXT INTERPRETATION IN LANGUAGE MODELS

性显著地限制了它们在生物分子领域的潜力。为了弥合这一差距，作者专注于3D分子-文本解释，并提出了3D-MoLM：3D分子语言建模。具体来说，3D-MoLM通过为LM配备一个3D分子编码器，使LM能够解释和分析3D分子。这种整合是通过一个3D分子-文本投影器实现的，它连接了3D分子编码器的表示空间和LM的输入空间。此外，为了增强3D-MoLM对跨模态分子理解和遵循指令的能力，策划了一个3D分子为中心的指令调优数据集 - 3DMoIT。通过3D分子-文本对齐和3D分子为中心的指令调优，3D-MoLM建立了一个3D分子编码器和LM的整合。它在下游任务上明显超过了现有的基线，包括分子-文本检索、分子字幕生成，以及更具挑战性的开放式文本分子问答任务，特别关注3D相关属性。

该论文重在解决弥合分子三维结构与语言模型之间的gap。

首先，需要一个encoder，来编码分子的三维结构。

同时，还需要一个projector，来将分子三维结构与语言模型这两个不同的空间进行对齐。

并且，为了更好的进行下游任务和指令遵循能力，作者还进行了指令微调。

在这篇论文当中，作者使用了uni-mol这个预训练的encoder来作为编码分子三维结构的encorder。使用了Q-former来作为框架来完成分子三维结构和语言模型之间的对齐。

GitHub - lsh0520/3D-MoLM

13. 利用大语言模型来进行图结构学习

参考论文

GraphEdit: Large Language Models for Graph Structure Learning

图结构学习（GSL）致力于通过生成新颖的图结构来捕获图结构化数据中节点之间的内在依赖和相互作用。图神经网络（GNNs）已经成为一种有前途的GSL解决方案，利用递归消息传递来编码节点间的相互依赖关系。然而，许多现有的GSL方法严重依赖显式的图结构信息作为监督信号，这使它们容易受到数据噪声和稀疏性等挑战的影响。在这项工作中，作者提出了GraphEdit方法，这是一种利用大型语言模型（LLMs）来学习图结构化数据中复杂节点关系的方法。通过通过指导调整图结构来增强LLMs的推理能力，作者旨在克服与显式图结构信息相关的限制，并增强图结构学习的可靠性。我们的方法不仅能有效去噪嘈杂的连接，还能从全局的角度识别节点间的依赖关系，提供对图结构的全面理解。我们在多个基准数据集上进行了大量实验，以展示GraphEdit在各种设置下的有效性和鲁棒性

为实现训练目标，作者选择使用指令微调的方式对大模型进行微调。

作者微调出了一个轻量级的基于大模型的边预测器，来识别原始图结构外，识别潜在的候选边，即帮助llm在原始节点之间选出候选边。

在此基础上，再通过一个大模型结合prompt的方式，来最终确定哪些边可以加入到最终的图当中。

作者称他们的框架通过整合边预测器的预测结果并利用LLM的推理能力来增强最终图的质量和结构。这导致隐含的全局节点间依赖关系被揭示出来，并且噪声连接被去噪，从而得到了改进的图表示。

但是，值得注意的是，在这篇论文当中，作者选择的任务是论文的连接关系，其好像不存在类似生物化学领域当中，分子图编码后，如果使用大模型，则需要进行对齐的过程。