综述阅读笔记-生物网络分析与深度学习

生物网络分析与深度学习

Briefings in Bioinformatic 2021 Mar 22

Biological network analysis with deep learning

Abstract

实验高通量技术的最新进展扩大了生物学中分子数据的可用性和数量。鉴于生物过程中相互作用的重要性,例如蛋白质之间的相互作用或化合物内的键,这些数据通常以生物网络的形式表示。这一数据的增加使得人们需要新的计算工具来分析网络。该领域的一个主要趋势是使用深度学习来实现这一目标,更具体地说,使用与网络一起工作的方法,即所谓的图神经网络(GNN)。在这篇文章中,我们描述了生物网络,并回顾了GNN的原理和基本算法。然后,我们讨论了生物信息学中目前经常应用图形神经网络的领域,如蛋白质功能预测、蛋白质-蛋白质相互作用预测以及电子药物发现和开发。最后,我们强调了基因调控网络和疾病诊断等应用领域,在这些领域,深度学习正在成为一种新的工具,可以从数据中回答基因相互作用预测和自动疾病预测等经典问题

关键词:深度学习;生物网络;蛋白质功能预测;蛋白质相互作用预测;药物开发;药物靶点预测

1 Introduction

了解许多生物过程不仅需要了解生物实体本身,还需要了解它们之间的关系。例如,细胞分化等过程不仅取决于存在哪些蛋白质,还取决于哪些蛋白质结合在一起。表示这种过程的一种自然方式是图形,也称为网络,因为图形可以对两个实体及其交互进行建模。

实验高通量技术的最新进展以较低的成本大幅增加了交互屏幕的数据输出,并产生了大量此类生物网络数据[1]。这些数据的可用性使得可以使用生物网络分析来解决生物信息学中的许多令人兴奋的挑战,例如预测新蛋白质的功能基于其结构或预测新药将如何与生物途径相互作用。这些丰富的新数据,加上计算机技术的最新进展,使得能够快速处理这些数据[2,第440页],重新激发了人们对神经网络的兴趣[3-6],这可以追溯到20世纪70年代和80年代,并为深度神经网络(也称为深度学习)的出现奠定了基础,作为解决这些未解决问题的新方法。

深度学习是一种由多层(通常是非线性的)激活函数组成的神经网络,其组成能够对非线性依赖进行建模。这在多个领域(如图像分析[7]和语音识别[8])表现出了经验性的强大性能。深度学习的优势之一是它能够检测数据中的复杂模式,这使得它非常适合应用于生物信息学,其中数据表示生物实体和过程之间复杂、相互依赖的关系,这些过程通常具有内在的噪声,并且在多个尺度上发生[9]。此外,深度学习方法已扩展到图形结构数据,使其成为解决这些生物网络分析问题的一项有前途的技术。本文详细介绍了将深度学习应用于生物网络数据的早期示例,这些示例一致报告了与现有经典机器学习方法相比的可比或更好的结果,突出了其在该领域的潜力。

本文首先介绍生物网络并描述网络上的典型学习任务。随后,我们将解释支持图深度学习的核心概念,即图神经网络(GNN)。最后,我们将讨论GNN在生物信息学中最流行的应用任务。

1.1 Biological networks

DNA、RNA、蛋白质和代谢物在生命细胞过程的分子机制中起着至关重要的作用。研究它们的结构和相互作用是多种原因的基础,包括新药的开发和疾病途径的发现。这些实体的结构和交互都可以使用图来表示,图由一组节点和一组表示节点之间连接的边组成。例如,分子可以表示为图,其中节点是原子,边缘是原子之间的键。类似地,许多生物过程可以用实体作为节点,它们之间的相互作用或关系作为边来建模。由于各种原因,上述图形表示是方便的。网络提供了异构和复杂生物过程的简单直观表示[10]。此外,它有助于通过使用图论、机器学习和深度学习技术来建模和理解复杂的分子机制。

如上所述,可以在不同的细节层次上定义生物网络。除了用于研究分子特性和功能的生物行为体的图形表示外,其他常见的生物网络包括蛋白质-蛋白质相互作用(PPI)网络、基因调控网络(GRN)和代谢网络。此外,由于其在当代健康研究中的相关性,上述生物网络的定义被扩展到包括药物-药物相互作用(DDI)网络。在下文中,我们将简要介绍这些网络。

蛋白质相互作用网络

PPI网络代表蛋白质之间的相互作用[11]。PPI对于几乎所有的细胞功能都是必不可少的[12],从细胞结构成分(即细胞骨架)的组装到转录、翻译和活性转运等过程[13]。PPI还包括瞬时相互作用,即容易形成和断裂的蛋白质复合物[14]。在PPI网络中,节点对应于蛋白质,而边缘定义了连接蛋白质之间的相互作用[15]。PPI的详尽图形表示还包括相互作用的类型,即磷酸化或键。然而,在实践中很少捕捉到这种情况。

蛋白质-蛋白质相互作用要点:构建和分析相互作用组网络的关键概念

De Las Rivas J, Fontanillo C. Protein—protein interactions essentials: key concepts to building and analyzing interactome networks. PLoS Comput Biol 2010;6(6):e1000807.

蛋白质相互作用的网络表示:图形描述和分析理论

Kurzbach B. Network representation of protein interactions: Theory of graph description and analysis. Protein Sci 2016;25(9):1617–27

基因调控网络

GRN代表调控基因表达的复杂机制,这是导致从DNA序列产生蛋白质的一组过程[16]。调控机制发生在DNA产生蛋白质的不同阶段,如转录、翻译和剪接阶段。对这些复杂且相互关联的机制的直观解释将蛋白质视为基因表达的产物和控制器[13]。在GRN中,每个节点代表一个基因,两个基因之间的定向链接意味着一个基因直接调节另一个基因的表达,而不需要其他基因的介导。

代谢网络

代谢网络使用图表来表示新陈代谢,新陈代谢是生物体内为维持生命而发生的所有化学反应的集合。代谢行为体被称为代谢产物,它们代表代谢反应的中间产物和最终产物。鉴于其复杂性,代谢网络通常被分解为代谢途径,即与执行特定代谢功能相关的一系列化学反应[18]。代谢的图形表示包括将每个代谢产物映射到节点,并将每个反应映射到用酶作为催化剂标记的有向边[19]。

药物-药物相互作用网络

DDI网络的目标是模拟不同药物之间的相互作用[20]。DDI网络将药物作为节点,并将其相互作用表示为边。与以前的网络不同,DDI网络不代表生物过程。然而,由于DDI网络是药物相互作用知识的一种有意义的表示,因此DDI网络越来越受到研究人员的关注。事实上,DDI网络被广泛用于多相研究[21]。

正如我们所看到的,生物网络是表示生物数据的一种丰富方式,因为它们不仅捕获关于实体本身的信息,还捕获这些实体之间的关系。关于这些网络的大量信息已经可用,我们在表1中报告了在所审查的方法中使用的一些最相关的生物网络资源。除了作为生物过程的有效表示,生物网络还解锁了一套可用于从图表数据中获取新见解的方法。在下一节中,我们将介绍可以在这种图结构数据上公式化的经典问题类型

1.2 图形上的学习任务

图上的学习任务在高级别上分为节点分类、链接预测、图分类和图嵌入,尽管正如我们将要讨论的,为一个任务设计的方法通常可以适用于处理多个任务。现在我们将更详细地解释每个任务。

节点分类

生物网络分析中的一项典型任务是基于PPI网络中相邻蛋白的功能预测蛋白质的未知功能。当输入图包含一些带有标签的节点,但许多没有标签的节点时,这个问题称为节点分类[77],这一问题很重要,其目标是对网络中剩余的未标记节点进行分类。这通常通过某种形式的半监督学习来解决,其中算法在训练期间使用整个网络作为输入,目标是对所有节点进行分类。尽管所有节点都将被分类,但在训练期间,损失仅在具有真实标签的节点上计算,从而从具有标签的节点中学习,以便对剩余未标记的节点进行分类。

链接预测

目前关于生物网络中相互作用的知识通常是不完整的,例如哪些基因调节GRN中另一个基因的表达。预测这些缺失边,即链接预测[78],在处理此类数据时是一项常见的任务,因为它可以用于预测图中的其他边,或者在加权图的情况下,预测边缘权重本身。这也经常被定义为半监督学习问题,其中图中的已知链接被用于预测可能存在额外链接的位置,类似于节点分类设置。或者,链路预测也可以被构造为一个有监督的学习问题,其中在学习了节点的嵌入之后,对二级模型进行训练以预测给定节点对之间是否存在链路。

图形分类或回归

当生物网络数据由多个单独的网络组成时,如分子三维结构的数据集,目标是预测每个网络的性质,如分子的溶解度或毒性。该任务称为图分类[79],以图的数据集为输入,然后对每个单独的图进行分类(或回归)。这通常是一个有监督的学习问题。

图嵌入

图嵌入找到图的低维、固定大小的向量表示,如PPI网络或网络中的元素,如蛋白质。这通常是通过无监督学习实现的。考虑到将节点或图表示为固定大小的向量的有用性,这使得图能够使用任何现成的机器学习算法,在使用标准机器学习算法执行特定任务之前,学习图嵌入通常被用作预处理步骤。

如上所述,生物数据的图形表示使许多经典学习任务能够公式化。尽管目前可用的高通量技术已经产生了大量此类数据,但它进一步强调了需要新的计算方法来处理和分析这些数据。考虑到数据量,这些方法需要既高效又高效,才能有效地取代以前的方法。深度学习可以满足这两种需求:它为耗时的任务提供了可扩展性,并具有强大的分类性能的潜力,其他领域的强大性能提升就是证明。在下一节中,我们将讨论生物网络上使用的深度学习方法背后的原理和基本算法。

1.3 Graph neural networks

深度学习方法对矢量数据进行操作,并且由于图形数据不能直接转换为矢量,因此需要特殊的方法来调整深度学习方法以处理图形。

GNN是一类这样的方法,它使神经网络方法适应于在图域中工作[83]。虽然GNN领域包括许多不同的子架构,如循环GNN[84,85]、时空GNN[86,87]a n d [83],但我们在此关注的是目前在生物网络分析中使用的那些,即图嵌入技术[80–82]a n d网络(GCN)[83]。我们注意到,尽管与GNN密切相关,但图嵌入技术并不总是被视为GNN的子集。然而,网络嵌入是密切相关的,它经常被用作本文中提到的深度学习应用程序的构建块之一,因此我们将在GNN的伞式分类下对其进行描述。在本节中,我们将首先介绍使用图形时使用的关键符号,并介绍生物信息学中使用的基本图形嵌入和GCN算法。

图深度学习的基本算法

我们现在将详细介绍当今生物信息学中广泛使用的两个子领域:图嵌入和GCN,它们除了是生物信息学最广泛使用的架构之外,还是许多其他GNN架构的基本构建块。我们将介绍的算法可用于解决导言中介绍的学习任务,即节点分类、链接预测、图分类/回归和图嵌入。

Graph embedding

虽然图嵌入通常不被严格视为GNN的子集,但它与GNN交织在一起,鉴于其对其他GNN和生物信息学的重要性,本文将详细讨论。图嵌入方法寻求学习图或图元素(如其节点)的低维向量表示。这种嵌入通常被重新用于节点或图分类或链接预测任务。

尽管有许多方法可以解决图形嵌入问题,但最具代表性的是DeepWalk[89]、node2vec[54]和LINE[90]。DeepWalk[89]利用自然语言处理的word2vec[91]框架,通过从每个节点生成多个随机游走,然后优化Skipgram目标函数,学习图中每个节点的嵌入。Skipgram训练目标学习一个节点的嵌入,以使其最大化预测随机游走中围绕它的节点的概率,就像word2vec学习可以预测周围上下文单词的单词嵌入一样。更具体地说,这可以等价地形式化为[89]的等式2中的以下最小化问题:。。。。。。node2vec[54]基于DeepWalk引入的框架,通过引入参数来控制随机游走是偏向深度优先搜索还是偏向宽度优先搜索。LINE[90]采用了不同的方法。它试图学习低维嵌入,以使节点的一阶和二阶接近度表示节点是否直接连接它们是否分别共享共同的邻居,将被保留。也就是说,由边缘连接的节点或具有相似邻居集的节点应在嵌入空间中彼此靠近。LINE通过最小化目标函数来训练,该目标函数通过异步随机梯度下降来捕获一阶和二阶近似。一旦学习了节点或图的嵌入,就可以使用节点对作为输入,以预测它们之间是否存在链接,例如在node2vec中所做的那样。

Graph convolutional networks

。。。

Gilmer等人[36]从消息传递的角度提供了对图卷积的解释,其中每个节点发送和接收来自其邻居的消息,并且这样做能够更新节点状态。在网络的末端有一个读出步骤,该步骤将节点状态聚集到适当的输出水平(例如,从节点水平到图形水平)。令人印象深刻的是,Gilmer等人能够将本文提到的许多论文直接翻译到他们的框架中,因此,他们的神经信息传递已经成为当今GNN中的一种领先范式。此外,他们测试了这种方案的各种构型,并显示了预测分子性质的最佳构型。

GCN的这些方法也可以理解为类似于Weisfeiler-Lehman核的神经网络,用于测量图的相似性[97,98],该核基于经典的Weisfeier-Lehman-同构测试[99],Kipf和Welling[96]以及Hamilton等人[64]进行了明确的比较。通过聚合节点的所有邻居,使用W的单位矩阵,并将σ设置为适当的哈希函数,可以有效地恢复Weisfeiler–Lehman算法。因此,GCN中的自适应可以看作是Weisfeiler–Lehman算法和核的可微连续扩展。

1.4 生物学应用

在回顾深度学习在生物网络上的不同应用时,我们遇到了不同程度的网络信息。因此,我们必须定义什么是生物网络上的深度学习。从深度学习的角度来看,我们将其定义为基于非线性函数层次结构的学习方法。因此,这篇综述侧重于深度学习方法,并没有总结使用经典机器学习算法的方法,如核方法、SVM、随机森林等,尽管我们将讨论新的深度学习方法相对于经典方法的性能。其次,我们必须定义什么是合格的生物网络,因为一些方法可以使用图形的特征,而无需显式地利用图形结构。例如,可以基于蛋白质中氨基酸的节点标记计数构建特征向量。是否包括这样的示例并不总是很简单。我们最终决定将任何明确讨论或从图形属性生成特征的方法作为有效方法

我们现在将讨论生物网络分析和深度学习的一些主要用例。我们从更多开始在蛋白质分析、药物开发和发现方面的既定实践。然后,我们将讨论深度学习正在成为当前方法的竞争替代品的应用领域,例如在疾病诊断和基因调控和代谢网络分析中。我们在补充材料的表2中提供了关于各种方法的实现的信息。通常,已使用经典交叉验证框架评估了所审查方法的性能。一些论文甚至更进一步,使用额外的外部验证数据集来测试所提出方法的可推广性。此外,一些工作甚至通过文献研究或实验室实验验证了从头预测。当出现上述任一情况时,明确提及。

蛋白质组学

蛋白质在许多生物学过程中起着关键作用,因此更好地理解它们的作用和相互作用对于回答各种生物学问题至关重要。深度学习已经成为回答这些经典问题的一种有前途的新方法。在本节中,我们将重点关注三类主要的蛋白质深度学习任务:预测一对蛋白质是否会相互作用、确定给定蛋白质的功能以及预测蛋白质的3D结构。

Protein interaction prediction

如引言中所述,PPI网络中的节点是蛋白质,节点之间的边缘表示相互作用。给定一个具有代表已知蛋白质相互作用的边缘的蛋白质图,目标是预测图中的其他蛋白质对也可能相互作用。从图论的角度来看,这是一个链接预测问题。使用GCN使这些方法能够直接合并网络信息,而经典的机器学习方法通常不包括网络信息。传统上,许多方法使用氨基酸序列的一级结构来矢量化蛋白质并进行分类。然而,与仅使用序列信息相比,最近利用图结构的方法显示出更强的性能,下面将对此进行更详细的讨论。

作为对经典方法的更广泛评估,Yue等人[41]评估了生物信息学任务中其他领域最先进的基于网络的方法,以提供该领域应改进的基线性能。这些方法通常将网络嵌入与另一种深度学习方法相结合,以评估其在PPI网络中预测链接的性能,并得出结论,最近的基于神经网络的嵌入方法在生物信息学任务中表现出最大的潜力,并且优于传统方法。

生物医学网络上的图形嵌入:方法、应用和评估。

Y u e X , W a n g Z , H u a n g J , et al. Graph embedding on biomedical networks: methods, applications and evaluations. Bioinformatics 2019;36(4):1241–51.

Liu等人[60]将蛋白质相互作用预测从基于纯序列的载体方法增强为使用GCN结合网络信息的方法。他们建议通过使用PPI上的通用GCN框架和蛋白质一级结构序列的编码来学习每个节点的表示。每对蛋白质的表示随后被用作深度神经网络的输入,以预测一对蛋白质是否会相互作用。这种方法扩展了DeepPPI[59]的先前工作,该工作使用对蛋白质序列的矢量摘要的深度学习来预测链接。DeepPPI在包括准确性、准确度和召回率在内的各种指标上都优于SVM、随机森林和朴素贝叶斯等经典方法。Liu等人的模型甚至超过了DeepPPI的性能,显示了将网络信息纳入模型的价值。

Zhang和Kabuka[100]试图捕捉蛋白质数据的复杂性,并通过结合数据的多种模式(如一级和二级相似性以及从蛋白质序列中提取的同源性特征)直接使用拓扑特征。他们通过基于氨基酸组成等特征形成每个蛋白质的载体摘要来预处理数据,然后使用无监督和监督学习方法的组合来预测相互作用。除了与最近邻法和朴素贝叶斯等经典方法相比具有更好的准确性和精度外,他们还表明,他们最先进的预测性能方法在八个不同物种的数据集中得到了保持

DeepPPI 59

Liu 60

Zhang和Kabuka[100]

蛋白质功能预测

蛋白质分析的另一个领域在于预测蛋白质的功能,因为人工评估高通量实验产生的大量数据相当缓慢且成本高昂。提出这个问题有两种典型的方式:作为节点分类任务或图分类任务。正如我们将在下面讨论的,这里讨论的新的深度学习方法通常与基于经典机器学习方法的最新方法进行比较,并报告其性能优于它们

节点分类在节点分类方法中,输入是PPI,其中只有一些节点(即蛋白质)的功能是已知的。任务是对未知节点的功能进行分类。先前讨论的一些预测PPI的方法也用于对网络中的节点进行分类。例如,“图神经网络”一节中描述的两种经典GCN算法GraphSAGE[64]a n d n o d e 2 v e c[54]在PPI数据集上进行了验证,并用于预测网络中蛋白质的功能。此外,Zhang和Kabuka预测PPI的方法[100]也被扩展到对给定蛋白质的功能进行分类。类似地,Yue等人[41]还评估了各种网络算法在节点预测任务中的性能,以预测蛋白质的功能。

好多

疾病诊断

此部分笔记只包含综述的Introduction部分

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值