生物网络分析与深度学习
Briefings in Bioinformatic 2021 Mar 22
Biological network analysis with deep learning
Abstract
实验高通量技术的最新进展扩大了生物学中分子数据的可用性和数量。鉴于生物过程中相互作用的重要性,例如蛋白质之间的相互作用或化合物内的键,这些数据通常以生物网络的形式表示。这一数据的增加使得人们需要新的计算工具来分析网络。该领域的一个主要趋势是使用深度学习来实现这一目标,更具体地说,使用与网络一起工作的方法,即所谓的图神经网络(GNN)。在这篇文章中,我们描述了生物网络,并回顾了GNN的原理和基本算法。然后,我们讨论了生物信息学中目前经常应用图形神经网络的领域,如蛋白质功能预测、蛋白质-蛋白质相互作用预测以及电子药物发现和开发。最后,我们强调了基因调控网络和疾病诊断等应用领域,在这些领域,深度学习正在成为一种新的工具,可以从数据中回答基因相互作用预测和自动疾病预测等经典问题
关键词:深度学习;生物网络;蛋白质功能预测;蛋白质相互作用预测;药物开发;药物靶点预测
1 Introduction
了解许多生物过程不仅需要了解生物实体本身,还需要了解它们之间的关系。例如,细胞分化等过程不仅取决于存在哪些蛋白质,还取决于哪些蛋白质结合在一起。表示这种过程的一种自然方式是图形,也称为网络,因为图形可以对两个实体及其交互进行建模。
实验高通量技术的最新进展以较低的成本大幅增加了交互屏幕的数据输出,并产生了大量此类生物网络数据[1]。这些数据的可用性使得可以使用生物网络分析来解决生物信息学中的许多令人兴奋的挑战,例如预测新蛋白质的功能基于其结构或预测新药将如何与生物途径相互作用。这些丰富的新数据,加上计算机技术的最新进展,使得能够快速处理这些数据[2,第440页],重新激发了人们对神经网络的兴趣[3-6],这可以追溯到20世纪70年代和80年代,并为深度神经网络(也称为深度学习)的出现奠定了基础,作为解决这些未解决问题的新方法。
深度学习是一种由多层(通常是非线性的)激活函数组成的神经网络,其组成能够对非线性依赖进行建模。这在多个领域(如图像分析[7]和语音识别[8])表现出了经验性的强大性能。深度学习的优势之一是它能够检测数据中的复杂模式,这使得它非常适合应用于生物信息学,其中数据表示生物实体和过程之间复杂、相互依赖的关系,这些过程通常具有内在的噪声,并且在多个尺度上发生[9]。此外,深度学习方法已扩展到图形结构数据,使其成为解决这些生物网络分析问题的一项有前途的技术。本文详细介绍了将深度学习应用于生物网络数据的早期示例,这些示例一致报告了与现有经典机器学习方法相比的可比或更好的结果,突出了其在该领域的潜力。
本文首先介绍生物网络并描述网络上的典型学习任务。随后,我们将解释支持图深度学习的核心概念,即图神经网络(GNN)。最后,我们将讨论GNN在生物信息学中最流行的应用任务。
1.1 Biological networks
DNA、RNA、蛋白质和代谢物在生命细胞过程的分子机制中起着至关重要的作用。研究它们的结构和相互作用是多种原因的基础,包括新药的开发和疾病途径的发现。这些实体的结构和交互都可以使用图来表示,图由一组节点和一组表示节点之间连接的边组成。例如,分子可以表示为图,其中节点是原子,边缘是原子之间的键。类似地,许多生物过程可以用实体作为节点,它们之间的相互作用或关系作为边来建模。由于各种原因,上述图形表示是方便的。网络提供了异构和复杂生物过程的简单直观表示[10]。此外,它有助于通过使用图论、机器学习和深度学习技术来建模和理解复杂的分子机制。