欢迎关注微信公众号《生信修炼手册》!
从数据库中得到蛋白质的相互作用信息之后,我们可以构建蛋白质间的相互作用网络,但是这个网络是非常复杂的,节点和连线的个数很多,如果从整体上看,很难挖掘出任何有生物学价值的信息,所以我们需要借助一些算法来深入挖掘。
随着各个数据库中信息通量的不断提高,基于网络的分析方法越来越受欢迎,比如我们常见的蛋白质相互网络,基因共表达网络,转录因子调控网络,pathway网络等等,为了更好的理解后续的数据挖掘算法,首选要对网路的属性有一些基本了解。
从数据结构上看,我们所说的网络network是属于图Graph这一数据结构的,网络是一种比较直观的描述,就是点和点之间的连线,在算法上,为了准确描述一个网络,通常借助于邻接矩阵,示意如下
在网络中,根据节点的连线是否具有方向,可以划分为有向图和无向图两类,无向图中被一条线连接的两个节点其作用是相互的,比如基因共表达网络,两个基因间互为共表达基因,而有向图中,连线是有方向性的,比如转录因子调控网络,转录因子调控基因,所以连线由转录因子指向某个基因。
无向图的描述为undirected graph, 有向图的描述为directed graph。PPI网络由于蛋白的作用是相互的,所以通常归类为无向图。
除了连线的方向性,根据连线对应的值,可以将网络图分为加权和非加权两种, 以基因共表达网络