蛋白质相互作用系列：GN快速算法

最新推荐文章于 2022-02-04 10:34:00 发布

隔壁王同学啊

最新推荐文章于 2022-02-04 10:34:00 发布

阅读量382

点赞数

分类专栏：计算生物学

本文链接：https://blog.csdn.net/weixin_43770577/article/details/114084582

版权

计算生物学专栏收录该内容

23 篇文章 6 订阅

订阅专栏

通过前两篇博客，我们知道GN算法的时间复杂度并不理想，当网络中包含上千个顶点时，这个算法会耗费大量时间。鉴于此，Newman（2004）^[1]描述了一个快速算法。经测试，该算法能很好的分析生成的网络和真实世界的网络，并比原先算法快了近千倍！
快速算法的时间复杂度为O((m+n)n),当时稀疏网络时是O（n²),其中m是顶点数，n是边数。此算法是凝聚法的一种，并且是基于模块度Q。既然Q值越大，则划分的社区结构越好，那么可不可以将一个网络所有的划分情况都罗列出来，然后计算Q值，找出Q值最大的那种划分情况，这个划分无疑是最好的。但罗列出所有的划分情况是非常耗时！即如果有n个顶点，划分为g个社团(0<=g<=n)，则根据第二类斯特林数，共有S_n^(g)
$\frac { 1 } { g ! } \sum _ { k = 0 } ^ { g} ( - 1 ) ^ { k } \left( \begin{array} { c } g \\ k \end{array} \right) ( g - k ) ^ { n }$ ,所以总情况数为 $\sum _ { g = 1 } ^ { n } S _ { n } ^ { ( g ) }$
而 $S _ { n } ^ { ( 1 ) } + S _ { n } ^ { ( 2 ) } = 2 ^ { n - 1 }$ ，可知总情况数目是指数型增长的，所以当网络中有20以上的顶点时，计算总情况数是不可行的。故我们可以转而求局部最优解，而快速算法是基于贪婪算法的寻求局部最大Q值。
在正式介绍快速算法之前，我们先明确一个概念，即 $e _ { i j }$ ,当表示社团i和社团j之间的边数占总边数的比例。Newman做了特别的声明:一条边的计数不能同时出现在e矩阵的对角线的上方和下方，例如当总边数为17，而i,j之间有5条边，则 $e _ { i j }$ = $e _ { ji }$ = $\frac { 1 } { 2 } \times \frac { 5 } { 17 }$ ，即将i，j之间边数分为两份，一份计入 $e _ { i j }$ ，一份计入 $e _ { ji }$ 。故 $e _ { i j }$ + $e _ { ji }$ 为社团i和社团j之间的边数占总边数的比例（我们先记下这点，下文会用到。）
快速算法的步骤如下：
1，将网络每个顶点均看做一个社团，初始的顶点i和j之间有边相连，则 $e _ { i j }$ = $\frac { 1 } { 2 m }$ ，否则为0。
$\frac { k _ { i } } { 2 m }$ , $k_{i}$ 是顶点i的度。
2，依次合并有边相连的社团对，并计算合并后的Q值的增量 $\Delta Q$ :
$\Delta Q = e _ { i j } + e _ { j i } - 2 a _ { i } a _ { j }$
下面解释一下 $\Delta Q$ 的由来：根据上篇博客给出的Q值定义，则可知 $\Delta Q$ 定义为（新增的内部边数）-（该类边的期望边数）
两个社团i,j合并后，之前社团i、j内部的仍是新社团内部的边，而之前社团i,j之间连接的边也成了新社团内部的边。所以整个网络的内部边的增量为 $e _ { i j } + e _ { j i }$ ,而i,j间边数期望值是 $\frac { k i k j } { 2 m }$ = $2 a _ { i } a _ { j }$ 。

虽然快速算法在时间复杂度方面由于GN算法，但是据实验表明，它的准确度是差于GN算法的。
参考文献：
[1]:Newman M E . Fast algorithm for detecting community structure in networks[J]. Phys Rev E Stat Nonlin Soft Matter Phys, 2004, 69(6 Pt 2):066133.