一 互信息网络简介:
互信息网络是基因调控网络推理方法的一个子类,这一系列方法的基本原理是如果两个基因之间的互信息值比较高,就认为两个基因之间存在调控关系。然而因为互信息是一种对称的度量方法(symmetric measure),因此这类方法是不能推断出边的方向的。
下面简单介绍几种基于互信息开发出来的一些推导基因调控网络的算法。
1.1 相关网络(Relevance Network)
计算两个基因之间的互信息值,如果该值高于规定的阈值,则认为这两个基因之间存在一条边(即具有调控关系)
1.2 CLR算法
![](https://img-blog.csdnimg.cn/img_convert/d1882acbf814a87e95d33b141a4b0ada.png)
图片来源:https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.0050008
CLR算法首先计算两两基因之间的互信息值,之后该算法比较Genei与所有基因的互信息值,若Genei与Genej的互信息值得分显著高于Genei与其他基因的,则认为这两个基因之间存在调控关系。需要注意的是,这里比较的不是互信息值,而是得分Zij:
![](https://img-blog.csdnimg.cn/img_convert/43844de91655c3c633ed05b900c8cf2b.png)
μi——均值 σ—— 标准差
1.3 ARACNE
该算法的原理基于数据处理不等式(the Data Processing Inequality),该不等式认为,如果GeneX1是通过GeneX2与GeneX3发生作用的,则:
![](https://img-blog.csdnimg.cn/img_convert/cdd107b6b2fe1484f272f8fac4df5239.png)
步骤:①计算两两基因间的互信息值
②将小于规定阈值(Io)的边移除掉
③在每三个基因组成的三角形中,如果两个互信息值的差高于规定的阈值(Wo),则把互信息值最低的那条边删掉。
注意:提高Io,会降低边的数量。提高Wo,则会增加边的数量。
1.4 MRNET
MRNET使用最大相关性/最小冗余度(maximum relevance/minimum redundancy,MRMR)特征选择方法推断网络
二 互信息值的估计
![](https://img-blog.csdnimg.cn/img_convert/3a188a51ab115a7275394cbc3f145839.png)
![](https://img-blog.csdnimg.cn/img_convert/d2442a54ce039cf02be1207c3f144959.png)
MIM: mutual information matrix , 互信息矩阵
H(X) : 随机变量X的熵
I(Xi ; Xj) : 随机变量Xi , Xj 的互信息值
因此,要计算互信息,就需要计算熵,下面,罗列一些最常用和最快的熵估计器,感兴趣的可以去看文章
2.1 Empirical and Miller-Madow corrected estimators
2.2 Shrink entropy estimator
2.3 The Schurmann-Grassberger Estimator
三 连续变量离散化方法
上面罗列的2.1 2.2 2.3 熵估计器都是为离散变量设计的。因此,如果随机变量是连续的,则需要将其离散化,常用的离散化方法有等宽离散化(equal width)和等频率(equal width)离散化。
3.1 Equal Width
将数据集中的每个变量的取值范围划分为大小相同的子区间
3.2 Global Equal Width
与Equal Width 的原理相同,区别在于区间[a,b]的范围是数据集中所有随机变量的范围,即a、b分别是数据集的最小值和最大值
3.3 Equal Frequency
每个区间都有相同数量的数据点,因此,每个区间的大小可以是不同的
下一节介绍网络推断算法的评估方法 : )