利用互信息推断基因调控网络

一 互信息网络简介:

互信息网络是基因调控网络推理方法的一个子类,这一系列方法的基本原理是如果两个基因之间的互信息值比较高,就认为两个基因之间存在调控关系。然而因为互信息是一种对称的度量方法(symmetric measure),因此这类方法是不能推断出边的方向的。

下面简单介绍几种基于互信息开发出来的一些推导基因调控网络的算法。

1.1 相关网络(Relevance Network)

计算两个基因之间的互信息值,如果该值高于规定的阈值,则认为这两个基因之间存在一条边(即具有调控关系)

1.2 CLR算法

图片来源:https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.0050008

CLR算法首先计算两两基因之间的互信息值,之后该算法比较Genei与所有基因的互信息值,若Genei与Genej的互信息值得分显著高于Genei与其他基因的,则认为这两个基因之间存在调控关系。需要注意的是,这里比较的不是互信息值,而是得分Zij

μi——均值 σ—— 标准差

1.3 ARACNE

该算法的原理基于数据处理不等式(the Data Processing Inequality),该不等式认为,如果GeneX1是通过GeneX2与GeneX3发生作用的,则:

步骤:①计算两两基因间的互信息值

②将小于规定阈值(Io)的边移除掉

③在每三个基因组成的三角形中,如果两个互信息值的差高于规定的阈值(Wo),则把互信息值最低的那条边删掉。

注意:提高Io,会降低边的数量。提高Wo,则会增加边的数量。

1.4 MRNET

MRNET使用最大相关性/最小冗余度(maximum relevance/minimum redundancy,MRMR)特征选择方法推断网络

二 互信息值的估计

MIM: mutual information matrix , 互信息矩阵

H(X) : 随机变量X的熵

I(Xi ; Xj) : 随机变量Xi , Xj 的互信息值

因此,要计算互信息,就需要计算熵,下面,罗列一些最常用和最快的熵估计器,感兴趣的可以去看文章

2.1 Empirical and Miller-Madow corrected estimators

2.2 Shrink entropy estimator

2.3 The Schurmann-Grassberger Estimator

三 连续变量离散化方法

上面罗列的2.1 2.2 2.3 熵估计器都是为离散变量设计的。因此,如果随机变量是连续的,则需要将其离散化,常用的离散化方法有等宽离散化(equal width)和等频率(equal width)离散化。

3.1 Equal Width

将数据集中的每个变量的取值范围划分为大小相同的子区间

3.2 Global Equal Width

与Equal Width 的原理相同,区别在于区间[a,b]的范围是数据集中所有随机变量的范围,即a、b分别是数据集的最小值和最大值

3.3 Equal Frequency

每个区间都有相同数量的数据点,因此,每个区间的大小可以是不同的

下一节介绍网络推断算法的评估方法 : )

参考文献:minet: A R/Bioconductor Package for Inferring Large Transcriptional Networks Using Mutual Information | BMC Bioinformatics | Full Text (biomedcentral.com)

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值