什么是最大信息系数（Maximal Information Coefficient, MIC）

最新推荐文章于 2024-12-18 19:17:29 发布

不易撞的网名

最新推荐文章于 2024-12-18 19:17:29 发布

阅读量1k

点赞数 9

文章标签：最大信息系数

本文链接：https://blog.csdn.net/weixin_50569789/article/details/140327097

版权

最大信息系数（Maximal Information Coefficient, MIC）是一种用于量化两个变量之间依赖关系强度的统计量，它能够在不同类型的关联中（如线性、非线性、周期性等）提供一致的度量。

MIC算法是由David N. Reshef等人在2011年提出，其目的是为了克服传统相关系数（如皮尔逊相关系数）仅能描述线性关系的局限性。

MIC的定义基于互信息（Mutual Information, MI）的概念，它试图找到一个最优的二维直方图（或称为网格），在这个网格下，两个变量之间的互信息达到最大值。

互信息度量的是两个随机变量之间的依赖程度，当两个变量完全独立时，互信息为零；反之，当两个变量完全依赖时，互信息达到最大。

MIC的计算公式可以表示为：

$\text{MIC}(X;Y) = \max_{a*b<B} \left[ \frac{I(X;Y|a\times b)}{\log_2 \min(a,b)} \right]$

其中，

初始化: 选择一个 $B$ 值，通常是数据点数量 $N$ 的平方根或0.6次方，来限制网格复杂度。
网格搜索: 在所有可能的 $a\times b$ （ $a * b < B$ ）网格中计算互信息 $I(X;Y|a\times b)$ 。
计算MIC: 对于每个网格，计算 $\frac{I(X;Y|a\times b)}{\log_2 \min(a,b)}$ ，并选取所有可能网格下的最大值作为 MIC 的值。

互信息 $I(X;Y|a\times b)$ 描述了当 $X$ 和 $Y$ 被划分为特定网格后，两个变量之间依赖程度的信息增益。
除以 $log_2 \min(a,b)$ 这部分的作用是标准化，确保 MIC 的值在 [0,1] 之间。这是因为随着网格细化，互信息有可能无限增长，因此需要除以一个与网格复杂度相关的因子来进行归一化。
取最大值 确保了 MIC 能够捕捉到最能揭示两个变量之间关联模式的网格结构。