Equitability, mutual information, and the maximal information coefficient

解读:

    一个人应该如何量化两个随机变量之间的关联强度,而不偏向特定形式的关系?尽管统计“公平性”的概念概念简单,但它还没有得到明确的数学形式。

    在MIC中公平性的定义:所谓公平性,是指在样本量足够大时能为不同类型单噪声程度相似的相关关系给出相近的系数。例如,对于一个充满相同噪声的线性关系和一个正弦关系,一个好的评价算法应该给出相同或相近的相关系数

原文:通过公平性,我们的意思是统计数据应该对不同类型的相同噪声关系给出相似的分数。例如,我们不希望嘈杂的线性关系从列表的顶部驱动强大的正弦关系。对于一般的关联,公平性很难形式化,但在函数关系的基本情况下有一个明确的解释:一个公平的统计量应该对具有相似R2值的函数关系给出相似的分数(给定足够的样本量)。

    这篇论文中主要是探讨的一个问题:如何从有限的数据中量化两个连续变量之间的关联。Pearson correlation R2作为衡量标准。然而,众所周知,当关系高度非线性时,R2值往往与一个人的直觉依赖性概念关联很差.

image-20221117161201247

公平的说明:都是使用1000个数据点模拟两个噪声函数关系。具有相同的噪声轮廓,但是不同的底层函数。I是使用k = 1的KNN算法估计互信息。模拟的具体关系都是 y=x2+1/2+η的形式.其中η均匀来自(-0.5,0,5)的噪声,x是均匀来自两个区间之一(A)(0,1)或(B)(-1,1).这两种关系都具有相同的基本互信息

    上图提供了一个R2如何不能合理量化关联的例子。图A显示了一个模拟数据集,表示两个变量x和y之间的噪声单调关系。这产生了一个重要的R2依赖性度量。然而,图B中计算的非单调关系的R2值与零之间没有显著差异,即使图1中所示的两个关系是相同的噪声.

    因此,人们很自然地会问,是否可以用一种给“不同类型的相同噪声关系分配相似分数”的方式来衡量统计依赖性。Reshef等人(1,2)将这种启发式标准称为“公平性”,其他人也强调了它对分析真实世界数据的重要性(3,4)。然而,公平性应该如何在数学上定义尚不清楚。因此,还没有一个依赖度量被证明具有这种性质。

    在这里,我们认为启发式的公平性概念是由一个自我一致性条件适当形式化的,我们称之为“自我公平性”。这个标准自然是作为众所周知的数据处理不等式(DPI)的一种弱化形式出现的。所有满足dpi的依赖度量都被证明满足自均衡性。其中最重要的是“互信息”,这是信息论中一个非常重要的量。事实上,人们已经普遍认为,互信息可以量化依赖性,而不偏向于某种类型的关系。尽管互信息是在通信系统建模的背景下提出的,但它已多次被证明在各种统计问题中自然产生

说起信息论中和传播相关的不等式,比较令人印象深刻的是描述“话越传越离谱”的数据处理不等式(Data Processing Inequality):定义马尔科夫过程 X→Y→Z ,则 I(X;Y)≥I(X;Z)

    不幸的是,使用互信息来量化连续数据中的关联非常复杂,因为它需要对数据基础上的概率分布(显式或隐式)进行估计。如何计算这样一个不偏向结果互信息值的估计值仍然是一个开放的问题,这个问题在采样不足的情况下尤其严重(9,10)。尽管有这些困难,各种实用的估计技术已经被开发和测试(11,12)。事实上,在许多现实世界的应用中,互信息通常是在连续数据上计算的。

    与R2不同的是,图A和图B中底层关系的互信息值I是相同的(0.72位)。这是互信息的自平等性的结果。应用Kraskov等(18)的第k近邻(KNN)互信息估计算法对从这些关系中得到的模拟数据进行估计,我们发现估计的互信息值与真实的基础值很吻合。(这里互信息值和真实值吻合如何评判)

    然而,Reshef等人在他们的论文(1)中声称互信息不满足启发式的公平性概念。在将这一概念形式化之后,作者还引入了一个新的统计量,称为“最大信息系数”(MIC),他们声称这个统计量满足他们的公平性标准。考虑到MIC实际上被定义为互信息的规范化估计,这些结果可能令人惊讶。然而,这些断言并没有数学论证;它们完全基于对模拟数据的分析。

    在这里,我们重新审视这些说法。首先,我们证明了Reshef等人提出的公平性定义实际上是任何(非平凡的)依赖度量都不可能满足的。然后通过实例证明MIC违反了各种直观的依赖概念,包括DPI和自我公平。回顾Reshef等人(1)的模拟,我们发现支持他们关于公平的主张的证据是人为的。事实上,参考1中MIC估计的随机变化(这是由于所用模拟数据集的规模较小造成的)被认为掩盖了MIC固有的不公平行为。当使用较大的数据集时,很明显,相对于单调关系,非单调关系系统地降低了MIC值。图1中为关系计算的MIC值说明了这种偏差。我们还发现,Reshef等人报告的互信息的非公平行为并没有反映互信息的固有属性,而是Kraskov等人(18)的KNN算法中参数k的非最优值的使用。

    最后,我们研究了MIC、KNN互信息估计和其他双变量依赖度量的能力。尽管Reshef等人(1)没有讨论MIC的功能,但这个问题对于他们论文中描述的应用类型是至关重要的。这里我们发现,当使用适当的k值时,互信息的KNN估计在统计功率检验中始终优于MIC。然而,我们要提醒的是,在一些真实世界的数据集上,其他不公平的度量,如“距离相关”(dCor)(19)和Hoeffding的D(20)可能被证明比KNN估计器更强大。
    在下面的文本中,大写字母(X,Y,…)用来表示随机变量,小写字母(x,y,…)表示这些变量的特定值, ( x ~ , y ~ , … ) (\tilde{x}, \tilde{y}, \ldots) (x~,y~,)表示这些值在进行直方图绘制时归入的容器.“依赖性度量”,写为D[X;Y],为联合概率分布P(X,Y).而“依赖统计”,写D[x;y]是由有限数据计算出的函数 { x i , y i } i = 1 N \left\{x_{i}, y_{i}\right\}_{i=1}^{N} {xi,yi}i=1N样本来自P(X,Y)

Results

R2-Equitability:Reshef等(1)在他们的论文中提出了以下对公平的定义。这利用了平方皮尔逊相关度量R2[.],因此为了清晰起见,我们称此准则为“R2-公平性”

Definition 1:(A dependence measure)依赖性度量 D[X;Y]当且仅当,在联合概率分布p(X,Y)上评估时,(R2-equitable)R2是公平的;对应两个实随机变量X和Y之间的噪声泛函关系,关系式如下:
D [ X ; Y ] = g ( R 2 [ f ( X ) ; Y ] ) D[X;Y]=g\left(R^{2}[f(X) ; Y]\right) D[X;Y]=g(R2[f(X);Y])
这里,g是一个不依赖于p(X,Y)的函数;f是定义噪声函数关系的函数
y = f ( X ) + η y=f(X)+\eta y=f(X)+η
对于某个随机变量η。噪声项η可以依赖f(X),只要η对X没有额外的依赖性,即X↔f(X)↔η为马尔可夫链.

    启发式的意思是,通过计算度量D[X;Y]从p(X,Y)的知识;可以看出噪声η的强度,量化为 1 − R 2 [ f ( X ) ; Y ] 1-R^{2}[f(X) ; Y] 1R2[f(X);Y],而不知道函数f。当然,这个定义很大程度上取决于噪声η的允许性质。在他们的模拟中,Reshef等人(1)只考虑均匀同方差噪声:η从一些对称区间[-a,a]均匀提取。这里我们考虑一个更广泛的异方差噪声类别:η可以任意依赖于f(X),p(η|f(X))可以有任意的泛函形式

    我们的第一个结果是:任何非平凡依赖测度都不能满足r2公平性。这是因为等式2中的函数f不是由p(X,Y)唯一指定的。例如,考虑简单的关系式Y = X + η。对于每个可逆函数h,也存在一个有效的噪声项ξ,使得Y = h(X)+ ξ (SI Text,定理1)。R2-Equitability要求 D [ X ; Y ] = g ( R 2 [ X ; Y ] ) = g ( R 2 [ h ( X ) ; Y ] ) D[X;Y]=g\left(R^{2}[X ; Y]\right)=g\left(R^{2}[h(X) ; Y]\right) D[X;Y]=g(R2[X;Y])=g(R2[h(X);Y])。然而,R2[X;Y]在X的可逆变换下,函数g必须是常数,这意味着D[X;Y]不依赖于p(X,Y),因此是平凡的。

Self-Equitability and Data Processing Inequality.因为r2公平性不能被任何(有趣的)依赖度量所满足,它不能被用作Reshef等人的启发式(1)的有用的数学形式化。相反,我们提议将公平性的概念形式化为我们称之为自等价性的不变性属性,定义如下:

Definition 2. 依赖度量D[X;Y]当且仅当对称(D[X;Y]= D[Y;X]),满足
D [ X ; Y ] = D [ f ( X ) ; Y ] D[X ; Y]=D[f(X) ; Y] D[X;Y]=D[f(X);Y]
无论f是确定性函数,X和Y都是任意类型的变量,X↔f(X)↔Y构成马尔可夫链.

    这个定义背后的直觉与Eq. 1相似,但我们没有使用R2来量化关系中的噪声,而是使用D本身。这个定义的一个重要优点是,Y变量可以是任何类型,例如,绝对的、多维的或非abel的。相比之下,R2-Equitability的定义要求Y和f(X)必须是实数。

    Self-equitability也采用了比R2-Equitability更普遍的“噪声关系”的定义:不像Eq. 2中那样假定加性噪声,而是简单地假设Y仅通过f(X)的值依赖于X。这是一种链条条件X↔f(X)↔y。因此,任何Self-equitability的措施D[X;Y]在X或Y的任意可逆变换下必须不变(SI文本,定理2)。Self-equitability也与DPI密切相关,DPI是信息论(6)中的一个基本准则,我们在这里简要重申一下

Definition 3. 依赖度量D[X;Y]满足DPI当且仅当
D [ X ; Z ] ≤ D [ Y ; Z ] ,  D[X ; Z] \leq D[Y ; Z] \text {, } D[X;Z]D[Y;Z]
每当随机变量X;Y;Z构成马尔可夫链X↔Y↔Z.

    DPI使我们的直观概念形式化,即当通过噪声通信信道传输时,信息通常会丢失,而不会获得。例如,考虑一个涉及三个孩子的电话游戏,让变量X、Y、a和Z分别代表第一个、第二个和第三个孩子说的话。只有当测量D支持我们的直觉,即第三个孩子所说的话将更强烈地依赖于第二个孩子所说的话时,Eq.4中的标准才被满足(D[Y;Z]量化)比第一个孩子说的要多(用D[X;Z]量化)

    很容易证明,所有满足DPI的依赖度量都是self-equitable(SI Text,定理3)。此外,许多依赖度量确实满足DPI (SI Text,定理4)。这引出了一个问题,即是否有任何不满足DPI的self-equitable 。从技术上讲,答案是“是”:例如,如果D[X;Y]满足DPI,则新测度定义为D[X;Y]=−D[X;Y]将是self-equitable 的,但不会满足DPI。然而,DPI执行了一个重要的启发式,而自等价性没有,即添加噪声不应该增加依赖的强度。因此,尽管违反DPI的自我公平措施确实存在,但有充分的理由要求合理的措施也满足DPI。

Mutual Information.在满足dpi的依赖度量中,互信息是特别有意义的。互信息以“位”为单位严格量化了一个变量的值揭示了另一个变量的值的多少信息。这在信息论(6)中具有重要而众所周知的结果。然而,也许不太为人所知的是,互信息在数据统计分析中所起的自然作用,这是我们现在简要讨论的主题.

    两个随机变量X和Y之间的互信息定义为它们的联合概率分布p(X,Y)作为
I [ x ; y ] = ∫ d x d y p ( x , y ) log ⁡ 2 p ( x , y ) p ( x ) p ( y ) I[x ; y]=\int d x d y p(x, y) \log _{2} \frac{p(x, y)}{p(x) p(y)} I[x;y]=dxdyp(x,y)log2p(x)p(y)p(x,y)
其中p(x)和p(y)是p(x, y)的边际分布。这样定义,互信息有许多重要的性质。I[x;y]是非负的,I[x;y] = 0,仅当p(x, Y) = p(x)p(Y)时出现。因此,当x和y表现出任何相互依赖性时,互信息将大于零,不管这种依赖性有多非线性。而且,相互依赖性越强,I[x;y]的值越大。在y是x的确定性函数的极限下,I[x;y] =∞

    互信息与检测依赖性的统计问题密切相关。从Eq.5中我们可以看到,对于来自分布p(X,Y)的数据,I[X;Y]量化了来自p(X,Y)的数据的期望每基准对数似然比,而不是来自p(X)p(Y)。因此,1/I[X;Y]是一个人需要收集的典型数据量,以获得真实假设的后验概率比零假设增加两倍[即p(X,Y)= p(X)p(Y)]。此外,Neyman-Pearson引理(21)告诉我们,这个对数似然比 ∑ i log ⁡ 2 [ p ( x i , y i ) / p ( x i ) p ( y i ) ] \sum_{i} \log _{2}\left[p\left(x_{i}, y_{i}\right) / p\left(x_{i}\right) p\left(y_{i}\right)\right] ilog2[p(xi,yi)/p(xi)p(yi)],对这种测试具有最大可能的统计能力。因此互信息I[X;Y]提供了一个严格的上界,关于从p(X;Y)提取的数据的任何相关性检验的执行情况。

​ 然而,从有限的连续数据中准确估计互信息是不平凡的。难点在于估算联合分布p(X;Y)来自N个数据点的有限样本 { x i , y i } i = 1 N \left\{x_{i}, y_{i}\right\}_{i=1}^{N} {xi,yi}i=1N。最简单的方法是将数据“归档”——在x上叠加一个矩形网格;然后将每个连续的x值(或Y值)分配给它所在的列bin x(或行bin y)。然后可以从数据中估计互信息为
I naive  { x ; y } = ∑ x ~ , y ~ p ^ ( x ~ , y ~ ) log ⁡ 2 p ^ ( x ~ , y ~ ) p ^ ( x ~ ) p ^ ( y ~ ) I_{\text {naive }}\{x ; y\}=\sum_{\tilde{x}, \tilde{y}} \hat{p}(\tilde{x}, \tilde{y}) \log _{2} \frac{\hat{p}(\tilde{x}, \tilde{y})}{\hat{p}(\tilde{x}) \hat{p}(\tilde{y})} Inaive {x;y}=x~,y~p^(x~,y~)log2p^(x~)p^(y~)p^(x~,y~)
其中 p ^ ( x ~ , y ~ ) \hat{p}(\tilde{x}, \tilde{y}) p^(x~,y~)是落入 b i n ( x ~ , y ~ ) bin(\tilde{x}, \tilde{y}) bin(x~,y~)的数据点的百分比。依赖于这种简单的装箱过程的互信息估计通常被称为“幼稚”估计(22)。这种幼稚估计的问题在于,它们系统性地高估了I[X;Y]。如上所述,人们早已认识到这是一个问题,并对开发不会系统地高估相互信息的替代方法给予了极大关注。然而,我们强调,在大数据极限下,估计互信息的问题变得容易,因为p(X,Y)可以确定为N→∞的任意精度。

The Maximal Information Coefficient: 与互信息相反,Reshef等人(1)将MIC定义为统计量,而不是依赖度量。该定义的核心是一个朴素互信息估计IMIC{x;y}使用数据相关的分组方案进行计算。设nX和nY分别表示施加在x轴和y轴上的箱子数量。选择MIC bin方案是为了(i) nXnY的bin总数不超过某个用户指定的值B,(ii)比值
MIC ⁡ { x ; y } = I M I C { x ; y } Z M I C \operatorname{MIC}\{x ; y\}=\frac{I_{\mathrm{MIC}}\{x ; y\}}{Z_{\mathrm{MIC}}} MIC{x;y}=ZMICIMIC{x;y}
其中 Z M I C = log ⁡ 2 ( min ⁡ ( n X , n Y ) ) Z_{\mathrm{MIC}}=\log _{2}\left(\min \left(n_{X}, n_{Y}\right)\right) ZMIC=log2(min(nX,nY))是最大化的.公式7中的比率(使用此数据相关的分组方案计算)是定义MIC的方式。请注意,因为IMIC是由ZMIC限制的,所以MIC值总是在0到1之间。我们注意到,B = N0.6(1)和B = N0.55(2)已经被提倡,尽管没有提出这些选择的数学基础。
​    实质上是MIC统计数据MIC{x;y}定义为幼稚互信息估计IMIC{x;y},使用约束自适应分组方案计算,并除以数据相关的归一化因子ZMIC。然而,在实践中,这一统计量通常无法精确计算,因为MIC的定义需要在所有可能的分组方案上进行最大化步骤,即使对于中等规模的数据集,这也是一个计算上难以解决的问题。相反,通常需要对MIC进行计算估计。除特别注明外,本文报告的MIC值是使用Reshef等人提供的软件计算的.

    注意,当在MIC bin方案的x轴或y轴上只使用两个bin时,ZMIC = 1。在这种情况下,MIC统计量与基础互信息估计IMIC相同。我们指出这一点是因为下面报告的大部分MIC计算都产生了ZMIC = 1。事实上,除了高度结构化的关系外,MIC通常简化为朴素互信息估计IMIC

Analytic Examples. 为了说明互信息和MIC的不同属性,我们首先比较这些依赖度量在简单示例关系p(x, y)上的确切行为。我们首先注意到MIC对某些类型的噪声完全不敏感。图A-C说明了这一点,图中举例说明了在所有X值处添加噪声将如何降低I[X;Y],但不一定会降低MIC[X;Y]。这种病态行为源于定义MIC时使用的分箱方案:如果所有数据点可以被划分到2 × 2网格的两个对立象限(每个象限中有一半数据),那么无论两个象限内的数据结构如何,都将分配一个关系MIC[X;Y]=1。相比之下,互信息在其解析上没有这样的限制

image-20221117203705441

    此外,MIC[X;Y]在X或Y的非单调变换下不是不变的,相反,互信息在这种变换下是不变的。如图D-F所示。这种重参数化不变性是满足self-equitability(自均衡)或DPI的任何依赖度量的必要属性(SI Text,定理2)。图G-J提供了一个明确的例子,说明MIC的非不变性如何导致DPI被违反,而图S2显示了非不变性如何导致自均衡被违反.

Equitability Tests Using Simulated Data. Reshef等人(1)在论证使用MIC作为依赖性度量时提出的关键主张有两个部分。首先,据说MIC不仅满足启发式的公平性概念,而且满足R2-equitability(r2公平性)的数学准则(Eq. 1)。其次,Reshef等(1)认为互信息不满足R2-equitability。本质上,参考文献1中提出的中心主张是,将相互信息转换为MIC的分箱方案和归一化过程对于公平性是必要的。然而,正如导言中提到的,这些主张没有数学论证;这些断言完全是通过对有限模拟数据的分析得到支持的。

    我们现在重新审视这个模拟证据。为了证明MIC是r2平等的,Reshef等人模拟了Y = f(X) + η形式的各种噪声函数关系的数据。每个数据集总共生成250,500或1000个数据点;详见表S1。对每个数据集计算MIC{x;y},并与1-R2{f(x);y}绘制曲线,用于量化每次仿真的固有噪声。

    如果MIC满足r2公平性,MIC与噪声测量的曲线将沿着同一曲线下降,而不管每个关系使用的函数f是什么。乍一看,图A是参考文献1中的图2B的复制品,表明情况可能是这样的。当然,这些MIC值表现出一定的分散性,但参考文献1假定这是由于模拟数据集的有限大小造成的,而不是MIC的任何固有的f相关偏差。

    然而,如图3.B所示,当模拟数据点的数量增加到5000时,MIC值中显著的f相关偏差变得明显。当噪声值介于0.6到0.8之间时,这种偏差尤其强烈。要了解其来源

image-20221117204635968

    然而,如图B所示,当模拟数据点的数量增加到5000时,MIC值中显著的f相关偏差变得明显。当噪声值介于0.6到0.8之间时,这种偏差尤其强烈。为了理解这种偏差的来源,我们根据相应模拟中使用的函数f的单调性为每个绘图点着色。我们观察到MIC对单调关系(用蓝色表示)的系统评分高于对非单调关系(用橙色表示)的系统评分。中间单调性的关系(紫色)介于两者之间。这种MIC对单调关系的偏差在类似的自均衡性检验中进一步可见(Fig. S4A).
    因此,在实践中,MIC违反了Reshef等人(1)采用的r2 -公平性准则。然而,MIC的这种不公平行为在参考1的图2B中被两个因素所掩盖。首先,由于模拟数据集规模小而产生的散射掩盖了MIC的f相关偏差。其次,参考文献1的图2B中使用的非系统配色方案掩盖了此处使用的配色方案所产生的明显偏差。
    为了证明互信息违反了他们的公平性准则,Reshef等人(1)估计了每个模拟数据集中的互信息,然后绘制了这些估计I{x;y}对抗噪声,再次用1-R2{f(x);y}量化。这些结果最初报告在参考文献1的图2D中,在图C中重现。乍一看,图C表明单调函数互信息的偏倚明显比MIC所显示的偏倚更糟糕。然而,这些观察结果是由两个因素造成的假象。
    首先,Reshef等(1)没有计算底层关系的真实互信息;相反,他们使用Kraskov等人(18)的KNN算法进行估计。该算法基于k个最近邻数据点之间的距离估计互信息。本质上,k是一个平滑参数:k的低值将给出互信息的估计,具有高方差但低偏差,而k的高值将减少方差但增加偏差。其次,相对于大型数据集,由于k值较大而导致的偏差在小型数据集中会加剧。如果要使用模拟来支持互信息的固有偏差的主张,则必须在足够大的数据集上估计互信息,以便这种估计器特定偏差可以忽略不计。
    因此,我们复制了参考文献1的图2D中的分析,但每个关系模拟了5000个数据点,并使用k = 1而不是k = 6的KNN互信息估计器。计算结果如图d所示。在这里,我们可以看到几乎所有参考文献1中引用的不公平行为都被消除了;这一观察结果在大数据极限下成立(Fig. S4D)
    当然,互信息并不完全满足r2公平性,因为没有任何有意义的依赖度量满足r2公平性。然而,互信息确实满足自均衡性,图S4E表明,对于图d中模拟数据的KNN估计,互信息的自均衡性行为被视为近似成立。k值的增加会降低KNN算法的自均衡性。

Statistical Power: Simon和Tibshirani(24)强调了统计能力对双变量关联度量的重要性。在这种情况下,“威力”指的是,当对显示出X和Y之间真正依赖关系的数据进行评估时,统计数据产生的值与X和Y之间独立的数据产生的值显著不同的概率。MIC被观察到(24)比称为dCor的统计量(19)的威力要小得多,但没有测试KNN互信息估计。因此,我们研究了KNN互信息估计的统计力是否可以与dCor、MIC和其他非自公平依赖度量相竞争。

    图4是对五种不同类型关系的各种统计进行统计功率比较的结果。{正如预期的那样,R2被观察到在线性关系上有最优的能力,但在其他(镜像对称)关系上基本上可以忽略不计。dCor和Hoeffding的D(20)表现相似,在线性关系上表现出与R2几乎相同的幂,在除棋盘关系之外的所有关系上都保持了相当的幂。

image-20221117205314393

    使用k = 1、6和20对KNN互信息估计器进行了功率计算。以k = 20计算的KNN估计在这三种方法中表现出最强大的统计能力;事实上,除了线性关系之外,这样的估计在所有方面都表现出最佳或接近最佳的统计力.

​     然而,R2、dor和Hoeffding’s D在线性关系上表现得更好(图S6)。这一点值得注意,因为线性关系可能比测试的其他四种关系更能代表许多真实世界的数据集。KNN互信息估计器还有一个重要的缺点,那就是需要用户指定k,而没有任何数学指导。在我们的模拟中使用的k的选择是任意的,正如所示,这些选择可以极大地影响一个人的互信息估计的功率和公平性。

​     MIC,用B = N0.6计算,被观察到除了正弦关系外,对所有的统计功率都相对较低。这与参考文献24的调查结果一致。有趣的是,MIC实际上比它所基于的互信息估计IMIC显示出更弱的统计力(图5)。S5和S6)。这表明,式7中的归一化过程实际上可能降低MIC的统计效用。

​     我们注意到,KNN估计量的能力随着k的增加而显著增加,特别是在更简单的关系上,而KNN估计量的自均衡性则随着k的增加而降低(图S4 E-G)。在KNN估计中观察到的这种权力和公平性之间的权衡,似乎反映了统计学中众所周知的偏差与方差权衡。事实上,对于一个强大的统计来说,它必须具有较低的方差,但统计值中的系统偏差是无关紧要的。相比之下,我们对公平性的定义是关于依赖度量的偏差的陈述,而不是其估计量的方差

Discussion

我们认为,公平性是Reshef等人(1)提出的依赖度量的启发式属性,它由与DPI密切相关的自洽条件自公平性适当形式化。这扩展了公平性的概念,最初定义为度量一维变量之间的关联,到度量所有类型和维度变量之间的关联。所有满足dpi的度量都被发现是自公平的,在这些相互信息中,由于其在信息论和统计中的基本含义而特别有用

​     并非所有的统计问题都需要一个自公平的依赖度量。例如,如果数据是有限的,并且已知噪声近似于高斯,R2(非自均匀)可能是比互信息估计更有用的统计量。另一方面,当数据充足且噪声特性先验未知时,互信息具有重要的理论优势(8)。尽管在连续数据上估计互信息仍然存在很大困难,但这种估计已被证明在神经科学(14,15,25)、分子生物学(16,17,26 - 28)、医学成像(29)和信号处理等各种现实问题中是有用的。

​     在我们的公平性测试中,绝大多数MIC估计实际上与朴素互信息估计IMIC相同。此外,在分母ZMICin Eq. 7波动的情况下,MIC的统计功率相对于IMIC明显降低(图5S5和S6)。这表明,在市场营销核心的非恶意化过程会影响市场营销的统计效用。

​     我们简要地注意到,估计互信息的困难已被引用为使用MIC代替的一个原因(3)。然而,MIC实际上比互信息更难估计,因为MIC的定义要求测试每个数据集的所有可能的打包方案。与此一致的是,我们已经发现参考1中的MIC估计器比参考的互信息估计器慢了好几个数量级。

​     除了它在信息论中的基本作用外,互信息因此被视为自然地解决了公平量化变量对之间统计关联的问题。不幸的是,从有限的连续数据中可靠地估计互信息仍然是一个重要的和未解决的问题。尽管如此,仍有一些软件(如KNN估计器)可以让人们很好地估计相互信息,以满足许多实际目的。综合来看,这些结果表明互信息是一种天然的、潜在的强大工具,可以用来理解在科学和工业领域中不断扩散的大型数据集。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值