【因果推断与机器学习】Causal Inference:Chapter_4_instrument_variables

Instrument Variables

Introduction

我们在因果识别中的目标是找到一种方法,用可观察的统计关系来表达两个特征之间的因果关系。在许多情况下,我们可以使用图形假设和do-calculus来理清我们对统计关系的观察,以确定因果关系。在图形假设不充分的情况下,参数假设有时会有所帮助。考虑一种情况该情况的假设因果图如下所示:


图1 工具变量的例子,变量Z可以帮助识别P(B|A)

在图1中的例子中如果我们希望确定 P ( B ∣ d o ( A ) ) P(B|do(A)) P(Bdo(A)) ,也就是判断事件A(或变量A)对变量B的影响,我们可以得出调整公式是不适合用于这种混杂变量是未被观察到的情况的,又因为变量A和变量B之间又没有中间变量,我们也不能运用前门路径法则。实际上,根据因果图的假设我们是不能判断识别变量A对变量B的因果效应的。

这种因果图挺常见的。例如,我们经常处于这样的情况,我们有能力进行部分随机化的实验,我们可以随机化 变量Z,但不直接控制变量 A 这是我们的主要关注点。这可能发生在对人的实验中,例如,我们可能通过推荐、鼓励或奖励来影响个人的决定,但在其他方面没有完全的控制权。这也可能发生在许多自然环境中,其中包括一些可观察到的独立因素,如天气,在决定变量A中起到部分作用。

然而,这边有个有趣的例子,变量Z对变量A的影响。因为变量Z被变量A给d分离了,我们就可以很容易的识别出 P r ( A ∣ d o ( Z ) ) = P r ( A ∣ Z ) Pr(A|do(Z))=Pr(A|Z) Pr(Ado(Z))=Pr(AZ),同样的我们也可以看出 P r ( B ∣ d o ( Z ) ) = P r ( B ∣ d o ( Z ) ) Pr(B|do(Z))=Pr(B|do(Z)) Pr(Bdo(Z))=Pr(Bdo(Z))

工具变量法是一种因果效应识别方法,遵循图6的图形结构的变量被称为辅助变量。工具变量设置满足几个标准:

  • Z和B是独立的,更正式的来说,Z和B在图 G n u l l ( A ) G_{null(A)} Gnull(A)中是d分离的。这意味着Z只能通过变量A的路径来影响B,而且由于共同原因A和B并不相关!
  • Z影响A,而且A和Z并不是d分离的因为 P ( A ∣ d o ( Z ) ) P(A|do(Z)) P(Ado(Z))是可识别的。
  • 相对于未观测变量U,Z对A和A对B的影响是均匀的。

前两个条件可以从因果图中读取,而第三个条件是附加的参数约束。第一个条件确保了无论Z对B有什么影响,它只能通过A。Z对Y不可能有不通过A的直接影响。此外, G n u l l ( A ) G_{null(A)} Gnull(A)中Z和B的d分离意味着Z独立于A的未观察混杂 U → B U\rightarrow B UB
第二个条件说明Z对a有非零的影响,并且这种影响是可识别的。直观地说,Z对B的影响可以被认为是Z对A的影响和A对B的作用的组合,因此,如果Z对A没有影响,它就不会给我们提供关于A的有用信息。
最后一个条件是,假设Z对A的影响是同质的(即,U不修改Z对B的影响),而A对B的效果也是均匀的(U不修改A对B影响)是合理的。这将使我们能够确保我们对Z对A的影响以及Z对B的间接影响的观察不会与未观察到的因素U的任何相互作用纠缠在一起。
接下来,我们将展示如何使用这两个已识别的成分和上述假设 P ( B ∣ Z ) P(B|Z) P(BZ) P ( A ∣ Z ) P(A|Z) P(AZ)来识别干预A对Z的影响。

连续变量情况下的推导

这里给出一个简单的推导,在图1中变量Z,B和变量A是连续的,如何根据 d B d Z \frac{dB}{dZ} dZdB d A d Z \frac{dA}{dZ} dZdA计算 d B d d o ( Z ) \frac{dB}{ddo(Z)} ddo(Z)dB.
第二,根据具有多个独立变量的导数的链式法则,我们可以将式子写作:
∂ B ∂ d o ( Z ) = ∂ B ∂ d o ( A ) ∂ A ∂ d o ( Z ) + ∂ B ∂ d o ( U ) ∂ U ∂ d o ( Z ) = ∂ B ∂ d o ( A ) ∂ A ∂ d o ( Z ) U独立于Z ∂ B ∂ d o ( A ) = ∂ B ∂ d o ( Z ) ∂ A ∂ d o ( Z ) rearranging terms ∂ B ∂ d o ( A ) = ∂ B ∂ d o ( Z ) ∂ A ∂ d o ( Z ) By non-interaction of U ∂ B ∂ d o ( A ) = d B d Z d A d Z    By earlier identification \begin{aligned} \frac{\partial{B}}{\partial{do(Z)}}&=\frac{\partial{B}}{\partial{do(A)}}\frac{\partial{A}}{\partial{do(Z)}}+\frac{\partial{B}}{\partial{do(U)}}\frac{\partial{U}}{\partial{do(Z)}} \\ &=\frac{\partial{B}}{\partial{do(A)}}\frac{\partial{A}}{\partial{do(Z)}} \qquad\text{U独立于Z}\\ \frac{\partial{B}}{\partial{do(A)}}&=\frac{\frac{\partial{B}}{\partial{do(Z)}}}{\frac{\partial{A}}{\partial{do(Z)}}}\qquad\qquad\quad\quad\text{rearranging terms}\\ \frac{\partial{B}}{\partial{do(A)}}&=\frac{\frac{\partial{B}}{\partial{do(Z)}}}{\frac{\partial{A}}{\partial{do(Z)}}}\qquad\qquad\quad\quad\text{By non-interaction of U}\\ \frac{\partial{B}}{\partial{do(A)}}&=\frac{\frac{dB}{dZ}}{\frac{dA}{dZ}}\qquad\qquad\qquad\quad\;\text{By earlier identification} \end{aligned} do(Z)Bdo(A)Bdo(A)Bdo(A)B=do(A)Bdo(Z)A+do(U)Bdo(Z)U=do(A)Bdo(Z)AU独立于Z=do(Z)Ado(Z)Brearranging terms=do(Z)Ado(Z)BBy non-interaction of U=dZdAdZdBBy earlier identification

在这个推导中,我们利用了我们的因果假设 U ⊥ Z U\bot Z UZ,我们从推导的第一行到第二行。在我们的工具变量设置中也就是图1,因为变量U和Z是d分隔的,我们知道 ∂ U ∂ d o ( Z ) \frac{\partial{U}}{\partial{do(Z)}} do(Z)U肯定是等于0的。我们也应用我们的效应同质性假设即 Z → A Z\rightarrow A ZA A → B A\rightarrow B AB来转换我们的偏导数从第四行到第五行, ∂ B ∂ d o ( Z ) \frac{\partial{B}}{\partial{do(Z)}} do(Z)B ∂ A ∂ d o ( Z ) \frac{\partial{A}}{\partial{do(Z)}} do(Z)A。这是至关重要的,因为否则,我们必须观察U来评估 ( U , Z ) (U,Z) (UZ)处的偏导数。知道它们独立于U,我们可以将它们转换为总导数,并仅在Z处对它们求值。因此,我们看到,在工具变量设置的假设下,我们可以使用对Z对B和Z对A的影响的观察来识别A对B的影响。这是一个强大的结果,使我们能够识别各种场景中特征对结果的影响,即使我们无法完全控制它们。
因此,我们看到,在工具变量设置的假设下,我们可以使用对Z对B和Z对A的影响的观察来识别A对B的影响。这是一个强大的结果,使我们能够识别各种场景中特征对结果的影响,即使我们无法完全控制它们。

二元变量或离散变量

该阶段博主直接略过感兴趣的同学自己搜索推导。

工具变量法的推广


图 2 更多IV图示例。(a) (b)和(c)对应于z作为有效的广义工具变量场景,而(d)和(e)表示无效的工具变量。(b)显示了常见的IV设置,其中a和b除了未观察到的混杂因素外,还观察到混杂因素。

虽然图1中描绘的标准工具变量场景呈现了只有几个变量的简单图形,但是我们可以将这些想法扩展到更复杂的场景。
最简单的扩展情形包括图2(a),在这里我们看到了另外几个可观察到的混杂变量 W 1 W_1 W1 W 2 W_2 W2。然而,这些附加变量都没有打破我们的初始要求,即Z和B在 G n u l l ( A ) G_{null(A)} Gnull(A)中是d分隔的,或者Z和B不在图G中d分隔, P ( B ∣ d o ( Z ) ) P(B|do(Z)) P(Bdo(Z))是可识别的,以及我们关于同质效应的假设。
更有趣的情形就来到了图2(b),这里我们看到可观察的混杂变量 W W W确实违背了我们对变量Z和变量B是独立的假设,然而我们如果限定 W W W的值我们就发现,我们重建了变量Z和变量B,d分离的必要条件。这种情形下的工具变量称为条件工具变量,接着我们修改我们的具有工具变量情况下因果图中的d分离必要条件:

  • 限定 W W W情况下,变量Z和变量B在图 G n u l l ( A ) G_{null(A)} Gnull(A)中是d分离的。
  • 给定 W W W的情况下Z和A不是d分离的,那么 P ( A ∣ d o ( Z ) , W ) P(A|do(Z),W) P(Ado(Z),W)是可判别的。
  • 相对于未观测变量U,Z对A和B的影响是同质的。

其中W是不包含B的任何后代的条件集合。
更仔细地考虑工具变量Z的作用,其目的是提供与未观察到的混杂因素U无关的A中的变化信息,我们认识到Z实际上不必是A的原因。还有其他关系也可能捕捉到我们分析所需的A中变化。在图2(c)中,我们看到一个这样的例子。这里,C是Z和A的一个未被观察到的原因。即使在这个图中Z不是A的原因,Z也不是与A分开的,并且通常与A相关。虽然这种放松使我们之前的工具变量证明变得复杂,但通常可以放松我们的第二个假设。
已经探索了工具变量方案的许多其他扩展,例如工具变量集合,其中在线性假设下,一组工具变量共同使得能够识别多种治疗对结果的影响。

  • 6
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 7
    评论
【干货书】《因果推理导论-机器学习角度》,132页pdf 有几个主要的主题贯穿全书。这些主题主要是对两个不同类别的比较。当你阅读的时候,很重要的一点是你要明白书的不同部分适合什么类别,不适合什么类别。 统计与因果。即使有无限多的数据,我们有时也无法计算一些因果量。相比之下,很多统计是关于在有限样本中解决不确定性的。当给定无限数据时,没有不确定性。然而,关联,一个统计概念,不是因果关系。在因果推理方面还有更多的工作要做,即使在开始使用无限数据之后也是如此。这是激发因果推理的主要区别。我们在这一章已经做了这样的区分,并将在整本书中继续做这样的区分。 识别与评估。因果效应的识别是因果推论所独有的。这是一个有待解决的问题,即使我们有无限的数据。然而,因果推理也与传统统计和机器学习共享估计。我们将主要从识别因果效应(在第2章中,4和6)之前估计因果效应(第7章)。例外是2.5节和节4.6.2,我们进行完整的例子估计给你的整个过程是什么样子。 介入与观察。如果我们能进行干预/实验,因果效应的识别就相对容易了。这很简单,因为我们可以采取我们想要衡量因果效应的行动,并简单地衡量我们采取行动后的效果。观测数据变得更加复杂,因为数据中几乎总是引入混杂。 假设。将会有一个很大的焦点是我们用什么假设来得到我们得到的结果。每个假设都有自己的框来帮助人们注意到它。清晰的假设应该使我们很容易看到对给定的因果分析或因果模型的批评。他们希望,清晰地提出假设将导致对因果关系的更清晰的讨论。
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值