【因果推断与机器学习】G-Methods时变混杂因素的因果推断

G-methods:由 (James Robins) 提出的处理时变混杂的“通用”方法集。这些方法包括 g-formula、边际结构模型的逆概率加权法、增强逆概率加权法和结构嵌套模型的 g-estimation。
为了帮助定义其余术语,我将定义一些符号。令 Y i a Y_i^a Yia表示治疗或暴露 a a a下的潜在结果(即个体为 i i i的人如果接受了治疗 a a a或者暴露于 a a a会有的结果), Y Y Y表示观察到的结果, A A A是观察到的采取的治疗或行动, W W W被视为一组混杂变量或者协变量。最后,令 V V V表示变量集合 W W W中的一个单独的变量。为简单起见,我将只讨论单一时间的结果,但这里的所有内容都可以推广到多个时间(即具有时变混杂因素的设置)。

G-formula:通常用来表达因果过程的结果 E [ Y a E[Y^a E[Ya所用的方法是以观测数据为基础的。在这种情况下,g-formula 是:
E [ Y a ] = ∑ w E [ Y ∣ A = a , W = w ] Pr ⁡ ( W = w ) E[Y^a]=\sum_wE[Y|A=a,W=w]\Pr(W=w) E[Ya]=wE[YA=a,W=w]Pr(W=w)
在这里,我们把要估计的不可观测量(我们无法看到的潜在结果的边际平均值)写成关于 W , A , Y W,A,Y W,A,Y 的项(可观测量)。g-formula依赖于对结果的建模(即: Y Y Y是关于 A , W A,W A,W的函数)但它并没有告诉我们怎么样去做。随之我们就引出G-computation

G-computation:G-computation 可以被视为关于g-formula 算法的实现。它说的是在给定 A , W A,W A,W的情况下,拟合 Y Y Y的某个模型,然后使用该模型预测每个人在 A = a A=a A=a的情况下的结果,然后取这些预测的潜在结果的平均值。g-formulag-computation在文献中经常交替使用,因此需要注意。

G-estimation:G-estimation是一种独立的方法。更正式的说,它是“结构嵌套模型的g-estimation”。所以,我们先淘箩一下结构嵌套模型。

Structural nested models(SNM):SNM 是一种结果模型,旨在处理随时间变化的效应测量修正(某种情况下在技术上很难去精确定义的)。但是在单一时间点设置中,它们是非常直接的。下面是一个加法的结构嵌套模型SNM:
E [ Y a ∣ A = a , V ] − E [ Y 0 ∣ A = a , V ] = α 1 a + α 2 a V E[Y^a|A=a,V]-E[Y^0|A=a,V]=\alpha_1a+\alpha_2aV E[YaA=a,V]E[Y0A=a,V]=α1a+α2aV
该模型有两个参数:(如果 V V V是二元变量的话)一种是当 V = 0 V=0 V=0时,变量 a a a的影响;另一种是当 V = 1 V=1 V=1时, a a a的影响。因此,结构嵌套模型是我们可以假设的一种模型,即变量 A A A Y Y Y的叠加效应如何随着 V V V的变化而变化。

现在回到 G-估计。G-estimation 是我们用来估计 SNM 参数 ( α 1 , α 2 \alpha_{1},\alpha_{2} α1,α2) 的过程。 值得注意的是,g-formula和 g-estimation之间的估计值或相关参数是不同的。 因此,不应将两者混为一谈。

Marginal structural models(MSM):为了帮助理解 SNM,我们可以将其与 MSM 进行对比。 MSM 中的 “Marginal” 指的是我们的模型是边际模型(即不以 W 默认值为条件)。 "Structural"指模型包含潜在结果。 "Models"表示我们正在使用某种模型。 MSM 的示例如下
E [ Y a ] = β 0 + β 1 a E[Y^a]=\beta_0+\beta_1a E[Ya]=β0+β1a
请注意,这与g-formula的估计值相同。估计MSM参数的一种方法是使用反概率加权法(当然还有其他方法)。

我们还可以考虑捕捉效果测量修正的 MSM(称为 “faux MSM”,因为我们不再是边际的)。 下面是一个例子
E [ Y a ] = β 0 + β 1 a + β 2 V + β 3 a V E[Y^a]=\beta_0+\beta_1a+\beta_2V+\beta_3\boldsymbol{a}V E[Ya]=β0+β1a+β2V+β3aV
请注意,与 SNM 不同,该模型包括 4 个参数。 因此,如果我们解释 MSM 的参数,就需要将其视为 V V V的条件也就是给定 V V V的值的条件下。 而 SNM 的情况并非如此(它只有两个参数,其中任何一个都不是 V V V 的主效应)。 正是这一差异使得 SNM 能够捕捉时变效应测量修正,而 MSM 却不能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值