G-methods:由 (James Robins) 提出的处理时变混杂的“通用”方法集。这些方法包括 g-formula、边际结构模型的逆概率加权法、增强逆概率加权法和结构嵌套模型的 g-estimation。
为了帮助定义其余术语,我将定义一些符号。令
Y
i
a
Y_i^a
Yia表示治疗或暴露
a
a
a下的潜在结果(即个体为
i
i
i的人如果接受了治疗
a
a
a或者暴露于
a
a
a会有的结果),
Y
Y
Y表示观察到的结果,
A
A
A是观察到的采取的治疗或行动,
W
W
W被视为一组混杂变量或者协变量。最后,令
V
V
V表示变量集合
W
W
W中的一个单独的变量。为简单起见,我将只讨论单一时间的结果,但这里的所有内容都可以推广到多个时间(即具有时变混杂因素的设置)。
G-formula:通常用来表达因果过程的结果
E
[
Y
a
E[Y^a
E[Ya所用的方法是以观测数据为基础的。在这种情况下,g-formula 是:
E
[
Y
a
]
=
∑
w
E
[
Y
∣
A
=
a
,
W
=
w
]
Pr
(
W
=
w
)
E[Y^a]=\sum_wE[Y|A=a,W=w]\Pr(W=w)
E[Ya]=w∑E[Y∣A=a,W=w]Pr(W=w)
在这里,我们把要估计的不可观测量(我们无法看到的潜在结果的边际平均值)写成关于
W
,
A
,
Y
W,A,Y
W,A,Y 的项(可观测量)。g-formula依赖于对结果的建模(即:
Y
Y
Y是关于
A
,
W
A,W
A,W的函数)但它并没有告诉我们怎么样去做。随之我们就引出G-computation。
G-computation:G-computation 可以被视为关于g-formula 算法的实现。它说的是在给定 A , W A,W A,W的情况下,拟合 Y Y Y的某个模型,然后使用该模型预测每个人在 A = a A=a A=a的情况下的结果,然后取这些预测的潜在结果的平均值。g-formula和g-computation在文献中经常交替使用,因此需要注意。
G-estimation:G-estimation是一种独立的方法。更正式的说,它是“结构嵌套模型的g-estimation”。所以,我们先淘箩一下结构嵌套模型。
Structural nested models(SNM):SNM 是一种结果模型,旨在处理随时间变化的效应测量修正(某种情况下在技术上很难去精确定义的)。但是在单一时间点设置中,它们是非常直接的。下面是一个加法的结构嵌套模型SNM:
E
[
Y
a
∣
A
=
a
,
V
]
−
E
[
Y
0
∣
A
=
a
,
V
]
=
α
1
a
+
α
2
a
V
E[Y^a|A=a,V]-E[Y^0|A=a,V]=\alpha_1a+\alpha_2aV
E[Ya∣A=a,V]−E[Y0∣A=a,V]=α1a+α2aV
该模型有两个参数:(如果
V
V
V是二元变量的话)一种是当
V
=
0
V=0
V=0时,变量
a
a
a的影响;另一种是当
V
=
1
V=1
V=1时,
a
a
a的影响。因此,结构嵌套模型是我们可以假设的一种模型,即变量
A
A
A对
Y
Y
Y的叠加效应如何随着
V
V
V的变化而变化。
现在回到 G-估计。G-estimation 是我们用来估计 SNM 参数 ( α 1 , α 2 \alpha_{1},\alpha_{2} α1,α2) 的过程。 值得注意的是,g-formula和 g-estimation之间的估计值或相关参数是不同的。 因此,不应将两者混为一谈。
Marginal structural models(MSM):为了帮助理解 SNM,我们可以将其与 MSM 进行对比。 MSM 中的 “Marginal” 指的是我们的模型是边际模型(即不以 W 默认值为条件)。 "Structural"指模型包含潜在结果。 "Models"表示我们正在使用某种模型。 MSM 的示例如下
E
[
Y
a
]
=
β
0
+
β
1
a
E[Y^a]=\beta_0+\beta_1a
E[Ya]=β0+β1a
请注意,这与g-formula的估计值相同。估计MSM参数的一种方法是使用反概率加权法(当然还有其他方法)。
我们还可以考虑捕捉效果测量修正的 MSM(称为 “faux MSM”,因为我们不再是边际的)。 下面是一个例子
E
[
Y
a
]
=
β
0
+
β
1
a
+
β
2
V
+
β
3
a
V
E[Y^a]=\beta_0+\beta_1a+\beta_2V+\beta_3\boldsymbol{a}V
E[Ya]=β0+β1a+β2V+β3aV
请注意,与 SNM 不同,该模型包括 4 个参数。 因此,如果我们解释 MSM 的参数,就需要将其视为
V
V
V的条件也就是给定
V
V
V的值的条件下。 而 SNM 的情况并非如此(它只有两个参数,其中任何一个都不是
V
V
V 的主效应)。 正是这一差异使得 SNM 能够捕捉时变效应测量修正,而 MSM 却不能。