主题.
- 图模型 G r a p h i c a l M o d e l s \rm Graphical~Models Graphical Models 与统计分析因果性 C a u s a l i t y \rm Causality Causality 之间的关系。
因果模型.
- 图模型是我们用于研究因果性的重要助力, P e a r l \rm Pearl Pearl 在该文章中重点就是讨论图模型如何与因果模型关联起来。
- 区别于一般的联合分布告诉我们某个事件发生的可能性有多大,因果模型还会给出系统中出现外部干预时概率的变化情况。
- 基于图模型来研究因果性面临着以下两个挑战:
- ① ① ① 如何将复杂的外部干预融入图模型中予以组织、表示;
- ② ② ② 如何利用图模型来促进对于外部干预影响的预测任务。
- 在图模型中引入外部干预非常易于执行,这一良好性质根源于图模型本身。
S
i
m
o
n
\rm Simon
Simon 于
1977
1977
1977 年对其进行了简要的论述:
- P e a r l \rm Pearl Pearl 和 V e r m a \rm Verma Verma 于 1991 1991 1991 年提出了概率因果理论,即有向无环图 G \mathcal G G 中的每个节点与其父亲节点集合之间的关系由函数 f f f 形式化描述: X i = f i ( p a i , ϵ i ) (1) X_i=f_i({\rm pa}_i,\epsilon_i)\tag{1} Xi=fi(pai,ϵi)(1)并且整个概率图的联合分布依旧满足马尔可夫性: P ( x 1 , x 2 , ⋯ , x n ) = ∏ i = 1 n P ( x i ∣ p a i ) (2) P(x_1,x_2,\cdots,x_n)=\prod_{i=1}^nP(x_i|{\rm pa}_i)\tag{2} P(x1,x2,⋯,xn)=i=1∏nP(xi∣pai)(2)
- ( 1 ) (1) (1) 式中函数 f i f_i fi 代表了一种确定性映射法则,如果将由于外部干预而造成法则 f i f_i fi 的改变表示为随机变量 F i F_i Fi,那么 ( 1 ) (1) (1) 式可以更加普遍地写为: X i = h i ( p a i , F i , ϵ i ) (3) X_i=h_i({\rm pa}_i,F_i,\epsilon_i)\tag{3} Xi=hi(pai,Fi,ϵi)(3)当 F i = f i F_i=f_i Fi=fi 时,有 h i ( p a i , F i , ϵ i ) = f i ( p a i , ϵ i ) . h_i({\rm pa}_i,F_i,\epsilon_i)=f_i({\rm pa}_i,\epsilon_i). hi(pai,Fi,ϵi)=fi(pai,ϵi).
- ( 3 ) (3) (3) 式的意义在于,对于任意外部干预引起的映射法则变化 F i F_i Fi 可以通过为 X i X_i Xi 增加父亲节点这一操作融入图模型中进行表示。
外部干预.
- 最简单的外部干预 F i F_i Fi 就是将随机变量 X i X_i Xi 的取值固定,例如: F i = s e t ( X i = a ) (4) F_i={\rm set}(X_i=a)\tag{4} Fi=set(Xi=a)(4)这一外部干预等价于用 X i = a X_i=a Xi=a 这一等式关系替换 ( 1 ) (1) (1) 式。
-
(
4
)
(4)
(4) 式代表的外部干预反映在
D
A
G
\rm DAG
DAG 图中为一条新增的边
F
i
→
X
i
F_i\rightarrow X_i
Fi→Xi ,下图中分别以
Γ
,
Γ
′
\Gamma,\Gamma'
Γ,Γ′ 表示原概率图和新概率图:
- 如果 F i ∈ { n u l l , s e t ( X i = a ) } F_i\in\big\{{\rm null},{\rm set}(X_i=a)\big\} Fi∈{null,set(Xi=a)},那么变量 X i X_i Xi 的父结点集合更新为 p a i ′ = p a i ⋃ { F i } {\rm pa}_i'={\rm pa}_i\bigcup\{F_i\} pai′=pai⋃{Fi},对应的条件概率分布更新如下: P ( x i ∣ p a i ′ ) = { P ( x i ∣ p a i ) , F = n u l l 1 , F = s e t ( X i = a ) ∧ x i = a 0 , F = s e t ( X i = a ) ∧ x i ≠ a (5) P(x_i|{\rm pa}_i')=\left\{\begin{aligned}&P(x_i|{\rm pa}_i)~,~F={\rm null}\\ &1~~~~~~~~~~~~~~~,~F={\rm set}(X_i=a)\wedge x_i=a\\ &0~~~~~~~~~~~~~~~,~F={\rm set}(X_i=a)\wedge x_i\neq a\\ \end{aligned}\right.\tag{5} P(xi∣pai′)=⎩⎪⎨⎪⎧P(xi∣pai) , F=null1 , F=set(Xi=a)∧xi=a0 , F=set(Xi=a)∧xi=a(5)其中 n u l l \rm null null 表示不做外部干预。
- ( 2 ) (2) (2) 式中的联合分布 P ( x 1 , x 2 , ⋯ , x n ) P(x_1,x_2,\cdots,x_n) P(x1,x2,⋯,xn) 由于外部干预 s e t ( X i = a ) {\rm set}(X_i=a) set(Xi=a) 的影响,更新为 P a ( x 1 , x 2 , ⋯ , x n ) P_{a}(x_1,x_2,\cdots,x_n) Pa(x1,x2,⋯,xn): P a ( x 1 , x 2 , ⋯ , x n ) = P ′ ( x 1 , x 2 , ⋯ , x n ∣ F i = s e t ( X i = a ) ) (6.1) P_a(x_1,x_2,\cdots,x_n)=P'\Big(x_1,x_2,\cdots,x_n|F_i={\rm set}(X_i=a)\Big)\tag{6.1} Pa(x1,x2,⋯,xn)=P′(x1,x2,⋯,xn∣Fi=set(Xi=a))(6.1)其中 P ′ P' P′ 是由新概率图 Γ ′ = Γ ⋃ { F i } \Gamma'=\Gamma\bigcup\{F_i\} Γ′=Γ⋃{Fi} 确定的联合分布。
- 对 ( 6.1 ) (6.1) (6.1) 式进一步分析可知: P ′ ( x 1 , x 2 , ⋯ , x n ∣ F i = s e t ( X i = a ) ) = P ′ ( x i ∣ x 1 , x 2 , ⋯ , x i − 1 , x i + 1 , ⋯ , x n , F i = s e t ( X i = a ) ) ⋅ P ′ ( x 1 , x 2 , ⋯ , x i − 1 , x i + 1 , ⋯ , x n ∣ F i = s e t ( X i = a ) ) = P ′ ( x i ∣ F i = s e t ( X i = a ) ) ⋅ P ′ ( x 1 , x 2 , ⋯ , x i − 1 , x i + 1 , ⋯ , x n ) \begin{aligned}&P'\Big(x_1,x_2,\cdots,x_n\Big|F_i={\rm set}(X_i=a)\Big)\\&=P'\Big(x_i\Big|x_1,x_2,\cdots,x_{i-1},x_{i+1},\cdots,x_n,F_i={\rm set}(X_i=a)\Big)\\&\cdot P'\Big(x_1,x_2,\cdots,x_{i-1},x_{i+1},\cdots,x_n\Big|F_i={\rm set}(X_i=a)\Big)\\ &=P'\Big(x_i\Big|F_i={\rm set}(X_i=a)\Big)\cdot P'\Big(x_1,x_2,\cdots,x_{i-1},x_{i+1},\cdots,x_n\Big) \end{aligned} P′(x1,x2,⋯,xn∣∣∣Fi=set(Xi=a))=P′(xi∣∣∣x1,x2,⋯,xi−1,xi+1,⋯,xn,Fi=set(Xi=a))⋅P′(x1,x2,⋯,xi−1,xi+1,⋯,xn∣∣∣Fi=set(Xi=a))=P′(xi∣∣∣Fi=set(Xi=a))⋅P′(x1,x2,⋯,xi−1,xi+1,⋯,xn)并且有: P ′ ( x i = a ∣ F i = s e t ( X i = a ) ) = 1 P'\Big(x_i=a|F_i={\rm set}(X_i=a)\Big)=1 P′(xi=a∣Fi=set(Xi=a))=1 P ′ ( x i ≠ a ∣ F i = s e t ( X i = a ) ) = 0 P'\Big(x_i\neq a|F_i={\rm set}(X_i=a)\Big)=0 P′(xi=a∣Fi=set(Xi=a))=0因此得到如下表达式: P a ( x 1 , x 2 , ⋯ , x n ) = { P ( x 1 , x 2 , ⋯ , x n ) P ( x i ∣ p a i ) , x i = a 0 , x i ≠ a (6.2) P_a(x_1,x_2,\cdots,x_n)=\left\{\begin{aligned} &\cfrac{P(x_1,x_2,\cdots,x_n)}{P(x_i|{\rm pa}_i)}~,~x_i=a\\ &0~~~~~~~~~~~~~~~~~~~~~~~~~~~~~,~x_i\neq a\\ \end{aligned}\right.\tag{6.2} Pa(x1,x2,⋯,xn)=⎩⎪⎨⎪⎧P(xi∣pai)P(x1,x2,⋯,xn) , xi=a0 , xi=a(6.2)观察 ( 6.2 ) (6.2) (6.2) 式发现, P a ( x 1 , x 2 , ⋯ , x n ) P_a(x_1,x_2,\cdots,x_n) Pa(x1,x2,⋯,xn) 的值等于从联合分布 ∏ k = 1 n P ( x k ∣ p a k ) \prod_{k=1}^n P(x_k|{\rm pa}_k) ∏k=1nP(xk∣pak) 中移除了第 i i i 项 P ( x i ∣ p a i ) . P(x_i|{\rm pa}_i). P(xi∣pai).
- ( 6.2 ) (6.2) (6.2) 式是容易理解的,因为外部干预 F i F_i Fi 的存在,原父亲节点集合 p a i {\rm pa}_i pai 对于 X i X_i Xi 不再产生影响。
- 从 ( 6.1 ) (6.1) (6.1) 式可以推知以下等式: P a ( S ∣ p a i ) = P ( S ∣ x i = a , p a i ) (7) P_a(S|{\rm pa}_i)=P(S|x_i=a,{\rm pa}_i)\tag{7} Pa(S∣pai)=P(S∣xi=a,pai)(7)其中 S S S 是任意变量集合。 ( 7 ) (7) (7) 式之所以成立,是因为集合 { X i } ⋃ p a i \{X_i\}\bigcup{\rm pa}_i {Xi}⋃pai 有向分割 d − s e p a r a t e d-{\rm separate} d−separate 了 F i F_i Fi 与 G \mathcal G G 的其余部分,因此有以下的条件独立性成立: S ⊥ ⊥ ( F i ∣ { X i } ⋃ p a i ) S\perp\!\!\!\!\perp\Big(F_i\Big|\{X_i\}\bigcup{\rm pa}_i\Big) S⊥⊥(Fi∣∣∣{Xi}⋃pai)
- 【疑惑】参考概率图 Γ ′ \Gamma' Γ′,实际上集合 { X i } \{X_i\} {Xi} 就能够有向分割 F i F_i Fi 与 G \mathcal G G 的其他部分。
- ( 6.2 ) (6.2) (6.2) 式明确如下事实:我们可以从进行干预前的分布 P ( x 1 , x 2 , ⋯ , x n ) P(x_1,x_2,\cdots,x_n) P(x1,x2,⋯,xn) 中推知干预后的分布 P a ( x 1 , x 2 , ⋯ , x n ) . P_a(x_1,x_2,\cdots,x_n). Pa(x1,x2,⋯,xn).
- 当估计 ( 6.2 ) (6.2) (6.2) 式中分母 P ( x i ∣ p a i ) P(x_i|{\rm pa}_i) P(xi∣pai) 有难度时,可以从 ( 6.1 ) (6.1) (6.1) 式入手。以概率 P a ( x j ) P_a(x_j) Pa(xj) 为例,根据 ( 6.1 ) (6.1) (6.1) 式可得: P a ( x j ) = P ′ ( x j ∣ F i = s e t ( X i = a ) ) = ∑ S P ′ ( x j ∣ S , F i ) ⋅ P ′ ( S ∣ F i ) \begin{aligned}P_a(x_j) &=P'\Big(x_j\Big|F_i={\rm set}(X_i=a)\Big)\\ &=\sum_SP'\Big(x_j\Big|S,F_i\Big)\cdot P'\big(S|F_i\big)\\ \end{aligned} Pa(xj)=P′(xj∣∣∣Fi=set(Xi=a))=S∑P′(xj∣∣∣S,Fi)⋅P′(S∣Fi)观察发现: P ′ ( x j ∣ S , F i ) = ∑ x i P ′ ( x j ∣ x i , S , F i ) ⋅ P ′ ( x i ∣ S , F i ) = P ′ ( x j ∣ X i = a , S , F i ) ⋅ P ′ ( X i = a ∣ S , F i ) = P ′ ( x j ∣ X i = a , S , F i ) \begin{aligned}P'\Big(x_j\Big|S,F_i\Big)&=\sum_{x_i}P'\Big(x_j\Big|x_i,S,F_i\Big)\cdot P'\Big(x_i\Big|S,F_i\Big)\\ &=P'\Big(x_j\Big|X_i=a,S,F_i\Big)\cdot P'\Big(X_i=a\Big|S,F_i\Big)\\ &=P'\Big(x_j\Big|X_i=a,S,F_i\Big) \end{aligned} P′(xj∣∣∣S,Fi)=xi∑P′(xj∣∣∣xi,S,Fi)⋅P′(xi∣∣∣S,Fi)=P′(xj∣∣∣Xi=a,S,Fi)⋅P′(Xi=a∣∣∣S,Fi)=P′(xj∣∣∣Xi=a,S,Fi)将其代入上式得到: P a ( x j ) = ∑ S P ′ ( x j ∣ X i = a , S , F i ) ⋅ P ′ ( S ∣ F i ) (8.1) P_a(x_j)=\sum_SP'\Big(x_j\Big|X_i=a,S,F_i\Big)\cdot P'\big(S|F_i\big)\tag{8.1} Pa(xj)=S∑P′(xj∣∣∣Xi=a,S,Fi)⋅P′(S∣Fi)(8.1)
- 如果有 S ⊥ ⊥ F i S\perp\!\!\!\!\perp F_i S⊥⊥Fi 和 X j ⊥ ⊥ ( F i ∣ { X i } ⋃ S ) X_j\perp\!\!\!\!\perp\Big(F_i\Big|\{X_i\}\bigcup S\Big) Xj⊥⊥(Fi∣∣∣{Xi}⋃S) 成立,那么 ( 8.1 ) (8.1) (8.1) 式可以简化为: P a ( x j ) = ∑ S P ( x j ∣ S , X i = a ) ⋅ P ( S ) = E S [ P ( x j ∣ S , X i = a ) ] (8.2) P_a(x_j)=\sum_SP\Big(x_j\Big|S,X_i=a\Big)\cdot P(S)=\mathbb E_S\Big[P\Big(x_j\Big|S,X_i=a\Big)\Big]\tag{8.2} Pa(xj)=S∑P(xj∣∣∣S,Xi=a)⋅P(S)=ES[P(xj∣∣∣S,Xi=a)](8.2) ( 8.2 ) (8.2) (8.2) 式的意义在于指明可以通过对分布 P ( x j ∣ S , X i = a ) P\Big(x_j\Big|S,X_i=a\Big) P(xj∣∣∣S,Xi=a) 求取期望来获得对 P a ( x j ) P_a(x_j) Pa(xj) 的估计。
- 另外可以证明,所以满足 B a c k − D o o r C r i t e r i o n \rm Back-Door~Criterion Back−Door Criterion 的集合 S S S 都满足 ( 8.2 ) (8.2) (8.2) 式的简化条件。