【XAI】Comment: Graphical Models, Causality and Intervention

本文探讨了图模型在因果分析中的应用,如何通过引入外部干预来研究因果效应。Pearl和Verma的概率因果理论允许在有向无环图(DAG)中表示因果关系,其中函数描述了节点间的依赖。外部干预如设定变量值可以通过增加新边到图中来表示,影响变量的条件概率分布。通过分析干预前后联合分布的变化,可以推导出干预效果,并利用Back-Door Criterion来估计干预后的概率分布。
摘要由CSDN通过智能技术生成

主题.

  • 图模型 G r a p h i c a l   M o d e l s \rm Graphical~Models Graphical Models 与统计分析因果性 C a u s a l i t y \rm Causality Causality 之间的关系。

因果模型.

  • 图模型是我们用于研究因果性的重要助力, P e a r l \rm Pearl Pearl 在该文章中重点就是讨论图模型如何与因果模型关联起来。
  • 区别于一般的联合分布告诉我们某个事件发生的可能性有多大,因果模型还会给出系统中出现外部干预时概率的变化情况。
  • 基于图模型来研究因果性面临着以下两个挑战:
  • ① ① 如何将复杂的外部干预融入图模型中予以组织、表示;
  • ② ② 如何利用图模型来促进对于外部干预影响的预测任务。
  • 在图模型中引入外部干预非常易于执行,这一良好性质根源于图模型本身。 S i m o n \rm Simon Simon 1977 1977 1977 年对其进行了简要的论述:
    在这里插入图片描述

  • P e a r l \rm Pearl Pearl V e r m a \rm Verma Verma 1991 1991 1991 年提出了概率因果理论,即有向无环图 G \mathcal G G 中的每个节点与其父亲节点集合之间的关系由函数 f f f 形式化描述: X i = f i ( p a i , ϵ i ) (1) X_i=f_i({\rm pa}_i,\epsilon_i)\tag{1} Xi=fi(pai,ϵi)(1)并且整个概率图的联合分布依旧满足马尔可夫性: P ( x 1 , x 2 , ⋯   , x n ) = ∏ i = 1 n P ( x i ∣ p a i ) (2) P(x_1,x_2,\cdots,x_n)=\prod_{i=1}^nP(x_i|{\rm pa}_i)\tag{2} P(x1,x2,,xn)=i=1nP(xipai)(2)
  • ( 1 ) (1) (1) 式中函数 f i f_i fi 代表了一种确定性映射法则,如果将由于外部干预而造成法则 f i f_i fi 的改变表示为随机变量 F i F_i Fi,那么 ( 1 ) (1) (1) 式可以更加普遍地写为: X i = h i ( p a i , F i , ϵ i ) (3) X_i=h_i({\rm pa}_i,F_i,\epsilon_i)\tag{3} Xi=hi(pai,Fi,ϵi)(3) F i = f i F_i=f_i Fi=fi 时,有 h i ( p a i , F i , ϵ i ) = f i ( p a i , ϵ i ) . h_i({\rm pa}_i,F_i,\epsilon_i)=f_i({\rm pa}_i,\epsilon_i). hi(pai,Fi,ϵi)=fi(pai,ϵi).
  • ( 3 ) (3) (3) 式的意义在于,对于任意外部干预引起的映射法则变化 F i F_i Fi 可以通过为 X i X_i Xi 增加父亲节点这一操作融入图模型中进行表示。

外部干预.

  • 最简单的外部干预 F i F_i Fi 就是将随机变量 X i X_i Xi 的取值固定,例如: F i = s e t ( X i = a ) (4) F_i={\rm set}(X_i=a)\tag{4} Fi=set(Xi=a)(4)这一外部干预等价于用 X i = a X_i=a Xi=a 这一等式关系替换 ( 1 ) (1) (1) 式。
  • ( 4 ) (4) (4) 式代表的外部干预反映在 D A G \rm DAG DAG 图中为一条新增的边 F i → X i F_i\rightarrow X_i FiXi ,下图中分别以 Γ , Γ ′ \Gamma,\Gamma' Γ,Γ 表示原概率图和新概率图:
    在这里插入图片描述
  • 如果 F i ∈ { n u l l , s e t ( X i = a ) } F_i\in\big\{{\rm null},{\rm set}(X_i=a)\big\} Fi{null,set(Xi=a)},那么变量 X i X_i Xi 的父结点集合更新为 p a i ′ = p a i ⋃ { F i } {\rm pa}_i'={\rm pa}_i\bigcup\{F_i\} pai=pai{Fi},对应的条件概率分布更新如下: P ( x i ∣ p a i ′ ) = { P ( x i ∣ p a i )   ,   F = n u l l 1                 ,   F = s e t ( X i = a ) ∧ x i = a 0                 ,   F = s e t ( X i = a ) ∧ x i ≠ a (5) P(x_i|{\rm pa}_i')=\left\{\begin{aligned}&P(x_i|{\rm pa}_i)~,~F={\rm null}\\ &1~~~~~~~~~~~~~~~,~F={\rm set}(X_i=a)\wedge x_i=a\\ &0~~~~~~~~~~~~~~~,~F={\rm set}(X_i=a)\wedge x_i\neq a\\ \end{aligned}\right.\tag{5} P(xipai)=P(xipai) , F=null1               , F=set(Xi=a)xi=a0               , F=set(Xi=a)xi=a(5)其中 n u l l \rm null null 表示不做外部干预。
  • ( 2 ) (2) (2) 式中的联合分布 P ( x 1 , x 2 , ⋯   , x n ) P(x_1,x_2,\cdots,x_n) P(x1,x2,,xn) 由于外部干预 s e t ( X i = a ) {\rm set}(X_i=a) set(Xi=a) 的影响,更新为 P a ( x 1 , x 2 , ⋯   , x n ) P_{a}(x_1,x_2,\cdots,x_n) Pa(x1,x2,,xn) P a ( x 1 , x 2 , ⋯   , x n ) = P ′ ( x 1 , x 2 , ⋯   , x n ∣ F i = s e t ( X i = a ) ) (6.1) P_a(x_1,x_2,\cdots,x_n)=P'\Big(x_1,x_2,\cdots,x_n|F_i={\rm set}(X_i=a)\Big)\tag{6.1} Pa(x1,x2,,xn)=P(x1,x2,,xnFi=set(Xi=a))(6.1)其中 P ′ P' P 是由新概率图 Γ ′ = Γ ⋃ { F i } \Gamma'=\Gamma\bigcup\{F_i\} Γ=Γ{Fi} 确定的联合分布。
  • ( 6.1 ) (6.1) (6.1) 式进一步分析可知: P ′ ( x 1 , x 2 , ⋯   , x n ∣ F i = s e t ( X i = a ) ) = P ′ ( x i ∣ x 1 , x 2 , ⋯   , x i − 1 , x i + 1 , ⋯   , x n , F i = s e t ( X i = a ) ) ⋅ P ′ ( x 1 , x 2 , ⋯   , x i − 1 , x i + 1 , ⋯   , x n ∣ F i = s e t ( X i = a ) ) = P ′ ( x i ∣ F i = s e t ( X i = a ) ) ⋅ P ′ ( x 1 , x 2 , ⋯   , x i − 1 , x i + 1 , ⋯   , x n ) \begin{aligned}&P'\Big(x_1,x_2,\cdots,x_n\Big|F_i={\rm set}(X_i=a)\Big)\\&=P'\Big(x_i\Big|x_1,x_2,\cdots,x_{i-1},x_{i+1},\cdots,x_n,F_i={\rm set}(X_i=a)\Big)\\&\cdot P'\Big(x_1,x_2,\cdots,x_{i-1},x_{i+1},\cdots,x_n\Big|F_i={\rm set}(X_i=a)\Big)\\ &=P'\Big(x_i\Big|F_i={\rm set}(X_i=a)\Big)\cdot P'\Big(x_1,x_2,\cdots,x_{i-1},x_{i+1},\cdots,x_n\Big) \end{aligned} P(x1,x2,,xnFi=set(Xi=a))=P(xix1,x2,,xi1,xi+1,,xn,Fi=set(Xi=a))P(x1,x2,,xi1,xi+1,,xnFi=set(Xi=a))=P(xiFi=set(Xi=a))P(x1,x2,,xi1,xi+1,,xn)并且有: P ′ ( x i = a ∣ F i = s e t ( X i = a ) ) = 1 P'\Big(x_i=a|F_i={\rm set}(X_i=a)\Big)=1 P(xi=aFi=set(Xi=a))=1 P ′ ( x i ≠ a ∣ F i = s e t ( X i = a ) ) = 0 P'\Big(x_i\neq a|F_i={\rm set}(X_i=a)\Big)=0 P(xi=aFi=set(Xi=a))=0因此得到如下表达式: P a ( x 1 , x 2 , ⋯   , x n ) = { P ( x 1 , x 2 , ⋯   , x n ) P ( x i ∣ p a i )   ,   x i = a 0                               ,   x i ≠ a (6.2) P_a(x_1,x_2,\cdots,x_n)=\left\{\begin{aligned} &\cfrac{P(x_1,x_2,\cdots,x_n)}{P(x_i|{\rm pa}_i)}~,~x_i=a\\ &0~~~~~~~~~~~~~~~~~~~~~~~~~~~~~,~x_i\neq a\\ \end{aligned}\right.\tag{6.2} Pa(x1,x2,,xn)=P(xipai)P(x1,x2,,xn) , xi=a0                             , xi=a(6.2)观察 ( 6.2 ) (6.2) (6.2) 式发现, P a ( x 1 , x 2 , ⋯   , x n ) P_a(x_1,x_2,\cdots,x_n) Pa(x1,x2,,xn) 的值等于从联合分布 ∏ k = 1 n P ( x k ∣ p a k ) \prod_{k=1}^n P(x_k|{\rm pa}_k) k=1nP(xkpak) 中移除了第 i i i P ( x i ∣ p a i ) . P(x_i|{\rm pa}_i). P(xipai).
  • ( 6.2 ) (6.2) (6.2) 式是容易理解的,因为外部干预 F i F_i Fi 的存在,原父亲节点集合 p a i {\rm pa}_i pai 对于 X i X_i Xi 不再产生影响。

  • ( 6.1 ) (6.1) (6.1) 式可以推知以下等式: P a ( S ∣ p a i ) = P ( S ∣ x i = a , p a i ) (7) P_a(S|{\rm pa}_i)=P(S|x_i=a,{\rm pa}_i)\tag{7} Pa(Spai)=P(Sxi=a,pai)(7)其中 S S S 是任意变量集合。 ( 7 ) (7) (7) 式之所以成立,是因为集合 { X i } ⋃ p a i \{X_i\}\bigcup{\rm pa}_i {Xi}pai 有向分割 d − s e p a r a t e d-{\rm separate} dseparate F i F_i Fi G \mathcal G G 的其余部分,因此有以下的条件独立性成立: S ⊥  ⁣ ⁣ ⁣ ⁣ ⊥ ( F i ∣ { X i } ⋃ p a i ) S\perp\!\!\!\!\perp\Big(F_i\Big|\{X_i\}\bigcup{\rm pa}_i\Big) S(Fi{Xi}pai)
  • 疑惑】参考概率图 Γ ′ \Gamma' Γ,实际上集合 { X i } \{X_i\} {Xi} 就能够有向分割 F i F_i Fi G \mathcal G G 的其他部分。

  • ( 6.2 ) (6.2) (6.2) 式明确如下事实:我们可以从进行干预前的分布 P ( x 1 , x 2 , ⋯   , x n ) P(x_1,x_2,\cdots,x_n) P(x1,x2,,xn) 中推知干预后的分布 P a ( x 1 , x 2 , ⋯   , x n ) . P_a(x_1,x_2,\cdots,x_n). Pa(x1,x2,,xn).

  • 当估计 ( 6.2 ) (6.2) (6.2) 式中分母 P ( x i ∣ p a i ) P(x_i|{\rm pa}_i) P(xipai) 有难度时,可以从 ( 6.1 ) (6.1) (6.1) 式入手。以概率 P a ( x j ) P_a(x_j) Pa(xj) 为例,根据 ( 6.1 ) (6.1) (6.1) 式可得: P a ( x j ) = P ′ ( x j ∣ F i = s e t ( X i = a ) ) = ∑ S P ′ ( x j ∣ S , F i ) ⋅ P ′ ( S ∣ F i ) \begin{aligned}P_a(x_j) &=P'\Big(x_j\Big|F_i={\rm set}(X_i=a)\Big)\\ &=\sum_SP'\Big(x_j\Big|S,F_i\Big)\cdot P'\big(S|F_i\big)\\ \end{aligned} Pa(xj)=P(xjFi=set(Xi=a))=SP(xjS,Fi)P(SFi)观察发现: P ′ ( x j ∣ S , F i ) = ∑ x i P ′ ( x j ∣ x i , S , F i ) ⋅ P ′ ( x i ∣ S , F i ) = P ′ ( x j ∣ X i = a , S , F i ) ⋅ P ′ ( X i = a ∣ S , F i ) = P ′ ( x j ∣ X i = a , S , F i ) \begin{aligned}P'\Big(x_j\Big|S,F_i\Big)&=\sum_{x_i}P'\Big(x_j\Big|x_i,S,F_i\Big)\cdot P'\Big(x_i\Big|S,F_i\Big)\\ &=P'\Big(x_j\Big|X_i=a,S,F_i\Big)\cdot P'\Big(X_i=a\Big|S,F_i\Big)\\ &=P'\Big(x_j\Big|X_i=a,S,F_i\Big) \end{aligned} P(xjS,Fi)=xiP(xjxi,S,Fi)P(xiS,Fi)=P(xjXi=a,S,Fi)P(Xi=aS,Fi)=P(xjXi=a,S,Fi)将其代入上式得到: P a ( x j ) = ∑ S P ′ ( x j ∣ X i = a , S , F i ) ⋅ P ′ ( S ∣ F i ) (8.1) P_a(x_j)=\sum_SP'\Big(x_j\Big|X_i=a,S,F_i\Big)\cdot P'\big(S|F_i\big)\tag{8.1} Pa(xj)=SP(xjXi=a,S,Fi)P(SFi)(8.1)
  • 如果有 S ⊥  ⁣ ⁣ ⁣ ⁣ ⊥ F i S\perp\!\!\!\!\perp F_i SFi X j ⊥  ⁣ ⁣ ⁣ ⁣ ⊥ ( F i ∣ { X i } ⋃ S ) X_j\perp\!\!\!\!\perp\Big(F_i\Big|\{X_i\}\bigcup S\Big) Xj(Fi{Xi}S) 成立,那么 ( 8.1 ) (8.1) (8.1) 式可以简化为: P a ( x j ) = ∑ S P ( x j ∣ S , X i = a ) ⋅ P ( S ) = E S [ P ( x j ∣ S , X i = a ) ] (8.2) P_a(x_j)=\sum_SP\Big(x_j\Big|S,X_i=a\Big)\cdot P(S)=\mathbb E_S\Big[P\Big(x_j\Big|S,X_i=a\Big)\Big]\tag{8.2} Pa(xj)=SP(xjS,Xi=a)P(S)=ES[P(xjS,Xi=a)](8.2) ( 8.2 ) (8.2) (8.2) 式的意义在于指明可以通过对分布 P ( x j ∣ S , X i = a ) P\Big(x_j\Big|S,X_i=a\Big) P(xjS,Xi=a) 求取期望来获得对 P a ( x j ) P_a(x_j) Pa(xj) 的估计。
  • 另外可以证明,所以满足 B a c k − D o o r   C r i t e r i o n \rm Back-Door~Criterion BackDoor Criterion 的集合 S S S 都满足 ( 8.2 ) (8.2) (8.2) 式的简化条件。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值