【XAI】Comment: Graphical Models, Causality and Intervention

最新推荐文章于 2024-09-21 23:43:59 发布

Anova.YJ

最新推荐文章于 2024-09-21 23:43:59 发布

阅读量349

点赞数

分类专栏： XAI 文章标签：概率论机器学习

本文链接：https://blog.csdn.net/weixin_44246009/article/details/121353637

版权

XAI 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

本文探讨了图模型在因果分析中的应用，如何通过引入外部干预来研究因果效应。Pearl和Verma的概率因果理论允许在有向无环图(DAG)中表示因果关系，其中函数描述了节点间的依赖。外部干预如设定变量值可以通过增加新边到图中来表示，影响变量的条件概率分布。通过分析干预前后联合分布的变化，可以推导出干预效果，并利用Back-Door Criterion来估计干预后的概率分布。

摘要由CSDN通过智能技术生成

主题.

图模型 $\rm Graphical~Models$ 与统计分析因果性 $\rm Causality$ 之间的关系。

因果模型.

图模型是我们用于研究因果性的重要助力， $\rm Pearl$ 在该文章中重点就是讨论图模型如何与因果模型关联起来。
区别于一般的联合分布告诉我们某个事件发生的可能性有多大，因果模型还会给出系统中出现外部干预时概率的变化情况。
基于图模型来研究因果性面临着以下两个挑战：
$①$ 如何将复杂的外部干预融入图模型中予以组织、表示；
$②$ 如何利用图模型来促进对于外部干预影响的预测任务。
在图模型中引入外部干预非常易于执行，这一良好性质根源于图模型本身。 $\rm Simon$ 于 $1977$ 年对其进行了简要的论述：

$\rm Pearl$ 和 $\rm Verma$ 于 $1991$ 年提出了概率因果理论，即有向无环图 $\mathcal G$ 中的每个节点与其父亲节点集合之间的关系由函数 $f$ 形式化描述： $X_i=f_i({\rm pa}_i,\epsilon_i)\tag{1}$ 并且整个概率图的联合分布依旧满足马尔可夫性： $P(x_1,x_2,\cdots,x_n)=\prod_{i=1}^nP(x_i|{\rm pa}_i)\tag{2}$
$(1)$ 式中函数 $f_i$ 代表了一种确定性映射法则，如果将由于外部干预而造成法则 $f_i$ 的改变表示为随机变量 $F_i$ ，那么 $(1)$ 式可以更加普遍地写为： $X_i=h_i({\rm pa}_i,F_i,\epsilon_i)\tag{3}$ 当 $F_i=f_i$ 时，有 $h_i({\rm pa}_i,F_i,\epsilon_i)=f_i({\rm pa}_i,\epsilon_i).$
$(3)$ 式的意义在于，对于任意外部干预引起的映射法则变化 $F_i$ 可以通过为 $X_i$ 增加父亲节点这一操作融入图模型中进行表示。

外部干预.

最简单的外部干预 $F_i$ 就是将随机变量 $X_i$ 的取值固定，例如： $F_i={\rm set}(X_i=a)\tag{4}$ 这一外部干预等价于用 $X_i=a$ 这一等式关系替换 $(1)$ 式。
$(4)$ 式代表的外部干预反映在 $\rm DAG$ 图中为一条新增的边 $F_i\rightarrow X_i$ ，下图中分别以 $\Gamma,\Gamma'$ 表示原概率图和新概率图：
如果 $F_i\in\big\{{\rm null},{\rm set}(X_i=a)\big\}$ ，那么变量 $X_i$ 的父结点集合更新为 ${\rm pa}_i'={\rm pa}_i\bigcup\{F_i\}$ ，对应的条件概率分布更新如下： $P(x_i|{\rm pa}_i')=\left\{\begin{aligned}&P(x_i|{\rm pa}_i)~,~F={\rm null}\\ &1~~~~~~~~~~~~~~~,~F={\rm set}(X_i=a)\wedge x_i=a\\ &0~~~~~~~~~~~~~~~,~F={\rm set}(X_i=a)\wedge x_i\neq a\\ \end{aligned}\right.\tag{5}$ 其中 $\rm null$ 表示不做外部干预。
$(2)$ 式中的联合分布 $P(x_1,x_2,\cdots,x_n)$ 由于外部干预 ${\rm set}(X_i=a)$ 的影响，更新为 $P_{a}(x_1,x_2,\cdots,x_n)$ ： $P_a(x_1,x_2,\cdots,x_n)=P'\Big(x_1,x_2,\cdots,x_n|F_i={\rm set}(X_i=a)\Big)\tag{6.1}$ 其中 $P^{'}$ 是由新概率图 $\Gamma'=\Gamma\bigcup\{F_i\}$ 确定的联合分布。
对 $(6.1)$ 式进一步分析可知： $\begin{aligned}&P'\Big(x_1,x_2,\cdots,x_n\Big|F_i={\rm set}(X_i=a)\Big)\\&=P'\Big(x_i\Big|x_1,x_2,\cdots,x_{i-1},x_{i+1},\cdots,x_n,F_i={\rm set}(X_i=a)\Big)\\&\cdot P'\Big(x_1,x_2,\cdots,x_{i-1},x_{i+1},\cdots,x_n\Big|F_i={\rm set}(X_i=a)\Big)\\ &=P'\Big(x_i\Big|F_i={\rm set}(X_i=a)\Big)\cdot P'\Big(x_1,x_2,\cdots,x_{i-1},x_{i+1},\cdots,x_n\Big) \end{aligned}$ 并且有： $P'\Big(x_i=a|F_i={\rm set}(X_i=a)\Big)=1$ $P'\Big(x_i\neq a|F_i={\rm set}(X_i=a)\Big)=0$ 因此得到如下表达式： $P_a(x_1,x_2,\cdots,x_n)=\left\{\begin{aligned} &\cfrac{P(x_1,x_2,\cdots,x_n)}{P(x_i|{\rm pa}_i)}~,~x_i=a\\ &0~~~~~~~~~~~~~~~~~~~~~~~~~~~~~,~x_i\neq a\\ \end{aligned}\right.\tag{6.2}$ 观察 $(6.2)$ 式发现， $P_a(x_1,x_2,\cdots,x_n)$ 的值等于从联合分布 $\prod_{k=1}^n P(x_k|{\rm pa}_k)$ 中移除了第 $i$ 项 $P(x_i|{\rm pa}_i).$
$(6.2)$ 式是容易理解的，因为外部干预 $F_i$ 的存在，原父亲节点集合 ${\rm pa}_i$ 对于 $X_i$ 不再产生影响。

从 $(6.1)$ 式可以推知以下等式： $P_a(S|{\rm pa}_i)=P(S|x_i=a,{\rm pa}_i)\tag{7}$ 其中 $S$ 是任意变量集合。 $(7)$ 式之所以成立，是因为集合 $\{X_i\}\bigcup{\rm pa}_i$ 有向分割 $d-{\rm separate}$ 了 $F_i$ 与 $\mathcal G$ 的其余部分，因此有以下的条件独立性成立： $S\perp\!\!\!\!\perp\Big(F_i\Big|\{X_i\}\bigcup{\rm pa}_i\Big)$
【疑惑】参考概率图 $\Gamma'$ ，实际上集合 ${X_i\}$ 就能够有向分割 $F_i$ 与 $\mathcal G$ 的其他部分。

$(6.2)$ 式明确如下事实：我们可以从进行干预前的分布 $P(x_1,x_2,\cdots,x_n)$ 中推知干预后的分布 $P_a(x_1,x_2,\cdots,x_n).$

当估计 $(6.2)$ 式中分母 $P(x_i|{\rm pa}_i)$ 有难度时，可以从 $(6.1)$ 式入手。以概率 $P_a(x_j)$ 为例，根据 $(6.1)$ 式可得： $\begin{aligned}P_a(x_j) &=P'\Big(x_j\Big|F_i={\rm set}(X_i=a)\Big)\\ &=\sum_SP'\Big(x_j\Big|S,F_i\Big)\cdot P'\big(S|F_i\big)\\ \end{aligned}$ 观察发现： $\begin{aligned}P'\Big(x_j\Big|S,F_i\Big)&=\sum_{x_i}P'\Big(x_j\Big|x_i,S,F_i\Big)\cdot P'\Big(x_i\Big|S,F_i\Big)\\ &=P'\Big(x_j\Big|X_i=a,S,F_i\Big)\cdot P'\Big(X_i=a\Big|S,F_i\Big)\\ &=P'\Big(x_j\Big|X_i=a,S,F_i\Big) \end{aligned}$ 将其代入上式得到： $P_a(x_j)=\sum_SP'\Big(x_j\Big|X_i=a,S,F_i\Big)\cdot P'\big(S|F_i\big)\tag{8.1}$
如果有 $S\perp\!\!\!\!\perp F_i$ 和 $X_j\perp\!\!\!\!\perp\Big(F_i\Big|\{X_i\}\bigcup S\Big)$ 成立，那么 $(8.1)$ 式可以简化为： $P_a(x_j)=\sum_SP\Big(x_j\Big|S,X_i=a\Big)\cdot P(S)=\mathbb E_S\Big[P\Big(x_j\Big|S,X_i=a\Big)\Big]\tag{8.2}$ $(8.2)$ 式的意义在于指明可以通过对分布 $P\Big(x_j\Big|S,X_i=a\Big)$ 求取期望来获得对 $P_a(x_j)$ 的估计。
另外可以证明，所以满足 $\rm Back-Door~Criterion$ 的集合 $S$ 都满足 $(8.2)$ 式的简化条件。