可观测统计数据上因果推断----因果图模型

基于前文的分析,在统计可观测数据上做因果推断是可以的。但是要满足一个基本的前提条件就是可忽略性,表述为干预变量Z与干预结果{Y(0), Y(1)} 在给定混淆变量X的前提下条件独立。在满足了这个条件后,如何形式化的表示这种因果推断呢?目前有两种经典的方法:由Donald Rubindd提出的RCM和图灵奖的得主Judea Pearl1995年提出的PCM。因为本文要介绍因果图模型,所以也就重点介绍PCM这种方法。PCM就是在有向无环图(DAG)上做因果推断的一整套理论和方法。在图论中,如果一个有向图无法从某个顶点出发经过若干条边回到该点,则这个图是一个有向无环图(DAG图)。简单一点,你可以这么理解就这可以像树结果一样化成分层结构且只有从上层往下层的边和层内的边而没有下层回到上层的边,这样的图就是有向无环图。既然这种图是可以分层的,那么就牵扯到“双亲节点”和“孩子节点”。在DAG中规定有向箭头上端的点无双亲节点下端的点为孩子节点。如


所有的节点集合X=(X1, X2, ..., Xp)。该怎么表示这些节点之间的关系呢?或许你首先想到是的联合分布。那么我们就首先从联合概率分布来讨论。对待DAG时有两种视角:1、把它看成是表示条件独立性模型;2、把它看成数据生成机制。在第一种视角下就可以讨论联合概率分布了。因为若在DAG中给定某个节点的双亲节点后,它他的非孩子节点都相互独立。那么我们就能得到如下的联合概率密度:

其中pai表示Xi的双亲节点集合。

在上图的例子中可以将DAG表示成一个联合概率密度:


从上述可以看出一个DAG唯一决定了一个联合分布。是否一个联合分布也可以唯一的决定一个DAG呢?答案是否定的,例如下图所示:


图(1)和图(2)的联合概率密码P(X1,X2)=P(X1)P(X2|X1)=P(X2)P(X1|X2)是相同的,但是它们却表示了截然相反的因果关系。因此想单纯从联合分布,很难确定原因和结果。其实,直观上这个概念也很好理解。联合概率密度是对相关性中的共现性的评价,当然不包含原因和结果的信息。

既然联合概率密度不行,你是否考虑条件概率密度?但是条件概率密度也存在一个问题,就是条件概率密度的理论中条件可以互换,P(X1|X2)=P(X2|X1)P(X1)/P(X2) 。这种互为条件的变换在因果推断中是我们不想看到的。我们只想看到原因对结果的影响。那么能不能根据DAG对条件做一些限定呢?如果你这么想,那么恭喜你。你和大牛的思路是一样的。

Pearl为了在DAG上更清晰的引入因果概念(因为DAG中的箭头表示因果不是很方便),提出了do算子。do 的意思可以理解成“干预” (intervention)。没有“干预”的概念,很多时候没有办法谈因果关系。在 

  • 4
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值