《因果推断入门》总结

内容来源:饺子博士and饭老师

目录

一、概率统计基础工具

二、图模型

三、结构因果模型

四、辛普森悖论

五、D-分隔

六、模型检验和等价类

七、乘积分解法则 

八、混淆变量 

九、A/B test

十、总结


一、概率统计基础工具

1. 随机事件A,则对应概率为P(A);

2. 条件概率:

        如果P(B) > 0,则P(A \mid B) = \frac{P(A \cap B)}{P(B)}

        如果P(B) = 0,则P(A \mid B) = 0

3. 独立事件的条件概率:

        P(A \mid B) = P(A) (A、B独立);

4. 条件独立的条件概率:

        P(A \mid B,C) = P(A \mid C) (在C的条件下,A、B独立);

5. 随机变量的条件概率:

        P(X = x | Y = y) = P(X = x);

6. 如果P(A \cap B) \neq \varnothingP(A \cup B) = P(A) + P(B)

7. 贝叶斯定理:

        P(A \mid B) = \frac{P(B \cap A)}{P(B)}= \frac{P(B \mid A)P(A)}{P(B)}

8. 期望:

        E(X) = \sum_{x}^{}x P(X = x)

        E(g(x)) = \sum_{x}^{}g(x) P(X = x)

        E(X) \approx \bar{E} = \frac{1}{n}\sum_{1}^{n}x_{i}

9. 条件期望:

        E(Y \mid X = x) = \sum_{y}^{}yP(Y = y \mid X = x)

10. 方差:

        Var(X) = E((x - \mu )^{2})

        Var(X) \approx \hat{\sigma ^{2}} = \frac{1}{n - 1}\sum_{1}^{n}(x_{i} - \bar{x})^{2}

11. 协方差:

        Cov(X, Y) = E[(X-E(X))(Y - E(Y))]

        Cov(X, Y) \approx \hat{\sigma }_{xy} = \frac{1}{n - 1} \sum_{1}^{n}(x - \bar{x})(y - \bar{y})

12. 相关系数:

        \rho _{xy} = \frac{\sigma _{xy}}{\sigma _{x}\sigma _{y}}

        \rho _{xy} \approx \hat{\rho _{xy}} = \frac{\hat{\sigma _{xy}}}{\hat{\sigma _{x}}\hat{\sigma _{y}}}

13. 回归方程:

        f^{*}(x) = E(Y \mid X = x)

        f^{*}(x) = E(Y \mid X = x) = X^{T}\beta                                                                  liner regression

        f^{*}(x) = E(Y \mid X = x) = \sum_{j = 1}^{p}f_{j}(x_{j})                                                         addtive model

        f^{*}(x) = E(Y \mid X = x) = \sum_{1}^{n}\alpha _{i}K(x_{i},x)                                                 kernel SVM

        f^{*}(x) = E(Y \mid X = x) = T_{\theta }(x)                                                                regression tree

        f^{*}(x) = E(Y \mid X = x) = \sum_{t = 1}^{T}T_{t, \theta _{t}}(x)                                                      random forest

14. 独立可以推出不相关,不相关无法推出独立

蒙提霍尔问题

令X代表玩家选择门号,即X = {1, 2, 3}

令Y代表汽车所在门号,即Y = {1, 2, 3}

令Z代表主持人所展示门号,即Z = {1, 2, 3}

在玩家选定1号门后主持人选定3号门的概率:

P(Z = 3 \mid X = 1) = P(Z = 3 \mid X = 1, Y = 1)P(Y = 1) +

                                    P(Z = 3 \mid X = 1, Y = 2)P(Y = 2) +

                                   P(Z = 3 \mid X = 1, Y = 3)P(Y = 3)

                                 = \frac{1}{2} \times \frac{1}{3} + 1 \times \frac{1}{3} + 0 \times \frac{1}{3}

                                 = \frac{1}{2}

在Z = 3 ,X = 1的情况下,Y = 1的概率:

P(Y = 1 \mid X = 1, Z = 3) = \frac{P(Y = 1, X = 1 \mid Z = 3)}{P(Z = 3 \mid X = 1)}                                   

                                             = \frac{P(Z = 3 \mid X = 1, Y = 1)P(Y = 1 \mid X = 1)}{P(Z = 3 \mid X = 1)}

                                             = \frac{\frac{1}{2} \times \frac{1}{3} }{ \frac{1}{2}}

                                             = \frac{1}{3}

在Z = 3 ,X = 1的情况下,Y = 2的概率:

P(Y = 2 \mid X = 1, Z = 3) = \frac{P(Y = 2, X = 1 \mid Z = 3)}{P(Z = 3 \mid X = 1)}

                                             = \frac{P(Z = 3 \mid X = 1, Y = 2)P(Y = 2 \mid X = 1)}{P(Z = 3 \mid X = 1) }

                                             = 1 \times \frac{1}{3} \times \frac{1}{2}

                                             = \frac{2}{3}

二、图模型

1. 相邻节点:

Y与X,Z相邻

2. 完全图:

 3. 路径:

无向路径:

有向路径:

4. 父子节点:

5. 闭环:

6. 有向无环图:

三、结构因果模型

        事件X通过方法导致事件Y的发生,可以描述为Y = f(X)。因为因果关系存在时间上线性关系,故X \neq f^{-1}(Y)。有时不仅仅只有一个“因”,即:Y = f(X, Z, ...)

        因素也有可能是其他事件产生的现象,即因素可能不是直接因素。

        Z= g(X)Y = f(Z)Y = f(g(X))

        图模型表示:

        Y = f(X)因果模型:

         Y = f(X,Z)因果模型:

        Z = f(X)Y = g(Z)Y = g(f(X)) 因果模型:

        Y = g(Z)Z = f(X,W) 因果模型:

其中X、W节点不由其他事件生成,称为外生变量,Z、Y 节点称为内生变量。

        如果X、Y是统计相关,也不能证明X、Y之间存在因果性。如果X、Y是存在因果性,X、Y之间绝大多数是统计相关。

链状结构(Chain)

         路径X->Y->Z构成链状结构。

        相关性:

        1. X与Y大多数是相关的;

        2. Y与Z大多数是相关的;

        3. Z与X大多数是相关的;

        4. 在给定Y的情况下,Z与X是独立的,即X ⫫ Z | Y;

        eg:

        X = u_{x}Y = X + u_{y}Z = Y + u_{z} = X + u_{y} + u_{z}

        当Y= C,得Z = C + u_{z},Z只与u_{z}相关。

 叉状结构(Fork)

        其中X、Y、Z构成叉状结构。 

        相关性:

        1. X与Y大多数是相关的;

        2. X与Z大多数是相关的;

        3. Z与Y大多数是相关的;

        4. 在给定X的情况下,Z与Y是独立的,即Y ⫫ Z | X;

        eg:

        X = u_{x}Y = X + u_{y}Z = X + u_{z}

        当X = C,得Y = C + u_{y}Z = C + u_{z},Y只与u_{y}相关,Z只与u_{z}相关。

对撞结构(Collider)

        其中X、Y、Z构成对撞结构。 

        相关性:

        1. X与Z大多数是相关的;

        2. Y与Z大多数是相关的;

        3. X与Y是独立的;

        4. 在给定Z的情况下,X与Y是相关的,X ≡ Y | Z;

        5. 在给定W的情况下,且W是Z的子孙节点,X与Y也是相关的,X ≡ Y | W;

四、辛普森悖论

        当人们尝试探究两种变量(比如新生录取率与性别)是否具有相关性的时候,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。

分组与群体不同例子1(药物影响性):

        分组数据:

男性
没恢复恢复总数
吃药68187
没吃药36234270
女性
没恢复恢复总数
吃药71192263
没吃药255580

         群体数据:

没恢复恢复总数
吃药77273350
没吃药61289350

        由上得:

XYZ
0女性没恢复没吃药
1男性恢复吃药

                P(Y = 1 \mid X = 1, Z = 1) = 0.93 

                P(Y = 1 \mid X = 1, Z = 0) = 0.87

                P(Y = 1 \mid X = 0, Z = 1) = 0.73

                P(Y = 1 \mid X = 0, Z = 0) = 0.69

                P(Y = 1 \mid Z = 1) = 0.78

                P(Y = 1 \mid Z = 0) = 0.83

        在分组中:

                P(Y = 1 \mid X = 1, Z = 1) > P(Y = 1 \mid X = 1, Z = 0)

                P(Y = 1 \mid X = 0, Z = 1) > P(Y = 1 \mid X = 0, Z = 0)        

        从数据上看吃药是对恢复有益的。

        在群体中:

                P(Y = 1 \mid Z = 1) < P(Y = 1 \mid Z = 0) 

        从数据上看吃药是对恢复有害的。 

从图上看,性别也治疗效果是存在影响的。故存在因果模型如下所示:

 性别、吃药和恢复构成叉状结构,因此要研究吃药和恢复之间是否有相关性,应该阻塞性别使得吃药和恢复独立。故应看分组数据进行分析。

分组与群体不同例子2(多种影响性):

没吃药吃药
低血压81/87(93%)234/270(87%)
高血压192/263(73%)55/80(69%)
合并数据270/350(78%)289/350(83%)

        显然,分组数据的效果是负向的,而群体数据的效果是正向的。血压对治疗效果有影响,同时,药物对血压也有影响。

血压、吃药和恢复构成链状结构,因此要研究吃药和恢复之间是否有相关性,不能阻塞血压的影响,这本身就是所研究的部分相关性,故应看群体数据进行分析。 

五、D-分隔

        D-分隔是一种用来判断变量是否条件独立的图形化方法。相比于非图形化方法,D-分隔更加直观,且计算简单。对于一个DAG图,D-分隔方法可以快速的判断出E中两个节点之间是否是条件独立的。

        X、Y是D-分隔的 <=> X、Y独立

        X、Y在条件Z下D-分隔 <=> X、Y独立 | Z         

       链状结构中:

         X、Y是D-连通的,当阻塞Z可使得X、Y是D-分隔,X ⫫ Y | Z。

        叉状结构中:

        X、Y是D-连通的,当阻塞Z可使得X、Y是D-分隔,X ⫫ Y | Z。 

        对撞结构中:

        X、Y是D-分隔的,因为Z阻塞了X、Y。当给定Z时,可使得X、Y具有相关性,X ≡ Y | Z  

        例子:

        因为W属于对撞结构使得X、Y是D-分隔的。 

六、模型检验和等价类

模型检验

        图可以推出任意两个节点的统计相关性。数据可以进行统计分析,估计变量的统计相关性。若二者出现不一致问题,则可以认为模型假设错误。

        eg:        

        从上图中可以推出: W ⫫ Z_{1} | X。若数据可以分析回归方程:W = \beta _{0} + \beta _{1} \times Z_{1}+\beta _{2} \times X,则说明 W ≡ Z_{1} | X 。因此模型是错误的。

 等价类

相关性叉状结构链状结构
X ≡ Y✔︎✔︎
X ≡ Z✔︎✔︎
Y ≡ Z✔︎✔︎
X ≡ Y | Z✔︎✔︎
X ⫫ Z | Y✔︎✔︎
Y ≡ Z | X✔︎✔︎

相关性叉状结构对撞结构
X ≡ Y✔︎✔︎
X ≡ Z✔︎
Y ≡ Z✔︎✔︎
X ≡ Y | Z✔︎✔︎
X ⫫ Z | Y✔︎
Y ≡ Z | X✔︎✔︎

相关性G1G2
X ≡ Y✔︎✔︎
X ≡ Z✔︎✔︎
Y ≡ Z✔︎✔︎
X ≡ Y | Z✔︎✔︎
X ⫫ Z | Y✔︎✔︎
Y ≡ Z | X✔︎✔︎

        1. 链状结构与叉状结构是无法区分的,即等价;

        2. 链状结构和叉状结构与对撞结构是可以区分的,即不等价;

        3. 对状结构的相邻父节点存在有向边是无法区分的,即等价;

        eg:

七、乘积分解法则 

        结构因果模型的相应图模型不是循环图时,变量的联合分布表示为:    

                                            P(X_{1},...,X_{n}) = \prod_{i = 1}^{n}P(X_{i}|pa(X_{i})) 

        其中pa(X_{i})为节点X_{i}的所有父节点。

        eg:

P(X_{1},X_{2},X_{3},X_{4},X_{5}) = \prod_{i = 1}^{5}P(X_{i}|pa(X_{i}))

                                        =P(X_{1})P(X_{2}|X_{1})P(X_{3}|X_{1})P(X_{4}|X_{2},X_{3})P(X_{5}|X_{4})

八、混淆变量 

        同时影响原因变量与结果变量的变量,称为混淆变量。例如分组与群体不同例子1中,性别为混淆变量;分组与群体不同例子2中,血压不是混淆变量,因为其是原因变量导致而影响结果变量。

剔除混淆变量

        数据获取方式:

        1. 观测数据,只是记录数据,不会数据的产生进行干涉;

        2. 试验数据,对试验对象进行干涉,例如对照试验;

        观测数据难以使用因果推断,试验数据易于使用因果推断。因此在随机试验中对试验对象进行干预,使得变量单一,便可剔除混淆变量。但是并不是所有的试验都可以通过随机试验来获得试验数据,而是通过观测数据。

九、A/B test

        A/B test一般使用于互联网公司对新功能上线效果分析。其实现方式为:将线上流量进行分流,使得流量从服务器获得的数据不同,并在客户端观察并记录线上用户对此反应,后根据分析数据进行评价新功能的影响,从而做出决策。以网页为例,通过负载均衡等将线上流量分成A、B(可以更多,即AA/B test、AAA/B test,但都是A/B test),A流量获得新设计的页面,B流量依然获得旧页面。同时,在两个页面上进行点击统计(可以是留存等),分析两个页面之间的差异,从而决定是否进一步推流。

十、总结

        事物普遍存在因果性,同时存在相关性混淆因果关系,因果推断就是有效“武器”。例如,张三是电商,他想发放优惠卷从而提高营业额,结果也如同他所想。但恰巧此时存在双十一活动,那提高营业额是因为优惠卷还是双十一便存在争议。如果对其做随机试验便可以清晰了解双方差异。

        因果推断可以使用概率统计工具对试验数据进行分析,从而总结或者论证一个结构因果模型去阐述事物的因果性。也可以通过结构因果模型去生成数据或者对数据进行优化后分析,从而使得展示效果更加明显。

        在机器学习中,特征之间是存在相关性和因果性的。在做决策和判断时,我们往往需要因果性,因此识别特征之间的因果性是必要的,而因果推断是重要武器。因果推断与机器学习的结合,是有双向促进作用的。

  • 1
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值