因果推断——(一)从辛普森悖论谈起

本文探讨了因果推断的重要性,通过辛普森悖论展示了传统统计方法的局限性,强调了在分析中考虑先验知识和分类分析的必要性。实例说明了如何通过控制变量避免得出误导性的结论,指出统计方法在推断因果关系上的局限性。
摘要由CSDN通过智能技术生成

1.为什么学习因果推断

 我们为什么学习因果推断呢?在信息发达的今天,我们无时无刻都产生着数据,因果推断能让我们能理解数据,并利用数据得到的结论做出有价值的决策。如减少碳排放对环境的影响、抽烟对于患肺癌的影响。。。。
 有的同学可能会有些许疑问,为什么要将因果从统计中独立出来?它到底与传统的统计方法有什么区别?什么是因果?为什么上面这些问题都不能用传统的统计方法去分析?为了更清晰的理解因果推断的独特之处,让我们从一个悖论讲起。

2.辛普森悖论

 Edward Simpson提出了该悖论:总体反应的现象与分层分析的结果相悖。如抽烟的学生从平均成绩来看比不抽烟的学生高,同一批学生按照年龄划分之后,不抽烟学生的平均成绩高于抽烟学生。将零花钱这一属性加入到分析过程中来就会得到在相同零花钱区间、相同年纪区间的抽烟学生成绩平均分比不抽烟学生的平均分高的现象。假如此次实验的观察目的为:抽烟是否能提升学生成绩,当我们将越来越多的属性加入到分析过程中来的时候,我们得到的结论也是会不停变化的,因此从这份数据中得出确切的结论看来是无稽之谈。

2.1性别与康复率


 在辛普森悖论中有一个经典的例子如下图所示,一群病人选择是否接受新型药品的治疗,从总体来看接受新型药品治疗的患者康复率低于未接受新型治疗的患者,然而将这批数据分性别进行分析的时候就会得到与之相反的结论:无论男女在接受新型药物治疗之后康复率都高于未接受治疗的患者。
 这样的数据好像在告诉我们,当医生在给患者治疗建议的时候,如果医生知道患者的性别,那好,接受新型药物的治疗,反之不接受。如果一款药对男性和女性都有效,那么这款药肯定对所有人都有效,当医生不知道患者的性别时这款药一定对患者有害这样的结论是及其荒谬的。
在这里插入图片描述

 在简单的分析后得不到任何结论,为了弄清楚用药是否会提升康复率,在此基础之上引入先验的因果关系:假如我们知道雌性激素阻碍患者康复这一结论,在不用药的条件下女性先天性康复率就比男性低。就可以分析总体用药康复率低于未用药康复率的原因是:在用药的人群中女性占据一大部分,导致总体用药康复率低于未用药康复率(未用药的男性群体偏多,且男性先天性就比女性容易康复)。因此为了评估药物作用,应该将人群按照性别划分之后分析,推导出用药的确能提升患者康复率这个结论。这个例子告诉我们数据分类分析更准确、信息量更大。

2.2血压与康复率

 在这个例子中,总体来讲,用药也许可以通过降低血压的方式帮助治愈疾病。但当把这批数据拆分出来看,高血压和低血压的患者用药的康复率低于未用药的患者,不仅不能得出用药能提高治愈率的结论,还得出了用药有害的结论。
 在2.1的例子中,结论是通过分析总体用药康复率得到的。但在这个例子中,因为用药治疗的机制是通过降低患者血压,因此将数据按血压分组分析是毫无意义的。所以应该从总体中得出结论:用药能有效提升治愈率。
在这里插入图片描述

 然而在现实中,我们不可能知道雌性激素阻碍患者康复、用药能通过降低血压的手段治愈疾病这些先验的知识来指导分析数据,统计书中也告诉过我们相关性不是因果,没有什么统计方法能够帮助我们从数据中独立的抽取因果。因此都是使用统计方法来推断因果,就以性别和康复率的例子来看,我们无法准确的判断治愈效果是否与性别有关,因为该实验的变量是性别,该实验的样本为人,在控制变量(排除个体因素如身体、体重等)的前提下一个人不能既是男性又是女性,这就导致我们无法准确的得出因果关系。

  • 59
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值