因果推断概述-CSDN博客

本文链接：https://blog.csdn.net/xjh163/article/details/132718050

文章目录

1 什么是因果关系
2 如何判断因果关系
- 2.1 内曼方案
- 2.2 鲁宾方案
3 创造随机环境的五种方法
4 因果推断在社会研究中的应用

1 什么是因果关系

一个事情的发生导致了另一件事都发生

两件事（A与B）相互关联
A的发生可以预测B的发生
排除其他可能的混淆变量

2 如何判断因果关系

2.1 内曼方案

1923年，当时还是华沙大学博士生的内曼就对因果问题进行过考虑。在他看来，所谓的因果关系，应该是基于一种“干预”进行前后，被干预对象表现的差别。
比如，一亩地如果不用化肥，可以产五百斤的粮；如果用了化肥，可以产八百斤，那么这中间差的三百斤就是使用化肥这个“干预”所产生的因果效应。
不过，这里就产生了一个问题：从理论上讲，要看一个因果效应的大小，就应该看同一亩地在施肥这个现实状态和不施肥这个反事实状态下的产量对比。但是，一亩地怎么可能比较这两种状态呢？显然这就存在一个悖论。
内曼提出的一个方案是，可以用对照试验来解决这个问题。
比如，可以找一千亩地，随机地把它们分成两组，把其中的一组视为“干预组”，另一组作为“对照组”。对于“干预组”的地，都施用化肥，而对“对照组”的地，则什么也不做。最后，研究者只需要对比“干预组”和“对照组”的平均亩产量，就可以得到最终的因果效应。

需要说明的是，尽管实验的方法可以在很多条件下帮助我们识别因果效应，但是在很多情况下，实验根本无法进行。
比如说，如果我们要分析某种食物的致癌性，那么从理论上讲，最好的办法就是找一个“对照组”和一个“实验组”，让一组人吃这种食物，另一组人则不吃，然后比较这两组人的癌症患病率。但是，除了极少数的科学狂人之外，恐怕没有人会同意这个方案，因为它实在是违背了实验伦理。
换言之，在现实当中，是否接受“干预”很难是一个随机现象。在这种条件下，直接比较两组人的表现就不再能直接表达出因果效应。
以吸烟和癌症为例，有一种理论就认为，有些人之所以爱吸烟，就是因为含有某种基因，而这种基因本身就能让人更容易得癌症。因此，表面上看起来的吸烟导致的高致癌率，其实是因为这种基因所引起的。

2.2 鲁宾方案

基于以上原因，鲁宾在分析因果问题的时候，并没有沿用内曼所建议的实验方法。
不过，他保留了内曼关于因果效应的定义，认为它应该被定义为**“干预”之后的实际状态与没有进行“干预”的“反事实”状态之间的差别**。
那么，怎么样才能计算出这两个状态之间的差别呢？
他给出的方案是，如果可以创造一种环境，在控制一些因素后，让是否接受“干预”可以成为一种随机的事件，那么就可以通过比较接受“干预组”的平均表现和“对照组”的平均表现来获得因果效应了。或者更为通俗地说，尽管在现实当中，有时候我们没法进行实验，但是如果可以设法模拟出一个类似的随机试验环境，那么内曼的结论就依然是适用的。比如，如果我们可以找到两组人，通过一定的分析，认定他们从事前看选择吸烟和不吸烟的概率是相同的，那么我们就可以通过比较这两组人的癌症发病率来推断因果效应了。

3 创造随机环境的五种方法

在鲁宾已经为因果推断的研究提供了必要的概念和框架，剩下的问题就是如何才能将这个框架进行应用。换言之，就是如何去创造一个“干预组”和“干预组”独立于其他各种因素的环境。从现有的文献看，目前比较常用的方法主要有五种：

3.1 倾向性得分匹配

这种方法的提出者，就是鲁宾和他的合作者保罗·罗森鲍姆。
这种方法的思路很简单，就是如前面说的，直接从“干预组”和“对照组”当中找出两组人来，保证他们事前选择是否接受干预的概率相同，然后对其表现进行比较。
具体来说，我们可以考虑两组人的各种特征对于是否接受“干预”的影响。
比如，一个人是不是抽烟会取决于很多因素，例如年龄、性别、财富、地位、工作等大量因素都会影响抽烟的概率。利用统计学的方法，我们可以把每种因素的影响大小计算出来，最后就可以计算出每个人吸烟的概率。随后，我们就可以把“干预组”和“对照组”当中概率近似的人分别拉在一起进行比较。
比如，在两组人当中，都有一部分人从事前看有70%的概率可能吸烟，从事后看，确实吸了烟的人癌症患病率是3%，而没有吸烟的人的患病率是1%，那么这一批人当中，吸烟对癌症发病率的因果作用就是2%。
研究者可以重复以上过程，把所有概率的人都进行一个对比，得到很多组差值，最后把这些差值进行平均，就得到了我们所要的因果效应。

3.2 回归分析

大致上讲，它是一个求解条件均值的问题。
举例来说，假如我们要对一个地区的房产价格及其影响进行分析。
影响房产的因素很多，地段、楼层、户型、面积都会影响房价。但作为研究者，我们希望确切地知道，如果给定其他因素不变，其中的每一个因素究竟是怎么影响房价的。或者更为具体的说，我们希望把房价表示成一个由各种因素影响的公式，在每个因素前面，都有一个数字，它们都可以表示给定其他因素不变，这个因素对于房价的影响大小。得到这个公式的步骤，就是回归。
在统计当中，实现回归的方法很多，最常见的就是所谓的“最小二乘法”。很显然，如果我们所考虑的每一个因素都是一个外生给定的量，而不受其他隐藏条件的影响，那么回归就可以很好地控制那些无关紧要的因素，通过观察我们关注的因素前面的系数，就可以得到鲁宾意义上的因果效应。

3.3 工具变量法

这种方法是用来干预所谓的“内生性”（endogeneity）问题。
如前所述，在鲁宾的分析框架当中，要求在控制了各种变量后，“干预组”和“对照组”在事前接受干预的概率是相同的。但在现实当中，干预变量很可能受到某些不能观察的因素的影响，因而即使控制了所有可以观察的变量，我们也很难构造出一个鲁宾模型所要求的那个条件。这时，我们就可以引入工具变量来进行干预。
举个最简单的例子，需求曲线可能是经济学家最为津津乐道的模型了。需求曲线是一个再简单不过的模型，它只是需求量和意愿支付价格之间的关系，而一旦有了这个模型，经济学家们就可以各种“一顿操作猛如虎”，得到很多结论。但是，问题在于有人能确切说出一个市场上的需求曲线是什么样的吗？有人可能说，这个不难啊，我们不是有市场的历史数据吗？把所有时期的数据找来，看一下每一个时期价格和市场销量的关系，用回归得到一个公式不就行了吗？但这显然是有问题的。原因很简单，在现实当中，我们看到的每个时期的销量都是供给和需求共同作用的结果，因此，我们就很难简单地把市场上的销量视为需求量。为了要把需求分离出来，我们就必须要分离出供给的影响。
那么，怎么从市场的销量当中分析出供给的影响呢？一个方法，就是寻找一个只会影响供给，而不会影响其他因素的变量，用它的变化来推测供给的变化。比如，在渔业市场上，鱼的供给量是和天气密切相关的，因此我们就可以通过统计来得到这种关系。如果我们知道了每一个历史时刻的天气状况，就可以推测出每一个时间的供给曲线。如果我们熟悉供给模型，就可以知道，随着供给曲线的外生移动，它会和需求曲线交出一个个的点，而通过这些点，我们就可以识别出需求曲线中价格和需求量之间的关系，而借助这个模型，就可以知道每一单位需求量对于消费者意愿支付的因果影响。在这个例子中，天气只会通过供给来影响销量，因此它就是本模型当中的一个工具变量。工具变量是来自于原模型之外的，但借助它，我们就可以看清模型内部的关系。

3.4 “倍差法”或者“双重差分法”

从某种意义上讲，这种方法其实是对控制实验法的一种拓展。
如前所述，如果要想从一个控制实验当中识别出因果关系，那么就需要保证“干预”选取的随机性，也就是要让“干预组”和“对照组”的表现在事先是没有差异的。
但是，在现实中，干预很难做到这么随机，“干预组”和“对照组”的事先表现总会有一定的差异。在这种情况下，怎么识别因果关系呢？一个办法就是，分别记录下干预发生前后“干预组”和“对照组”的两次差值，然后用干预后的差减去干预前的差。如果在干预前后，这两组对象之间差值的变化仅仅来自于干预活动的话，那么这个“差值的差”就是干预所带来的因果效应。
最早发现并应用“倍差法”的是公共卫生学家。早在19世纪，英国的公共卫生学家约翰·斯诺（John Snow）就用这个方法研究了饮水质量和霍乱之间的关系。当时，他猜测饮用水的不清洁很可能是导致霍乱的一个重要原因，但却很难找到证据。巧的是，一个“自然实验”的发生为他研究这个问题创造了条件。当时，伦敦的饮用水是由两个水厂供应的，而其中的一个水厂正好发生了搬迁，从一个水质较差的地区搬到了一个水质较好的地区。斯诺就利用这个自然实验的机会，记录下了搬迁前后两个水厂供水地区的霍乱发生率，并计算了相应的双重差分。通过分析，他就得到了水质和霍乱发生率之间的因果关系。

3.5 断点回归设计

这个方法最早是由心理学家坎贝尔和西斯尔维特共同提出的。
这个方法的要义是：一个干预的发生与否，是和某一个指标的断点相关的。这时，我们只需要比较一下这个断点两边对象的相关表现就可以得到因果关系。
例如，我们是不是能上大学，能不能上重点大学，主要就是看分数。
假设在某一年，高考录取线是500分，那么这个分数之上的人就可以上大学，而低于这个分数的就不能上大学。但是，我们知道在现实中，高考分数是有很强的随机性的，考501分的人和考499分的人，水平很可能是难分伯仲的。因此，把断点两边的人对照起来看，我们就创造了一个近似的控制实验环境。如果我们对上大学的教育回报率感兴趣的话，只要比较一下这两个群体的人的收入，就可以找到答案了。

4 因果推断在社会研究中的应用

4.1 最低工资制度是利还是弊

在经济学界，最低工资制度一直是保守争议的。尽管最低工资的倡导者们一直强调这个制度可以为劳动者提供必要的保障，但很多持自由放任观点的学者却一直对此表示反对。比如，在华人世界非常著名的张五常教授就一直将最低工资和劳动合同法斥为是恶法，并呼吁废除它们。
为什么放任派的经济学家这么反对最低工资制度呢？
原因是他们认为，这可能带来失业率的增加。其逻辑很简单：当最低工资增加时，一部分企业就需要以更高的成本来雇佣员工，这就会让它们减少雇佣。最终，市场上的劳动力需求减少了，这个减少就会带动失业的增加。
根据这个逻辑，最低工资虽然可以保障一部分人的权益，但是它事实上是以牺牲了其他人的就业权益为代价的，从社会整体的角度看，它可能是不合算的。
尽管经济学界围绕着最低工资问题争论了很长时间，但在大多数时候，相关的争论都停留在理论层面。而现实中的最低工资究竟会不会产生人们所担忧的提升失业率的后果，这一点其实一直都不能被证实或者证伪。
为什么呢？其实这就回到了我们前面讲的因果推断问题。从理论上讲，实施最低工资法，就是对一个地区劳动力市场的一次干预。如果要考虑这个干预给劳动力市场带来的影响，最好的办法就是比较有干预的现实情况和没有干预的“反事实”情况，但显然，这两个情况不可能同时存在。
因此在现实中，所谓的经验研究也只能根据某个地区的最低工资法出台前后，就业率的变化来提供一些相关的证据。但很显然，这些证据是不能令人信服的，因为在干预发生前后，有很多因素都变了，它们都可能影响就业率，其中最低工资的影响到底有多大，可能谁也说不清。直到卡德和克鲁格的研究出现，这个问题才得到了一个比较确定的解答。
卡德和克鲁格的研究是基于一次“自然实验”，利用“倍差法”完成的。
1990 年代初，新泽西州的最低小时工资从 4.25 美元提高到 5.05 美元，但与此同时，与新泽西州相邻的宾夕法尼亚州则没有进行相应的调整。在这种情况下，新泽西州和宾夕法尼亚州的劳动力市场就分别构成了“干预组”和“对照组”。卡德和克鲁格分别搜集了新泽西的最低工资法出台前，两州的快餐店雇佣状况，以及其他一些劳动经济学家们关心的变量。很显然，由于两州的情况是有差别的，因此这些变量在事先就有一定的差异。但在新泽西的最低工资法出台后，这个差异就发生了变化。根据我们在上一节中的讨论，这个“差值的差”，就可以视为由最低工资法所带来的因果效应。
卡德和克鲁格发现，最低工资法的实施让新泽西快餐店的平均工资显著增加了，但与此同时，它并没有带来显著的失业率上升。这个证据表明，最低工资法可能带来的负面影响，或许要比理论预计来得小得多。由于这个发现在相当程度上违背了当时劳动经济学家们的共识，因此即使卡德和克鲁格本人也对此表示了惊奇。随后，他们有进行了一系列的研究，试图找出这种“异常现象”的原因，并得出了几种可能的解释：一种解释是，当企业遭遇最低工资制度后，可以通过更高的价格将增加的成本转嫁给消费者，因此它们并没有必要减少雇佣。另一种解释是，如果有企业主导了一个地区的劳动力市场，那么它就可以利用市场力量将工资保持在最低水平。此时，最低工资的增加就会激励更多的人参加工作，从而造成劳动力供给的增加。在供求两方面因素的综合作用之下，最终的均衡就业数量就可能是上升的。

4.2 移民政策是利还是弊

众所周知，美国是一个移民国家，但移民问题在这个移民国家却是十分敏感的。很多美国人认为，新移民的到来，会带来很多负面的影响。
例如，他们可能挤占本地的劳动力市场。在现实中，类似的观点对美国的联邦和州政府的决策都产生了很大的影响。
但问题是，这些关于移民影响的直观认识究竟是不是真的呢？在很长时期内，似乎也没有什么确切的答案。
为了研究这个问题，卡德以另一个“自然实验”为切入，再次祭出了“倍差法”这把利剑。
历史上，古巴曾经和美国长期处于十分紧张的关系，卡斯特罗当局一直都禁止本国人移民到美国。但在1980年4月，古巴政府却出人意料地松动了这个政策，允许有移民意向的本国居民自由移民。政策调整之后，从当年5月到9月，就有12.5万名古巴人移民到美国。他们中的很大一部分都选择定居在了迈阿密。这一冲击导致迈阿密的劳动力数量增加了大约7%。
很显然，古巴移民政策的调整，以及移民对于居住地的选择，就天然地提供了一个自然实验的机会——受到移民冲击巨大的迈阿密就可以被视为是一个“干预组”，而受到移民影响较小的几个邻接地区则可以被视为是“对照组”，对这两组之间利用“倍差法”，就可以得到移民增加对各种经济变量带来的因果效应。
卡德先是用这个方法考察了移民对本地劳动力市场的影响，由于移民可能影响的主要是本地的低教育水平劳动力，所以卡德将关注的主要点集中在了他们身上。结果发现，尽管迈阿密市的劳动力供应大幅增加，但其对受教育程度低的迈阿密居民没有负面影响。与其他地区相比，工资没有下降，失业率也没有增加。很显然，这个发现打破了很多人对于移民问题的传统认识。

4.3 教育质量究竟会给受教育者带来怎样的影响

长期以来，教育质量究竟会给受教育者带来怎样的影响，一直是一个备受争议的问题。
一些人认为，教育质量会对人的发展产生长期的影响，而另一些人则认为，即使教育质量的短期影响是存在的，这种影响也会随着时间衰退。
但是，如果想要对以上这个争论进行实证考察，却会面临很大的困难。
第一个困难是，人们所说的“教育质量”究竟是什么？它究竟能用什么指标来进行量化？
第二个困难是，在研究收入和教育的关系时，可能遭遇严重的内生性问题。
具体来说，一个有钱人家的孩子很容易进入到好的学校，但他们即使不去好的学校，也会比一般人家的孩子更容易找到工作，赚到更多的钱。因此，我们即使看到了有人上了好学校，然后找了好的工作，也不能在上好的学校和找到好工作之间建立因果关系。除了以上两个困难之外，由于教育和人的职业发展之间存在着很大的时间间隔，其中会发生很多事情，这也会对相关的研究结果产生很大的影响。
为了克服以上困难，卡德和他的合作者克鲁格一起做了很多的工作。
为了防止陷入空谈，他们先是将教育质量量化为了学生与教师的人数比、学期长度，以及教师平均工资等指标，并构造了相应的数据库。
为了排除其他因素的影响，他们将关注点主要集中在处于同一劳动力市场，种族、收入水平一致，但接受教育的时间、地点不同的工人之间收入的变化。
通过前面的讨论，我们很容易知道，他们的这种努力，其实是在努力构造一个模拟的实验场景，以尽可能消除除了教育质量之外，其他因素对人们的长期收入的影响。
通过一系列的研究，他们发现，学校资源不仅可能对人的未来产生影响，而且其效应是十分显著的。在同一个劳动力市场的类似工人当中，那些接受过更高“教师密度”教育的人，将在未来取得更高的收入。

4.4多读书到底可以带来多大的回报

在现实当中，一个人受教育多一点还是少一点，并不是一个外生给定的变量，相反，它会受到很多难以度量的因素的影响。
例如，一个家庭对于教育的重视就可能影响孩子的受教育水平，而这种影响因素是很难被用可见的值度量的，因此在回归当中也就很难被控制。
既然这些因素都不能被控制，那么鲁宾模型所要求的实验环境就很难达到，我们也就很难通过简单的回归来进行因果识别。
面对类似的问题，应该如何进行处理呢？
一个很直接的方式，就是找一个工具变量，它是一个外部的变量，只能对受教育时间产生影响，但不直接影响收入。如果找到了这样一个变量，我们就可以借助前面介绍的“工具变量法”来对这个问题进行分析了。但问题是，究竟上哪儿去找这样一个工具变量呢？这样的问题当然是难不倒“安神”的。在和克鲁格合作的一篇论文当中，他找到了一个神奇的工具变量——人们的生日。
为什么生日能作为受教育时间的工具变量呢？其根本原因就来自于美国的义务教育制度。
根据美国的义务教育法，所有年满6周岁的学龄儿童，都必须在该年的9月份入学接受教育。并且只有当年满16岁的时候，学生才有权选择辍学离开学校。在这个规定之下，就产生了一个问题：出生时间不同的孩子，入学年龄和受教育的时间很可能是不一样的。一般来说，一个孩子如果出生的月份早，那么他在入学的时候，平均年龄就会比较大；而如果出生的月份比较晚，其入学时的平均年龄就会比较小。而他们被允许辍学的年龄却是一样的，因此如果不同时间的孩子最终都选择辍学，则出生月份较晚的孩子所必须接受的教育就会比出生月份较早的孩子来得多。极端的，我们可以对比一个1月1日出生的孩子和一个12月31日出生的孩子，如果两个人最终都辍学，那么后一位必须接受的教育将会比前一位多上近一年。
有了这样的特征，那么出生时间就具备了成为工具变量的资格了。
显然，它会影响人们的受教育时间，但不会直接影响收入或者其他的什么量。这样一来，通过工具变量法，就可以考虑教育时间对收入的影响了。
通过以上分析流程，安格里斯特和克鲁格发现，给定其他因素，额外1年的教育，将会让收入会增加 9%——这充分说明，多读一年书，对人的未来发展还是有好处的，至少在义务教育阶段，情况可能是这样。

4.5 大班好还是小班好

究竟是大班教育好，还是小班教育好，这在教育经济学和劳动经济学领域都是一个争议多年的问题。
一些人认为，更为小班化的教育将会显著提升教育的质量；而另一些人则认为，小班化的教育除了浪费教育资源外，并不会带来什么实质性的影响。
或许有人会说，检验这么个问题还不简单？
直接找一批在大班接受教育的学生，再找一批在小班接受教育的学生，比一比他们在各种表现上的差别不就可以了？问题当然没有这么简单。在现实当中，进入大班的学生和进入小班的学生显然是不一样的。一般来说，那些能够进入小班接受教育的，都是家庭条件比较好，本身资质也比较好的学生。如果直接把这两群人的各种表现来进行比较，那么与其说得到的是班级规模的因果效应，不如说是其他各种因素的影响效应。
那么，“安神”怎么处理这个问题呢？
事实上，读者如果仔细看了前面的介绍也应该很容易想到答案——就是用录取分数这个断点。由于小班在很多时候都被认为是精英化的教育模式，因此很多时候孩子要想进入小班进行学习，就必须经过考试并达到一定的分数要求。在这种情况下，分数线就可以成为是否接受小班化教育这个干预的一个“断点”。
和前面讨论的一样，我们只需要比较断点两边对象的相关表现，就可以得到小班化教育的影响。利用这一思路，安格里斯特和几位合作者进行了很多研究。
结果都表明，小班化确实可以带来很大的收益。当班级变小后，孩子的成绩会出现明显的上升，由此会带来很大的经济收益。比如在一项研究当中，他发现如果把班级的规模从22人减少到15人，就可以获得5.5%的内部回报率。应该说，从经济角度看，把班级做得小而精一些，或许是更为有利的。

4.6 家庭结构对于劳动力供给的影响

近年来，劳动经济学的研究越来越趋向了微观化，而家庭结构对于劳动力供给的影响，就是一个热议的话题。很显然，如果家庭的结构不同，其对于劳动力的供应也会出现不同。
举例来说，如果一个家庭选择了“二胎”，那么从直观上看，相比于不要“二胎”的家庭，这个家庭将更有可能选择减少对市场的劳动力供应——因为这个家庭要花费更多的时间来照料孩子。
但是，我们是不是就可以说，更多的孩子会成为更少的家庭劳动力供给的原因呢？
这倒未必。为什么呢？原因在于，家长们选择生几个孩子，以及选择是不是上班这两个决策之间并不是相互独立的。事实上，他们相互交织，很多人之所以愿意生“二胎”、“三胎”，很大原因就是因为他们更重视家庭，不愿意多工作。再这种情况下，要确立孩子数量以及家庭劳动力供给之间的因果关系就不那么容易了。
那么怎么解决以上的问题呢？“安神”给出的答案还是找工具变量。
这次，他找到的工具变量更为神奇，是头两个子女的性别。他认为，对于家长来说，头两个孩子的性别，对于家长是不是决定继续生孩子会产生很大的影响。如果头两胎就实现了儿女双全，那么家长多半会很满意，从而就此作罢。但如果是同一性别，那么家长可能会觉得有缺憾，一定要继续生孩子以补齐儿女双全。因此，这就可以被用来作为子女数量的一个工具变量。
利用以上思路，安格里斯特考察了子女数量与家庭劳动力供给之间的关系，结果表明随着孩子数量的增加，家庭中的女性将有可能减少劳动力供给。
但是，对于不同女性来说，这种效应是不同的，相比于那些教育程度较低的女性，这种效应在受过高教育的女性身上就不是那么的显著。很显然，这个研究的结果说明，传统的基于性别的家庭分工目前依然是存在的，但是教育的普及很可能会在未来打破这种传统。

参考链接:
因果推断：利剑和2021诺贝尔经济学奖三剑客的故事
双重差分法（DID）的原理与实际应用 - 知乎