因果论：排除趋势影响的双重差分法 | 工具变量法| 断点回归设计| 倾向得分匹配法“协变量”

本文链接：https://blog.csdn.net/weixin_45836196/article/details/141473155

前言

1. 判断因果关系的三个要点

①是否“纯属巧合”？

出现伪相关
探讨实际情况

②是否存在“第三变量”？

相关关系不等于因果关系
混杂因素进行干扰

③是否存在“逆向因果关系”？

质疑原因与结果的方向是否相反

2. 证明因果关系需要“反事实”

要证明因果关系的存在，必须对“事实”中原因发生后的结果与“反事实”中原因未曾发生时的结果进行对比。
在这里插入图片描述
用投放广告后的销售额1500万日元减去未投放广告时的销售额1000万日元，余下的500万日元便是广告带来的销售额。我们将其称为广告的“因果效应”

因果推理中的根本问题：反事实

3. 用“最贴切的值”替换反事实：只有“可比较”的组才能替换

什么是可比较：特征属性相近
即便只是很小的不同，我们也不应忽略由此带来的差异

4. 想象不出正确的反事实就会被无稽之谈蒙蔽吗？

例如，假设一位把孩子送入名牌大学的母亲在书中写道：“我从来不让孩子看电视。”那么读了这本书的很多人便会认为孩子学习能力高是因为家长没有让孩子看电视。
同理，如果一位长寿的老人在百岁生日当天接受电视台采访时说“我每年坚持体检”，观众便会以为“老人长寿是因为做了体检”。
然而，要想证明看电视与学习能力、体检与长寿之间存在因果关系，必须用“同一个孩子在看电视的情况下的学习能力”“同一位老人在没有每年接受体检的情况下的寿命”等反事实的结果进行对比

成功人士的故事里只包括事实，而不包括反事实。
如果忽略了这一点，仅凭事实就片面地认为存在因果关系，一味禁止孩子看电视或者频繁接受体检，很可能不但无法成功，反而白白浪费了时间和金钱

5. 科学依据的等级

在这里插入图片描述

COLUMN 1：巧克力消耗量越大，诺贝尔奖获奖人数越多？

巧克力中的黄酮醇能够提高认知功能，这一结论早在动物实验等研究中得到证实。哥伦比亚大学的医师在2012年针对该结论进行数据分析，发现巧克力人均年消耗量越大的国家，诺贝尔奖获奖人数越多。该研究成果被刊登在临床医学界最具权威性的期刊之一《新英格兰医学杂志》上，引发了广泛议论

让我们回想起前言中的思路。“巧克力人均年消耗量”与“诺贝尔奖获奖人数”的关系是因果关系还是相关关系？或许不是“因为巧克力消耗量大，所以获得诺贝尔奖的人多”（因果关系），而只是“诺贝尔奖获奖人数多的国家巧克力消耗量更大”（相关关系）。
如论文中也有收录的图表1-13所示，欧洲人均GDP较高的国家都集中在右上部分。巧克力不是生存必需品，而是所谓的奢侈品，所以富裕国家的摄入量自然更大。而同时，富裕国家有能力在教育上投入更多资金，产生诺贝尔奖获奖者的可能性也会增加。也就是说，巧克力消耗量和诺贝尔奖获奖人数的关系很可能不是因果关系，而是相关关系。

COLUMN 2：因果推理的理想形态——随机对照试验

判断这个问题的最可靠方法是“实验”，专业术语称为“随机对照试验”。——随机分组制造反事实

在这里插入图片描述
随机对照试验的本质就是用对照组替换“如果干预组没有投放药物”的反事实

”随机“分组的必要性：制造出两个可比较的组
在这里插入图片描述

丹麦曾经进行过调查体检效果的随机对照试验。下面介绍该研究的结果。丹麦也实行与日本类似的代谢综合征体检，为国民提供糖尿病、高血压等生活习惯病的诊断及保健指导服务。随机对照试验将30～60岁的成年男女随机划分为接受体检的干预组（约1.2万人）和不接受体检的对照组（约4.8万人），用了十年时间对两组人群做了追踪调查。
在干预组中，体检结果为未来患病风险高的人均被要求在5年内接受大约4次保健指导。结果显示，接受保健指导的大部分人在饮食习惯、运动、吸烟和饮酒习惯等方面有所改善。
然而，十年后的结果令人震惊：无论生活习惯改善与否，干预组和对照组的死亡率的差异在统计学上不具有显著性。

何谓“在统计学上具有显著性”？
“观测到的差异为偶然产物的概率”低于5%，则该差异可被视为“在统计学上具有显著性”，表示两组的差异属于无法用误差或巧合解释的“具有显著性的差异”；
而该概率高于5%时，则该差异“在统计学上不具有显著性”

元分析的结果已经证实，体检和长寿之间的确不存在因果关系。
在实施随机对照试验的丹麦研究者们看来，组织大规模随机对照试验虽然成本很高，但与为全体国民提供没有效果的体检服务相比，则要划算得多。也就是说，不能贸然实施不知是否有效的政策，即使需要付出一些成本，也应该先验证因果效应是否存在，然后再决定是否要全面实施。

这里有一点需要注意：“体检”不同于“筛查”。体检为健康诊断，筛查则是针对特定疾病进行排查，如“癌症筛查”。与体检不同的是，很多筛查被证实对延长寿命具有因果效应。有证据显示，对乳腺癌、大肠癌、宫颈癌等癌症的筛查能够提高存活率。关于各类癌症的证据详情可以参考国立癌症研究中心的“推动有科学依据的癌症筛查”等页面。
在这里插入图片描述
看兰德健康保险实验的结果。首先是各组支出的医疗费用。
如图表所示，研究组①（自付比例0%）的医疗费用明显高于其他三组。和研究组④（自付比例95%）相比，高出约为30%。由此可以认为，医疗费用自付比例越高，国家整体支付的医疗费用越少。
在这里插入图片描述

研究组①（自付比例0%）和④（自付比例95%）之间同样存在30%左右的差异。
也就是说，医疗费用自付比例越高，人们就医或住院的次数越少

这项研究表明，即便医疗费用自付比例提高，也不会导致人们的健康状况恶化，反而能缓解“急诊不急”现象，缩减国家整体的医疗费用支出
不过，有一点需要注意：将研究对象限定为健康状况较差的低收入人群时，自付比例的提高就会导致人们健康状况恶化

多项研究的“元分析”

“元分析”（meta-analysis）。“meta”意为“高层次的”，“ analysis”意为“分析”，是一种综合多项研究结果，从整体上论证变量间关系的研究方法。

第3章利用与实验类似的偶发现象进行自然实验

“医生性别”与“患者死亡率”是因果关系吗？
在这里插入图片描述
析结果显示，女医生负责的患者的30天死亡率比男医生的患者低0.4%。

也许有人觉得0.4%的差异很小，几乎可以忽略不计。但其实这个差异绝对不小。死亡率0.4%的差异和近十年美国通过各种努力才实现的住院患者死亡率的下降幅度几乎持平。美国通过研发新药和医疗器械、开展医学研究获得最新知识、完善临床指南等途径实现的死亡率降幅和男女医生负责患者的死亡率之差相当，这个事实足以让人震惊。
为什么女医生负责的患者死亡率更低？既往研究发现，女医生遵照临床指南进行治疗的比例更高，她们和患者之间的交流也更为密切。有可能是男女医生在治疗方法上的差异导致了患者预后的差异。
在美国，与男医生相比，女医生薪酬更低，晋升所需年数更多，这已经上升为社会问题。从该研究中也可以发现，女医生提供的治疗质量高于男医生。因此，在医疗领域，也需要消除性别带来的差距。

第4章排除趋势影响的双重差分法

不能使用实验前后测分析的两个原因（因果效应）

第一，这种方法没能考虑到随时间产生的自然变化（“趋势”）所造成的影响
第二，是“回归平均”的可能性。这是一种统计学现象，在不断收集数据的过程中，偶尔出现一个极端值后，数据会逐渐回归到通常的水平。

投放广告后，即使销售额有所增长，我们也无法断定这不是“趋势”或回归平均现象所导致的结果。因此，实验前后测分析无法用来评估广告的因果效应。

要证明2014年和2015年的销售额之差（400万日元）是广告的因果效应，必须满足一个条件，即2015年如果没有投放广告，就会实现和2014年完全相同的销售额

在这里插入图片描述
然而，实际上无论投放广告与否，销售额都会受到“趋势”的影响或者增加，或者减少。从图表中可以看出，2012年至2015年，所在的珠宝店很受欢迎，销售额连年攀升。尽管2012年到2014年从未打过广告，销售额仍以每年400万日元的增速不断上涨。

在这里插入图片描述
说明广告效果为零。

实验前后测设计的改良版——双重差分法
双重差分法需要代表反事实的“对照组”

干预组的前后比较（A2-A1）和对照组的前后比较（B2-B1）之间的差（A2-A1）-（B2-B1），即为用双重差分法推算出的干预效果。图表中，从A1到A2的线代表事实（投放广告后的结果），从B1到B2的线代表反事实（如果投放广告的店铺未曾投放广告会产生什么结果）

在这里插入图片描述
双重差分法成立的两个前提条件
第一，“干预组和对照组在投放广告之前的销售额趋势平行”。A地区和B地区在投放广告之前的销售额必须具有相同的“趋势”（图表中体现的倾斜程度）。

通过往年销售额掌握“趋势
在这里插入图片描述
在投放广告之前，即2013年12月到2014年12月期间，A地区和B地区的销售额“趋势”并不相同。也就是说，A地区的店铺即使不投放广告，每年销售额也会持续增加400万日元，而B地区的店铺销售额每年涨幅只有200万日元。

这样来看，两地区的店铺不满足“干预组和对照组在投放广告之前的销售额趋势平行”的前提条件，因此无法使用双重差分法。

双重差分法
该方法从受到干预的组（干预组）和未受干预的组（对照组）中获取干预前后的结果差异，以及干预后和对照组的结果差异。

不过，该方法只在两个前提条件成立时才能发挥作用。
第一个前提条件是，干预组和对照组在干预前的结果具有相同“趋势”，即“趋势”是“可比较”的。
第二个前提条件是，在施加干预期间，没有其他变化对干预组和对照组的结果产生影响。

第五章工具变量法

谓工具变量，是指“对结果没有直接影响，但会通过影响原因间接影响结果”的第三变量。拿广告费打
折的例子来说，这个变量虽然不会直接影响销售额，但会影响店铺是否投放广告的决策，从而间接对销售额产生影响。报社搞不搞广告费打折活动与店长的干劲无关，也不会直接影响珠宝的销售额，但它会影响店铺是否投放广告的决策，从而间接影响到销售额。
在这里插入图片描述

该方法利用“只能通过影响原因而间接影响结果”的工具变量，使受到干预的组（干预组）和不受干预的组（对照组）形成可比较的状态。
不过，这种方法只有在满足两个前提条件时才能发挥作用。
第一个条件是，工具变量会影响原因，但不会直接影响结果。
在这里插入图片描述

第二个条件是，不存在同时影响工具变量和结果的第四变量。
在这里插入图片描述

第六章断点回归设计

老年人在年满70岁以后医疗费用自付比例从30%降至10%的制度，将70岁作为断点值，试图研究断点前后老年人在健康状况及医疗服务使用频率上的变化。也就是说，他认为70岁0个月的人（干预组）和69岁11个月的人（对照组）属于可比较组。

在这里插入图片描述

这说明，医疗费用自付比例降低后，虽然老年人去医院的次数变多了，但这对他们的死亡率和健康状况并不会产生影响。这项研究有望为医疗制度改革铺路，在不损害老年人健康的前提下削减医疗支出。

断点回归设计是利用任意决定的断点值两侧自然成为干预组与对照组的情况，推算因果效应的方法。断点回归设计成立的前提条件是断点值周围没有发生影响结果的其他事件。

第七章倾向得分匹配法“协变量”

整合多个协变量的“倾向得分匹配法”

协变量未必只有一个。如果只考虑店长年龄相同的店铺，那么从对照组中找到符合这个条件的店铺进行匹配并不难。然而，如果存在多个协变量，恐怕就不一定能从对照组中找到所有条件都完全一样的店铺了。
这种情况下，我们可以使用匹配法中的“倾向得分匹配法”（Propensity Score Matching）。“倾向得分匹配法”将多个协变量整合成一个得分，用这个得分进行匹配。倾向得分指 “分入干预组的概率”。例如，考虑多个协变量后，如果某店铺投放广告的概率为50%，则该店铺的倾向得分就是0.5；如果某店铺投放广告的概率为30%，则该店铺的倾向得分为0.3。
如果投放广告的店铺（干预组）中有某店铺倾向得分为0.5，那么就从未投放广告的店铺（对照组）中选出倾向得分同为0.5的店铺进行匹配；如果某店铺倾向得分为0.3，那么就从对照组选出得分同为0.3的店铺进行匹配。对采用这种方法最终形成的两个组进行比较，可以发现用于计算倾向得分的所有协变量（平均之后）在两个组具有相同的值。

在这里插入图片描述

该方法运用能够影响结果的协变量，从对照组中选出和干预组相似的样本进行匹配，并对两个组进行比较。存在多个协变量时，也可以将它们整合成一个得分进行匹配（倾向得分匹配法）。匹配法成立的条件是影响结果的所有协变量均可观测

前提条件：
第一个前提条件是，所有会影响结果的协变量均为可转化成数值的数据。
第二个前提条件是所有协变量都必须用来计算倾向得分。

第八章随机对照试验“A/B测试”

A/B测试是一种常用于市场营销、产品开发和网站优化等领域的实验性方法，旨在比较两个或多个不同版本的某个因素，以确定哪个版本在特定目标方面表现更好。它通常用于评估变化对用户行为或指标的影响，并帮助做出基于数据的决策。

以下是A/B测试的基本原理和步骤：

选择目标：首先，确定要测试的具体目标。这可以是网站的转化率（例如，购买产品的用户比例）、点击率、用户留存率等。
制定假设：基于目标，制定一个明确的假设。例如，假设更改网站按钮的颜色将增加用户的点击率。
随机分组：将目标群体随机分成两个或多个组，其中一个组是控制组（Group A），另一个组是实验组（Group B）。控制组不会受到任何更改，而实验组将受到要测试的变化的影响。
实施变化：对实验组应用要测试的变化。在上面的例子中，将改变按钮的颜色。
收集数据：在一段时间内，收集与目标指标相关的数据，例如点击率。确保数据的收集方式和时间段一致。
分析结果：使用统计方法来比较控制组和实验组的表现。通常使用假设检验来确定结果是否具有统计学显著性。如果实验组表现更好，那么假设可能成立。
做出决策：根据A/B测试的结果，可以做出相应的决策。如果实验组的表现更好，可以考虑将变化应用于整个群体。如果没有显著差异，可以重新审查和修改假设。
持续优化： A/B测试是一个迭代过程。根据测试结果，不断进行优化和改进，以提高产品、服务或网站的性能。

第九章便于分析现有数据的回归分析

用“多元回归分析”排除混杂因素的影响

以饮酒与肺癌的关系为例进行说明。假设我们现在怀疑饮酒与肺癌之间存在因果关系。因为众所周知，饮酒量越大，患肺癌的风险越高。这里我们需要注意一个问题：存在“吸烟”这个混杂因素。很多喝酒的人也抽烟，而吸烟也是导致肺癌的原因之一

在这里插入图片描述
如果采用多元回归分析明确饮酒和肺癌之间是否存在因果关系，则需要在吸烟量相同的人之间比较饮酒量较多的人和饮酒量较少的人，看他们患肺癌的风险是否存在差异。这种做法便是“使吸烟量保持固定不变”，使用多元回归分析可以实现这一点。固定的吸烟量可以是1日0根（不吸烟的人），也可以是1日5根。这样就可以在排除了吸烟量这个混杂因素的影响的基础上评估饮酒与肺癌的关系了