一、 背景
为什么需要研究因果关系? 因为有三件事需要在厘清原因的情况下才能更好地做到,那就是: 解释、预测和干预。
合理的解释可以为探索世界提供支撑,准确的预测可以可靠地描述事件结果。而在互联网中,这一切都和数据有密不可分的关系,其中预测问题更是经典的机器学习问题。有时我们可能需要用一些理由,去解释事件发生的原因,不仅想知道为什么发生,更希望可以利用其中某些信息来促进或者避免某些结果的产生,也就是对原本的事件施加干预(可以是一项行动、措施或政策)去得到特定的结果。
《Causal Inference: A Statistical Learning Approach》对如何推断因果关系进行了系统性的探讨。书中从随机控制实验RTC(也称为A/B Test)开始,结合统计学,讨论观察性研究中的估计和推断的基础,并拓宽假设,介绍了不同情况下适用的方法。介绍了因果推断领域的基本概念,包括潜在结果模型、工具变量法(IV)、匹配法(Matching)、贝叶斯网络、双重差分法(DID)、逆倾向加权(IPW)、双重稳健方法(DR)等,并详细讨论了这些方法的统计特性及其实际应用。
二、《Causal Inference: A Statistical Learning Approach》目录
-
Randomized Controlled Trials 随机对照试验
1.1 Difference-in-means estimation 均值差异估计
1.2 Regression adjustments in randomized trials 随机试验中的回归调整 -
Unconfoundedness and the Propensity Score 无混淆性假设和倾向得分
2.1 Stratified estimation 分层估计
2.2 Inverse-propensity weighting 逆倾向加权 IPW -
Doubly Robust Methods 双重鲁棒方法
3.1 Double machine learning 双重机器学习 DML
3.2 Efficient estimation under unconfoundedness 在无混淆性下的有效估计 -
Estimating Heterogeneous Treatment Effects 估计异质处理效果
4.1 Semiparametric modeling 半参数建模
4.2 A loss function for treatment heterogeneity 处理异质性的损失函数 -
Policy Learning 政策学习
5.1 Policy evaluation 政策评估
5.2 Empirical welfare maximization 实证福利最大化 -
Adaptive Experiments 适应实验
6.1 Low-regret data collection 低回归数据收集
6.2 Inference after adaptive data collection 自适应数据收集后的推断 -
Balancing Estimators 平衡估计
7.1 Covariate-balancing propensity scores 协变量平衡倾向得分 CBPS
7.2 Approximate balance and augmented estimators 近似平衡和增强估计 -
Regression Discontinuity Designs 回归不连续设计
8.1 Local linear regression 局部线性回归
8.2 Optimized estimation and bias-aware inference 优化估计和偏差感知推断 -
Causal Inference with Endogenous Treatments 内生处理的因果推断
9.1 Structural equation models and do-calculus 结构方程模型和do-calculus微积分
9.2 Instrumental variables regression 工具变量回归 IVR -
Local Average Treatment Effects 局部平均处理效应
10.1 Non-compliance in randomized trials 随机试验中的不合规
10.2 Latent choice models 潜在选择模型 -
Spillovers and Interference 溢出效应与干扰
11.1 Exposure mappings 曝露映射
11.2 Permutation tests 排列检验 -
Estimating Treatment Effects under Interference 在干扰下估计处理效应
12.1 Finite-population methods 有限总体方法
12.2 Confidence intervals for exposure effects 曝露效应的置信区间 -
Event-Study Designs 事件研究设计
13.1 Difference in differences 差异中的差异 DID
13.2 Synthetic control methods 合成控制方法 SCM -
Evaluating Dynamic Policies 动态政策评估
14.1 Sequential unconfoundedness 顺序无混淆性
14.2 Doubly robust estimation 双稳健估计 DR -
Markov Decision Processes 马尔可夫决策过程
15.1 The long-run average value 长期平均值
15.2 Switchback experiments 回溯实验
教科书原文资料请见附件或REF
以下正文摘取部分个人学习笔记、业内常用/受欢迎的方法等,作为个人学习总结。对细分群体的因果效应评估(uplift model)、基础术语等不再赘述,部分可见REF。非常推荐阅读REF里面的KM文章,受益匪浅。
此外,分享因果推断+AI的顶会期刊综述,涵盖目前所有主流因果相关研究的论文和分类,包含了对论文创新点的简短描述: nuster1128. (update to 2023) Available at: https://github.com/nuster1128/Awesome-Causal-Papers (Accessed: 29 Sep 2024).
三、 正文
3.1 POF框架下的因果推断假设 Assumption
回答"在观察性研究中,需要什么样的数据可以推断出可靠的因果效应?"问题,需要满足以下假设:
-
Stable Unit Treatment Value Assumption (SUTVA) 用户间相互独立, 无互相打扰;每个人对各treatment的outcome固定;一个treatement只有一个版本/一个剂量 ;
-
Ignorability 无混淆因子同时影响outcome和treatment(Unconfoundedness);对于特征一致的人群,假设是否接受treatment和潜在结果相互独立(No Selection Bias)
-
Consisitency 潜在结果和观察到的结果保持一致;具有相同特征的人群的potential outcome相同
-
Positivity 每个人受到的treatment是随机分配的,干预是随机分配的,均匀可能被分配到实验组或控制组,且概率非零。
表明在基于协变量的分层中,每个研究对象接受 干预或对照的概率都是正值. 正值假设表明了分 配机制的可变性
但是现实中以上假设难以全部满足。为什么要强调这些假设?
因为,大多数因果推断方法的一个主要关注点是如何放宽随机实验RCT中的假设(以上假设),同时保持我们严格估计因果效应的能力,从而扩展因果推断可能适用的问题范围。
3.2 A/B test和因果推断的区别&联系
- 定义和目的
A/B test:(又称为RCT随机控制实验)AB测试是一种实验设计方法,通常用于比较两个或多个版本的产品或服务,以确定哪一个版本在特定指标上表现更好。它通常用于市场营销、产品开发和用户体验优化等领域。
因果推断:因果推断是一种统计方法,旨在确定一个变量(处理或干预)对另一个变量(结果)的因果影响。因果推断不仅限于实验数据,还可以应用于观察性数据,试图控制混杂因素以推断因果关系。
- 实验设计
A/B测试:通常采用随机分配的方式,将参与者随机分配到不同的组(例如,A组和B组),以确保组间的可比性。通过比较不同组的结果,研究者可以得出干预的效果。
因果推断:因果推断可以基于随机对照试验(RCT)或观察性研究。对于观察性研究,研究者需要使用统计方法(如倾向得分匹配、回归调整等)来控制混杂变量,以便更准确地估计因果效应。
而当ABtest中实验组和控制组的差异为干预手段时,如施加政策、派发优惠券、是否推送等,使用因果推断估计干预效果更能评估干预手段是否有效。例如,当ABtest中需要评估同一用户收到优惠券/没收到优惠券下的消费情况时,ABtest无法支持反事实结果,这时候就需要因果推断。
3.3 因果推断适用场景
-
事后分析,对已有历史数据和无法改变的干预行为,运用因果推断定量分析历史数据,评估当时的干预行为;
-
无法进行ABtest的场景,需要量化有干预手段的活动效果;在有干预手段的ABtest中,评估活动效果,但ABtest不显著;
-
无法进行ABtest的场景,需要挖掘各个用户群体对干预手段的敏感性,提高效果ROI;
因此,部分因果推断方法,可以用于ABtest实验后的数据补救措施。
3.4 基于反事实框架下因果推断的两大架构
-
结构因果模型 - Structural Causal Model - 因果图
基于图论的因果推断方法,它将事件分为观察、干预和反事实三个层级,并通过do运算将干预和反事实层级的因果关系都降维成可以通过统计学手段解决的问题。优点: SCM可以更好描述变量关系、结果的置信度很高
缺点: 特征变量多、关系复杂场景,因果图成本高
-
潜在结果模型 - Potential Outcome Framework - 大多数后续研究在这个框架下展开
潜在结果模型是一种将假设、命题和结论清晰化表达的计算模型,其在原因和结果变量已知的前提下定量分析原因变量对结果变量的因果效应,并对缺失的潜在结果进行补齐,使观察性研究的效果接近试验性研究。优点: POF降低变量带来的分析复杂度,用准确率换取计算可行性
缺点: 关注变量因果效应的评估,而不是因果关系
代表方法: 工具变量法IV、匹配法Matching、回归不连续设计RDD、Meta-learning等
根据控制混淆因子的方式,主要分为三种:匹配方法、逆概率加权法、分层法
3.5 因果效应ATE / CATE 常用方法
3.5.1 因果效应定义
-
ATE - Average Treatment Effect 平均处理效应, 实验组的平均处理效应, 例如实验组和对照组之间的平均效果差别
-
ATT - Average Treatment Effects on Treated 受处理群体的平均处理效应,干预组的平均处理效应
-
ATC -Average Treatment Effects on Control 对照组的平均处理效应
-
-
CATE - Conditional Average Treatment Effect 条件平均处理效应, 实验组中某个细分群体的平均处理效应
-
ITE - Individual Treatment Effect 个体处理效应, 实验组中每个个体的处理效应差异
针对不同的目的,选用不同的因果效应,对应的需要选用不同的方法。
3.5.2 评估ATE/CATE的常用方法
-
评估ATE常用方法
- 倾向性得分Propensity Score
- PSM 匹配
- IPTW 逆倾向性得分匹配
- 工具变量:2SLS、DeepIV
- 倾向性得分Propensity Score
-
评估CATE常用方法
-
Uplift Modeling - 通过评估uplift评估CATE
- 间接评估 - Meta-Learner:S-Learner > R-Learner > T-Learner > X-Learner
- 直接评估
- Tree-based Method:uplift tree/ propensity tree/ BART/ UpliftRT
- Deep Learning:BNN/ TARNet/ Perfect Match/ CEVAE/ DCN-PD/ DragonNet
- Transformed Outcome tree
-
Tree-based评估CATE
-
Casual Tree
-
Casual RF(Casual Tree + RF)
-
Generalized RF(Causal RF tree+异质性最大分裂等)
-
CausalForestDML (Generalized RF+Global DMB)
-
Orthonal RF (Generalized RF+局部Neyman正交)
-
-
-
-
评估连续策略效应Continuous Treatment Effect
- 双重差分法 DID、Generative Model、Entropy Balancing
3.6 倾向性得分
3.6.1 倾向性得分 Propensity Score
我们可以通过汇总分组的治疗效果来准确估计ATE,如果只是简单分为两组,相加即可。但如果分组的数量特别大,或者分组是一个连续值,我们就因为无法穷举所有分组情况进行抽样,需要样本量过大,导致汇总失败。所以为了放宽‘Unconfounderness’的假设,预估ATE,应对连续值的分组数量,提出了倾向性得分的概念Propensity Score [Rosenbaum and Rubin 1983],用倾向值替代协变量在因果推断中进行分 层或匹配,从而避免了从众多协变量中遴选最适组合的困难。
本质目标是消除观察性研究中实验组和对照组用户的不同质,进而得到因果效应的估算
3.6.2 倾向性得分的应用场景 - 控制混淆变量
Q: 针对历史数据,估计ATE,无法穷举所有分组,那么如何对历史数据分出控制组和实验组?
A: 计算倾向性得分Propensity Score,给定协变量的情况下,预估每个历史样本趋向于分配到treatment的概率。
倾向性得分常用于控制混淆变量,挖掘相似群体中,应用方向:
- 分层:剔除异常个体: 观察性研究中,个体间的差异可能会影响结果变量。通过圈出倾向性得分相近的群体,剔除异常值。
- 匹配(Propensity Score Matching - PSM):将接受treatment和不接受treatment的个体进行匹配,两两组合,确保两组在协变量上尽可能相似,减少选择偏差 - 观察性研究中最常用的匹配方法
- 加权(IPW 逆向倾向性得分加权法):通过为每个个体分配权重,使得样本在处理组和对照组之间的协变量分布相似。这种方法可以用于估计加权平均处理效应(ATE)。
3.7 倾向性得分匹配Propensity Score Matching 的具体实施流程 - PSM
Step1: 计算倾向性得分 :
-
根据业务逻辑,选择混淆因子 - 选择合适的协变量集 (feature selection)
-
把干预变量和结果变量之外的所有变量都当作混淆变量。
-
变量分解算法(D²VD): 在高维数据中,我们需要精准地找出那些真正需要控制的混淆变量。
-
将干预变量和结果变量之外的其他变量分为了三类:
- 混淆变量(Confounders):既会影响到干预变量,还会影响到结果变量
- 调整变量(Adjustment Variables):与干预变量独立,但会影响到结果变量
- 无关变量:不会直接影响到干预变量与结果变量
-
feature selection/ pre-process前处理
-
构建抽样权重 - 计算不平衡的特征做处理
- Weight It-PS
- Weight It-GBM
- CBPS
- EBAL/EBCW
- OptWeight
构建计算倾向性得分模型 - LR/ LR+GBDT等 - 按照公式自定义funciton或者使用已有python package程序调用
Step2: Match 匹配
-
Exact Matching
-
Subclassification
-
Nearest Neighbor Matching
-
Full Matching:每个匹配组包含一个处理单元和一个或多个对照
-
Optimal: 查找所有匹配对中平均绝对距离最小的匹配样本
-
Genetic Matching: 使用遗传搜索算法为每个协变量找到一组权重,以便在匹配后实现最佳平衡。
Step3: 平衡性估计/平稳性检验 - 计算SMD分数(Standard Mean Difference),SMD < 0.1则视为match合格
挑选出的“对照组”在各类混淆变量的分布是否与实验组近似。
-
看整体 - treatment和control组的倾向性得分分布 —hist 匹配前 vs 匹配后
-
看特征 - 匹配前后的QQplot:散点越接近对角线说明两组数据越接近
-
也可以比较匹配前后的SMD:
- SMD Standarized Mean Difference = 组间均值diff/合并两组的标准差,来判断匹配后样本pair是否足够相似
- SMD < 0.1 说明该特征组间协变量差异较小
- SMD > 0.1但特征较为稀疏且业务意义不大的,可以适当放宽
-
要看T=0和T=1的propensity score是否有比较多的overlap,如果很少、propensity score都是离群的,则要检查positivity的假设是否被违反了
Step4: 估算因果效应
Step5: 计算敏感度分析
敏感性分析主要的目标是衡量当混淆变量(特征)不满足非混淆假设(unconfoundedness )时,分析结论是不是稳健的。简单的做法是去掉一个或者多个混淆变量重复上面的过程。
3.8 DR 双稳健模型 - Doubly Robust Estimation of Casual Effects
双稳健模型 (Doubly Robust, DR): DML方法在针对categorical的treatment时的优化版本。此方法实际上利用了Inverse Propensity Score和Direct Method,以此修正前者产生的过大方差和后者导致的有偏估计。因此对两方法同时robust,故称Doubly Robust (DR)。
DR 优化了DML,引入IPS和Direct Method。
由于引入IPW调整样本权重,需要样本权重主要围绕倾向的分为核心,但如果倾向分预测不准,则会导致估计方法出现很大偏差
-> DR通过结合针对结果Y的回顾模型和针对处理W的倾向性评分模型,构建了具有双重稳健性的效应估计量
-> 只要outcome regression模型和倾向性评分模型中有一个consisitent正确,就保证了估计量的一致性和无偏性。
DR优点:
-
处理高维特征、高维treatment
-
减少了倾向性得分错误带来的影响
DR缺点:
-
与针对outcomet的建模模型高度相关,如果倾向性得分和outcome model都建不好,DR可能会产生比其他简单模型更加biasd的结果
-
treatment过于简单,会导致DR结果错误
3.8.1 DR 简单建模流程
-
建立Propensity Score Estimator计算倾向性得分 - 分类模型
-
基于unit的covariate协变量(混淆因子、特征等),预估每一个unit属于treatment group的概率。可使用典型分类模型,如logistic regeression, decision tree
-
建立Outcome Model Estimator针对结果训练模型 - 回归模型
-
训练结果模型以估计给定协变量和treatment assignment的潜在结果。可使用典型的回归模型,例如线性模型和神经网络。
-
建立Final Treatment Effect Estimator - 回归模型
-
计算treated和untreated个体的causal effect
四、总结
本文介绍了斯坦福2024最新的因果推断教科书《Causal Inference: A Statistical Learning Approach》,Stefan Wage. 并收录了部分个人学习笔记,主要介绍了因果推断与A/B test的区别、因果推断的POF框架、因果效应的选取、不同的因果效应对应的不同方法、倾向性得分的应用以及双稳健方法DR。
以上,是这段时间的学习积累及资料分享,个人理解有限,如果发现任何错误,请随时留言,欢迎交流分享,谢谢。
Reference:
-
Stefan Wager. (2024) Causal Inference: A Statistical Learning Approach, Stanford University. Available at: https://web.stanford.edu/~swager/causal_inf_book.pdf (Accessed: 29 Sep 2024).
-
MA Zhong-gui, XU Xiao-han, LIU Xue-er. Three analytical frameworks of causal inference and their applications[J]. Chinese Journal of Engineering, 2022, 44(7): 1231-1243. DOI: 10.13374/j.issn2095-9389.2021.07.04.002
-
Yishi Lin. Weighting (Lalonde’s Dataset) https://dango.rocks/blog/2019/08/18/Causality4-Playaround-with-the-Lalonde-Dataset-Weighting/
-
Caliendo M, Kopeinig S. Some practical guidance for the implementation of propensity score matching[J]. Journal of economic surveys, 2008, 22(1): 31-72
-
nuster1128. (2023) AI + Casual Inference Papers organized github. Available at: https://github.com/nuster1128/Awesome-Causal-Papers (Accessed: 29 Sep 2024).