因果知识笔记

Note:以下内容基于智源社区_没有围墙的人工智能实验室 (baai.ac.cn)

1. 利用因果特征训练模型,解决稳定性问题

当前人工智能模型在实践利用中存在两个重要问题。一是模型缺乏可解释性;也即人们无法理解模型做出判断的逻辑和原因。这就导致人们面对模型的决策时,只能无条件地完全肯定或否定其提供的答案,我们认为可以通过建立人机协作(human in the loop)的机制合作决策解决这个问题。第二个问题则是模型缺乏在位置环境下性能的稳定性;目前大多数人工智能模型依赖于iid假设(Independent and identically distributed), 即训练数据集和测试数据集的数据分布是相似的而在实际运用中,无法完全预见可能出现的数据分布(无法了解测试数据集的分布),此时模型的性能无法保证。

事实上,两个变量之间的相关性有三种来源,第一是由因果性导致的相关性,比如夏季气温高导致冰激凌销量上升,这种因果关系会导致冰激凌销量和季节之间的相关性。第二种是干扰变量导致的相关性,如吸烟人口的比例随着年龄的增长而增加,而肥胖的比例随着年龄的增长同样也增加,即使肥胖和吸烟比例之间没有直接的因果性,两者之间也存在着相关性。第三种是由样本选择偏差导致的相关性,即上文给出的如果在样本中大多数存在狗的图片都以草地为背景,而不存在狗的图片大多以非草地为背景,则草地背景和图片中含有狗的信息存在相关性,虽然两者之间不存在因果联系。在这三种相关性中,只有由因果性导致的相关性是可以保证在各种环境下稳定成立,且可以被解释的。而目前的神经网络模型并没有对特征是否存在因果性加以区分,我们认为这是导致模型训练不稳定的重要原因。

2. PC算法:缺失数据下的因果发现

PC算法:缺失数据下的因果发现 (qq.com)

3. do算子和前门后门准则区别

4. 可识别性

下面的讨论中,“可识别性”这个概念将被频繁的使用。因果推断中的识别性,和传统统计中的识别性定义是一致的。统计中,如果两个不同的模型参数,对应不同的观测数据的分布,那么我们称模型的参数可以识别。这里,如果因果作用可以用观测数据的分布唯一的表示,那么我们称因果作用是可以识别的。

Pearl (1995) 证明,若存在一个变量集合相对于满足后门准则,那么它的因果作用是可以识别的。

5. 工具变量

参考:丁鹏:多角度回顾因果推断的模型方法 (qq.com)

方差:

标准差和方差 (shuxuele.com)

6. 潜在结果框架(Rubin因果模型)的三个假设

赵西亮《基本有用的计量经济学》学习笔记 【因果推断】一文读懂潜在结果框架(Rubin因果模型)的三个假设 - 知乎 (zhihu.com)

Rubin因果模型(RCM)即潜在结果框架。

Rubin因果模型或潜在结果框架有三个基本构成要件:潜在结果稳定性假设分配机制

稳定性假设:

潜在结果框架的第二个要件是稳定个体干预值假设(The Stable Unit Treatment Value Assumption, SUTVA),简称稳定性假设。稳定性假设有两层含义:第一,不同个体的潜在结果之间不会有交互影响;第二,干预水平对所有个体都是相同的。

稳定性假设的第一个要求是每个个体的潜在结果不依赖于其他个体的干预状态。我和你住在同一间宿舍,我们两个都感冒了。如果药物对我头痛的治疗效果依赖于你有没有吃药,那么就不满足稳定性假设。

稳定性假设的第二个要求是对所有的个体干预水平是相同的。比如考察药物的治疗效果,那么给所有病人的药物在药效上都应该是一样的,不能有的人有效成分是全额的,有的人是半额的。

7. 因果推理方法

Re-weighting(重加权算法) 

Stratification(分层算法) 

Matching(匹配算法) 

Tree-based(基于树的方法) 

Representation Learning(表示学习) 

Multitask Learning(多任务学习)

Meta-learning(元学习) 

倾向分数

它是给定观测协变量向量的特定干预分配的条件概率,反映出样本x选择treatment的可能性。

e(x)=Pr(W=1∣X=x) 

反向倾向加权

给每个unit指定的权重为:

r=W/e(x)+(1−W)/1−e(x) 

其中 W 是treatment, e(x) 是倾向得分。重加权后在整体层面对平均干预效果进行估计:

Image

理论结果表明,调整倾向得分足以消除由于所有观测到的协变量而产生的偏差。但是这种加权方法高度依赖倾向性得分的正确性。

8. 实验指导

这一章节介绍当前研究可用的数据集、开源代码及研究框架。

数据集

由于反事实的结果永远无法被观察到,因此很难找到一个完全满足实验要求的数据集,即具有基本真实数据集 (ITE) 的观测数据集。

现在很多研究中使用到的数据集基本上都是半人工合成的数据集,合成的规则不尽相同,如IHDP数据集,是从随机数据集中按照一定的生成过程生成其观测结果,并去除一个有偏子集来模拟观测数据集中的选择偏差。一些数据集,如Jobs数据集,将随机数据集和观察控制数据集结合起来,产生选择偏差。

目前可用基准数据集

IHDP、Jobs、Twins、

ACIC dataset:2016,2018,2019

IBM causal inference benchmark 

BlogCatalog、Flickr、News、MVICU、TCGA、

Saccharomyces cerevisiae (yeast) cell cycle gene expression dataset 

THE、FERTIL2

代码-开源的研究框架

Dowhy —— 微软研发,基于Python 

Causal ML —— Uber研发,基于Python 

EconML —— 微软研发,基于Python 

causalToolbox —— 基于R语言

开源因果推理方法

下面链接有具体包的链接

因果推理综述——《A Survey on Causal Inference》一文的总结和梳理 - 打瞌睡的布偶猫 - 博客园 (cnblogs.com)

基于Python语言

PSM1/PSM2、Perfect Match、CMGP 、BART 、GANITE 、BNN/CFR 、CEVAE 、SITE、dragonet 、DRNets 、Network Decondounder 、Network Embeddings 、LCVA 

基于R语言

IPW、DR、Principal Stratification、Stratification、Matching based、optimal matching、CEM、TMLE1/TMLE2、BART、grf、R-learning、Residual Balancing、CBPS、Entropy Balancing

9. 因果推理的应用可以分为三个方向

决策评估 —— 这与Treatment效果评估的目标是一致的。反事实估计 —— 反事实学习极大地帮助了与决策相关的领域,因为它可以提供不同决策选择(或策略)的潜在结果。处理选择偏差 —— 在许多实际应用程序中,出现在收集的数据集中的记录并不代表感兴趣的整个群体。如果不恰当地处理选择偏差,将影响训练模型的泛化。

10. 数据驱动式学习下的因果混淆去偏算法

大数据因果推断:数据驱动式学习下的因果混淆去偏算法 - 智源社区 (baai.ac.cn)

NeurIPS 2022|从一组干预措施中在存在未观测混杂时分离出因果效应 NeurIPS 2022|从一组干预措施中在存在未观测混杂时分离出因果效应 - 智源社区 (baai.ac.cn)

耿直:因果作用评价与因果网络学习及其结合耿直:因果作用评价与因果网络学习及其结合 - 智源社区 (baai.ac.cn)

11. 综述

深度生成模型如何因果化? 新南威尔士大学等《因果深度生成模型》综述,详述GAN、VAE和扩散模型的因果化

深度生成模型如何因果化? 新南威尔士大学等《因果深度生成模型》综述,详述GAN、VAE和扩散模型的因果化 - 智源社区 (baai.ac.cn)

Judea Pearl激赏的论文:Causal Relational Learning

Judea Pearl激赏的论文:Causal Relational Learning - 智源社区 (baai.ac.cn)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值