[论文阅读] 因果机器学习的前沿进展综述 Overview of the Frontier Progress of Causal Machine Learning
因果概念
提出因果旨在解决虚假相关的问题。相关只需要保持两个变量的分布相同,而因果则说明两个变量之间确实存在某种联系。
Pearl 等人在阐述相关和因果之间的差异时提出了“因果之梯(ladder of causation)”的概念:自下而上将问题划分为关联、干预和反事实 3 个层次,分别对应于观察、行动和想象3类活动
反事实(counterfactual)考虑的是一种实际并未发生过也难以再次观测到的情景,因为它假定2次观测之间除了需要研究的变量有所改变外,其他外部变量取值和作用机制需完全保持一致.尽管反事实操作的结果直接反映了变量之间的因果关系,由于通常无法针对同一个体平行地实施 2 种不同操作,使得在实际应用中几乎无法用于因果判定,更多情况下只是作为一种指导性思想使用。
干预(intervention)指的是改变部分变量产生机制并维持其余机制不变的操作,是因果关系判定和度量的关键操作.如果对一个变量的干预改变了另一个变量的概率分布,则意味着前者是后者的因,是科学研究中最常用的手段,随机对照实验即属于这一思路.然而这种通过干预观测系统的改变来判断因果关系的做法并不能解决实际中所有的因果问题,在许多情况下干预操作的成本过高或实施风险过大,甚至可能因为违反伦理道德而无法实际实施,如研究吸烟对肺癌的影响时不能强制要求普通人群吸烟.这种情况下就需要避免对目标变量进行干预,而仅仅通过观测原有机制产生的数据来估计干预的效果,这类研究问题也成为因果推断领域重点关注的问题。
混杂因素(confounder)指的是一类变量,如果不对它们的取值进行控制,通过观测数据得到的干预结果的估计就会产生偏差.通常来说,混杂因素指的是那些能够对所研究的1对变量同时产生影响的因素。
因果模型
分为潜在结果框架(RCM)和结构方程模型(SCM)。
1. 潜在结果框架
本质而言,潜在结果框架就和所谓的随机对照实验类似。人为地干预某个变量X,观察其变化导致的因变量Y的变化。当这种干预可行时,可以直接进行;当这种干预不可行,就只能基于潜在结果框架研究使用观测数据研究因果效应,即RCM。
该做法最早由 Rubin提出,因此该模型也称作鲁宾因果模型。RCM 对因果的描述较为简洁,除了要研究因果效应的 1 对变量以外,对其他变量的相互作用机制不做假设,因此经常在进行因果效应估计的场景使用。这种情况下需要考虑混杂因素,真实的 ATE ,即平均处理效应(average treatment effect, ATE)可以由通过控制全部混杂因素获得。对于变量进行控制指的是按照该变量的不同取值分组,组内计算效应期望之后再在组间计算期望。
上述计算所得的ATE只有在满足下列条件时才能反映出X,Y之间真实的因果效应。
- 个体处理值稳定假设:个体之间的潜在结果相互没有干扰
- 处理分配机制可忽略:固定混杂因素后,如何处理不改变潜在结果
- 正值性:每个个体采取某种处理方式均是有可能的。
采用控制所有混杂因素的方法计算 ATE 在实际问题中可能会遇到困难,通常是由于混杂因素的维度很高,控制相同取值的样本可能数量很少,导致期望估计不准确。针对这一问题,研究者们提出了多种解决方案.常见的方法有基于倾向性得分的估计方法、基于回归的估计方法以及两者相结合的方法。
然而,基于RCM的方法都要求混杂因素的值清晰可观测,这样就限制了部分场景下的应用。此时可以采用基于结构方程的方法。
1. 结构因果模型
结构因果模型SCM由Pearl提出,其思想是将所有需要考虑的变量组织成一个有向无环图,图的每个节点都代表1个变量,1条由节点A 指向节点B 的有向连边代表A对B有直接的因果作用。
结构因果模型中的一个重要概念是结构方程(structural equations),其假设每个节点都对应一个未观测到的外生变量(exogenous variable),节点的值由该外生变量及所有直接父节点变量通过一个方程所唯一确定。
X
=
f
X
(
P
A
X
,
N
X
)
X=f_X\left( PA_X,N_X \right)
X=fX(PAX,NX)
之所以称为这些方程是“结构方程”,是因为其代表着变量的生成机制,只能由等式右边对左边赋值,而不能随意变换方向。外生变量描述的是对应节点变量的所有随机因素,其自身具有确定性的概率分布,通常未被观测也无法进行控制,而且 SCM 中假设所有外生变量之间相互独立。
通过结构方程和外生变量,SCM 能够很清晰地定义干预和反事实操作。
其中干预操作是将干预节点的结构方程替换掉,对应在因果图中即是去掉所有指向干预节点的箭头。在SCM模型中,该操作被定义为 d o do do算子。
例如将通过干预将节点X的取值置为1记作 d o ( X = 1 ) do(X=1) do(X=1),X的结构方程也对应修改为 X = 1 X=1 X=1,意味着X不再受其父节点和外生变量的影响。
而混杂因素的识别也可以借助因果图完成。混在因素对应的节点指向X,Y各有一条有向路径。与RCM中已知混杂因素所做的控制不一样,SCM中可以直接对自变量X进行 d o do do操作实现对ATE的计算。
上述方法的关键在于如何计算 P ( Y ∣ d o ( X = x ) ) P(Y|do(X=x)) P(Y∣do(X=x)),这可以通过将因果图视为贝叶斯网络,通过概率分解得到。但是在因果图较高维时,计算难度较大,最常用的方法是后门调整(backdoor adjustment)。
SCM相对于RCM最大的优势便在于使用了 d o do do算子进行计算,能够分析无法观测混杂因素时的因果效应。
在因果推断及因果机器学习任务中,因果图通常是未知的。一种方式是根据具体问题结合领域知识给出先验的因果图结构,另一种方式是从数据中学习部分因果图信息,目的是从一系列变量的观测结果中推断因果图结构,该任务被称作因果发现(casual discovery)。
因果发现有以下几类主要方法:基于约束的方法、基于评分的方法和基于结构方程的方法。在实际应用中面临的最大问题是可识别性(identifiability),即能否从观测数据中识别唯一确定的因果图。
因果机器学习相关工作
首先,因果理论是一种针对数据中规律的普适分析工具,借助因果图等语言可以对研究的问题做出细致的分析,有利于对机器学习模型的目标进行形式化以及对问题假设的表述.其次,因果推断提供了消除混杂因素以及进行中介分析的手段,对于机器学习任务中需要准确评估因果效应及区分直接与间接效应的场景有十分重要的应用价值.再者,反事实作为因果中的重要概念,也是人在思考求解问题时的常用手段,对于机器学习模型的构建和问题的分析求解有一定的指导意义。
因果机器学习主要包括以下内容:
- 可解释性问题主要研究如何对已有机器学习模型的运作机制进行解释;
- 可迁移性问题主要研究如何将模型在特定训练数据上学到的规律迁移到新的特定环境;
- 鲁棒性问题主要研究寻找普适存在的规律使模型能够应对各种未知的环境;
- 公平性问题主要研究公平性度量指标并设计算法避免歧视;
- 反事实评估问题主要研究如何在存在数据缺失的场景中进行反事实学习
下面重点阐述因果学习在鲁棒性问题上的应用。
迁移学习允许模型获得目标环境的少量数据以进行适应,然而在一些高风险场景中,可能需要机器学习模型在完全陌生的环境中也能正常工作,如医疗、法律、金融及交通等.以自动驾驶为例,即使有大量的真实道路行驶数据,自动驾驶智能体仍会面临各种突发情况,这些情况可能无法被预见但仍需要被正确处理.这类任务无法提供目标环境下的训练数据 ,此时模型的表现称为分布外泛(out-of-distribution generalization)。如果模型具有良好的分布外泛化能力,则称其具有鲁棒性(robustness)。
通常,这类问题的解决办法是对训练样本进行家去处理,比如给训练集增加扰动使其分布更接近于真实情况。问题在于数据分布很难做到很好的近似,因此作用有限。
一些去偏置的算法。诸如图像分类中的去除背景等,已经初具因果思想。事实上是在去除混杂因子。问题在于对于一个复杂的系统而言,其混杂因子是很难确定的,因此通过先验解决该问题也有局限性。
因果理论的引入对于解决鲁棒性问题提供了新的思路,主要的优势在于对变量结构的建模和更合理的假设.这类方法包括反事实数据增强、因果效应校准和不变性学习.反事实数据增强考虑从数据入手消除伪相关关系,因果效应校准通过调整偏差特征的作用来减轻偏差,不变性学习通过改变建模方式学习不变的因果机制。