这一节学习4.2和4.3两个部分。
可忽略性假设也称为无混杂假设。
给定背景变量X,治疗分配W与潜在结果无关,即W⊥⊥Y(W = 0),Y(W = 1)| X。有了这个毫无疑问的假设,对于具有相同背景变量X的单元,可以将它们的处理分配视为随机的。显然,识别和收集所有背景变量是不可能的,这假设很难满足。
例如,在一项观察性研究中,试图估计一种药物的个人治疗效果,而不是随机实验,而是根据一系列因素将药物分配给个人。某些因素(例如,社会经济地位)难以衡量,因此成为隐藏的混杂因素。
现有的工作绝大多数依赖于毫无疑问的假设,即所有混杂因素可以衡量。但是,这种假设在实践中可能站不住脚。在上面的示例中,单位的人口统计属性(例如其家庭住址,消费能力或就业状况)可能是社会经济地位的代表。
利用大数据,可以找到潜在的和未观察到的混杂因素的代理。
变分自动编码器已被用来推断观察到的混杂因素与潜在混杂因素的联合分布,治疗分配和结果之间的复杂非线性关系。潜在混杂因素和观察到的混杂因素的联合分布可以从观察中大致恢复。
另一种方法是通过合并基础网络信息来捕获其模式并控制其影响。网络信息也是无法观察到的混淆的合理代理。
文献[46]在网络信息上应用GCN以获得隐藏的混杂因素的表示。
此外,文献在[45]中,图注意力层用于通过捕获现实世界网络观测数据中的未知边缘权重,将网络观测数据中的观测特征映射到部分潜在混杂因素的D维空间。
文献[138]中提到的一个有趣的见解是,即使观察到混杂因素,也不意味着它们所包含的所有信息都可用于推断因果关系。 相反,要求估计器实际使用的混杂因素部分就足够了。
因此,如果可以建立一个良好的治疗预测模型,则可能只需要将输出直接插入因果效应估计中,而无需了解整个真正的混杂因素。
在[138]中,主要思想是将因果估计问题减少为对治疗和结果的半监督预测。网络承认可用于此半监督预测的高质量嵌入模型。
此外,嵌入方法还可以为完全指定的生成模型提供替代方法。
仅使用观测数据来解决混杂问题始终是困难的。
另一种方法是将实验数据和观测数据结合在一起。在文献[63]中,有限的实验数据被用来纠正在较大的观测数据上训练的因果模型中隐藏的混淆,即使观测数据没有与实验数据完全重叠也是如此。
与现有方法相比,此方法做出的假设更加不严格。
为了从纵向观察数据中估计治疗效果,现有方法通常假定没有隐藏的混杂因素。该假设在实践中无法检验,如果不成立,则会导致估计偏差。
文献 [15] 推断出使分配的处理有条件独立的替代混杂因子。然后,它使用替代混杂因素进行因果推断。该方法可以帮助在存在隐藏的混杂因素的情况下估计时间序列数据的治疗效果。
以上方法旨在解决有关观察到的和未观察到的混杂因素的问题。还有其他方法可以解决无混淆的假设并进行因果推断吗?
一种方法是使用仅影响治疗分配但不影响结果变量的工具变量。工具变量的变化将导致对治疗的不同分配,这与潜在变量无关,并且出于因果推断的目的,这种分配与随机化一样好。
文献[50]将工具变量分析分为两个可监督的阶段,每个阶段都可以针对深层网络。
在给定工具和协变量的情况下,它对治疗变量的条件分布进行建模,然后采用涉及对条件治疗分布进行积分的损失函数。深入的工具变量框架还利用现有的监督学习技术来估计因果关系。
4.3积极的假设
积极假设,也称为协变量重叠或共同支持,是在观察研究中确定治疗效果的必要假设。
但是,很少有文献讨论在高维数据集中满足该假设的情况。
文献[32]认为,积极假设是一个很强的假设,在高维数据集中很难满足。为了支持该主张,作者探讨了严格重叠假设的含义,它表明严格重叠限制了对照变量和已处理协变量之间的一般差异。
因此,积极假设要强于研究人员的预期。基于上述含义,推荐了在保留不混淆假设的情况下消除有关治疗分配信息的方法,例如修剪,该方法将记录不重叠地放置在该区域中,以及工具变量调整方法从协变量中消除工具变量。
微信扫一扫
关注该公众号