本节学习第五个方法-表征学习。
3.5.1平衡表示学习
统计学习理论中最基本假设是,训练数据和测试数据来自同一分布。但是,在大多数实际情况下,测试数据是从一个仅与训练数据的分布相关但不相同的分布中提取的。
在因果推理中,这也是一个很大的挑战。与随机对照试验不同,观察数据中不明确治疗分配的机制。因此,感兴趣的干预并非独立于受试者的属性。
例如,在对药物治疗效果的观察性研究中,根据几个因素(包括已知的混杂因素和一些未知的混杂因素)将药物分配给个体。
结果,反事实分布通常将与事实分布不同。因此,有必要通过从事实数据中学习来预测反事实结果,从而将因果推理问题转换为领域适应问题。
提取有效的特征表示对于领域适应至关重要。文献14从理论上提出了一个具有泛化的模型来形式化这种直觉,它不仅可以显式地最小化源域和目标域之间的差异,而且可以最大化训练集的边界。
基于这项工作,分布之间的差异距离被定制为具有任意损失函数的适应性问题。在下面的讨论中,差异距离在解决因果推理中的域适应问题方面起着重要作用。
到目前为止,我们可以看到反事实推理与领域适应之间的联系。一种直观的想法是加强表示空间中不同处理组分布之间的相似性。习得的表征需要权衡三个目标:
-
(1)相对于事实表征的低误差预测;
-
(2)考虑相关事实结果对反事实结果的低误差预测,
-
(3)治疗人群和控制人群分布