在本节中,文章提供相关的实验信息,包括实验中常用的可用数据集,以及前两节中提到的方法的开源代码。
5.1可用数据集
5.1.1第3节的数据集。
由于永远无法观察到反事实的结果,因此很难找到完全满足实验要求的数据集,即它是具有地面真实性ATE(或ITE)的观察性数据集。文献中使用的数据集通常是半合成数据集。
某些数据集(例如IHDP数据集)是由随机数据集按照一定的生成过程生成其观测结果,并去除一个有偏子集来模拟观测数据集中的选择偏倚而得到的。
一些数据集(例如Jobs数据集)将随机化数据集和观测控制数据集组合在一起以创建选择偏差。可用基准数据集的详细信息如下。
IHDP。该数据集是常用的基准数据集。
该数据集是根据婴儿健康与发展计划[进行的随机对照实验生成的,其目标人群是低出生体重的早产儿。
治疗前协变量是25个变量,用于测量有关儿童及其母亲的方面,例如出生体重,头围,新生儿健康指数,产前保健,母亲的年龄,教育程度,药物,酒精等。婴儿都接受了强化高质量的育儿和专科上门服务。
结果是婴儿的认知测验得分,可以通过NPCI软件包1进行模拟。此外,需要去除治疗组的偏倚亚组以模拟选择偏倚。IHDP数据集的示例,其结果通过NPCI的“ A”设置进行模拟软件包可以从http://www.mit.edu/~fredrikj/files/ihdp_100.tar.gz下载。
就业情况。观察性研究中使用jobs数据集是Lalonde实验数据和PSID比较组的组合。
Lalonde和PSID数据集都可以从NBER网站上下载。治疗前的协变量是8个变量,例如年龄,教育程度ÿ