内生性处理：DID

江凪水心

已于 2024-04-06 10:06:26 修改

阅读量6k

点赞数 52

分类专栏：计量经济学和Stata应用文章标签： python 笔记 pandas

于 2024-04-06 10:04:04 首次发布

本文链接：https://blog.csdn.net/weixin_53263207/article/details/137418694

版权

计量经济学和Stata应用专栏收录该内容

2 篇文章

订阅专栏

本文回顾了计量经济学中因果研究的框架，重点介绍了差分个体影响(DID)方法，用于处理内生性问题。DID通过对比处理组和对照组在不同时间点的差异，消除遗漏变量的影响，以得到无偏的因果效应估计。文中强调了平行趋势假设的重要性，即处理前后处理组和对照组应具有相似的趋势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

计量经济学中的因果研究框架回顾

给出一个OLS回归估计方程：
$y=\alpha +\beta x+\mu$

方程估计的斜率系数 $\beta =\frac{dy}{dx}$ 度量了 $x$ 对 $y$ 的因果关系的影响
无偏估计量 $\beta$ 需要满足严格的外生性(exogeneity)： $x,\mu) =0$
当残差项 $\mu$ 中包含未被观测到的遗漏变量 $\omega$ 时，其严格外生的假设失效，此时说模型存在内生性endogeneity。
在经济学实证研究中，解决内生性的方法包括：面板数据、工具变量、以及DID等方法

前言

方程中存在遗漏变量问题，或一些混杂因素不可观测。导致一个多元回归方程无法控制所有可能的因变量。例如：
房屋的“外观”和“状态”无法准确量化和表达
在工人工资的研究中，工人的工作热情是一个无法观测的变量
DID 的思想核心在于消除由于遗漏变量问题带来的估计量偏差。
DID 的做法需要数据中的研究变量分为两组；并且至少可以在时间维度上分为两期，这也称为处理组treatment在时间维度上的差异对比。

一、DID的处理过程

下面用一组例子来展示DID的处理过程：

使用kielmc数据集研究社区中的垃圾焚烧炉对房屋价格的影响，数据集根据时间维度分为1978年数据和1981年数据两组，分别对应建立垃圾焚烧炉的前后时间，数据集的链接放在文末，感兴趣可自行下载。


> str(kielmc)
'data.frame':	321 obs. of  25 variables:
 $ year    : int  1978 1978 1978 1978 1978 1978 1978 1978 1978 1978 ...
 $ age     : int  48 83 58 11 48 78 22 78 42 41 ...
 $ agesq   : num  2304 6889 3364 121 2304 ...
 $ nbh     : int  4 4 4 4 4 4 4 4 4 4 ...
 $ cbd     : num  3000 4000 4000 4000 4000 3000 4000 3000 3000 3000 ...
 $ intst   : num  1000 1000 1000 1000 2000 2000 2000 2000 2000 2000 ...
 $ lintst  : num  6.91 6.91 6.91 6.91 7.6 ...
 $ price   : num  60000 40000 34000 63900 44000 46000 56000 38500 60500 55000 ...
 $ rooms   : int  7 6 6 5 5 6 6 6 8 5 ...
 $ area    : int  1660 2612 1144 1136 1868 1780 1700 1556 1642 1443 ...
 $ land    : num  4578 8370 5000 10000 10000 ...
 $ baths   : int  1 2 1 1 1 3 2 2 2 2 ...
 $ dist    : num  10700 11000 11500 11900 12100 10000 11700 10200 10500 11000 ...
 $ ldist   : num  9.28 9.31 9.35 9.38 9.4 ...
 $ wind    : int  3 3 3 3 3 3 3 3 3 3 ...
 $ lprice  : num  11 10.6 10.4 11.1 10.7 ...
 $ y81     : int  0 0 0 0 0 0 0 0 0 0 ...
 $ larea   : num  7.41 7.87 7.04 7.04 7.53 ...
 $ lland   : num  8.43 9.03 8.52 9.21 9.21 ...
 $ y81ldist: num  0 0 0 0 0 0 0 0 0 0 ...
 $ lintstsq: num  47.7 47.7 47.7 47.7 57.8 ...
 $ nearinc : int  1 1 1 1 1 1 1 1 1 1 ...
 $ y81nrinc: int  0 0 0 0 0 0 0 0 0 0 ...
 $ rprice  : num  60000 40000 34000 63900 44000 46000 56000 38500 60500 55000 ...
 $ lrprice : num  11 10.6 10.4 11.1 10.7 ...
 - attr(*, "time.stamp")= chr "25 Jun 2011 23:03"

DID 的思想在于，当回归的自变量时一个是否施加处理treatment的二元虚拟变量指标时，估计的斜率系数是不同处理组treatment和对照组control之间的平均结果的差异：

$DID\equiv \hat{\beta}_{1}^{1981}-\hat{\beta}_{1}^{1978} \tag1$
$\bar{y}^{1981,treatment}-\bar{y}^{1978,treatment} ) -( \bar{y}^{1981,control}-\bar{y}^{1978,tcontrol} ) \tag2$
$\bar{y}^{1981,treatment}-\bar{y}^{1981,control}) -( \bar{y}^{1978,treatment}-\bar{y}^{1978,tcontrol}) \tag 3$

根据上式可以看出，DID存在两种等效的做法：

第一种方式是在不同时期分别比较处理组和对照组的差异
第二种方式是在处理组和对照组中分别比较时间维度上的不同

一种更一般化的表达如下所示，回归方程中包含两个虚拟变量dummy variables以及他们的交乘项interaction term

$y=\beta _0+\beta _1D_1+\beta _2D_2+\beta _3\left( D_1*D_2 \right) +\mu \tag4$

其中， $D_1=1$ 代表处理组， $D_1=0$ 代表对照组； $D_2=1$ 代表处理后的时间段， $D_2=0$ 代表处理前的时间阶段。方程回归系数表示如下：

	$D_2=0$	$D_2=1$
$D_1=0$	$\beta _0$ (case A)	$\beta _0+\beta _2$ (case B)
$D_1=1$	$\beta _0+\beta _1$ (case C)	$\beta _0+\beta _1+\beta _2+\beta _3$ (case D)

$\beta _3$ 也就是我们上面关注的DID估计量：

$\beta _3=\left[ \left( case\mathrm{ }D \right) -\left( case\mathrm{ }B \right) \right] -\left[ \left( case\mathrm{ }C \right) -\left( case\mathrm{ }A \right) \right] \tag5$
$\beta _3=\left[ \left( case\mathrm{ }D \right) -\left( case\mathrm{ }C \right) \right] -\left[ \left( case\mathrm{ }B \right) -\left( case\mathrm{ }A \right) \right] \tag6$

二、内生性处理

下面我们来解释DID是如何消除由于遗漏变量omitted variables所带来的内生性endogeneity和估计偏差(bias):

仍然使用上面的数据按时间分为两组：1978和1981对两组数据分别进行回归，得到处理效应的有偏估计量:
$\hat{\beta}_{1}^{1981}\rightarrow \beta _1+OVB^{1981}$
其中OVB是一个由于遗漏变量问题所带来的估计量偏差，导致处理效应的真实估计量 $\beta _1$ 和方程的估计系数 $\hat{\beta}_{1}^{1981}$ 产生不同。

同样的方法，对1978年的数据进行回归：
$\hat{\beta}_{1}^{1978}\rightarrow 0+OVB^{1978}$
如果我们假设：遗漏变量对因变量的影响不随时间的变化而变化：
$OVB^{1978}=OVB^{1981}$
那么通过我们的 DID 估计量就可以获得一个"干净"的无偏估计量 $\beta _1$
$DID\equiv \hat{\beta}_{1}^{1981}-\hat{\beta}_{1}^{1978}\rightarrow \beta _1$