计量模型 | 固定效应与交互固定效应

这期推送简单谈一下我本人对固定效应与交互固定效应一些或许不太成熟的理解。

N o t e : Note: Note: 1、该文首发于微信公众号DMETP,欢迎关注;2、需要本次推送所使用的数据和代码的朋友,可以在公众号后台对话框内回复关键词fe

LSDV法下,FE本质就是控制变量,所以在经济含义上,FE(包括交互FE)与一般意义上的控制变量并无二致。

那么,回归方程中为什么要加入控制变量?为了剥离其他因素的影响。设想一种极端情况,被解释变量 y y y只对核心解释变量 x x x做回归,其他影响 y y y的因素都放到残差项中,这种情况下 x x x的估计系数就不再代表 x x x影响 y y y的净效应了,而是参杂了其他因素对 y y y的影响,因为 x x x极大可能与残差项中某些被遗漏的变量相关,也就是存在遗漏变量引起的内生性问题。因此,为了排除其他因素(假定这些因素与核心解释变量相关)对估计结果的干扰,从而获得一个“干净”的边际值,回归模型还需要加入其他控制变量。

一般意义上的控制变量是根据经济学理论甚至常识来引入的,这些变量可观测、可度量,并且由于大多数情况是“基于×××和×××的研究”,因此可信服。但是,除了这部分可观测、可度量的控制变量,影响结果变量 y y y的经济要素是复杂多样的,其中就包括许多不可观测且不可度量的因素,比如某年实施的经济政策、地区的风俗文化、行业的典型特征、个体的性格认知等等。为了控制住这些不可观测因素对研究结果的干扰,就需要额外在回归方程中引入FE,比如常见的年份FE、地区FE、行业FE和个体FE等等。

下面以一个手动生成的数据集为例。

cls
clear all
set obs 50

gen id = ceil(_n / 10)

bys id: gen year = _n + 2010

gen ind = 1
replace ind = 2 if 1.id
replace ind = 3 if 3.id

gen city = 1
replace city = 2 if 2.id
replace city = 3 if 5.id

bro

这个面板数据集从个体id、年份year、行业ind和城市city四个维度对样本企业进行定义。具体举例,id为1的企业存续年份为2011至2020年,其行业代码为2,注册地属于城市1,并且在这十年间,该企业所属行业和注册地未发生变更(是否发生变更是一个关键信息,事关不同FE相互之间是否存在多重共线性,下文将展开论述)。

一般而言,在回归方程中引入FE有两种方法(见上期推送『计量模型 | 时间固定效应与时间趋势项』),下面基于tabulate的方法具体分析。

ta   id, gen(  idfe)
ta year, gen(yearfe)
ta  ind, gen( indfe)
ta city, gen(cityfe)

运行以上代码后可以观察到,数据集中生成了一系列的虚拟变量,以indfe*为例,indfe*是根据变量ind的不同取值生成的分组变量,由于总共有三个行业,因此有三个行业分组变量(indfe1indfe2indfe3)。

将这三个变量引入回归方程中就可以说是控制了行业FE(为避免虚拟变量陷阱Stata将自动omit一个分组变量),行业FE表征企业所属行业的不可观测的典型特征对企业的同质性影响,换言之,如果怀疑行业的某些特征对行业内所有企业的 y y y均存在影响(如金融业企业一般都比较“赚钱”),并且对行业内的不同企业的作用大小不存在明显差异,那么行业FE就可以代表这样的行业特征。那么,为什么说是“同质性”影响?因为行业FE假定同一行业中的样本行业特征是近似一致的。这一假定从数据集中也可以看出来,即同一行业样本的indfe#均赋值为1(属于行业#),或者均赋值为0(不属于行业#)。其他FE同理。

但是,细心一点可以观察到,除时间FE,其他非时变的FE均可由个体FE线性表出,如indfe2等于idfe1cityfe1等于idfe1idfe3idfe4。这就意味着,如果模型中控制多个非时变的FE,其他FE总能被个体FE表出,即存在多重共线性的问题,这样的FE将被omitted。因此,许多论文不会在模型中同时控制个体FE和行业FE。

然而,这并不是说同时控制个体FE和行业FE是不可行的。一种特殊情况是,如果企业所属行业发生变更(如环境规制政策实施前后,部分制造业企业选择变更行业以规避政策的不利影响或套取政策红利,虽然后一种情况比较少),在这种情况下行业FE将不再是非时变的了,因此行业FE就不会再被个体FE线性表出。况且,就算不存在企业跨行转移的情况,也可以通过附上时变因素来规避共线性的问题,即行业 - 年份FE(具体引入方法见上期推送『计量模型 | 时间固定效应与时间趋势项』)。

这里就引入了交互FE的话题。模型中控制交互FE不只是为了附上时变因素以同时引入两个非时变FE,规避共线性的问题,更关键的在于交互FE的经济含义,在于控制交互FE将更加合乎常识与经济学理论,模型解释将更加的逻辑自洽。

上文提到了“同质性”,比如年份FE的同质性就是假定在同一年份某一不可观测因素(如政策冲击、经济周期等)对所有企业的结果变量 y y y的作用方向、作用大小是一样的。但是,现实的经济冲击并不会对所有企业产生一致的同质性影响,不同企业因自身实力、价值链地位、所有者性质等的不同在面对同一经济冲击时做出的战略性反应不同,从而导致最终的结果不同。

比如2012年出台的《绿色信贷指引》,这一自上而下的环境规制政策(或者,信贷政策)虽然是在全国层面实施的,但是对不同行业企业的影响不同。具体而言,制造业企业由于“高污染、高能耗、产能过剩”的典型特征最易受到绿色信贷政策的影响,金融机构在《绿色信贷指引》下将直接缩减对“两高一剩”企业的信贷供给,如果这些企业本身就面临严峻的融资约束压力,并且没有其他可供替代的融资渠道(如内源融资、商业信用等),信贷渠道受阻将最终反映到企业的生产经营活动。

总结来说就是,控制时间FE仅仅考虑到了时间维度上的同质性经济冲击,但现实中的经济冲击将对不同类型企业产生异质性影响,为将这些不可观测的异质性冲击因素控制住,回归方程需要引入交互FE,比如说这里的ind - year FE

关于上文《绿色信贷指引》的一个补充事实是,2014年发布了《绿色信贷实施情况关键评价指标》,其中给出了涉及“两高一剩”行业的参考目录,这些行业目录具体以四位数行业代码呈现。这就意味着,为了精确捕捉这一政策安排的异质性冲击,就必须将ind细化到四位数行业层面,即控制四位数行业 - 时间FE。

既然交互FE这么好,那在什么情况下可以使用呢?任何情况下都可以使用,因为交互FE比单独的FE更严格,交互FE本质上包含了单个FE(这从生成的分组虚拟变量的数目就可以看出来)。但是,引入过多的虚拟变量可能导致核心解释变量统计上不显著,甚至造成符号与预期相反,这种情况下就需要仔细斟酌一下,到底是经济系统本身就是这种运行规律?还是说过多的虚拟变量导致某些控制变量被omitted,从而影响了估计结果?切不能简单地“见Star行事”,因为某些情况下基于这样的交互FE得出的结果更能反映经济系统本身的运行规律,且不显著的回归结果某种程度上可以讨论出影响机制,增强论文的故事性,比如分样本回归。

但是,有一种情况建议使用交互FE。以上面的《绿色信贷指引》为例,假设基于这个政策做一个DID,“两高一剩”行业企业treated赋值为1,其他企业赋值为0;2012年及以后post赋值为1,以前赋值为0;被解释变量是企业TFP。

观察这一模型的数据结构可以发现,被解释变量是企业级别,核心解释变量是行业 - 年份级别。那么,为了控制企业级别的不可观测因素对企业TFP的影响,同时为了控制样本期间其他所有行业级别的环境规制政策对企业TFP的影响,模型就需要引入企业FE和行业 - 年份FE,至于行业代码具体细化到什么程度,这就是另外的故事了。

  • 7
    点赞
  • 43
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值