门槛/门限效应模型

Hello,大家好,这期教学想跟大家分享一下面板数据的门槛效应模型,也叫门限效应模型。先简单解释一下这种模型。

以科研为例,一般情况下,当我们花费在科研上的时间越多,成果就会越丰富,但是,这种正相关不一定是线性的。

在最初阶段,可能我们投入了很多时间看文献研究数据,也写不出一篇优秀的文章,但是当你积累到一定地步,可能就只需要投入很少时间就可以产出大量优质文章,那么这个积累程度就是一种门槛或者说门限;再者,当你已经写了很多文章之后,你可能会进入另外一种境况-瓶颈期,虽然质量可能会提高,你的文章数量可能会减少,这个时候,就会出现第二种门槛。

那么这种在不同时期,你的科研投入时间和文章产出数量的线性关系是不同的,这种就是门槛或者门限效应。说专业点就是:当一个参数达到特定的数值后,引起另外一个参数发生跟之前不一样的线性变化,这个特定数值、临界值就是门槛值或者门限值。那么面板数据和横截面数据都是一样的原理,只是数据的区别。

接下来,我们就进行实际操作演练吧,我还是以面板数据为例,希望对大家有所帮助吧。

我们打开这个数据库,

面板数据的门槛效应模型在stata里面一般是用xtptm或者xthreg命令,这两个命令的安装都比较麻烦,xthreg需要stata13.0版本及以上,但是xtptm的输出结果变量只能是123这样子表示,不是很友好,所以我习惯使用xthreg。

其实具体操作大同小异,我这里还是直接把命令放在左边,结果窗口右边,方便大家对照学习,后续会把命令Word放在知乎文章里面。这里先强调的一点就是这个命令是针对平衡面板数据,如果是非平衡面板数据,要么对数据进行整理,要么使用xthreg2。

我们首先把命令复制过来,然后我一一给大家讲解每一个的含义,

xthreg y c1 c2 c3 c4, rx(x1) qx(x2) thnum(1) bs(300) trim(0.01) grid(100) r

其中,y表示被解释变量,c1-c4表示控制变量,

rx表示核心解释变量,qx表示门槛变量,thnum表示门槛个数,

bs表示自举次数(理论上越多越好,但是考虑到效率,一般设置成300以上),

trim表示门限分组内异常值去除的比例(一般选0.01或0.05),

grid表示样本网格计算的网格数(一般设置成100或300),r表示用聚类稳健标准误。

1.单一门槛

·xthreg y c1 c2, rx(x1) qx(x2) thnum(1) bs(300) trim(0.01) grid(100) r

2.双门槛

·xthreg y c1 c2, rx(x1) qx(x2) thnum(2) bs(300 300) trim(0.01 0.01)grid(100) r

3.三门槛

·xthreg y c1 c2, rx(x1) qx(x2) thnum(3) bs(300 300 300) trim(0.01 0.01 0.01) grid(100) r

(相关视频教学可在b站、抖音、网易云课堂等平台找到,全网同名:小菲stata)

(三)输出结果

那讲到这里,我们大概知道了门槛效应什么情况下使用以及使用的代码中,每个参数的含义,接下来就是实际演练了。

我们建议一般是先执行三门槛模型,根据结果再选择门槛个数,

另外,请先设置seed,以保证他人可以得到和你完全一样的结果,因为自助法的每次抽样结果都不一样,导致下面的数字每次都不完全一样。每次回归前都要设置一次seed。

·set seed 101//数字随便设置,但要做好记录工作。

然后根据我的数据情况改一下这个代码。

我的y是sjy,控制变量就写x1吧,核心解释变量就写x2吧,门槛变量x5吧,然后其他都不变。因为我的只是一个普通面板数据,不一定存在门槛效应,所以其实用这个做教学数据不是很理想,但也应该不影响大家学习这个模型的实际操作。

·xthreg sjy x1, rx(x2) qx(x5) thnum(3) bs(300 300 300) trim(0.01 0.01 0.01) grid(100) r

xthreg命令计算速度相当慢。

面板三门槛的结果如下,

Single和Double表示门槛个数的检验,Single表示的含义是:原假设认为不存在门槛值,备择假设是存在一个门槛值,Double表示的含义是:原假设认为存在一个门槛值,备择假设是存在两个门槛值。(以最后一个检验为准)。

triple那一行的原假设是应该使用两门槛模型,备择假设是应该使用三门槛,p=0.0033显著,故应该使用三门槛模型。如果这里p值大于0.05的话或者0.1,就跑双门槛效应。

然后我们看门槛值分别是多少,但是前面这块,我们发现我们这里的可信区间不出现,我的这个数据没有严格的门槛效应,我也是随意设置的门槛变量,所以我们不能只看前面的p值,这里也是提醒数据不是很合适。不出现的原因可能是过于偏向左边,或者根本不存在门槛效应。或者我们调整一下数据形式或者缩尾0.01换为0.05.都可以调试一下看看的。

这里我给大家调一下,看看缩尾0.05怎么样

xthreg sjy x1, rx(x2) qx(x5) thnum(3) bs(300 300 300) trim(0.05 0.05 0.05) grid(100) r

看到这里都正常显示了,但是p都不显著,再跑一个双门槛

xthreg sjy x1, rx(x2) qx(x5) thnum(3) bs(300 300) trim(0.05 0.05) grid(100) r

结果比较一致,说明我的数据情况应该是不存在门槛效应。

如果这里都正常显示,我们解释一下,如果是存在三门槛效应,这里的65.21就是第一门槛值,86.34就是第二门槛值,然后87.89就是第三门槛值。Th-1是指单一门槛时候的结果,大部分时候都是和双门槛的值一样,不用在意它的结果。lower和upper用来表示95%置信区间。

这里一直有一个争议,很多人说第一第二门槛值从下往上算,但是很多时候你会发现从下往上不是递增趋势,其实门槛变量顺序不是按照先后顺序,而是根据估计量大小排序。

感觉我这个数据不是很理想的情况下进行教学也挺好的,可以顺便回复一些常见问题,如果大家觉得有什么不合适或者有错误的地方,可以在评论区指出,大家一起进步呀。

接下来,我们再跑一下面板双门槛回归吧,给大家讲解一下怎么样看回归结果吧。

·set seed 101

·xthreg sjy x1, rx(x2) qx(x5) thnum(2) bs(300 300) trim(0.01 0.01) grid(100) r

看到这里Th-21和Th-22就是双门槛回归的两个估计值,一般Th-21和Th-1相同。

这里虽然p值小于0.05,但是数据还是不合适的,这里可信区间不出现,数据还是要进行调整的,这里我们假设都是正常显示的,给大家解释一下回归结果吧。

我们主要看这里的核心解释变量x2,这里的p也都是显著的,然后看o对应的这个回归系数528.2571,0表示当门槛变量x5<第一门槛值(86.34)时,主要解释变量x2对被解释变量sjy的影响,

1表示门槛变量x5介于第一门槛值和第二门槛值之间,x2对sjy的影响,

2表示门槛变量x5大于第二门槛值(87.89)时,x2对sjy的影响。

可以看出来存在一个趋势:正效应先上升后下降。也就是说,门槛变量x5存在一个最优区间,此时能够最大程度提高x2对sjy的正向影响,但如果x5过小或者过大,反而减少了x2对sjy的正向影响。

这里我的数据并不是很合适做门槛效应,但是也不影响我教学,反而我觉得任何一个数据即使存在理论意义,也不一定立刻就可以跑出很合适的结果,需要我们花时间从理论和数据角度同时去思考去调试,然后大家如果还有什么问题可以在评论区留言。最后祝大家的时间投入和成果产出都能呈现大大的正比,谢谢大家,那咋们下期再见。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值