门槛/门限效应模型

最新推荐文章于 2024-12-04 15:24:25 发布

小菲stata

最新推荐文章于 2024-12-04 15:24:25 发布

阅读量4.6k

点赞数 27

文章标签：回归数据挖掘论文阅读数据分析

本文链接：https://blog.csdn.net/weixin_55060648/article/details/142574376

版权

Hello，大家好，这期教学想跟大家分享一下面板数据的门槛效应模型，也叫门限效应模型。先简单解释一下这种模型。

以科研为例，一般情况下，当我们花费在科研上的时间越多，成果就会越丰富，但是，这种正相关不一定是线性的。

在最初阶段，可能我们投入了很多时间看文献研究数据，也写不出一篇优秀的文章，但是当你积累到一定地步，可能就只需要投入很少时间就可以产出大量优质文章，那么这个积累程度就是一种门槛或者说门限；再者，当你已经写了很多文章之后，你可能会进入另外一种境况-瓶颈期，虽然质量可能会提高，你的文章数量可能会减少，这个时候，就会出现第二种门槛。

那么这种在不同时期，你的科研投入时间和文章产出数量的线性关系是不同的，这种就是门槛或者门限效应。说专业点就是：当一个参数达到特定的数值后，引起另外一个参数发生跟之前不一样的线性变化，这个特定数值、临界值就是门槛值或者门限值。那么面板数据和横截面数据都是一样的原理，只是数据的区别。

接下来，我们就进行实际操作演练吧，我还是以面板数据为例，希望对大家有所帮助吧。

我们打开这个数据库，

面板数据的门槛效应模型在stata里面一般是用xtptm或者xthreg命令，这两个命令的安装都比较麻烦，xthreg需要stata13.0版本及以上，但是xtptm的输出结果变量只能是123这样子表示，不是很友好，所以我习惯使用xthreg。

其实具体操作大同小异，我这里还是直接把命令放在左边，结果窗口右边，方便大家对照学习，后续会把命令Word放在知乎文章里面。这里先强调的一点就是这个命令是针对平衡面板数据，如果是非平衡面板数据，要么对数据进行整理，要么使用xthreg2。

我们首先把命令复制过来，然后我一一给大家讲解每一个的含义，

xthreg y c1 c2 c3 c4, rx(x1) qx(x2) thnum(1) bs(300) trim(0.01) grid(100) r

其中，y表示被解释变量，c1-c4表示控制变量，

rx表示核心解释变量，qx表示门槛变量，thnum表示门槛个数，

bs表示自举次数（理论上越多越好，但是考虑到效率，一般设置成300以上），

trim表示门限分组内异常值去除的比例（一般选0.01或0.05），

grid表示样本网格计算的网格数（一般设置成100或300），r表示用聚类稳健标准误。

1.单一门槛

·xthreg y c1 c2, rx(x1) qx(x2) thnum(1) bs(300) trim(0.01) grid(100) r

2.双门槛

·xthreg y c1 c2, rx(x1) qx(x2) thnum(2) bs(300 300) trim(0.01 0.01)grid(100) r

3.三门槛

·xthreg y c1 c2, rx(x1) qx(x2) thnum(3) bs(300 300 300) trim(0.01 0.01 0.01) grid(100) r

（相关视频教学可在b站、抖音、网易云课堂等平台找到，全网同名：小菲stata）

（三）输出结果

那讲到这里，我们大概知道了门槛效应什么情况下使用以及使用的代码中，每个参数的含义，接下来就是实际演练了。

我们建议一般是先执行三门槛模型，根据结果再选择门槛个数，

另外，请先设置seed，以保证他人可以得到和你完全一样的结果，因为自助法的每次抽样结果都不一样，导致下面的数字每次都不完全一样。每次回归前都要设置一次seed。

·set seed 101//数字随便设置，但要做好记录工作。

然后根据我的数据情况改一下这个代码。

我的y是sjy，控制变量就写x1吧，核心解释变量就写x2吧，门槛变量x5吧，然后其他都不变。因为我的只是一个普通面板数据，不一定存在门槛效应，所以其实用这个做教学数据不是很理想，但也应该不影响大家学习这个模型的实际操作。

·xthreg sjy x1, rx(x2) qx(x5) thnum(3) bs(300 300 300) trim(0.01 0.01 0.01) grid(100) r

xthreg命令计算速度相当慢。

面板三门槛的结果如下，

Single和Double表示门槛个数的检验，Single表示的含义是：原假设认为不存在门槛值，备择假设是存在一个门槛值，Double表示的含义是：原假设认为存在一个门槛值，备择假设是存在两个门槛值。（以最后一个检验为准）。

triple那一行的原假设是应该使用两门槛模型，备择假设是应该使用三门槛，p=0.0033显著，故应该使用三门槛模型。如果这里p值大于0.05的话或者0.1，就跑双门槛效应。

然后我们看门槛值分别是多少，但是前面这块，我们发现我们这里的可信区间不出现，我的这个数据没有严格的门槛效应，我也是随意设置的门槛变量，所以我们不能只看前面的p值，这里也是提醒数据不是很合适。不出现的原因可能是过于偏向左边，或者根本不存在门槛效应。或者我们调整一下数据形式或者缩尾0.01换为0.05.都可以调试一下看看的。

这里我给大家调一下，看看缩尾0.05怎么样

xthreg sjy x1, rx(x2) qx(x5) thnum(3) bs(300 300 300) trim(0.05 0.05 0.05) grid(100) r

看到这里都正常显示了，但是p都不显著，再跑一个双门槛

xthreg sjy x1, rx(x2) qx(x5) thnum(3) bs(300 300) trim(0.05 0.05) grid(100) r

结果比较一致，说明我的数据情况应该是不存在门槛效应。

如果这里都正常显示，我们解释一下，如果是存在三门槛效应，这里的65.21就是第一门槛值，86.34就是第二门槛值，然后87.89就是第三门槛值。Th-1是指单一门槛时候的结果，大部分时候都是和双门槛的值一样，不用在意它的结果。lower和upper用来表示95%置信区间。

这里一直有一个争议，很多人说第一第二门槛值从下往上算，但是很多时候你会发现从下往上不是递增趋势，其实门槛变量顺序不是按照先后顺序，而是根据估计量大小排序。

感觉我这个数据不是很理想的情况下进行教学也挺好的，可以顺便回复一些常见问题，如果大家觉得有什么不合适或者有错误的地方，可以在评论区指出，大家一起进步呀。

接下来，我们再跑一下面板双门槛回归吧，给大家讲解一下怎么样看回归结果吧。

·set seed 101

·xthreg sjy x1, rx(x2) qx(x5) thnum(2) bs(300 300) trim(0.01 0.01) grid(100) r

看到这里Th-21和Th-22就是双门槛回归的两个估计值，一般Th-21和Th-1相同。

这里虽然p值小于0.05，但是数据还是不合适的，这里可信区间不出现，数据还是要进行调整的，这里我们假设都是正常显示的，给大家解释一下回归结果吧。

我们主要看这里的核心解释变量x2，这里的p也都是显著的，然后看o对应的这个回归系数528.2571，0表示当门槛变量x5<第一门槛值(86.34)时，主要解释变量x2对被解释变量sjy的影响，

1表示门槛变量x5介于第一门槛值和第二门槛值之间，x2对sjy的影响，

2表示门槛变量x5大于第二门槛值(87.89)时，x2对sjy的影响。

可以看出来存在一个趋势：正效应先上升后下降。也就是说，门槛变量x5存在一个最优区间，此时能够最大程度提高x2对sjy的正向影响，但如果x5过小或者过大，反而减少了x2对sjy的正向影响。

这里我的数据并不是很合适做门槛效应，但是也不影响我教学，反而我觉得任何一个数据即使存在理论意义，也不一定立刻就可以跑出很合适的结果，需要我们花时间从理论和数据角度同时去思考去调试，然后大家如果还有什么问题可以在评论区留言。最后祝大家的时间投入和成果产出都能呈现大大的正比，谢谢大家，那咋们下期再见。