Stata与SPSS多元线性回归以及Tableau地图可视化-探究各省份地区中学教育资源对总和生育率的影响

一、问题

        房价、收入、女性教育程度等因素再影响生育率方面的作用已经得到证实,现在考虑:排除掉其他因素,不同省份之间教育资源的发达程度(尤其是义务教育阶段)会对生育率产生怎样的影响?本文基于第七次人口普查数据和2021年人口统计年鉴,探索了各个地区中学(义务教育初中阶段)教育资源发达程度对生育率的影响。

二、数据

选取了中国大陆31个省份的人口统计数据。

测量变量

变量名称

测算方式

来源

总和生育率

BornRate

育龄妇女平均生育子女数

第七次人口普查数据

女性高等教育水平

FemEdu

15岁以上接收高等教育女性占比

第七次人口普查数据

初中-学生老师比

JnrST

初中在校学生与专任教师的比值

2021中国统计年鉴

人均可支配收入

Inc

单位:元

2021中国统计年鉴

单位面积房价

HousePrice

单位:元/m2

国家统计局-省份数据

地区人均生产总值

PGDP

单位:元

2021中国统计年鉴

房价收入比

Prsur

房价与人均可支配收入比

统计年鉴/国家统计局

三、多元线性回归模型

BornRate=β0+β1JnrST+β2 FemEdu+β3 Prsur+β4lnPGDP+u

BornRate:第七次人口普查测算的总和生育率

JnrST:主要解释变量,反映地区教育资源丰富度,JnrST越小,教育资源越优越

FemEdu:2020年各省份15岁以上女性高等教育占比,反映女性教育程度

Prsu:2020年各省份房价收入比,反映了地区人民生活成本和压力

           PGDP:2020年各省份人均生产总值,反映地区经济发达程度

四、描述性统计与数据可视化

1.所有变量描述性统计

Stats

BornRate

JnrST

FemEdu

Prsur

PGDP

N

31

31

31

31

31

Mean

1.306

12.30

0.198

0.324

70787

SD

0.345

1.671

0.0733

0.0969

31326

Min

0.740

8.679

0.141

0.209

35995

Max

2.119

15.15

0.488

0.615

164889

2.变量分布可视化-地图热力图

下列四图中,各个省份颜色代表了对应自变量的大小(房价收入比、女性教育程度、地区人均生产总值、中学教育资源)。以第一张图为例,地图颜色越深,代表房价收入比越高,也就表明房价压力越大。

气泡圆点大小和颜色深浅代表总和生育率的大小。气泡越大、颜色越深,代表这个地区的总和生育率越高。

由于数据收集范围限制,下图中仅展示了中国大陆的情况(并未报告中国香港、中国澳门、中国台湾的部分)。

上述四张图中,整体上呈现出的趋势都是地图颜色越深、总和生育率就越小。但是对于主要解释变量(中学教育资源)对生育率的影响,从地图热力图上只能看出大概分布情况,还需要其他可视化图形来理解其关系。

3.变量散点图

仅考虑各地区中学教育资源与总和生育率,从散点图可以看出整体呈现负相关的趋势,也就是说,中学教育资源越发达,总和生育率越低。但是这仅仅是可视化所传达出的部分信息,因果关系的确定还需要后面回归结果的系数来解读。

五、多元线性回归操作和结果

1.Stata操作代码

*控制变量选取
asdoc pwcorr_a FemEdu JnrST Inc HousePrice Prsur PGDP
*变量相关性
asdoc pwcorr_a JnrST FemEdu Prsur LnPGDP
*变量描述性统计
"tabstat BornRate JnrST FemEdu Prsur PGDP ,s(N mean sd p50 min max)"
"logout,save(Descip3) word :tabstat BornRate JnrST FemEdu Prsur PGDP ,s(N mean sd p50 min max)"
*处理后的描述性统计
"logout,save(Descip2) word :tabstat BornRate JnrST FemEdu Prsur LnPGDP ,s(N mean sd p50 min max)"
*回归
reg LnBorn JnrST FemEdu Prsur LnPGDP
est store a1 
"outreg2 using Regg.doc,replace tstat bdec(3) tdec(2) e(r2_a,F) addstat(F test,e(p)) "
*共线性诊断
vif
"logout,save(vif) word:vif"
*异方差怀特检验
"estat imtest,white"
"logout,save(white) word:estat imtest,white"
*异方差BP检验
"estat hettest,iid"
"logout,save(BP) word:estat hettest,iid"
*遗漏变量偏误RESET检验
estat ovtest
*提取残差
"predict e,res"
pwcorr LnBorn e
pwcorr_a JnrST e
*残差正态性检验
mean e
swilk e
"logout,save(normal) word:swilk e"
*稳健性检验
reg BornRate JnrST HighST PrmST FemEdu Prsur LnPGDP
est store a1
reg BornRate JnrNT FemEdu Prsur LnPGDP
est store a2
reg BornRate JnrST_Y FemEdu Prsur LnPGDP
est store a3
reg BornRate JnrST FemEdu Prsur LnPGDP
est store a4
reg LnBorn JnrST FemEdu Prsur LnPGDP
est store a5
esttab a4 a2 a3 a5 a1 using Robust5.rtf

2.线性回归系数

VARIABLES

BornRate

JnrST

0.122***

FemEdu

0.149

Prsur

0.785

LnPGDP

-0.477**

Constant

4.816**

Observations

31

R-squared

0.591

F

9.408

*** p<0.01, ** p<0.05, * p<0.1

        JnrST系数为正,且在0.01的显著性水平下成立,表明JnrST与BornRate之间存在显著的正向关系,而JnrST又与地区教育资源分配程度呈负向关系,因此地区中学教育资源与生育率负相关。

        根据表格中数据显示,中学生师比每下降1个单位,则总和生育率平均下降约0.122,这表明中学教育资源越发达,生育率反而越低。这也验证了前面可视化部分的猜测。

3.共线性诊断

Variable

VIF

1/VIF

FemEdu

4.030

0.248

LnPGDP

2.330

0.429

JnrST

1.750

0.572

Prsur

1.610

0.621

Mean

VIF

2.430

各个变量的方差膨胀因子均低于5,共线性问题弱。

4.异方差检验

   怀特检验

H0: Homoskedasticity

Ha: Unrestricted heteroskedasticity

   chi2(14) =  18.63

Prob > chi2 = 0.1797

Cameron & Trivedi's decomposition of IM-test

Source

chi2

df

p

Heteroskedasticity

18.63

14

0.180

Skewness

5.810

4

0.214

Kurtosis

0.680

1

0.408

Total

25.12

19

0.157

怀特检验下,p>0.05,不能拒绝同方差假设,因此异方差问题并不显著。

5.遗漏变量偏误RESET检验

H0: Model has no omitted variables

F(3, 23) =   0.65

Prob > F = 0.5886

RESET检验下,p>0.05,不能拒绝原假设,遗漏变量偏误问题不显著。

6.残差正态性检验

Variable

Obs

W

V

z

Prob>z

e

31

0.962

1.240

0.445

0.328

p>0.05,不能拒绝残差正态性假设。

7.稳健性检验

(1)

(2)

(3)

(4)

(5)

BornRate

BornRate

BornRate

LnBorn

BornRate

JnrST

0.122**

0.0986***

0.242***

(3.55)

(3.89)

(3.96)

FemEdu

0.149

-2.607*

0.0121

-0.0799

-0.304

(0.13)

(-2.45)

(0.01)

(-0.09)

(-0.27)

Prsur

0.785

0.963

0.822

0.538

0.174

(1.39)

(1.52)

(1.42)

(1.28)

(0.29)

LnPGDP

-0.477*

-0.369

-0.427*

-0.325*

-0.530**

(-2.68)

(-1.89)

(-2.39)

(-2.47)

(-2.95)

JnrNT

0.00675*

(2.12)

JnrST_Y

0.110**

(3.30)

HighST

-0.112*

(-2.30)

PrmST

-0.0449

(-1.50)

_cons

4.816*

5.083*

4.411*

7.075***

6.420**

(2.75)

(2.56)

(2.46)

(5.46)

(3.46)

N

31

31

31

31

31

  1. 原模型。
  2. 改变变量的测度,将中学生师比JnrST变为了老师与学校数量的比值JnrNT,与生师比相反,该比值越大,表明教育资源分配越优越,而该稳健性检验系数仍为正,且在0.05的水平下显著,因此没有通过这一个稳健性检验。
  3. 采用滞后一期的核心变量,选取了2019年的各省份中学生师比JnrST_Y作为回归的核心解释变量,结果在0.01的显著性水平下成立,且系数符号、量级均与原模型一致,通过稳健性检验。
  4. 对因变量取对数进行回归,结果在0.001的水平下显著,且核心解释变量的符号与原模型一致。
  5. 加入更多解释变量,将2020年各省份高中的生师比HighST和小学生师比PrmST作为控制变量加入模型中,以探究在控制地区高中和小学教育资源的情况下核心变量的解释程度,结果显示在0.001的水平上仍然显著,且系数仍然为正。

以上稳健性检验表明,在四个检验中通过了三个,总体回归结果较为稳健。

8.结论

        地区中学教育资源对生育率产生负面影响的可能原因有:在教育资源发达的地区,尽管教育资源丰富,但优质教育培育出来的学生们趋于同质化的优秀水平,只能被迫不断向上努力,打败同样优秀的同龄人群体,获得最顶尖的教育资源,由此也加剧了对优质教育资源的激烈竞争,甚至可能达到恶性竞争的程度。基于这样的逻辑,教育资源越发达的地区可能反而抑制了生育率的提升,因为培养一个孩子的教育成本提升,同时激烈的教育竞争会耗费父母大量的时间和精力,提高了机会成本。

六、拓展-SPSS操作部分(多元线性回归)

1.导入数据

2.检查数据并调整格式

3.选择变量进行多元回归

选择变量后可以在菜单栏根据自己的需求选择结果中需要报告的部分。

点击确认,自动运行生成结果。

4.结果

系数、t检验统计量、显著性与前面Stata生成的结果也是一致的。

F检验显著,表明模型整体是具有解释性的。

残差正态分布图,与前面Stata的残差正态性检验结果基本一致。

  • 38
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值