引言
前几章涉及的自变量都为定量变量,本章将讨论定性变自变量。主要内容包括:
单个虚拟变量区分两个组
g-1个虚拟变量来区分g个组
用虚拟变量来解释序数变量
虚拟变量与定量变量的交互作用,并应用邹至庄检验来检验各组是否存在显著差异
线性概率模型(本文不涉及)
本章Rmd文本以及所有整理好当数据见这里
C7.1 虚拟变量回归与联合变量显著检验
#(1)
data_gpa1<-read.csv('/home/wangjianlong/files/programs/college_life/econometrics/excel_data_1/gpa1.csv',header = T)
lm_gpa1<-lm(colGPA~PC+hsGPA+ACT+mothcoll+fathcoll,data = data_gpa1)
summary(lm_gpa1)
#colGPA=1.255554+0.151854 PC+ 0.450220hsGPA+0.007724ACT+-0.003758 mothcoll+0.041800fathcoll
#Adjusted R-squared: 0.1934 n=141
#当其他条件不变时,拥有PC的比不拥有PC的colGPA平均高出0.151854.
#给定0.05的显著性水平 PC的P值为0.011小于0.05,故PC是统计显著的。
#(2)
lm_gpa1_1<-lm(colGPA~PC+hsGPA+ACT,data = data_gpa1)#求约束方程的R squared
summary(lm_gpa1_1)# R squared 为0.2194
##F-value =
((0.2222-0.2194)/2)/((1-0.2222)/135)#0.2429931
##p value 为
1-pf(0.2429931,2,135)#0.7846192
##由于P值较大,可以说两个变量联合不显著
#(3)
lm_gpa1_2<-lm(colGPA~PC+hsGPA+ACT+mothcoll+fathcoll+I(hsGPA^2),data = data_gpa1)
summary(lm_gpa1_2)
##没必要进行扩展 ,一方面加入后一次项和二次项变得不显著
##另一方面,hsGPA呈现出U形变化,在hsGPA=2.68出现转折,这不好解释
C7.2二次项变量以及交互虚拟变量设定
#(1)
data_wage2<-read.csv('/home/wangjianlong/files/programs/college_life/econometrics/excel_data_1/wage2.csv',header = T)
lm_wage2<-lm(log(wage)~educ+exper+tenure+married+black+south+urban,data =data_wage2)
summary(lm_wage2)
##log(wage)=5.395497+0.065431educ+0.014043 exper+0.011747 tenure+0.199417married-0.188350black-0.090904south+0.183912urban
##Adjusted R-squared: 0.2469 n=935
##在其他条件保持不变的情况下,平均来说,黑人比非黑人工资少18.8%.
#(2)
lm_wage2_1<-lm(log(wag