虚拟变量–潘登同学的计量经济学笔记
文章目录
对定性信息的描述
定性信息通常以二值形式出现,我们可以通过定义一个二值变量(0-1变量)来刻画,在计量经济学中二值变量通常被称为虚拟变量
只有一个虚拟变量的情形
考虑一个决定小时工资的简单模型
w a g e = β 0 + β 1 f e m a l e + β 2 e d u c + u wage = \beta_0 + \beta_1 female + \beta_2 educ + u wage=β0+β1female+β2educ+u
其中 f e m a l e female female就是一个虚拟变量,女性则为1,男性则为0
虚拟变量系数的解释
对于上式来说,参数 β 1 \beta_1 β1的含义是:在教育程度与误差项相同的情况下,男性与女性在小时工资上的差异;
如果 β 1 < 0 \beta_1<0 β1<0,那么意味着在其他条件相同的情况下,女性工资要低于男性(就有可能存在性别歧视)
虚拟变量的作用效果
可以对男性和女性的模型分开来写
- 女性
w a g e = β 0 + β 1 + β 2 e d u c + u wage = \beta_0 + \beta_1 + \beta_2 educ + u wage=β0+β1+β2educ+u - 男性
w a g e = β 0 + β 2 e d u c + u wage = \beta_0 + \beta_2 educ + u wage=β0+β2educ+u
可以发现,虚拟变量的系数变成了截距项,如果将两个模型分别画在图上,就会发现这是两条互相平行的线,只是截距有所不同
检验工资性别歧视
方法很简单,还是跟之前那样
- 先用OLS来估计模型
- 使用t统计量来检验系数的显著性水平
因变量为对数形式的情况
观察如下回归结果
log ( w a g e ) ^ = 0.417 − 0.297 f e m a l e + 0.080 e d u c + 0.029 e x p e r − 0.00058 e x p e r 2 + 0.032 t e n u r e − 0.00059 t e n u r e 2 \hat{\log(wage)} = 0.417 - 0.297 female+ 0.080 educ + 0.029 exper -0.00058 exper^2 + 0.032 tenure - 0.00059 tenure^2 log(wage)^=0.417−0.297female+0.080educ+0.029exper−0.00058exper2+0.032tenure−0.00059tenure2
female的系数表示: 在educ、exper、tenure的相同水平上,女性比男性约少挣29.7%
如果我们想得到更精确的估计,计算女性与男性工资差异的比例
d
i
f
f
e
r
e
n
t
=
w
a
g
e
F
^
−
w
a
g
e
M
^
w
a
g
e
M
^
=
e
x
p
{
log
w
a
g
e
F
^
w
a
g
e
M
^
}
−
1
=
e
x
p
{
−
0.297
}
−
1
≈
−
0.257
different = \frac{\hat{wage_F}-\hat{wage_M}}{\hat{wage_M}} = exp\{\log \frac{\hat{wage_F}}{\hat{wage_M}}\} - 1 = exp\{-0.297\}-1 \approx -0.257
different=wageM^wageF^−wageM^=exp{logwageM^wageF^}−1=exp{−0.297}−1≈−0.257
更准确的估计意味着,一个女性的工资比一个与她相当的男性的工资低大约25.7%
多个虚拟变量的情形
虚拟变量有4个: 已婚男性、已婚女性、单身男性、单身女性,选择以单身男性为基组,回归结果如下
log ( w a g e ) ^ = 0.321 + 0.213 m a r r m a l e − 0.198 m a r r f e m − 0.110 s i n g f e m + 0.079 e d u c + 0.027 e x p e r − 0.00054 e x p e r 2 + 0.029 t e n u r e − 0.00053 t e n u r e 2 \hat{\log(wage)} = 0.321 + 0.213 marrmale - 0.198 marrfem - 0.110 singfem + 0.079 educ + 0.027 exper - 0.00054 exper^2 + 0.029 tenure - 0.00053 tenure^2 log(wage)^=0.321+0.213marrmale−0.198marrfem−0.110singfem+0.079educ+0.027exper−0.00054exper2+0.029tenure−0.00053tenure2
虚拟变量系数的解释
我们选择了单身男性作为基组,三个虚拟变量系数的估计值表示: 与单身男性相比,小时工资的差异
举例说明
-
在保持受教育程度、工作经历和现职任期不变的情况下,已婚男性比单身男性多挣21.3%
-
除了比较其他各组与基组的差异,也可以比较任意两组的差异,在保持受教育程度、工作经历和现职任期不变的情况下,单身女性比已婚女性多挣8.8%(0.198-0.110=0.088)
注意
我们只将4个变量中的3个加入模型,如果我们再加入一个单身男性的虚拟变量,将会导致完全共线性,即
m
a
r
r
m
a
l
e
+
m
a
r
r
f
e
m
+
s
i
n
g
f
e
m
+
s
i
n
g
m
a
l
e
=
1
marrmale + marrfem + singfem + singmale = 1
marrmale+marrfem+singfem+singmale=1
使用虚拟变量包含序数信息
我们想估计城市信用等级对地方政府债券利率MBR的影响,假设等级的范围是 { 0 , 1 , 2 , 3 , 4 } \{0,1,2,3,4\} {0,1,2,3,4},0为最低信用等级,4为最高信用等级。我们不能将这五个值放到一个值中,我们能知道4级比3级好,但4级比3级好的程度是否与3级比2级好的程度一样就不一定,所以可以包括4个虚拟变量
M B R = β 0 + β 1 C R 1 + β 2 C R 2 + β 3 C R 3 + β 4 C R 4 + β 5 C R 5 + 其 他 因 素 MBR = \beta_0 + \beta_1 CR_1 + \beta_2 CR_2 + \beta_3 CR_3 + \beta_4 CR_4 + \beta_5 CR_5 + 其他因素 MBR=β0+β1CR1+β2CR2+β3CR3+β4CR4+β5CR5+其他因素
虚拟变量的交互作用
如果采用交互项的形式,也能刻画前面那个婚姻、性别的模型,模型的回归结果如下
log ( w a g e ) ^ = 0.321 − 0.110 f e m a l e + 0.213 m a r r i e d − 0.301 f e m a l e ∗ m a r r i e d + 0.079 e d u c + 0.027 e x p e r − 0.00054 e x p e r 2 + 0.029 t e n u r e − 0.00053 t e n u r e 2 \hat{\log(wage)} = 0.321 - 0.110 female + 0.213 married - 0.301 female*married + 0.079 educ + 0.027 exper - 0.00054 exper^2 + 0.029 tenure - 0.00053 tenure^2 log(wage)^=0.321−0.110female+0.213married−0.301female∗married+0.079educ+0.027exper−0.00054exper2+0.029tenure−0.00053tenure2
上式也包含了性别、婚姻各种组合之间工资差异的一种不同方法。实际上,他并没有什么优势;前面的那个还能很好的反映任何一组与单身男性组(基组)之间的差异
虚拟变量与其他变量交互
观察一下模型
log ( w a g e ) = ( β 0 + β 1 f e m a l e ) + ( β 2 + β 3 f e m a l e ) e d u c + u \log(wage) = (\beta_0+\beta_1 female) + (\beta_2 + \beta_3 female)educ + u log(wage)=(β0+β1female)+(β2+β3female)educ+u
一旦虚拟变量与其他变量交互了,之前说的相互平行、截距不同的结论就不适用了,因为educ前的系数是 ( β 2 + β 3 f e m a l e ) (\beta_2 + \beta_3 female) (β2+β3female)当 f e m a l e female female取0或1时,对系数会产生不同的结果
检验不同组之间回归函数上的差别
原假设 H 0 : H_0: H0:两个总体或两个组具有同一个回归函数
备择假设 H 1 : H_1: H1:各组之间有一个或多个斜率是不同的
举例说明
c
u
m
g
p
a
=
β
0
+
β
1
s
a
t
+
β
2
h
s
p
e
r
c
+
β
3
t
o
t
h
r
s
+
u
cumgpa = \beta_0 + \beta_1sat + \beta_2hsperc + \beta_3tothrs+u
cumgpa=β0+β1sat+β2hsperc+β3tothrs+u
如果我们想检验男女之间是否存在差异: 就必须允许该模型的截距和斜率对两组而言都不相同
c
u
m
g
p
a
=
β
0
+
δ
0
f
e
m
a
l
e
+
β
1
s
a
t
+
δ
1
f
e
m
a
l
e
∗
s
a
t
+
β
2
h
s
p
e
r
c
+
δ
2
f
e
m
a
l
e
∗
h
s
p
e
r
c
+
β
3
t
o
t
h
r
s
+
δ
3
f
e
m
a
l
e
∗
t
o
t
h
r
s
+
u
cumgpa = \beta_0 + \delta_0 female + \beta_1 sat + \delta_1 female * sat + \beta_2 hsperc + \delta_2 female * hsperc + \beta_3 tothrs + \delta_3 female * tothrs +u
cumgpa=β0+δ0female+β1sat+δ1female∗sat+β2hsperc+δ2female∗hsperc+β3tothrs+δ3female∗tothrs+u
原假设 H 0 : δ 0 = 0 , δ 1 = 0 , δ 2 = 0 , δ 3 = 0 H_0:\delta_0=0,\delta_1=0,\delta_2=0,\delta_3=0 H0:δ0=0,δ1=0,δ2=0,δ3=0
注意,原假设是一个联合假设,需要去掉所有female及其交互项,得到约束模型,计算F统计量,最终得出结果(拒绝原假设)
邹至庄检验
对上面一个问题的检验可以使用邹至庄检验,邹至庄检验是用来可以测试两组不同数据的线性回归系数是否相等,对于上面问题来说就是男女数据,假设组1不包含虚拟变量及交互项,组2包括,记为
g
=
1
,
g
=
2
g=1,g=2
g=1,g=2,将模型写成
y
=
β
g
,
0
+
β
g
,
1
x
1
+
β
g
,
2
x
2
+
⋯
+
β
g
,
k
x
k
+
u
y = \beta_{g,0} + \beta_{g,1} x_1 + \beta_{g,2} x_2 + \cdots + \beta_{g,k} x_k + u
y=βg,0+βg,1x1+βg,2x2+⋯+βg,kxk+u
- 两组间每个 β \beta β都相同,产生k+1个约束
- 组2还包括虚拟变量及截距项,自由度为n-2(k+1)(其中一个k+1是上句话,其中一个k+1是(各个虚拟变量及交互项前)参数个数)
计算步骤
- 计算 S S R 1 SSR_1 SSR1:表示第一组的残差平方和( n 1 n_1 n1个观测)
- 计算 S S R 2 SSR_2 SSR2:表示第二组的残差平方和( n 2 n_2 n2个观测)
- 计算无约束模型的残差平方和 S S R u r = S S R 1 + S S R 2 SSR_{ur} = SSR_1 + SSR_2 SSRur=SSR1+SSR2
- 将两组数据混在一起,计算约束模型的残差平方和 S S R p SSR_p SSRp
- 计算F统计量:
F = S S R p − S S R u r S S R u r ⋅ n − 2 ( k + 1 ) k + 1 F = \frac{SSR_p-SSR_{ur}}{SSR_{ur}} \cdot \frac{n-2(k+1)}{k+1} F=SSRurSSRp−SSRur⋅k+1n−2(k+1)
其中,n为总观测次数,这个特定的F统计量,被称为邹至庄统计量(注意
因为邹至庄检验本质是F检验,所以只有在同方差下才是有效的,特别是在原假设下,两组的误差方差必须相等)
稍作改进
邹至庄检验的原假设是各组间不存在任何差异,如果允许组间的截距不同,然后再来检验斜率的话,只需要将k+1改为k即可
F
=
S
S
R
p
−
S
S
R
u
r
S
S
R
u
r
⋅
n
−
2
(
k
+
1
)
k
F = \frac{SSR_p-SSR_{ur}}{SSR_{ur}} \cdot \frac{n-2(k+1)}{k}
F=SSRurSSRp−SSRur⋅kn−2(k+1)
二值因变量
y = β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β k x k y = \beta_0 + \beta_1x_1 + \beta_2x_2 + \cdots + \beta_k x_k y=β0+β1x1+β2x2+⋯+βkxk
与多元回归模型类似,只不过y是一个二值变量,要么是0,要么是1;
如果我们假定MLR.4成立,即
E
(
u
∣
x
1
,
…
,
x
k
)
=
0
E(u|x_1,\ldots,x_k) = 0
E(u∣x1,…,xk)=0,那么
E
(
y
∣
x
)
=
β
0
+
β
1
x
1
+
β
2
x
2
+
⋯
+
β
k
x
k
E(y|x) = \beta_0 + \beta_1x_1 + \beta_2x_2 + \cdots + \beta_k x_k
E(y∣x)=β0+β1x1+β2x2+⋯+βkxk
值得注意的是,当y是一个取值为0和1的二值变量时, E ( y ∣ x ) = P ( y = 1 ∣ x ) E(y|x)=P(y=1|x) E(y∣x)=P(y=1∣x) 表示y=1的概率,也被称为响应概率,因此二值因变量的多元线性回归模型也被称为线性概率模型(LPM)
系数解释
用概率来解释系数: 当其他条件不变是,x变化一个单位使得响应概率变化
β
\beta
β
△
P
(
y
=
1
∣
x
)
=
β
j
△
x
j
\triangle P(y=1|x) = \beta_j \triangle x_j
△P(y=1∣x)=βj△xj
几点注意
由于二值的特性,所以LPM违背了一个高斯-马尔科夫假定MLR.5(
v
a
r
(
u
∣
x
)
=
σ
2
var(u|x)=\sigma^2
var(u∣x)=σ2),当y是一个二值变量时,其以x为条件的方差为
V
a
r
(
y
∣
x
)
=
p
(
x
)
[
1
−
p
(
x
)
]
p
(
x
)
=
β
0
+
β
1
x
1
+
β
2
x
2
+
⋯
+
β
k
x
k
Var(y|x)=p(x)[1-p(x)]\\ p(x) = \beta_0 + \beta_1x_1 + \beta_2x_2 + \cdots + \beta_k x_k \\
Var(y∣x)=p(x)[1−p(x)]p(x)=β0+β1x1+β2x2+⋯+βkxk
这意味着,除非概率与任何一个自变量都不相关,否则LPM就会存在异方差性。但我们知道MLR.5的违背不影响无偏性…