1、异方差
2、自相关
3、异常值
异方差:回归模型中的异方差(Heteroscedasticity)是指随机误差项的方差不是一个常数,儿是随着自变量的取值变化而变化
由于不满足回归分析中的同方差(Homoscedasticity)的前提假设,异方差将可能带来以下问题:
- 对使用最小二乘法求解参数时,参数估计是虽然无偏,但不是最小方差线性无偏估计
- 参数的显著性检验失效
- 回归方程的应用效果不理想
造成异方差的常见原因:
- 模型缺少了某些解释变量,缺省变量本身的方差被包含在了随机误差的方差中。
- 模型本身选取有误,例如:原本是非线性,结果使用了线性模型
- 其它原因:样本量过少、测量误差、异常数据、时序分析或使用面板数据等。
异方差的检验
残差图分析:
- 坐标选择:纵坐标为残差,横坐标视情况而定,x,y或者观测时间或序号
- 判断:散点随机分布、无规律表明满足基本假设,有明显规律或者呈现一定趋势,则有异方差性
等级相关系数法:又称Spearman检验
-
第一步:做y关于x的普通最小二乘回归,求出 ε i \varepsilon ^{i} εi的估计值 e i e^{i} ei
-
第二步,取 e i e^{i} ei的绝对值| e i e^{i} ei|,把 x i x_{i} xi和 ∣ e i ∣ |e_{i}| ∣ei∣按升序或降序排列,分成等级, x i x_{i} xi和 ∣ e i ∣ |e_{i}| ∣ei∣分别由一个序号,将其差几位 d i d_{i} di,计算出等级相关系数 r s r_{s} rs: r s = 1 − 6 n ∗ ( n 2 − 1 ) ∑ i = 1 n d i 2 r_{s}=1-\frac{6}{n*(n^{2}-1)}\sum_{i=1}^{n}d_{i}^{2} rs=1−n∗(n2−1)6i=1∑ndi2 n为样本个数
-
第三步,做等级相关系数 r s r_{s} rs的显著性检验, n > 8 n>8 n>8时,进行t检验。构造t统计量: t = n − 2 1 − r s 2 r s t=\frac{\sqrt{n-2} }{\sqrt{1-r_{s}^{2}} }r_{s} t=1−rs2n−2rs
如果 ∣ t ∣ < t α 2 ( n − 2 ) |t|<t_{\frac{\alpha }{2}}(n-2) ∣t∣<t2α(n−2),可以认为异方差不存在;反之,可以认为 x i x_{i} xi和 ∣ e i ∣ |e_{i}| ∣ei∣之间存在系统关系,存在异方差问题。
消除异方差:
常见的有加权最小二乘法、BOXS-COX变换法、方差稳定性变换法等。
以一元线性回归最小二乘法估计参数为例,其离差平方和公式:
Q
(
β
0
,
β
1
)
=
∑
i
=
1
n
(
y
i
−
β
0
−
β
1
x
i
)
2
Q(\beta _{0},\beta _{1})=\sum_{i=1}^{n}(y_{i}-\beta _{0}-\beta _{1}x_{i})^{2}
Q(β0,β1)=i=1∑n(yi−β0−β1xi)2
存在问题:每个样本的权重相同均为1,同方差时,每个样本在离差平方和中的地位时一样的,但是当异方差时,方差大的观测值,对平方和的影响也大,最小二乘法求得的回归线会被拉向方差大的样本点,导致方差小的样本拟合效果差。
此时考虑调整权重,以平衡各个样本的作用,称为加权最小二乘法,其离差平方和公式变为:
Q
(
β
0
,
β
1
)
=
∑
i
=
1
n
ω
i
(
y
i
−
β
0
−
β
1
x
i
)
2
Q(\beta _{0},\beta _{1})=\sum_{i=1}^{n}\omega_{i}(y_{i}-\beta _{0}-\beta _{1}x_{i})^{2}
Q(β0,β1)=i=1∑nωi(yi−β0−β1xi)2
ω
i
\omega_{i}
ωi为第i个样本权重
β
^
0
ω
=
y
‾
ω
−
β
^
1
x
x
‾
ω
\widehat{\beta }_{0\omega }=\overline{y}_{\omega}-\widehat{\beta}_{1x}\overline{x}_{\omega}
β
0ω=yω−β
1xxω
β
^
1
ω
=
∑
i
=
1
n
ω
i
(
x
i
−
x
‾
ω
)
(
y
i
−
y
‾
ω
)
∑
i
=
1
n
ω
i
(
x
i
−
x
‾
ω
)
2
\widehat{\beta }_{1\omega }=\frac{\sum_{i=1}^{n}\omega _{i}(x_{i}-\overline{x}_{\omega })(y_{i}-\overline{y}_{\omega })}{\sum_{i=1}^{n}\omega _{i}(x_{i}-\overline{x}_{\omega })^{2}}
β
1ω=∑i=1nωi(xi−xω)2∑i=1nωi(xi−xω)(yi−yω)
其中:
x
‾
ω
=
∑
i
=
1
n
ω
i
x
i
∑
i
=
1
n
ω
i
\overline{x}_{\omega}=\frac{\sum_{i=1}^{n}\omega _{i}x_{i}}{\sum_{i=1}^{n}\omega_{i}}
xω=∑i=1nωi∑i=1nωixi,
y
‾
ω
=
∑
i
=
1
n
ω
i
y
i
∑
i
=
1
n
ω
i
\overline{y}_{\omega}=\frac{\sum_{i=1}^{n}\omega _{i}y_{i}}{\sum_{i=1}^{n}\omega_{i}}
yω=∑i=1nωi∑i=1nωiyi,
ω
i
=
1
σ
2
\omega_{i}=\frac{1}{\sigma^{2}}
ωi=σ21
自相关
回归模型中的自相关(Heteroscedasticity) 是指随机误差项的协方差
c
o
v
(
ε
i
,
ε
j
)
≠
0
cov(\varepsilon_{i},\varepsilon{j})\neq0
cov(εi,εj)=0,即变量前后数值之间存在相关关系。
由于不满足回归分析中的不相关的前提假设,自相关将可能带来以下问题:
- 对使用最小二乘法求解参数时,参数估计值虽然无偏,但是最小二乘法估计量的方差不是最小的,估计量不是最优线性无偏估计量(在所有线性、无偏的估计量中,有最小方差的估值)
- 最小二乘法估计量的方法是有偏的。用来计算方差和最小二乘法估计量标准误差的公式会严重低估真实的方差和标准误差,从而导致t统计量的值变大,使某个系数显著不为0,实际上相反
- 显著性检验失效,包括t检验和F检验
- 存在序列相关时,最小二乘估计量对抽样波动非常敏感
- 回归方程的应用效果不理想,会带来较大的方差甚至错误
造成自相关的常见原因:
- 模型遗漏关键变量,被遗漏变量在实践顺序上存在相关性
- 错误的回归函数形式
- 蛛网现象(Cobweb Phenomenon):源自微观经济学,原意表示某种商品的供给量因受前一期价格影响而表现出来的某种规律性,呈蛛网状收敛或发散于供需的均衡点。一般是指一个变量对另一个变量的反应时不同的,迟滞一定时间。
- 对数据加工整理而导致误差项之间出现自相关,比如处理序列数据时采用了不恰当的差分变换
自相关的检验:
图示检验法(优:实践简单,看上去直观,缺:但不明显时比较难判断):
- 绘制 e t e_{t} et, e t − 1 e_{t-1} et−1的散点图,如果大部分点落在第二四象限,则表明随机扰动项 ε t \varepsilon_{t} εt存在负相关,如果大部分点落在第一三象限,表明存在正相关
- 按时间顺序绘制回退残差项 e t e_{t} et的图形,如果随着t的变化,有规律的呈现锯齿形或循环形状的变化,表明存在序列相关
自相关系数法:
- 根据
ε
\varepsilon
ε(真正计算式取其估计值
e
e
e)计算自相关系数
ρ
\rho
ρ,其取值范围为[-1,1],接近1时表示误差序列存在正相关,接近-1表示存在负相关
ρ
=
∑
t
=
2
n
ε
t
ε
t
−
1
∑
t
=
2
n
ε
t
2
∑
t
=
2
n
ε
t
−
1
2
\rho =\frac{\sum_{t=2}^{n}\varepsilon _{t}\varepsilon _{t-1}}{\sqrt{\sum_{t=2}^{n}\varepsilon _{t}^{2}\sum_{t=2}^{n}\varepsilon _{t-1}^{2}}}
ρ=∑t=2nεt2∑t=2nεt−12∑t=2nεtεt−1
ρ ^ = ∑ t = 2 n e t e t − 1 ∑ t = 2 n e t 2 ∑ t = 2 n e t − 1 2 \widehat{\rho }=\frac{\sum_{t=2}^{n}e _{t}e _{t-1}}{\sqrt{\sum_{t=2}^{n}e _{t}^{2}\sum_{t=2}^{n}e _{t-1}^{2}}} ρ =∑t=2net2∑t=2net−12∑t=2netet−1
DW(Durbin-Watson)检验法:适用于小样本,只能检验随机扰动项具有一阶自回归形式的序列相关问题:
- 随机扰动项的一阶自回归形式为: ε t = ρ ε t − 1 + u t \varepsilon_t=\rho\varepsilon_{t-1}+u_t εt=ρεt−1+ut
- 构造原假设为: H 0 : ρ = 0 H_0:\rho=0 H0:ρ=0
- 构造DW统计量: D W = ∑ t = 2 n ( e t − e t − 1 ) 2 ∑ t = 1 n e t 2 ≈ 2 ( 1 − ρ ^ ) DW=\frac{\sum_{t=2}^{n}(e_{t}-e_{t-1})^2}{\sum_{t=1}^{n}e_{t}^{2}}\approx 2(1-\widehat{\rho}) DW=∑t=1net2∑t=2n(et−et−1)2≈2(1−ρ ) 其中 e t = y t − y ^ t e_t=y_t-\widehat{y}_t et=yt−y t, t=2,3,…,n 查DW表,得到 D L , D U D_L,D_U DL,DU
DW检验法缺点:
- 存在两个不能确定的区域,一旦取值于该区域,无法判断,需要借助其它方法
- 只能用于随机扰动项的一阶序列相关的情形,对于高阶不适用,使用范围有限
- 上下界要求n>15,否则样本数过小,无法利用残差对自相关性的存在做出合理诊断
消除自相关
常见消除自相关办法:迭代法、差分法、BOX-COX变换法等
以一元线性回归最小二乘法估计参数为例,设其误差项存在一阶自相关:
回归方程:
y
t
=
β
0
+
β
1
x
t
+
ε
t
y_t=\beta_0+\beta_1x_t+\varepsilon_t
yt=β0+β1xt+εt,误差项:
ε
t
=
ρ
ε
t
−
1
+
u
t
\varepsilon_t=\rho\varepsilon_{t-1}+u_t
εt=ρεt−1+ut,满足假设:
E
(
u
t
)
=
0
E(u_t)=0
E(ut)=0,且t=s时
c
o
v
(
u
t
,
u
s
)
=
σ
2
cov(u_t,u_s)=\sigma^2
cov(ut,us)=σ2
{
y
t
=
β
0
+
β
1
x
t
+
ε
t
.
.
.
.
.
.
(
1
)
y
t
−
1
=
β
0
+
β
1
x
t
−
1
+
ε
t
−
1
.
.
.
.
.
.
(
2
)
\left\{\begin{matrix} y_{t}=\beta _{0} +\beta _{1}x_t+\varepsilon _t ......(1)\\ y_{t-1}=\beta _{0} +\beta _{1}x_{t-1}+\varepsilon _{t-1} ......(2) \end{matrix}\right.
{yt=β0+β1xt+εt......(1)yt−1=β0+β1xt−1+εt−1......(2)
式
(
2
)
∗
ρ
(2)*\rho
(2)∗ρ -式(1)得到:
(
y
t
−
ρ
y
t
−
1
)
=
(
β
0
−
ρ
β
0
)
+
β
1
(
x
t
−
ρ
x
t
−
1
)
+
(
ε
t
−
ρ
ε
t
−
1
)
(y_t-\rho y_{t-1})=(\beta_0-\rho\beta_0)+\beta_1(x_t-\rho x_{t-1})+(\varepsilon_t-\rho\varepsilon_{t-1})
(yt−ρyt−1)=(β0−ρβ0)+β1(xt−ρxt−1)+(εt−ρεt−1)
令
y
t
′
=
y
t
−
ρ
y
t
−
1
,
x
t
′
=
x
t
−
ρ
x
t
−
1
,
β
0
′
=
β
0
(
1
−
ρ
)
,
β
1
′
=
β
1
y_{t}'=y_t-\rho y_{t-1},x_t'=x_t-\rho x_{t-1},\beta_0'=\beta_0(1-\rho),\beta_1'=\beta_1
yt′=yt−ρyt−1,xt′=xt−ρxt−1,β0′=β0(1−ρ),β1′=β1,得到满足基本假设的模型:
y
t
′
=
β
0
′
+
β
1
′
x
t
′
+
u
t
y_t'=\beta_0'+\beta_1'x_t'+u_t
yt′=β0′+β1′xt′+ut
估算
β
\beta
β值:由
D
W
≈
2
(
1
−
ρ
^
)
DW\approx2(1-\widehat\rho)
DW≈2(1−ρ
)得到
ρ
^
≈
1
−
D
W
2
\widehat\rho\approx1-\frac{DW}{2}
ρ
≈1−2DW,将变量值变换后,拟合新的回归模型。更复杂的形式,处理一次后仍然有可能自相关,继续按照上述处理,直到满足要求
消除自相关:差分法
差分法就是用增量数据代替原样本数据,将原来的回归模型变为差分形式的模型,一阶差分法通常适用于原模型存在较高程度的一阶自相关的情况。
一亿元线性回归为例,参考迭代法方程:
(
y
t
−
ρ
y
t
−
1
)
=
(
β
0
−
ρ
β
0
)
+
β
1
(
x
t
−
ρ
x
t
−
1
)
+
(
ε
t
−
ρ
ε
t
−
1
)
(y_t-\rho y_{t-1})=(\beta_0-\rho\beta_0)+\beta_1(x_t-\rho x_{t-1})+(\varepsilon_t-\rho\varepsilon_{t-1})
(yt−ρyt−1)=(β0−ρβ0)+β1(xt−ρxt−1)+(εt−ρεt−1)
当
ρ
=
1
\rho=1
ρ=1时,上述方程变为:
(
y
t
−
y
t
−
1
)
=
(
β
0
−
β
0
)
+
β
1
(
x
t
−
x
t
−
1
)
+
(
ε
t
−
ε
t
−
1
)
(y_t- y_{t-1})=(\beta_0-\beta_0)+\beta_1(x_t- x_{t-1})+(\varepsilon_t-\varepsilon_{t-1})
(yt−yt−1)=(β0−β0)+β1(xt−xt−1)+(εt−εt−1)
记
Δ
y
t
=
y
t
−
y
t
−
1
,
Δ
x
t
=
x
t
−
x
t
−
1
\Delta y_t=y_t- y_{t-1},\Delta x_t=x_t- x_{t-1}
Δyt=yt−yt−1,Δxt=xt−xt−1,代入上述方程和得到差分方程
Δ
y
t
=
β
1
Δ
x
t
+
u
t
\Delta y_t = \beta_1\Delta x_t+u_t
Δyt=β1Δxt+ut
差分方程已经去除了一阶自相关的情况,以差分数据拟合线性回归方程,其中
β
^
0
=
0
,
β
^
1
=
∑
t
=
2
2
Δ
y
t
Δ
x
t
∑
t
=
2
2
Δ
x
t
2
\widehat\beta_0=0,\widehat\beta_1=\frac{\sum_{t=2}^2\Delta y_t\Delta x_t}{\sum_{t=2}^2\Delta x_t^2}
β
0=0,β
1=∑t=22Δxt2∑t=22ΔytΔxt
一阶差分法适合处理
ρ
=
1
\rho=1
ρ=1的情况,选用差分法而不选用迭代法是因为:1、迭代法需要根据样本估计
ρ
\rho
ρ,
ρ
\rho
ρ的估计误差会影响效率。2、差分法简单
BOX-COX变换
BOX-COX是一种应用非常广泛的变换方法,不但能处理异方差、自相关,还能处理误差非正太、回归函数非线性等问题。
异常值
回归分析中,一些异常或者极端的样本值可能会引起较大的残差,影响回归拟合的效果。
异常值成因:数据录入错误,数据测量错误,数据随机误差,缺少重要自变量,缺少观测数据,存在异方差,模型选择错误。
对应消除方法:重新核实数据,重新测量数据,删除或者重新观测数据,增加相应自变量,增加观测数据,消除异方差,更改模型。