多元线性回归—自相关

泥壶映雪

已于 2022-06-23 19:09:31 修改

阅读量1.8w

点赞数 11

分类专栏：计量经济学文章标签：统计学数据分析机器学习

于 2021-06-16 08:40:56 首次发布

本文链接：https://blog.csdn.net/weixin_46649908/article/details/117945179

版权

计量经济学专栏收录该内容

37 篇文章

订阅专栏

文章目录

@[toc]
1 什么是自相关
1.1 自相关概念
1.2 自相关产生的原因
1.3 自相关表现形式

2 自相关后果
2.1 对估计参数的影响
2.2 对模型检验的影响

3自相关检验
3.1相关图示法
3.2 DW检验
3.3 DW检验局限

4 自相关补救
4.1 广义差分法
4.2 Cochrane—Orcutt迭代法
4.3 差分法
4.4 德宾两步法

1 什么是自相关

1.1 自相关概念

自相关(auto correlation)又称序列相关（serial correlation），即总体回归模型的随机扰动项 $\mu_i$ 之间存在相关关系。在经典线性回归模型中，无自相关假定为
$\operatorname{Cov}\left(u_{i}, u_{j}\right)=E\left(u_{i}, u_{j}\right)=0 \quad(i \neq j)$
如果该假定不能满足，就称 $\mu_i$ 与 $\mu_j$ 存在自相关，即不同观测点上的误差项彼此相关。随机误差项 $\mu_t$ 与滞后一期的 $\mu_{t-1}$ 的自相关系数为
$\rho=\frac{\sum_{t=2}^{n} u_{t} u_{t-1}}{\sqrt{\sum_{t=2}^{n} u_{t}^{2}} \sqrt{\sum_{t=2}^{n} u_{t-1}^{2}}}$
其中 $-1<\rho <1$ , $\rho$ 称为一阶自相关系数。

当 $\rho >0$ , $\mu_t$ 与 $\mu_{t-1}$ 为正相关；
当 $\rho <0$ , $\mu_t$ 与 $\mu_{t-1}$ 为负相关；
当 $\rho = 0$ , $\mu_t$ 与 $\mu_{t-1}$ 不相关。

1.2 自相关产生的原因

经济系统的惯性,例如通货膨胀不仅受到货币供给的影响，还受到过去通货膨胀的影响
经济活动的滞后效应。例如经济学中蛛网模型
数据处理造成的相关。
模型设定偏误。

1.3 自相关表现形式

样本观测期为 $n$ 的时间序列数据，总体回归模型的随机误差项为 $\mu_1,\mu_2,\dots \mu_n$ ,自相关形式为
$u_{t}=\rho u_{t-1}+v_{t} \tag{1}$
其中 $\rho$ 为自相关系数， $v_t$ 满足古典假设，即 $E(v_t) = 0$ , $Var(v_t) = \sigma^2$ , $Cov(v_t,v_s) = 0(t\ne s)$ 。上述模型包含 $\mu_t$ 与 $\mu_{t-1}$ 形式，故称(1)为一阶自回归模型，记作 $A R (1)$ 。若 $v_t$ 中包含 $u_t$ 的成分，则需要从 $v_t$ 中提取 $u_{t-2}$ ，得到
$u_{t}=\rho_{1} u_{t-1}+\rho_{2} u_{t-2}+v_{t}^{\prime}\tag{2}$
式中 $\rho_1$ 为一阶自相关系数， $\rho_2$ 为二阶自相关系数， $v_t^{'}$ 满足古典假设误差项。并将 $(2)$ 称为误差项的二阶自回归，记作 $A R (2)$ 。一般地，若 $\mu_1,\mu_2,\dots \mu_n$ 满足
$u_{t}=\rho_{1} u_{t-1}+\rho_{2} u_{t-2}+\cdots+\rho_{m} u_{t-m}+v_{t}$
其中 $v_t$ 为古典假设误差项， $\rho_i(i = 1,2,\dots m)$ 为 $i$ 阶自回归系数。

2 自相关后果

自相关与异方差均不服从球形扰动项假设，故自相关的的后果与异方差相同。以一元回归模型为例
$Y_{t}=\beta_{1}+\beta_{2} X_{t}+u_{t}$
其中 $\mu_t$ 存在一阶自相关，即 $u_{t}=\rho u_{t-1}+v_{t}$ ，其中 $E(v_t) = 0$ , $Var(v_t) = \sigma^2$ , $Cov(v_t,v_s) = 0(t\ne s)$ 。在大样本条件下， $\rho$ 的估计量为
$\hat{\rho}=\frac{\sum u_{t} u_{t-1}}{\sum u_{t-1}^{2}}$
在大样本条件下， $\mu_t$ 与 $\mu_{t-1}$ 的相关系数为
$\rho=\frac{\sum u_{t} u_{t-1}}{\sqrt{\sum u_{t}^{2}} \sqrt{\sum u_{t-1}^{2}}} \approx \frac{\sum u_{t} u_{t-1}}{\sum u_{t-1}^{2}}=\hat{\rho}$
由(1)式迭代得
$u_{t}=v_{t}+\rho v_{t-1}+\rho^{2} v_{t-2}+\cdots=\sum_{r=0}^{\infty} \rho^{r} v_{t-r}\tag{3}$
式表明，误差项可以由服从独立同分布（ $i i d$ ）的随机误差序列 $v_{t-r}(r=1,2,\dots)$ 表示，其中权重为 $\rho^r(r= 1,2,\dots)$ 。当 $\rho\in(0,1)$ 时表明权数为几何递减，当 $\rho \in(-1,0)$ 时表明权数为震荡交错衰减。 $\mu_t$ 的期望与方差为
$E\left(u_{t}\right)=\sum_{r=0}^{\infty} \rho^{r} E\left(v_{t-r}\right)=0$
$\operatorname{Var}\left(u_{t}\right)=\sum_{r=0}^{\infty} \rho^{2 n} \operatorname{Var}\left(v_{t-r}\right)=\frac{\sigma_{v}^{2}}{1-\rho^{2}}=\sigma_{u}^{2}$
当存在自相关时，扰动项的期望值为0，同方差。但方差协方差矩阵非对角线元素，即扰动项的协方差为
$\operatorname{Cov}\left(u_{t}, u_{t-k}\right)=\rho^{k} \operatorname{Var}\left(u_{t-k}\right)=\frac{\rho^{k} \sigma_{v}^{2}}{1-\rho^{2}}\ne 0$
当 $k = 1$ 时称为扰动项 $\mu_t$ 一阶协方差， $k = n$ 称为扰动项 $\mu_t$ 的 $n$ 阶协方差。

2.1 对估计参数的影响

一元线性回归模型在满足经典假设条件下，斜率估计量为
$\operatorname{Var}\left(\hat{\beta}_{2}\right)=\frac{\sigma^{2}}{\sum x_{t}^{2}}\tag{4}$
存在自相关时，估量的期望 $E(\hat{\beta}_2) = \beta_2$ ，即无偏。但估量的方差推导过程利用了无自相关假设，即 $E\left(u_{i}, u_{j}\right)=0 \quad(i \neq j)$ ，于是
$\operatorname{Var}\left(\hat{\beta}_{2}\right)\ne \frac{\sigma^{2}}{\sum x_{t}^{2}}$
可以证明，当随机扰动项 $\mu_t$ 存在一阶自相关时，估计量的方差为
$\operatorname{Var}\left(\hat{\beta}_{2}\right)=\frac{\sigma_{u}^{2}}{\sum_{t=1}^{n} x_{t}^{2}}\left(1+2 \rho \frac{\sum_{t=1}^{n-1} x_{t} x_{t+1}}{\sum_{t=1}^{n} x_{t}^{2}}+2 \rho^{2} \frac{\sum_{t=1}^{n-2} x_{t} x_{t+2}}{\sum_{t=1}^{n} x_{t}^{2}}+\cdots+2 \rho^{n-1} \frac{x_{1} x_{n}}{\sum_{t=1}^{n} x_{t}^{2}}\right) \tag{5}$
当 $\rho = 0$ ,此时 $\operatorname{Var}\left(\hat{\beta}_{2}\right)=\sigma^2/\sum x_{t}^{2}$ 。不难看出，(5)的方差大于(4)式的方差，故在自相关条件下，估计量 $\operatorname{Var}\left(\hat{\beta}_{2}\right)$ 不再是最小的。方差增大，回归系数的标准误增大。当存在自相关时，容易证明，
$E\left(\sum e_{t}^{2}\right)=\sigma^{2}\left[(n-2)-\left(2 \rho \frac{\sum X_{t} X_{t+1}}{\sum X_{t}^{2}}+2 \rho^{2} \frac{\sum X_{t} X_{t+2}}{\sum X_{t}^{2}}+\cdots+2 \rho^{n-1} \frac{\sum X_{t} X_{n}}{\sum X_{t}^{2}}\right)\right]\tag{6}$
当 $X_t$ 与 $\mu_t$ 为正相关时，(6)式 $E\left(\sum e_{t}^{2}\right)$ 与 $\hat{\sigma^2} = \sum e_{t}^{2}/(n-2)$ 相比降低，进而低估了真实的 $\sigma^2$ ,最终低估了(4)式的方差。

2.2 对模型检验的影响

自相关问题将低估参数的方差((5)与(6)表现），根据系数检验统计量 $t=\left(\hat{\beta}_{2}-\beta_{2}\right) / \operatorname{SE}\left(\hat{\beta}_{2}\right) \sim t(n-2)$ ， $t$ 统计量被夸大，显著性夸大。类似的，模型显著性检验以及拟合优度也是不可靠的。模型预测方面，其预测精度降低，预测置信区间扩大。

3自相关检验

3.1相关图示法

$e_t$ 与 $e_{t-1}$ 散点图：根据残差 $e_t$ 与 $e_{t-1}$ 的走势判断正相关还是负相关
$e_t$ 与 $t$ 散点图：如果 $e_t$ 随着时间的变化频繁地变化符号，说明 $e_t$ 存在负自相关；几个正的 $e_t$ 跟着几个负的 $e_t$ ,表明 $e_t$ 存在正相关。

3.2 DW检验

DW检验是J.Durbin(杜宾)和G.S.Watson(沃特森)于1951 年提出的一种适用于小样本的检验方法。DW检验的条件为

自变量 $X$ 非随机
随机误差仅为一阶自相关，即 $u_{t}=\rho u_{t-1}+v_{t}$ （不能处理高阶自相关情形）
线性模型不包含被解释变量滞后项(不能处理动态模型情形)
模型必须存在截距项
数据无缺失项

定义DW统计量
$W=\frac{\sum_{t=2}^{n}\left(e_{t}-e_{t-1}\right)^{2}}{\sum_{t=1}^{n} e_{t}^{2}}$
其中 $e_t = Y_t-\hat{Y}_t$ $(t=1,2,\dots n)$ ，将DW统计量展开，在大样本条件下 $\sum_{t=2}^{n} e_{t}^{2} \approx \sum_{t=2}^{n} e_{t-1}^{2} \approx \sum_{t=1}^{n} e_{t}^{2}$ ，则
$\approx 2\left[1-\frac{\sum_{i=2}^{n} e_{t} e_{t-1}}{\sum_{t=1}^{n} e_{t}^{2}}\right]$
同理，在 $\sum_{t=2}^{n} e_{t}^{2} \approx \sum_{t=2}^{n} e_{t-1}^{2} \approx \sum_{t=1}^{n} e_{t}^{2}$ 条件下，
$\hat{\rho} \approx \frac{\sum_{t=2}^{n} e_{t} e_{t-1}}{\sum_{t=1}^{n} e_{t}^{2}}$
从而有
$\approx 2(1-\hat{\rho})$
由于 $-1<\hat{\rho}<1$ ,故 $0\le DW\le 4$ 。根据样本容量 $n$ 、解释变量个数 $k^{'}$ (不包括常数)，查DW分布表可得临界值 $d_L,d_U$ ，然后依据以下规则考察 $D W$ 值

$0\le DW \le d_L$ ,误差项 $\mu_i$ 存在正相关
$d_L\le DW \le d_U$ ，无法判断
$d_U \le DW \le 4-d_U$ ,无自相关
$4-d_U \le DW \le 4-d_L$ ，无法判断
$4-d_L\le DW \le 4$ ,误差项 $\mu_i$ 存在负相关

显然，当DW值接近0时，存在正相关，接近4时存在负相关，接近2时，不存在相关。注意：DW存在无法判断区域。

3.3 DW检验局限

DW统计量具有前置条件
DW检验上下界要求样本容量 $n\ge 15$
DW检验不适用于随机误差的高阶相关
DW检验存在两个未知区域不能判定

4 自相关补救

4.1 广义差分法

一元线性回归模型
$Y_{t}=\beta_{1}+\beta_{2} X_{t}+u_{t}\tag{7}$
随机扰动项 $u_{t}=\rho u_{t-1}+v_{t}$ ， $|\rho|<1$ , $v_t$ 满足经典假设条件。将(7)滞后一期为
$Y_{t-1}=\beta_{1}+\beta_{2} X_{t-1}+u_{t-1}\tag{8}$
将(8)乘以相关系数 $\rho$ 并用(7)减之，得
$Y_{t}-\rho Y_{t-1}=\beta_{1}(1-\rho)+\beta_{2}\left(X_{t}-\rho X_{t-1}\right)+u_{t}-\rho u_{t-1}$
其中 $v_t =u_{t}-\rho u_{t-1}$ 满足经典假设条件,无自相关。令 $Y_{t}^{*}=Y_{t}-\rho Y_{t-1}$ , $X_{t}^{*}=X_{t}-\rho X_{t-1}$ , $\beta_{1}^{*}=\beta_{1}(1-\rho)$ , $\beta_{2}=\beta_{2}^{*}$ ,得到
$Y_{t}^{*}=\beta_{1}^{*}+\beta_{2}^{*} X_{t}^{*}+v_{t}\tag{9}$
对(9)使用OLS得到参数最佳线性无偏估计量。由于广义差分失去了第一个观测值，一般使用 $Y_1\sqrt{1-\rho^2}$ 与 $X_1\sqrt{1-\rho^2}$ 作为相应得补充。

4.2 Cochrane—Orcutt迭代法

$\rho$ 一般未知，最简单得方法时通过DW计算，即
$\hat{\rho}\approx1-\frac{DW}{2}$
但该方法较为粗略。一种精确度较高得方法是Cochrane—Orcutt迭代法。步骤如下

使用OLS估计模型 $Y_{t}=\beta_{1}+\beta_{2} X_{t}+u_{t}$ ，并计算残差 $e_t^{(1)}$
利用残差 $e_t^{(1)}$ 作如下回归
$e_{t}^{(1)}=\hat{\rho}^{(1)} e_{t-1}^{(1)}+v_{t}$
利用上步计算的 $\hat{\rho}^{(1)}$ 对模型 $Y_{t}=\beta_{1}+\beta_{2} X_{t}+u_{t}$ 作广义差分，令 $Y_{t}^{*}=Y_{t}-\hat{\rho}^{(1)} Y_{t-1}$ , $X_{t}^{*}=X_{t}-\hat{\rho}^{(1)} X_{t-1}$ , $\beta_{1}^{*}=\beta_{1}\left(1-\hat{\rho}^{(1)}\right)$ ,从而得到样本回归函数
$Y_{t}^{*}=\beta_{1}^{*}+\beta_{2}^{*} X_{t}^{*}+e_t^{(2)}$
利用 $\hat{\beta}_{1}=\hat{\beta}_{1}^{*} /\left(1-\hat{\rho}^{(1)}\right)$ 与 $\hat{\beta}_2=\hat{\beta}_2^{*}$ ，将 $\hat{\beta}_{1}，\hat{\beta}_{2}$ 代入原回归模型得新的残差 $e_t^{(3)}$
$e_{t}^{(3)}=Y_{t}-\beta_{1}-\beta_{2} X_{t}$
利用残差 $e_t^{(3)}$ 作回归
$e_{t}^{(3)}=\rho^{(2)} e_{t-1}^{(3)}+v_{t}$
用 OLS法估计的 $\hat{\rho}^{(2)}$ 是对 $\rho$ 的第二轮估计值。给定误差项 $\delta$ ,当 $|\hat{\rho}^{k}-\hat{\rho}^{k-1}|<\delta$ 时，停止迭代。

4.3 差分法

使用条件：完全正自相关，即 $\rho =1$ 。设一阶线性回归模型 $Y_{t}=\beta_{1}+\beta_{2} X_{t}+u_{t}$ ， $u_{t}=\rho u_{t-1}+v_{t}$ 。将模型滞后一期并作差分得到
$\Delta Y_{t}=\beta_{2} \Delta X_{\mathrm{t}}+u_{t}-u_{t-1}$
此时扰动项 $v_t = u_t-u_{t-1}$ 满足经典假设条件。从而消除自相关。但这种方法假定了扰动项存在完全正自相关，不具有推广性。

4.4 德宾两步法

自相关系数 $\rho$ 未知，可用德宾两步法消除自相关。将广义差分模型变形得到
$Y_{t}=\beta_{1}(1-\rho)+\beta_{2} X_{t}-\rho \beta_{2} X_{t-1}+\rho Y_{t-1}+v_{t}$

将上式视为多元线性回归模型，利用ols法得到 $\hat{\rho}$ ，视为参数 $\rho$ 得估计，但却时有偏但一致得估计。
利用 $\hat{\rho}$ 进行广义差分求出序列 $Y_{t}^{*}=Y_{t}-\rho Y_{t-1}$ , $X_{t}^{*}=X_{t}-\rho X_{t-1}$ , 然后使用olsOLS对广义差分进行估计，求得最佳线性无偏估计。