多元线性回归—异方差

泥壶映雪

已于 2023-06-25 20:39:48 修改

阅读量1w

点赞数 6

分类专栏：计量经济学文章标签：机器学习数学建模

于 2021-06-15 16:46:52 首次发布

本文链接：https://blog.csdn.net/weixin_46649908/article/details/117927359

版权

计量经济学专栏收录该内容

37 篇文章

订阅专栏

异方差是指在回归分析中，误差项的方差随解释变量的变化而变化的现象。这影响了参数估计的效率和假设检验的准确性。文章介绍了异方差的识别方法，如图示法、哥德菲尔德-夸特检验、怀特检验和Bp检验，并探讨了其后果，包括有效性降低和系数显著性误判。为应对异方差，可以采用“OLS+稳健标准误”、广义最小二乘法（GLS）和加权最小二乘法（WLS）。FGLS是当总体协方差矩阵未知时的GLS估计。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

异方差

文章目录

异方差
@[toc]
1 异方差的一些例子
2 什么是异方差
3异方差产生的原因
4 异方差后果
5 如何识别异方差
5.1 图示法
5.2 哥德菲尔德-夸特检验
5.3 怀特检验
5.4 Bp检验（布鲁奇-帕甘）

6 补救
6.1 使用“OLS + 稳健标准误”
6.2 广义最小二乘法 GLS
6.3 加权最小二乘法WLS
6.4 可行广义最小二乘法FGLS

1 异方差的一些例子

在消费函数，不同收入群体，消费的波动差距是否相同？
$C_i = \alpha + \beta Y_i + \varepsilon_i$
在企业成本函数，大企业与小企业规模经济存在差异
股票收益率数据也可能出现条件异方差ARCH 模型情形。

2 什么是异方差

经典线性回归方程
$\boldsymbol \beta \boldsymbol X +\boldsymbol \varepsilon$
普通最小二乘（OLS）估计量
$\hat {\boldsymbol \beta}_{ols} = (X'X)^{-1}X'Y = (X'X)^{-1}X'(\boldsymbol \beta \boldsymbol X+\varepsilon) = \boldsymbol \beta+(X'X)^{-1}X'\varepsilon$
其方差协方差矩阵：
$\begin{aligned} Var-Cov(\hat \beta) & = E(\hat \beta-E(\hat \beta)(\hat \beta-E(\hat \beta)')\\ &=E((X'X)^{-1}X'\varepsilon \varepsilon'X (X'X)^{-1})\\ & = (X'X)^{-1}X'E(\varepsilon \varepsilon')X (X'X)^{-1} \end{aligned}$
在同方差假设下：
$E(\varepsilon \varepsilon’)= \sigma^2I = \left[\begin{array}{cccc} \sigma^2 & 0 &\cdots&0\\ 0 & \sigma^2 &\cdots&0\\ \vdots & \vdots & &\vdots\\ 0 & 0 &\cdots &\sigma^2 \end{array}\right]$
于是
$Var-Cov(\hat \beta) = \sigma^2(X'X)^{-1}$

在实际建模中，扰动项的方差并不是
$Var(\varepsilon) = \sigma_i^2f(X)$

3异方差产生的原因

OLS假设条件苛刻：球形扰动项
模型设定偏误，导致非线性的变量遗漏
知道但无法获取的特征变量的遗漏变，增加了扰动项的波动性

例如，设真实模型：
$y = a + bx_1 + cx_2+u$
由于遗漏了变量 $x_2$ ，实际建模为:
$y = a + bx_1+v;v = cx_2+u$
此时新的扰动项 $v$ 的方差为：
$Cov(cx_2+u,cx_2+u) = c^2\sigma_x^2+\sigma_u^2>\sigma_u^2$

模型设定误差模型为非线性模型，但却设定为线性模式（库兹涅茨效应）
变量选择：变量的测度不准确，被解释变量 $y$ ,与解释变量 $x$ 的观测误差导致方差增大

4 异方差后果

（1）参数无偏性不受影响

$E(\hat \beta) = \beta$

证明：
$\hat {\boldsymbol \beta}_{ols} = \boldsymbol \beta+(X'X)^{-1}X'\varepsilon$
故
$E(\hat \beta) =E( \boldsymbol \beta+(X'X)^{-1}X'\varepsilon) = \beta$
（2）有效性降低
存在异方差时，球形扰动假设不能满足，参数OLS估计量的方差不再是最小的方差。有效性定义为
$Var(\hat \beta^{*}) \le Var(\beta^{\prime}),\forall \beta^{'}$
则说 $\hat{\beta}^{*}$ 在对应的估计方法下，其参数估计量具有有效性。在球形扰动条件下，OLS的方差最有效，反之，不满足球形扰动就不是最有效。根据一元线性回归方程公式
$Var(\hat\beta) = \frac{\sigma^2}{\Sigma x_i^2};t = \frac{\hat\beta}{\sqrt{Var(\hat\beta) }}$
（3）对系数显著性影响

在 $O L S$ 经典回归模型中，估计量 $\beta_{ols}$ 是最佳有效线性估计量，因此其方差是所有估计量中最小方差。异方差则不是最小方差，从而导致统计量 $t$ 变小，容易扭曲系数的显著性：本应该显著的回归系数因为异方差原因低估了回归系数的显著性。

（4）对假设检验影响

系数检验t检验：一元线性回归为例， $Var(\hat\beta) \ne \sigma^2/\Sigma x_i^2$ ,从而 $t$ 统计量不是真实的统计量，影响系数显著性。
方程显著性检验F统计量：

5 如何识别异方差

5.1 图示法

画相关散点图
横轴为考察的自变量 $x$ ，纵轴为被解释变量 $y$ ，画出二者散点图。在 $x$ 条件下 $y$ 的变化的波动存在较大差异
残差图：
先利用OLS回归得到回归模型的的残差值 $e$ ，画 $e$ 与自变量 $x$ 的散点图，当 $e$ 随着 $x$ 变化存在明显的变化趋势时，可经验判断具有异方差

5.2 哥德菲尔德-夸特检验

前置条件

此检验只适用于大样本
仅解决同方差不成立情形

step1: 将解释变量按照从小到达顺序排序

step2: 排列在中间的 $C$ 个（约1/4）的观察值删除掉，再将剩余的观测值分为两个部分，每部分观察值的个数为 $(n - c) /2$ 。

step3: 提出假设。即 : $H_0$ 两部分数据的方差相等； $H_1$ 两部分数据的方差不相等

step4: 构造F统计量。分别对上述两个部分的观察值作回归，由此得到的两个部分的残差平方和 $\Sigma e_{1i}^2$ 与 $\Sigma e_{2i}^2$ ，自由度均为 $(n - c) /2 - k$

step5: 在原假设条件下，构造统计量
$F^{\star}=\frac{\sum e_{2 i}^{2} /\left[\frac{n-c}{2}-k\right]}{\sum e_{1 i}^{2} /\left[\frac{n-c}{2}-k\right]}=\frac{\sum e_{2 i}^{2}}{\sum e_{1 i}^{2}} \sim F\left(\frac{n-c}{2}-k, \frac{n-c}{2}-k\right)$
step6: 判断。若 $F^{\star}>F\left(\frac{n-c}{2}-k, \frac{n-c}{2}-k\right)$ ，则拒绝原假设，存在异方差

局限性：前半部分与后半部分同方差，而中间可能部分存在异方差

5.3 怀特检验

$\sigma_i^2 = \sigma^2f(X_i)$
表明扰动项方差关于自变量 $X$ 的函数，那么用扰动项对 $X$ 求回归，以判断哪些自变量对方差产生显著的影响。由于总体数据无法获取，因此利用样本数据回归得到的残差平方和 $e_i^2$ 对自变量 $X$ 进行 $O L S$ 回归.例如
$\hat b_0 +\hat b_1 x_1+\hat b_2x_2+e$
得到残差：
$\hat y$
再构造辅助回归：
$e_i^2 = a_0+a_1x_1+a_2x_2+a_3x_1^2+a_4x_4^2+a_5x_1x_2+v$
$R^2$ 为辅助回归可决系数。在原假设： $H_0:\alpha_i(i= 1,3,……5)= 0$ 成立条件下，计算统计量 $nR^2$ ，其中 $n$ 为样本，进行比较，若
$nR^2 > \chi^2(5)$
则拒绝原假设，存在异方差。原假设：
$H_{0}: \mathrm{E}\left(\varepsilon_{i}^{2} \mid x_{2}, \cdots, x_{K}\right)=\sigma^{2}$
$\hat{u}^{2}=\delta_{0}+\sum_{j=1}^{k} \delta_{j} x_{j}+\sum_{j=1}^{k} \sum_{p=j}^{k} \delta_{j p} x_{j} x_{p}+v$
$R_{u}^{2} \sim \chi_{k(k+1) / 2+k}^{2}$

评价：可以检验任何形式的异方差；缺点：如果 $H_0$ 被拒绝，并不提供有关异方差具体形式的信息。

5.4 Bp检验（布鲁奇-帕甘）

构造辅助回归
$e_i^2 = a_0+a_1x_1+a_2x_2+erro$
使用 $nR^2$ 统计量：
$R^{2} \stackrel{d}{\longrightarrow} \chi^{2}(K-1)$
BP 检验的优点在于其建设性，可帮助确认异方差的具体形式。但不含二次项形式。或者一种更简练的节省自由度的方法：
$e_i^2 = a + b\hat y_i+erro$
$e_i^2 = a + b\hat y_i+c \hat y^2+erro$

6 补救

6.1 使用“OLS + 稳健标准误”

这是最简单，也是目前通用的方法。只要样本容量较大，即使在异方差的情况下，若使用稳健标准误，则所有参数估计、假设检验均可照常进行。ols回归系数方差公式
$\operatorname{Cov}(\hat{\beta} \mid x)=\left(x^{\prime} x\right)^{-1} x^{\prime} \mathrm{E}\left(u u^{\prime} \mid x\right) x\left(x^{\prime} x\right)^{-1}$
异方差稳健方差：
$\widehat{\operatorname{Cov}}(\hat{\beta} \mid x)=\left(x^{\prime} x\right)^{-1}\left(\sum \hat{u}_{i}^{2} x_{i}^{\prime} x_{i}\right)\left(x^{\prime} x\right)^{-1}$
聚类稳健标准方差：
$\widehat{\operatorname{Cov}}(\hat{\beta} \mid x)=\left(x^{\prime} x\right)^{-1}\left(\sum_{g=1}^{G} x_{g}^{\prime} \hat{u}_{g}^{\prime} \hat{u}_{g} x_{g}\right)\left(x^{\prime} x\right)^{-1}$

6.2 广义最小二乘法 GLS

假设 $\operatorname{Var}(\varepsilon \mid \boldsymbol{X})=E(\varepsilon\varepsilon'|X)=\sigma^{2} \boldsymbol{V}(\boldsymbol{X}) \neq \sigma^{2} \boldsymbol{I}_{n}$ ，且 $\boldsymbol{V}(\boldsymbol{X})$ 正定对称且已知，基本思想：通过变量转换，使得转换后的模型满足球型扰动项的假定。

定理：对于任意正定对称矩阵 $\boldsymbol{V}_{n\times n}$ ,存在非退化矩阵 $\boldsymbol{C}_{n\times n}$ ，使得 $\boldsymbol {V}^{-1} = \boldsymbol {C}^{\prime}\boldsymbol{C}$ 。矩阵 $\boldsymbol C$ 不唯一，但不影响最终结果

设回归模型
$\beta+\varepsilon$
两边同时左乘矩阵 $C$ 得：
$\beta+C \varepsilon$
定义变量转换：
$\tilde{y} \equiv C y, \tilde{X} \equiv C X, \tilde{\varepsilon} \equiv C \varepsilon$
可将模型写为：
$\tilde{y}=\tilde{X} \beta+\tilde{\varepsilon}$
变换后的模型仍满足严格外生性：
$\mathrm{E}(\tilde{\boldsymbol{\varepsilon}} \mid \tilde{\boldsymbol{X}})=\mathrm{E}(\boldsymbol{C} \boldsymbol{\varepsilon} \mid \boldsymbol{C X})=\mathrm{E}(\boldsymbol{C} \boldsymbol{\varepsilon} \mid \boldsymbol{X})=\boldsymbol{C} \mathrm{E}(\boldsymbol{\varepsilon} \mid \boldsymbol{X})=\boldsymbol{0}$
球型扰动项的假定也得到满足：
$\begin{aligned} \operatorname{Var}(\tilde{\varepsilon} \mid \tilde{\boldsymbol{X}}) &=\mathrm{E}\left(\tilde{\varepsilon} \tilde{\boldsymbol{\varepsilon}}^{\prime} \mid \boldsymbol{X}\right)=\mathrm{E}\left(\boldsymbol{C} \boldsymbol{\varepsilon} \boldsymbol{\varepsilon}^{\prime} \boldsymbol{C}^{\prime} \mid \boldsymbol{X}\right)=\boldsymbol{C} \mathrm{E}\left(\boldsymbol{\varepsilon} \boldsymbol{\varepsilon}^{\prime} \mid \boldsymbol{X}\right) \boldsymbol{C}^{\prime}=\sigma^{2} \boldsymbol{C} \boldsymbol{V} \boldsymbol{C}^{\prime} \\ &=\sigma^{2} \boldsymbol{C}\left(\boldsymbol{V}^{-1}\right)^{-1} \boldsymbol{C}^{\prime}=\sigma^{2} \boldsymbol{C}\left(\boldsymbol{C}^{\prime} \boldsymbol{C}\right)^{-1} \boldsymbol{C}^{\prime}=\sigma^{2} \boldsymbol{C} \boldsymbol{C}^{-1}\left(\boldsymbol{C}^{\prime}\right)^{-1} \boldsymbol{C}^{\prime}=\sigma^{2} \boldsymbol{I}_{n} \end{aligned}$
故高斯-马尔可夫定理成立。对变换后的模型使用 OLS 即得到GLS 估计量：
$\begin{aligned} \hat{\beta}_{\mathrm{GLS}} &=\left(\tilde{\boldsymbol{X}}^{\prime} \tilde{\boldsymbol{X}}\right)^{-1} \tilde{\boldsymbol{X}}^{\prime} \tilde{\boldsymbol{y}}=\left[(\boldsymbol{C X})^{\prime}(\boldsymbol{C X})\right]^{-1}(\boldsymbol{C X})^{\prime} \boldsymbol{C} \boldsymbol{y} \\ &=\left(\boldsymbol{X}^{\prime} \boldsymbol{C}^{\prime} \boldsymbol{C} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime} \boldsymbol{C}^{\prime} \boldsymbol{C} \boldsymbol{y}=\left(\boldsymbol{X}^{\prime} \boldsymbol{V}^{-1} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime} \boldsymbol{V}^{-1} \boldsymbol{y} \end{aligned}$
虽然 $C$ 不唯一，但 $\hat{\beta}$ 唯一。显然 $\hat{\beta}_{\mathrm{GLS}}$ 是是BLUE，比OLS 更有效。但前提是必须知道协方差矩 $V$

6.3 加权最小二乘法WLS

假设仅存在异方差，无自相关， $\boldsymbol{V}_{n\times n}$ 为对角阵。方差小的数据提供的信息量大。WLS 根据信息量大小进行加权。假定
$\mathrm{E}\left(\varepsilon_{i}^{2} \mid \boldsymbol{x}_{i}\right)=\operatorname{Var}\left(\varepsilon_{i} \mid \boldsymbol{x}_{i}\right)=\sigma^{2} v_{i}(\boldsymbol{X})$
其中
$\boldsymbol{V}=\left(\begin{array}{ccc} v_{1} & & 0 \\ & v_{2} & & \\ & & \ddots & \\ 0 & & & v_{n} \end{array}\right), \quad \boldsymbol{V}^{-1}=\left(\begin{array}{cccc} 1 / v_{1} & & & 0 \\ & 1 / v_{2} & & \\ & & \ddots & \\ 0 & & & 1 / v_{n} \end{array}\right)$
因为 $\boldsymbol {V}^{-1} = \boldsymbol {C}^{\prime}\boldsymbol{C}$ 故
$\boldsymbol{C}=\boldsymbol{C}^{\prime}=\left(\begin{array}{cccc} 1 / \sqrt{v_{1}} & & & 0 \\ & 1 / \sqrt{v_{2}} & & \\ & & \ddots & \\ 0 & & & 1 / \sqrt{v_{n}} \end{array}\right)$

$\tilde{\boldsymbol{y}} \equiv \boldsymbol{C} \boldsymbol{y}=\left(\begin{array}{cccc} 1 / \sqrt{v_{1}} & & & 0 \\ & 1 / \sqrt{v_{2}} & & \\ & & \ddots & \\ 0 & & & 1 & \sqrt{v_{n}} \end{array}\right)\left(\begin{array}{c} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{array}\right)=\left(\begin{array}{c} y_{1} / \sqrt{v_{1}} \\ y_{2} / \sqrt{v_{2}} \\ \vdots \\ y_{n} / \sqrt{v_{n}} \end{array}\right)$

其中
$\begin{aligned} \tilde{\boldsymbol{X}} \equiv \boldsymbol{C X} &=\left(\begin{array}{cccc} 1 / \sqrt{v_{1}} & & & 0 \\ & 1 / \sqrt{v_{2}} & & \\ & & \ddots & \\ 0 & & & 1 / \sqrt{v_{n}} \end{array}\right)\left(\begin{array}{ccc} x_{11} & \ldots & x_{1 K} \\ x_{21} & \ldots & x_{2 K} \\ \vdots & & \vdots \\ x_{n 1} & \ldots & x_{n K} \end{array}\right) \\ \\ &=\left(\begin{array}{ccc} x_{11} / \sqrt{v_{1}} & \ldots & x_{1 K} / \sqrt{v_{1}} \\ x_{21} / \sqrt{v_{2}} & \ldots & x_{2 K} / \sqrt{v_{2}} \\ \vdots & & \vdots \\ x_{n 1} / \sqrt{v_{n}} & \ldots & x_{n K} \end{array}\right) \end{aligned}$
其中权重 $1/\sqrt{v_i}$ 表示标准差的倒数，第 $i$ 个观测的回归方程为：
$\frac{y_{i}}{\sqrt{v_{i}}}=\beta_{1} \frac{x_{i 1}}{\sqrt{v_{i}}}+\beta_{2} \frac{x_{i 2}}{\sqrt{v_{i}}}+\cdots+\beta_{K} \frac{x_{i K}}{\sqrt{v_{i}}}+\frac{\varepsilon_{i}}{\sqrt{v_{i}}}$
新扰动项为 $\varepsilon_{i} / \sqrt{v_{i}}$ ，可将WLS视为最小化“加权的残差平方和：
$\min _{\vec{\beta}} \mathrm{SSR}=\sum_{i=1}^{n}\left(e_{i} / \sqrt{v_{i}}\right)^{2}=\sum_{i=1}^{n} \frac{e_{i}^{2}}{v_{i}}$
权重为 $1/v_i$

6.4 可行广义最小二乘法FGLS

必须先用样本数据估计 $\boldsymbol{V}_{n\times n}$ 然后才能使用GLS，故称为 FGLS或“可行加权最小二乘法”(Feasible WLS，简记FWLS)，即
$\hat{\beta}_{\mathrm{FGLS}}=\left(\boldsymbol{X}^{\prime} \hat{V}^{-1} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime} \hat{V}^{-1} \boldsymbol{y}$
其中 $\hat{V}$ 是 ${V}$ 的一致估计量。 ${V}(X)$ 包含过多参数，实践中，常考虑只有异方差，或只有一阶自相关的情形。以FWLS 为例。在作BP 检验时，通过辅助回归（此处及其谨慎，为什么就假定为线性形式？一旦设定错误会有什么影响）
$e_{i}^{2}=\delta_{1}+\delta_{2} x_{i 2}+\cdots+\delta_{K} x_{i K}+\text { error }_{i}$
就可获得 $\sigma_i^2$ 的估计值 $\hat \sigma_i^2$ 。为保证 $\hat \sigma_i^2$ 为正数，假设辅助回归为指数函数的形式：
$e_{i}^{2}=\sigma^{2} \exp \left(\delta_{1}+\delta_{2} x_{i 2}+\cdots+\delta_{K} x_{i K}\right) v_{i}$
其中 $v_i$ 表示乘积形式扰动项，取对数后可得
$\ln e_{i}^{2}=\left(\ln \sigma^{2}+\delta_{1}\right)+\delta_{2} x_{i 2}+\cdots+\delta_{K} x_{i K}+\ln v_{i}$
得到 $ln e_{i}^{2}$ 的预测值 $\ln \hat\sigma_i^2$ ，进而得到拟合值 $\hat{\sigma}_{i}^{2}=e^{\ln \hat{\sigma}_{i}^{2}}$ ，然后以 $1/\hat{\sigma}_{i}^{2}$ 作为权重，进行WLS