一、方差和异方差
1.1 基本概念
方差(Variance)是衡量数据集分布的离散程度的指标。它表示数据点相对于均值
的平均平方偏差
。方差越大,数据点之间的差异就越大。数学上,对于一个数据集 { x 1 , x 2 , … , x n } \{x_1, x_2, \dots, x_n\} {
x1,x2,…,xn},其方差 σ 2 \sigma^2 σ2 计算公式为:
σ 2 = 1 n ∑ i = 1 n ( x i − x ˉ ) 2 \sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2 σ2=n1i=1∑n(xi−xˉ)2
其中, x ˉ \bar{x} xˉ 是数据集的均值。
异方差(Heteroscedasticity)则指的是在回归分析中,模型残差的方差
随着自变量的变化而变化的现象。
即,残差(即回归预测值和实际值的差值)的波动性不是恒定(常数)的,而是依赖于某些变量的取值。异方差会影响回归模型的可靠性和准确性,通常需要通过一些方法进行处理,比如加权最小二乘法(WLS)或对变量进行变换。
原始数据的方差表现了数据本身的波动性,误差项的波动性(异方差)则反映了模型未能解释的不确定性和随机性。如果残差波动性较大,可能意味着模型还有改进的空间。
方差一段时间内某数据的方差。比如[0 t]、[0 t+1]、[t-p t]这样。某个点的方差通常指这个点为终点,包含过去一段时间内的数据的方差。
1.2 异方差产生的原因
模型的误差的方差
随自变量而变化,这即是异方差,那异方差是不是总是因为模型不佳才产生的呢?
异方差的产生原因多种多样,通常可以归结为以下几类:
模型不完全:
- 遗漏变量:如果模型中遗漏了重要的自变量,这些遗漏的变量可能会导致误差项的方差随着自变量的值而变化,从而引发异方差。
- 不适当的模型形式:模型形式选择不当(如线性模型用于非线性关系)可能导致误差项方差不恒定。
数据特性:
- 数据的分布特性:某些数据本身具有异方差特性。例如,收入数据往往具有较大的波动性,较高收入群体的支出波动性可能较大。
- 极端值或离群点:数据中的极端值或离群点可以增加误差项的方差,导致异方差问题。
变量间的关系:
- 自变量与因变量的关系:自变量与因变量的关系可能导致误差项的方差变化。例如,随着自变量值的增大或减小,因变量的波动性可能发生变化。
- 非线性关系:如果自变量和因变量之间存在非线性关系,但模型采用了线性回归,这可能导致误差项的方差随自变量的变化而变化。
测量误差:
- 自变量的测量误差:自变量测量的不准确可能导致误差项的方差随自变量的值而变化,从而引发异方差。
- 因变量的测量误差:同样,因变量测量误差也可能影响误差项的方差。
时间序列数据的特性:
- 时间序列数据:在时间序列数据中,经济周期、季节效应或趋势变化可能导致误差项方差随时间变化,从而产生异方差。
模型假设不满足:
- 方差齐性假设:回归分析通常假设误差项的方差是恒定的(即同方差性)。当这一假设不成立时,可能出现异方差现象。
归根结底还是模型不能捕捉原始数据的特征,模型不好可能是一个方面,但:
有时候改进预测模型可能不是我们的目的,比如金融数据,存在异方差,说明对数据(如收益率)的预测难度较大,表明市场可能会有显著的波动,市场的风险和危机也就更大,这则是帮助我们决策的重要依据。(比如你是投资者,你关心的可能不是一段时间内的收益率是多少,而是风险评估、风险预测)
当然,你如果致力于改进原来的预测模型:
改进估计的准确性:
- 在异方差存在的情况下,普通最小二乘法(OLS)估计的标准误差可能不准确,导致假设检验和置信区间不可靠。通过对异方差进行建模,可以使用
加权最小二乘法
(WLS)等方法来调整这些估计,从而提高回归系数估计的准确性。减少预测误差:
- 异方差可能导致模型在某些范围的自变量值下预测不准确。通过对异方差进行建模,可以提高模型对所有数据范围的预测准确性。
提高模型的有效性:
- 通过处理异方差,可以使模型的假设条件(如方差齐性)得到满足,从而使得回归分析结果更加可靠。这样,模型的参数估计、假设检验和预测结果的有效性都会提高。
改善模型的解释能力:
- 处理异方差可以帮助识别数据中的潜在模式或结构,提供关于因变量和自变量之间关系的更深入理解。例如,异方差可能揭示了数据中的非线性关系或其他复杂结构。
优化回归模型的鲁棒性:
- 对异方差进行建模可以增强模型对数据中异质性和不规则性的鲁棒性,使得模型在面对不同类型的数据时表现更稳定。
提高统计检验的有效性:
- 许多统计检验(如t检验和F检验)假设误差项具有恒定方差。通过对异方差进行建模,可以确保这些检验的前提条件得到满足,从而提高检验的有效性和结果的可信度。
那为啥不直接对模型的误差建模呢?
太复杂了,计算麻烦。(举个例子,对误差建模就好比误差是一个原始数据,你现在又要对这个数据建模,那模型肯定又要误差什么的…)
二、(自回归)条件异方差
在经济学和金融领域,条件异方差特别常见。比如,在金融市场中,波动性(如股价的波动性)往往会随着时间而变化,这种现象就是条件异方差的一种表现。
假设有一个回归模型:
y i = β 0 + β 1 x i + ϵ i y_i = \beta_0 + \beta_1 x_i + \epsilon_i yi=β0+β1xi+ϵi
其中 ϵ i \epsilon_i ϵi 是误差项。条件异方差的基本概念是,误差项的方差
σ i 2 \sigma_i^2 σi2 依赖于自变量 x i x_i xi,即:
Var ( ϵ i ∣ x i ) = σ i 2 \text{Var}(\epsilon_i \mid x_i) = \sigma_i^2 Var(ϵi∣xi)=σi2
如果 σ i 2 \sigma_i^2 σi