最佳滞后阶数的选择
人们普遍认为模型的滞后阶数应该足够大,以便考虑模型变量的更多信息。但滞后阶数越大,需要估计的参数越多,自由度下降越多,从而影响参数估计的有效性。
最佳滞后阶数的选择可以通过赤池信息准则(AIC)和施瓦茨贝叶斯准则(SBC)来确定(Schwarz,1978)
引用:Schwarz G. Estimating the dimension of a model[J]. The annals of statistics, 1978: 461-464.
1. 赤池信息准则(AIC)
赤池信息量准则(Akaike information criterion,简称AIC)是评估统计模型的复杂度和衡量统计模型拟合的优良性(fit)的一种标准,是由日本统计学家赤池弘次创立和发展的。赤池信息量准则建立在信息熵的概念基础上。
1.2 AIC计算
1.2.1 一般计算
假设:模型的误差服从独立正态分布。
其中,K是参数的数量,L是似然函数。
1.2.2 引入RSS
n为observations,RSS为残差平方和,那么AIC变为:
- 增加自由参数的数目提高了拟合的优良性,AIC鼓励数据拟合的优良性但是尽量避免出现过度拟合(Overfitting)的情况。
- 所以优先考虑的模型应是AIC值最小的。赤池信息量准则的方法是寻找可以最好地解释数据但包含最少自由参数的模型。
1.3 在小样本下的AICc和AICu
在样本少的情况下,AIC转变为AICc(改正的赤池信息量准则):
Allan McQuarrie a、Robert Shumway b和Chih-Ling Tsai c在1997年又提出了另一种改进的回归模型选择标准 AICu,它是 Kullback-Leibler 信息的近似无偏估计量。
【感兴趣可以参考:McQuarrie A, Shumway R, Tsai C L. The model selection criterion AICu[J]. Statistics & probability letters, 1997, 34(3): 285-292.】
1.4 调整过度离散(或者缺乏拟合)——QAIC
QAIC(Quasi-AIC)可以定义为:
其中,c是方差膨胀因素。因此QAIC可以调整过度离散(或者缺乏拟合)。
在小样本情况下, QAIC表示为:
施瓦茨贝叶斯准则(SBC)
其中,L为模型似然函数的最大值,n为样本量,k为模型估计参数数量。
AIC和BIC的原理不同:
- AIC是从预测角度,选择一个好的模型用来预测
- BIC是从拟合角度,选择一个对现有数据拟合最好的模型