什么是 ARIMA模型
ARIMA模型的全称叫做自回归移动平均模型,全称是(ARIMA, Autoregressive Integrated Moving Average Model)。也记作ARIMA(p,d,q),是统计模型(statistic model)中最常见的一种用来进行时间序列 预测的模型。
ARIMA的优缺点
优点: 模型十分简单,只需要内生变量而不需要借助其他外生变量。
缺点:
1.要求时序数据是稳定的(stationary),或者是通过差分化(differencing)后是稳定的。
2.本质上只能捕捉线性关系,而不能捕捉非线性关系。
注意,采用ARIMA模型预测时序数据,必须是稳定的,如果不稳定的数据,是无法捕捉到规律的。比如股票数据用ARIMA无法预测的原因就是股票数据是非稳定的,常常受政策和新闻的影响而波动。
判断是时序数据是稳定的方法
严谨的定义: 一个时间序列的随机变量是稳定的,当且仅当它的所有统计特征都是独立于时间的(是关于时间的常量)。
判断的方法:
稳定的数据是没有趋势(trend),没有周期性(seasonality)的; 即它的均值,在时间轴上拥有常量的振幅,并且它的方差,在时间轴上是趋于同一个稳定的值的。
可以使用Dickey-Fuller Test进行假设检验。(另起文章介绍)
ARIMA的参数与数学形式
ARIMA模型有三个参数:p,d,q
- p–代表预测模型中采用的时序数据本身的滞后数(lags) ,也叫做AR/Auto-Regressive项
- d–代表时序数据需要进行几阶差分化,才是稳定的,也叫Integrated项。
- q–代表预测模型中采用的预测误差的滞后数(lags),也叫做MA/Moving Average项
ARIMA模型的几个特例
ARIMA(0,1,0)
random walk
ARIMA(1,0,0)
first-order autoregressive model
ARIMA(1,1,0)
differenced first-order autoregressive model:
ARIMA(0,1,1)
simple exponential smoothing with growth.
ARIMA(2,1,2)
ARIMA(2,2,2)
ARIMA建模基本步骤
1.获取被观测系统时间序列数据;
2.对数据绘图,观测是否为平稳时间序列;对于非平稳时间序列要先进行d阶差分运算,化为平稳时间序列;
3.经过第二步处理,已经得到平稳时间序列。要对平稳时间序列分别求得其自相关系数ACF 和偏自相关系数PACF,通过对自相关图和偏自相关图的分析,得到最佳的阶层 p 和阶数 q
4.由以上得到的d、q、p,得到ARIMA模型。然后开始对得到的模型进行模型检验。