概念
ARIMA模型的全称叫做自回归移动平均模型(ARIMA, Autoregressive Integrated Moving Average Model)。记作ARIMA(p,d,q)。主要由三部分构成:自回归模型(AR)、差分过程(I)和移动平均模型(MA)。
AR模型,即自回归模型,其优势是对于具有较长历史趋势的数据,AR模型可以捕获这些趋势,并据此进行预测。但是AR模型不能很好地处理某些类型的时间序列数据,例如那些有临时、突发的变化或者噪声较大的数据。AR模型相信“历史决定未来”,因此很大程度上忽略了现实情况的复杂性、也忽略了真正影响标签的因子带来的不可预料的影响。
相反地,MA模型,即移动平均模型,可以更好地处理那些有临时、突发的变化或者噪声较大的时间序列数据。但是对于具有较长历史趋势的数据,MA模型可能无法像AR模型那样捕捉到这些趋势。MA模型相信“时间序列是相对稳定的,时间序列的波动是由偶然因素影响决定的”,但现实中的时间序列很难一直维持“稳定”这一假设。
自回归模型(AR)
自回归模型(AR,Autoregressive Model)是一种被广泛用于分析时间序列数据的统计模型。其基本假设为:一个时间点上的标签值一定是依赖于之前的时间点上的标签值而存在的,这样的时序数据存在两个特征:
1、时序依赖性:在AR模型中,我们假设不同时间点的标签值之间存在强相关性。这意味着一个给定时间点的标签值受到其过去的标签值的显著影响。在数学上,这表现为两个时间点的标签值之间的相关系数较大。换言之,过去的信息对预测未来具有重要影响。
2、时序衰减:另一个基础假设是,两个时间点之间的距离越远,他们之间的关联性越弱。例如,昨天的天气可能对今天的天气影响很大,但三个月前的某一天的天气,对今天的天气的影响就相对微弱。
基于这样的假设,AR模型将时间点之间的关系建模为:一个时间点的标签值可以由其过去某个时间段内的所有标签值的线性组合表示。这个线性组合可以理解为对过去信息的加权求和,每个过去时间点的信息都通过一个相应的权重(在AR模型中,这个权重是模型参数)来反映其对当前时间点的影响。一阶形式为: Y t = c + φ Y t − 1 + ξ t Y_t=c+\varphi Y_{t-1} + \xi_t Yt=c+φYt−1+ξt 其中, Y t Y_t Yt是时间戳t处的预测值,c是常数, φ \varphi φ是自回归系数, Y t − 1 Y_{t-1} Yt−1是时间戳t-1处的观察值。当阶数为p时,模型AR(p)表示为: Y t = c + φ 1 Y t − 1 + φ 2 Y t − 2 + . . . + φ p Y t − p + ξ t Y_t=c+\varphi_1 Y_{t-1} + \varphi_2 Y_{t-2}+...+\varphi_p Y_{t-p}+\xi_t Yt=c+φ1Yt−1+φ2Yt−2+...+φpYt−p+ξt 其中, φ 1 , φ 2 , . . . , φ p \varphi_1,\varphi_2,...,\varphi_p φ1,φ2,...,φp是自回归系数,即对过去信息的加权权重;p阶表示考虑之前多少个时间戳,即时间滞后(lags)的数量; ξ t \xi_t ξt是在时间点t的误差项,也被称为白噪声项,代表了该时间戳处的数据不能被过去时间戳处的数据解释的部分,即模型的误差或者噪声。
移动平均模型(MA)
移动平均模型(MA模型,Moving Average Model)描述的是当前时间点的数据与过去噪声的关系。严格定义上来讲:其模型的定义是基于白噪声序列的假设。白噪声是一种特殊的时间序列模型,每个时间点的数据都是独立且服从相同分布的,且具有常数的均值和方差。给定一个白噪声序列 ,MA模型MA(q)定义为:
Y
t
=
μ
+
ϵ
t
+
θ
1
ϵ
t
−
1
+
.
.
.
+
θ
1
ϵ
t
−
q
Y_t=\mu+\epsilon_t+\theta_1\epsilon_{t-1}+...+\theta_1\epsilon_{t-q}
Yt=μ+ϵt+θ1ϵt−1+...+θ1ϵt−q 其中,
Y
t
Y_t
Yt是时间点t的预测值,
μ
\mu
μ是时间序列的均值或期望值;
ϵ
t
−
1
+
.
.
.
+
θ
1
ϵ
t
−
q
\epsilon_{t-1}+...+\theta_1\epsilon_{t-q}
ϵt−1+...+θ1ϵt−q是白噪声项,
ϵ
t
\epsilon_{t}
ϵt是当前时刻的白噪声,
ϵ
q
\epsilon_{q}
ϵq是q个时刻前的白噪声;
θ
1
,
θ
2
,
.
.
.
,
θ
q
\theta_1,\theta_2,...,\theta_q
θ1,θ2,...,θq是模型参数,它们衡量对应的白噪声对当前时间点的影响程度;q是阶数,表示过去多少个时间戳的数据被纳入模型。
MA模型的基本思想是:大部分时候时间序列应当是相对稳定的。在稳定的基础上,每个时间点上的标签值受过去一段时间内、不可预料的各种偶然事件影响而波动。即在一段时间内,时间序列应该是围绕着某个均值上下波动的序列,时间点上的标签值会围绕着某个均值移动,因此模型才被称为“移动平均模型”。
ARIMA模型
ARIMA模型结合了AR模型和MA模型的优点,其基本思想是利用数据本身的历史信息来预测未来。一个时间点上的标签值既受过去一段时间内的标签值影响,也受过去一段时间内的偶然事件的影响。
如果我们暂时不考虑差分(即假设d=0),那么ARIMA模型可以被看作是AR模型和MA模型的直接结合,形式上看,ARIMA模型可以表示为:
Y
t
=
c
+
φ
1
Y
t
−
1
+
.
.
.
+
φ
p
Y
t
−
p
+
ϵ
t
+
θ
1
ϵ
t
−
1
+
.
.
.
+
θ
1
ϵ
t
−
q
Y_t=c+\varphi_1 Y_{t-1} +...+\varphi_p Y_{t-p}+\epsilon_t+\theta_1\epsilon_{t-1}+...+\theta_1\epsilon_{t-q}
Yt=c+φ1Yt−1+...+φpYt−p+ϵt+θ1ϵt−1+...+θ1ϵt−q对于这个式子:
1、AR部分 c + φ 1 Y t − 1 + . . . + φ p Y t − p c+\varphi_1 Y_{t-1} +...+\varphi_p Y_{t-p} c+φ1Yt−1+...+φpYt−p表示当前值 Y t Y_t Yt与它过去的值有关,这个部分的形式与AR模型的公式一致。
2、MA部分 ϵ t + θ 1 ϵ t − 1 + . . . + θ 1 ϵ t − q \epsilon_t+\theta_1\epsilon_{t-1}+...+\theta_1\epsilon_{t-q} ϵt+θ1ϵt−1+...+θ1ϵt−q表示当前值 Y t Y_t Yt与它过去的误差项有关,这个部分的形式与MA模型的公式一致。
需要注意的一点是,MA模型中代表长期趋势的均值并不存在于ARIMA模型的公式当中,因为ARIMA模型中“预测长期趋势”这部分功能由AR模型来执行,因此AR模型替代了原本的均值。在ARIMA模型中,c可以为0。
这个公式的基础是假设我们正在处理的时间序列是平稳的,这样我们可以直接应用AR和MA模型。如果时间序列是非平稳的,那么我们就需要考虑ARIMA模型中的I部分,也就是进行差分处理。