资源地址:Python数据分析大作业 2000+字 图文分析文档 疫情分析+完整python代码
数据分析
时间序列是由四种因素组成的:长期趋势、季节变动、循环变动、随机波动。当我们对一个时间序列进行预测时,应该考虑将上述四种因素从时间序列中分解出来。
分解之后,能够克服其他因素的影响,仅仅考虑一种因素对时间序列的影响,也可以分析他们之间的相互作用,以及他们对时间序列的综合影响。当去掉这些因素后,就可以更好地进行时间序列之间的比较,从而更加客观的反映事物变化发展规律,序列可以用来建立回归模型,从而提高预测精度。时间序列的四种因素具有不同的特点:长期趋势反映了事物发展规律,是重点研究的对象;循环变动由于周期长,可以看作是长期趋势的反映,一般和长期趋势统称为趋势-周期因素;随机不规则变动由于不容易测量,通常也不单独分析(注:“S”型增长曲线是持续增长的,随机波动是一种与某个特殊事件相关的短期波动,具有一定的概率,可作为决策的辅助依据);季节变动有时会让预测模型误判其为不规则变动,从而降低模型的预测精度。当一个时间序列具有季节变动特征时,在预测之前会先将季节因素进行分解,也就是将季节变动因素从原时间序列中去除,并生成由剩余三种因素构成的序列来满足后续分析需求。
ARIMA 全称为自回归积分滑动平均模型(Autoregressive Integrated Movi ng Average Model,简记 ARIMA),ARIMA(p,d,q)模型是针对非平稳时间序列所 建立的模型。ARIMA 的含义包含 3 个部分,即 AR、I 、MA。
其中: AR 表示 auto regression,即自回归模型; I 表示 integration,即单整阶数,时间序列模型必须是平稳性序列才能建 立计量模型,ARIMA 模型作为时间序列模型也不例外,因此首先要对时间序列进 行单位根检验,如果是非平稳序列,就要通过差分来转化为平稳序列,经过几次 差分转化为平稳序列,就称为几阶单整; MA 表示 moving average,即移动平均模型。可见,ARIMA 模型实际上是 AR 模型和 MA 模型的组合。相应的,有三个参数:p,d,q。
其中:
p 代表预测模型中采用的时序数据本身的滞后数(lags) ,也叫做 AR/Auto Regressive 项。 d 代表时序数据需要进行几阶差分化,才是稳定的,也叫 Integrated 项。
q 代表预测模型中采用的预测误差的滞后数(lags),也叫做 MA/Moving Average
资源地址:Python数据分析大作业 2000+字 图文分析文档 疫情分析+完整python代码
代码详解
主要是对时间序列数据进行分析和预测。让我们逐步解释每一部分:
-
导入必要的库:
from math import * import numpy as