SPSS时间序列分析和Tableau可视化——用ARIMA、ES、组合预测进行旅游需求预测

一、问题

现获取了一份亚洲六个地区(Hongkong,Japan,Korea,Macao,Singapore,Thailand)的2002年01月-2018年12月的中国游客量数据,需要进行时间序列分析预测出2019年1-12月旅游需求数据,并对比真实值分析各个模型误差和拟合程度。

二、结果概览

这是最终做出的实际效果,接下来会展示每一步操作。

三、时间序列预测

1.Naive方法——基准模型

数据集中给出了六个国家从2002年1月到2018年12月的旅游需求数据,使用最基础的Naive方法确定2019年12个月的旅游需求,即将上一年的需求实际值作为这一期的预测值,但需要考虑到12个月中旅游需求的季节性,因此2019年1月的旅游需求预测值并非为2018年12月旅游需求的实际值,而是2018年1月的旅游需求实际值,也就是在Naive方法中考虑了需求的季节性因素。

因此,2019年12个月各个国家的旅游需求预测值就是2018年12个月中各个国家旅游需求的实际值,在EXCEL中直接复制粘贴即可。

由Naive方法产生的预测值几乎不需要任何软件操作,生成的预测值主要是为了作为基准模型进行对比。

    

2.ES指数平滑法

由于数据集中的旅游需求有明显的季节性变化特征,普通的指数平滑法并不适用,需要用包含了季节性因素的指数平滑法。

①将数据导入SPSS并编辑日期

将2002年-2019年旅游需求数据导入SPSS后,选择分析-时间序列预测-创建传统模型,会显示定义日期,而数据集中的日期是以年份+月份的形式定义,因此在SPSS的个案类型中选择“年,月”,并定义第一个个案是2002年1月份,确定之后SPSS就会按照时间顺序自动给所有个案赋予时间定义。

②指数平滑法操作

在SPSS中选择分析-时间序列预测-创建传统模型,将六个国家的变量全部选入因变量一栏,自变量不需要选择,在时间序列建模器页面选择“指数平滑法”,并在指数平滑条件页面选择“简单季节性”。

在统计选项下,勾选“显示预测值”,在图选项下,勾选“显示拟合值”

在选项页面,需要输入预测期的时间,在本数据集中,评估期指的就是2002年1月-2018年12月,评估期结束后的第一个个案会自动定义时间为2019年1月,而我们需要预测从2019年1月-12月的数据,因此需要输入预测期的下限,也就是指定日期。

输入2019年12月之后,SPSS在运行时就会预测从2019年1月-12月之间的旅游需求了,同理,如果还想要预测更多年份,比如2020年、2021年,则可以在下方输入2020年12月、2021年12月。

在输入完毕后,在“变量”页面也会有所显示:

最终的页面:

③指数平滑法结果

结果给出了从2019年1-12月的预测值,并报告了R方,RMSE、MAPE、MAE,其中R方是报告了不同国家的数值,但是RMSE、MAPE、MAE是报告了六个国家模型拟合后的总体误差。另外,运行结果中还通过图像的形式报告了预测值与实际值的走向趋势,图像中黑线以后的数据就是2019年1月-12月的预测值,黑线之前的是2002年1月-2018年12月的预测值和实际值。

从图中2002年1月-2018年12月的预测值和实际值的比较可以看出,在2019年前拟合效果最好的是Korea,两条线几乎完全重合;其次是Japan,重合度也非常高;再其次是HongKong和Thailand,预测值和实际值的平均值基本一直,描绘出了整体趋势,但是有一些峰值并没有拟合得很好;最后是Macao和Singapore,尽管预测值拟合出了整体趋势和均值,但是有大量数据并没有重合,有所偏差。

尽管从2002年1月-2018年12月的预测值和实际值可以看出拟合效果好坏,但是并不能依次判断哪个国家得模型最准确,在2019年得真实数据已知之前,这些都是不得而知的。

至于该模型的具体拟合程度和预测性能会在后面可视化部分看的更加清楚。

3.ARIMA方法

①差分

在时间序列预测中选择“序列图”

观察在没有任何差分的情况下,时间序列是否平稳:结果如下列右图所示,几乎六个国家的时间序列值都是不平稳的,因此需要进行差分。

选择差分,如下列右图所示,选择差分1阶后,序列已经平稳,因此ARIMA的I参数d值应该取1。

②P,Q的确定

在SPSS中,可以通过分析-时间序列预测-自相关观察ACF图和PACF图的截尾、拖尾,进行p,q的大致确定,但是详细的判断方法还需要用AIC、BIC信息准则来判断。(这里不做过多介绍)

各个国家模型的P,I,Q值如下:

HongKong

(11,1,12)

Japan

(12,1,12)

Korea

(2,1,3)

Macao

(2,1,12)

Singapore

(4,1,12)

Thailand

(6,1,6)

③ARIMA操作

在时间序列建模页面的方法一栏改为“ARIMA方法”,在条件中输入P,I,Q值,其他设置与之前所述的指数平滑法类似,预测期依然是2019年1月-12月。

由于不同国家的模型对应的P,I,Q值都不一样,因此需要逐个生成模型。

④结果

以HongKong为例(避免篇幅过长其他国家的具体数据不做展示)

4.组合预测与总结

将(S)Naive方法、指数平滑法、ARIMA方法生成的预测值进行算数平均,生成组合预测值,并作图对比各种方法预测的结果。

四、误差分析——Tableau可视化

1.误差计算

在获取2019年数据的实际值后,本文中以MAPE来计算不同模型的计算误差。也就是用预测值减去实际值的绝对值除以实际值。

2.Tableau可视化分析

先将预测结果、实际值、误差汇总到同一张表格中,合理分配字段和记录。

导入Tableau之后拖拽字段

①多步预测误差对比

在下图中,上半部分图表表示预测期内从2019年1月到2019年12月的预测值和实际值对比,浅色折线是四个模型的预测值,深灰色折线代表实际值。

下半部分代表各个模型在2019年月-2019年12月的各个月份预测误差,其中某个色块的面积越大,代表误差越大,预测就越不准确。

从上图中可以看到从2019年月-2019年12月,浅色折线部分也就是预测值部分趋势都保持一致,说明各个模型预测的趋势是趋同的,但是不同的模型的预测范围有明显的倾向,比如Naive方法的预测就明显偏小,ARIMA方法与ES方法(指数平滑法)预测结果较为相似,且都偏大。

由于本次预测中是由2002年-2018年的数据一次性生成了2019年12个月的数据,预测值从一步预测值达到了十二步预测值。从上半部分的深色折线对比和下半部分图表的面积来看,预测步长越大预测的误差也就越大,对于四个模型来说都是如此。

②六个不同地区的预测误差

除了预测步长会对预测误差产生影响,现在考虑:对于不同的地区来说,预测误差会有区别吗?

下图也是由Tableau生成,该图中反映不同国家在2019年1-12月期间的预测误差,但是是将四个模型预测误差进行综合后的结果,因此没有反映四个模型的各自预测误差。

总体情况:

从图中可以看出,Hongkong地区在2019年8月以后的预测误差非常大,MAPE甚至超过了100%。

图表中,在Hongkong地区的对比下,其他地区在各个月份的预测误差都没有形成显著的差异,现在考虑排除出Hongkong地区后的误差结果。

排除极端值地区后的情况:

可以看到,在排除Hongkong地区后的误差图中,横轴衡量坐标尺的最大值变小,其他各个地区的误差对比也更加显著了。

③地区-模型误差对比分析

在上一步中我们分析了各个国家在12个月中的总体误差情况,没有考虑各个模型的因素,现在加入模型因素后进行考虑,来观察对于不同国家来说哪个模型性能更好。

由于加入Hongkong之后会使得坐标轴尺度变得极端,因此下图中是排除了Hongkong地区保留其他五个地区的情况。

排除极端值地区的情况:

从上图可以看出:

1.除了Singapore以外,其他四个地区都是Naive方法的误差所占面积最大,表明对于这四个地区来说Naive方法是预测效果最差的一个。

2.从总面积来看,除了Hongkong以外,Korea地区的总体预测误差是最大的。

3.组合预测的效果几乎在这五个国家中都是最好的,这表明组合预测具有一定的优势,能避免极端情况的出现,即避免最坏的情况发生。

4.ARIMA方法和ES方法的预测效果相当,对于不同国家来说这两个方法可能会相互占有微弱优势,整体来看ARIMA方法和ES方法的预测效果和结果都是比较相当的。

对极端值地区(Hongkong)的单独分析结果:

对于Hongkong地区,预测效果最好的是ES,最差的是ARIMA,但在这次预测中,组合预测虽然没有成为最坏的结果,但是也并没有体现出组合预测的优势。

④不同模型的整体误差分析和性能对比

考虑整体的情况:

从图中看出,四个模型对各个国家预测的整体趋势都是比较一致的,且不同国家的旅游需求量级分布也有着显著区别,这在先前的图表中也得到了印证,Hongkong地区的误差偏大极端效应比较明显。

排除极端值地区后的情况:

由于Hongkong地区的误差所显示的面积占比过大,不能直观从图中看出各个模型性能效果,现在考虑排除Hongkong地区后的图表:

图表下方的堆积图面积表示误差大小,不同色块代表不同国家。

在排除了Hongkong地区的极端值影响后,图表看起来更加直观。

从总面积来看,Naive方法的预测效果最差;ES方法对于步长较小的预测(六步以内)效果较好;ARIMA模型和组合预测的整体效果比较相当,从该表中暂时无法观测出显著差别。

⑤补充-发现

观察以下两张图:

可以发现Hongkong单独图表中的趋势与第一节中的总表趋势十分相似,猜测由于Hongkong地区在2019年后期导致的预测误差对总表中的误差贡献较大,因此考虑排除这一地区后再来看总体效果:

可以发现,在排除了Hongkong地区之后,预测误差的面积分布更加平稳,在预测期(2019年)的后半段中预测值也更加接近实际值,因此一定程度上可以说明Hongkong地区的后期预测极端误差在进行总体分析时造成了影响。

  • 33
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值