1.4 预测数据与方法
适当的预测方法在很大程度上取决于可利用的数据。
如果没有可用的数据,或者可用的数据与预测不相关,则必须使用定性预测方法。这些方法不是纯粹的猜测——有一些结构完善的方法可以在不使用历史数据的情况下获得良好的预测。这些方法将在第四章中讨论。
1.4.1 当满足以下两个条件时,可以进行定量预测:
- 过去的数字信息是可用的;
- 假定过去模式的某些方面将延续到未来是合理的。
定量预测方法的范围很广,通常是在特定学科为特定目的而发展出来的。每种方法都有自己的特性、准确性和成本,在选择特定方法时必须考虑这些因素。
大多数定量预测问题要么使用时间序列数据(在一段时间内定期收集),要么使用横断面数据(在单个时间点收集)。在这本书中,我们关注的是预测未来数据,我们集中在时间序列域。
1.4.2 时间序列预测
时间序列数据的例子包括:
1、 IBM每日股价
2、月降雨
3、亚马逊季度销售结果
4、每年谷歌的利润
任何随着时间的推移而被观察到的东西都是时间序列。在本书中,我们将只考虑在有规律的时间间隔(例如,每小时、每天、每周、每月、每季度、每年)观察到的时间序列。不规则间隔的时间序列也可能发生,但超出了本书的范围。
当预测时间序列数据时,目的是估计观测序列将如何持续到未来。
图1.1显示了澳大利亚从1992年到2010年第二季度的啤酒产量。
- 蓝线表示对未来两年的预测。请注意这些预测是如何捕捉到历史数据中的季节性模式,并在未来两年复制这种模式的。
- 暗阴影区域显示80%的预测间隔。也就是说,每个未来值都有80%的概率位于暗阴影区域。
- 浅色区域显示95%的预测间隔。
- 这些预测区间是显示预测中不确定性的一种有用方法。在这种情况下,预期的预测是准确的,因此预测的间隔是相当窄的。
- 最简单的时间序列预测方法只使用被预测变量的信息,而不试图发现影响其行为的因素。因此,他们将推断趋势和季节模式,但他们忽略了所有其他信息,如营销活动、竞争对手活动、经济条件的变化,等等。
- 用于预测的时间序列模型包括分解模型、指数平滑模型和ARIMA模型。这些模型分别在第6、7和8章中讨论。
1.4.3 预测变量和时间序列预测
预测变量通常在时间序列预测中很有用。
例如,假设我们希望预测炎热地区在夏季的每小时电力需求(ED)。带有预测变量的模型可能是这种形式:
每小时店里需求(ED)=f(当下温度, 经济实例, 一天的用点时间,一周的用电天数, 周数,误差).
- 这种关系并不精确——电力需求总是会发生变化,而预测变量无法解释这些变化。
- 右边的“误差”项考虑了随机变化和模型中没有包含的相关变量的影响。我们称之为解释性模型,因为它有助于解释是什么导致了电力需求的变化。
由于电力需求数据是一个时间序列,我们也可以使用时间序列模型进行预测。在这种情况下,一个合适的时间序列预测方程的形式是:
t 是当下时间,t+1 下一个小时,t-1是之前一个小时,t-2是之前两个小时,以此类推。
在这里,对未来的预测是基于一个变量的过去值,而不是基于可能影响系统的外部变量。同样,右边的“误差”项考虑了随机变化和模型中没有包含的相关变量的影响。
还有第三种模型,它结合了上述两种模型的特点。例如,它可能由:
这些类型的“混合模型”在不同的学科中被赋予了不同的名称。它们被称为动态回归模型、面板数据模型、纵向模型、传递函数模型和线性系统模型(假设f是线性的)。这些模型将在第9章中讨论。
解释性模型是有用的,因为它包含了关于其他变量的信息,而不仅仅是要预测的变量的历史值。
然而,有几个原因,一个预测者可能选择时间序列模型而不是解释或混合模型。
- 第一,系统可能不被理解,而且即使它被理解了,它也可能非常难以度量被假定为管理其行为的关系。
- 第二,需要知道或预测各种预测者的未来价值,才能预测利息变量,这可能太难了。
- 第三,主要的担忧可能只是预测将会发生什么,而不是知道它为什么会发生。最后,时间序列模型可能比解释模型或混合模型提供更准确的预测。
用于预测的模型取决于可用的资源和数据、竞争模型的准确性以及预测模型的使用方式。