时序规则模型
时序规则模型分为两部:一、求出周期因子 二、求出base 三、周期因子*base即为预测值。
一、周期因子
例子:
周期因子有两种求法:
1.周期数据除以周期均值,再按列取中位数。
2.按列取平均数,再除以整体均值。
个人认为两种方法各有所适用的地方。
比如当特征的概率密度分布如图所示:
如果用第一种方法求周期因子,这时中位数就在波谷处取到,而数据的大部分都位于左右边,该中位数无法反映数据的情况。此时第二种方法就使用于这种情况。
如果数据存在异常值,第二种方法的均值可能受异常值影响而最终导致周期因子不准确。所以选择具体方法要看数据的情况。
二、求base值
一般较为稳健的办法是在求周期的均值再去周期后平均。
下图是直接采取第三周去周期后平均作为base。
预测值则为
周期因子*去周期以后的客流量
而这个周期要看具体的数据情况多少天为一个周期。如果发现明显的一个星期为周期但要预测一个月内的数据,要通过pd.merge()处理数据,然后一个月内的每一天都有不同星期几的数据,对其加权平均则为该天的周期因子。