收入时间序列——之数学理解篇

前言:思路导引

最初我的脑海里提出这个问题,是来源于业务那里,她们真真切切希望能准确的分解收入指标,但苦于实际模型极其复杂,虽然她们也的确找了一个模型,里面刻画了一些她们所能想到的各种因素,并给予了一定的权重,这是传统的解决方法,但实际效果却并不好,人工不断调整的幅度非常大。后来,她们想如果能很好的预测收入就会有一个标准基线,这相当于大大减轻分解指标的工作量,如果预测的越准,那么后期需要调整的动作就越小。这个难题困惑了她们很长一段时间。

我特别希望用一个快速有效的工具解决它,在机器学习算法里找到了LSTM,并给予了一个实践,效果并不是很好,尽管后来有所提升(参见《(四)利用LSTM深度学习模型预测门店收入》)。于是我就在想这是为什么?这里面的理论支撑、数学原理究竟是什么?通过深入探究,我发现这是属于时间序列理论的领地,走进去,豁!别有洞天啊!立刻找来一些时间序列的书来看,人大王燕那本书思路连贯性特别好,脉络很清晰,但比较简单,相当于入门;Ruey.S.Tsay(是个美籍华人)的书内容丰富更有深度,就是中文翻译文字通畅稍差些;[美]Cryer克莱尔的书写的很不错,都是从简单例子入手慢慢切入复杂分析,由浅入深,能加深对时序的理解。

确实,这是个数学问题。无论是早先的赌徒问题,抑或后来的醉汉问题(据说是希尔伯特提出的),都引出了随机游走,它是最简单的时序模型。后经统计学家的努力,结合时间序列样本深入研究得更具体,也更贴合实际问题。现阶段LSTM作为一种深度学习模型是借鉴了前人的所有数学思想,从而演化成利用高计算性能的神经网络来解决问题。网上曾有人问ARMA和LSTM的区别,很多回答也很具体,然而在我看来它们是同一数学思想的不同演化,表面上看虽有区别,但本质相同。ARMA将当前和过去建立一种线性关系,从而提炼出白噪声这样的期望为零性质很好的误差序列,继而研究用于表征各时间点关系的(偏)自相关系数等一系列指标,并使用检验统计量做显著性检验,以验证当前模型反映信息提炼的效果。LSTM作为RNN的一种形式,或者往更大范围说是一种神经网络模型,它也是一种信息提炼,或者可以理解成信息流过滤机制,针对时序数据也是将当前和过去建立一种线性关系,在神经网络各层间通过感知机激活传递有价值的信息。一个是信息提炼,一个是信息过滤;一个是以白噪声纯随机序列作为终结,一个是以损失函数收敛作为终结,殊途同归啊!其背后的核心数学原理都是空间变换【将实际样本空间的点数据,经过一系列几何变换(神经网络中的W权重矩阵,ARMA中的自回归系数或特征根)】和收敛性【挖掘样本数据中的规律,无论用何种方式其充要条件是收敛(神经网络中的loss收敛,ARMA中的自协方差及残差方差收敛)】。而且,我还发现,计算机在处理循环迭代上得心应手,这种独有的特质在处理复杂模型上更有优势,而数学完成整个支撑理论体系的建功立业,这种特有的逻辑推理则更有助于发现本质和理解本质。模型或工具的思想源泉全部来自于纯数学理论领域,这样的数学思想不得不说精彩之至。

下面,我结合学习总结了一些内容,这些都将用于后续数据探索和模型预测,在获得了通往这门学科的入场券及获悉了其知识内涵后,由衷的感觉很充实很快乐,也乐于将这些心得理解记录下来,分享出来。

一. 时间序列

时间序列一般分为以下三类:

(高斯)白噪声序列:纯随机序列,也称新息或扰动,特别地,当它符合均值为 0 、方差齐性 \gamma(0)=\sigma^{2} 正态分布时,我们称为高斯白噪声。高斯白噪声独立且同分布,白噪声序列独立未必同分布,独立的特点是自协方差函数 \gamma(k)=0 ,这里 k 是延迟时长,也就是说不同时间点的状态没有任何关系。类比人这一生,它是没有记忆的,在茫茫人海中出现又悄无声息的消失,挥一挥衣袖,不带走一片云彩,在数学上被认为是没有分析价值的,提取不到新信息,正是由于它的独立无关性,所以可以用它来构造线性组合。

(弱/宽)平稳序列:非纯随机序列,均值固定,二阶矩存在(为什么止步二阶矩?因为只考察协方差和方差,故无论对原点矩还是中心距到二阶就可以了),自协方差函数 \gamma(k)\ne0 ,自协方差函数与时间点选取无关只与时段长度有关,自相关函数会衰减趋于0,可以从中提取出内在影响关系的相关信息和规律,并以白噪声作为残差序列。同样作类比,芸芸众生总会有普世价值,总归是有规律可循,有价值和意义,并得以延续,数学上对平稳序列研究的很透彻。Word分解定理告诉我们一个平稳序列可以分解为确定性平稳和随机性平稳这两个互不相关的序列之和。弱平稳一般可以表示为 x_{t}=\mu+\frac{\Theta(B)}{\Phi(B)}\varepsilon_{t} 形式,其中确定性平稳序列就是均值函数 \mu ,随机性平稳序列就是白噪声 \varepsilon_{t} 的线性组合,ARMA模型拟合的就是后一部分,也就是说ARMA是对平稳序列里随机部分的分析研究。有的书将平稳序列一般形式写成 x_{t}=\mu+\sum_{i=0}^{q}{\psi_{i}a_{t-i}} ,其实是一样的,这里 a_{t-i} 是白噪声。因为当 q\rightarrow\infty 时是 AR 的另一种表示形式,此时 \psi_{i} 是自回归系数多项式表达(比如在AR(1)时是 \psi_{i}=\phi_{1}^{i} );当 q 为某一非负整数时是 MA(q) 表示形式,此时 \psi_{i} 恰是移动平均系数 \psi_{i}=\theta_{i} 。这两种形式都能看出任一平稳序列都可以表示成均值(确定性)和白噪声多项式(随机性)的组成,即Word分解定理的理解形式,后一种可能更直观一些。

非平稳序列:这世上存在的大多数序列都是非平稳的,但我们可以转化为平稳序列来研究。Cramer分解定理在Word分解定理基础上进一步推广成:任何时间序列都可以分解成确定性趋势成分(确定性影响)和平稳零均值误差成分(随机性影响)这两部分的叠加。如何理解?其实和上述Word分解定理类似,只不过确定性部分未必是均值,比如可能是时间的线性函数或二次函数关系,或者是季节指数关系等等;同时剩下的随机性部分仍是含白噪声的某种组合,但未必是线性的或平稳的,比如异方差。所以依此定理,非平稳序列的研究包括了以下两种分析方法:

(1) 确定性因素分解:主要是趋势和季节,一般通过最小二乘法/迭代法线性或曲线拟合、移动平均/指数平滑、季节指数等方法只能提取到强劲的确定性信息,对随机性信息浪费严重。

(2) 随机时序分析:对随机波动,用差分/条件异方差等方法进一步分析确定性因素之间的作用关系,弥补确定性因素分解在很多情况下拟合精度不高的问题。

倘若还是类比,这样的人生大起大落,不走寻常路线,其内总能蕴含让人问津的奥秘。

二. 自相关

可能有人注意到上面的“自”这个字眼,我早些时候曾经在一篇文章中看到过“自相关性”这样的文字描述,当时纳闷了一下,但也并没在意,因为那时候还不知道是时序理论里的东西。现在一切都知晓了!之所以有“自”,是因为它没有其它维度(增加到有输入输出就是多元时序分析)做横向分析,就只好拿自己和过去的自己作纵向分析。如何理解自相关?就好比在影视作品里,很帅的男主或靓丽的女主突然失忆了,这种失忆就对应着自相关性为0,因为他/她对自己过去任何时刻的事情都不记得了,也就是说各个时刻的事情之间产生不了任何关联,这就类似前面提到的白噪声了,变成了纯随机性的事物。于是剧情发展当然就是一点点往里加自相关性啦,一方给另一方营造浪漫温馨回忆,终于有一天男主或女主被唤醒记忆了,一切都那么美好!

那么在数学上如何表达(偏)自相关函数(系数)呢?给定一时序样本,我们有ACF(autocorrelation function):

再有PACF(Partial autocorrelation function),下式中 \hat{E}x_{t}、\hat{E}x_{t-k} 是条件期望:

PACF和ACF的区别是:ACF迭代考虑了 k 阶延迟观察值中间因素的影响;PACF则将这些中间因素当成常数来看,只单纯看当前和第 k 阶延迟这两者的关系,Partial就是部分的意思。经过计算,延迟 k 阶PACF实际上就是 AR 模型的第 k 个自回归系数 \phi_{k} 。

三. 平稳性检验

时序图检验:通过看图的方式,看均值是否稳定,方差是否齐次,是否存在趋势或季节。

(偏)自相关图检验(ACF、PACF):通过看图的方式,看自相关函数ACF和偏自相关函数PACF是否具有短期相关性,以及在 2 倍标准差范围内的收敛性、截尾、拖尾等性质。

单位根检验:判断AR特征根是否落在单位圆上(单位根),适用于 AR(p) 过程的平稳性检验。

白噪声检验ÿ

  • 3
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值