时序预测之一_概述

最新推荐文章于 2024-08-30 03:31:35 发布

xieyan0811

最新推荐文章于 2024-08-30 03:31:35 发布

阅读量4.3k

点赞数 2

分类专栏：机器学习

本文链接：https://blog.csdn.net/xieyan0811/article/details/79565790

版权

机器学习专栏收录该内容

40 篇文章 9 订阅

订阅专栏

1. 说明

前一段参加了天池的“盐城汽车上牌量预测“比赛。第一次面对大规模的时序问题，从比赛的过程，到赛后各位大佬的算法分享，收获很多。也将解决该类问题的套路在此总结一下。
本篇是总述，其中提到的具体算法，如：加窗，ARIMA，傅里叶/小波变换，LSTM等等将在本系列的后续文章中一一详述。

2. 问题描述

上牌量预测是一个典型的时序问题，且数据简单清晰，以复赛Ａ榜数据为例，它提供了前3年的10种品牌汽车每天的上牌量，预测未来半年中每天的各品牌的上牌量。
提供的信息只有之前的上牌量，日期数据和星期几，是一个单变量的预测问题（暂不计各品牌间的相互影响），比较困难的是：它不是预测一天，而是预测几百天，有些时序模型无法使用。

3. 步骤

对比一下自己和大家的解决方案，基本都可以拆解成以下步骤

(1) 还原日期

比赛数据对日期进行了脱敏处理，没给具体年月日，但提供了周几的信息，其中有些节假日上牌量为0的也没有给出对应记录。第一步大家都补全了日期，加入了真实日期，和节假日信息。
这里介绍两个相关阴历的时间转换库：
chinese_calendar，Lunar-Solar-Calendar-Converter

(2) 从日期中提取信息

这是各显神通的环节，大家根据自各经验，提取了各种各样的特征，总结如下：
假期长度、调休日期、与节假日的时间距离；
某年中的第几个月，某年有的第几周，某月中的第几周，某月中的第几日，某年中的第几日（阴历/阳历分别取），正数/倒数第几个工作日。

(3) 提取周期信息

对于周期提取，基本有两种做法，一种是手工计算出同比，环比，往期数据，直接加入Feature，然后用GBDT生成决策。另一种是用ARIMA预测出大致的周期趋势，然后用GBDT描述其余细节。

i. 手工加入周期数据

有一些方案完全没使用趋势和周期算法，排名也挺靠前的，其原因是，他们直接把周期和统计数据做成了特征，比如：用shift()把前N天的上牌量做为当天的特征，用rolling()将前Ｎ天均值作为当天特征，将阴历/阳历的去年同期（月、周）数据作为当期特征，环比的最大值，最小值，分位数等等。这种方法的好处是模型可以同时处理维度的各种特征，美中不足是可能损失一些对趋势的预测。

ii. 算法预测周期和趋势数据

此类方案以ARIMA代表，ARIMA，小波变换，线性拟合，它们是解决时序问题的传统方法。再与GBDT算法相结合，处理一些不能被周期性识别的细节。这种方法的优点是兼顾整体和细节，问题时在预测长周期时，后期有严重的衰减。