前言
由于研究方向是时间序列预测,对时间序列数据也颇感兴趣,特此简单记录学习过程。
参考文章:
1. 引言
1.1 时间序列
- 定义:按照一定的时间间隔排列的一组数据,其时间间隔可以是任意的时间单位,如小时、日、周月等。
比如,每天某产品的用户数量,每个月的销售额,这些数据形成了以一定时间间隔的数据。 - 时间序列分析:指从按时间排序的数据点中抽取有价值的总结和统计信息的行为。
时间序列分析既包含了对过去数据的诊断,也包括对未来数据的预测
时间序列可以分为平稳序列和非平稳序列两大类
- 平稳序列
序列中的各观察值基本上在某个固定的水平上波动,虽然在不同的时间段波动的程度不同,但并不存在某种规律,波动可以看成是随机的 - 非平稳序列
包含趋势、季节性或周期性的序列,它可能只含有其中一种成分,也可能含有几种成分。
1.2 应用场景
- 医学
- 天气
- 经济学
- 天文学
- 海洋学
等
落地场景:预测、异常检测和动态时间规整等
1.3 研究方法的递进
- 统计学方法 :
- 传统时序方法:AR、ARMA、ARIMA
- 机器学习模型:ANN、XGBoost、RF
- 深度学习模型:LSTM、Transformer、Bert
时间序列分析的主要任务之一是要建立时间序列适合的模型,通过建立模型来描述现象、事物随时间推移的变化规律性;并常常借助于模型进行预测。
2. 时间序列数据
2.1 数据的获取
- 开源数据仓库
- 音乐库数据
- 服务监控数据集
- 国家经济数据
- 政府开放数据
- 数据竞赛网站
- 从非显式数据中构造时间特征,创造时间序列数据
2.2 数据时间轴的确定
有时候在数据存储时并没有一列显式存在的时间列,这时候就需要我们去人为寻找和构造。
- 以事件记录的时间构造时间列
- 以另一个和时间相关的元素构造时间列,例如在一个数据集中行驶距离和时间是正相关的,此时就可以以距离来构造时间列
- 以物理轨迹的顺序作为时间列,例如在医学,天气等领域有些数据是以图片的形式存储的,此时可以从图像中提取时间列
2.3 时间序列遇到问题
- 时间值是在哪个过程产生的,以及何时产生的。通常事件发生的时间和事件被记录的时间往往是不一致的。
- 处理历史遗留数据,并没有清洗记录的文档说明,也无法找到处理数据流的人来确认时间戳产生的方式。
- 时间分辨率,这对于后续特征构造和模型有效性都有很大的影响。
- 数据缺失值处理以及可靠性