A TIME SERIES IS WORTH 64 WORDS: LONG-TERM FORECASTING WITH TRANSFORMERS
本文提出一种基于transformer的多变量时间序列预测和自监督表示学习模型的有效设计。它基于两个关键部分:(i)将时间序列分割为子序列级的补丁,这些补丁作为Transformer的输入标记;(ii)通道独立性,其中每个通道包含一个单一的单变量时间序列,在所有序列中共享相同的嵌入和Transformer权重。补丁设计自然有三个好处:嵌入中保留了局部语义信息;给定相同的回视窗口,注意力图的计算和内存使用二次减少;并且模型可以参与更长的历史。与基于SOTA Transformer的模型相比,通道无关的patch time series Transformer (PatchTST)可以显著提高长期预测精度。将该模型应用于自监督预训练任务,并实现了出色的微调性能,在大型数据集上优于监督训练。将一个数据集上的掩码预训练表示迁移到其他数据集上也可以产生SOTA的预测精度。
关键设计
本文试图通过提出一种通道无关的patch time series Transformer (PatchTST)模型来回答这个问题,该模型包含两个关键设计:
1.Patching
具体来说,它们都是将时间序列分成若干个时间段(Preformer里用的术语是segment,本文用的是patch,实际上是差不多的),每一个时间段视为一个token(这不同于很多Transformer-based模型将每一个时间点视为一个token)。
patch的结构如下图所示。对于一个单变量序列(为什么是单变量,可以看下一小节Channel-independence中的介绍),将其划分为 N 个patch(可以是有重叠的,也可以是无重叠的,无