基于查询选择器的长期序列预测——稀疏注意的高效模型
关注人工智能学术前沿 回复 :ts27
5秒免费获取论文pdf文档,及项目源码
摘要
最近对TRANSFORMER进行了各种修改,用于解决时间序列预测问题。我们提出了一种高效的、确定性的稀疏注意矩阵查询选择器算法。实验表明,该方法在ETT数据集上取得了较好的结果。
1.介绍
时间序列预测(TSF)是统计研究的一个古老而重要的领域,在解决现实生活问题方面有着广泛的实际应用。它已被应用于解决商业活动的许多领域所产生的问题,如金融、医疗保健、商业管理和其他。另一方面,它已被用于模拟自然现象,如地震,道路交通等。乍一看,这似乎是机器学习(ML)算法的一个非常有前景的应用领域,特别是那些称为深度学习(DL)方法。然而,这方面的情况还不清楚,甚至一些采用更传统的TSF方法的专家也表达了他们普遍的疑虑,即DL方法是否最适合TSF ([Elsayed等,2021])。我们认为情况并非如此,如果在这一领域中仍然存在的障碍被克服了,那么DL方法将会盛行——类似于在自然语言处理(NLP)领域中发生的情况。我们认为现存的主要障碍在于为TSF建立正确的DL模型,并找到能够处理与建模TSF相关的沉重计算负担的软件实现。
2.模型概述
如前所述,随着输入数据长度和预测范围的增加,时间序列预测的计算难度越来越大。因此,计算障碍是TSF研究领域的一个固有问题。为了解决这些问题,我们研究了用稀疏矩阵逼近全注意矩阵来降低这种复杂性的几种方法。我们发现,解决这个问题的以下方法最有趣的是LogSparse [Li等人,2020]、Reformer [Kitaev等人,2020]和Informer [Zhou等人,2021]。此外,由于Informer报告的结果优于其他提到的系统,所以我们的分析集中在这个算法上。Informer 方法的线索似乎包含在所谓的概率稀疏注意中。它依赖于索引的聪明选择,这些索引将用于计算一个矩阵,该矩阵近似于 vanilla Transformers中的注意力矩阵。
在对该方法进行分析和实验的过程中,我们得出一个结论,在长序列TSF的情况下,基于Transformer的系统可以使用各种各样的注意矩阵逼近指标的概率选择来收敛到最优。使用概率方法的主要缺点之一是很难比较不同的实验与变化的参数。因此,我们提出了一种简单而有效的、完全确定性的方法来计算注意力矩阵的稀疏逼近,在各种时间序列数据集上都有很好的结果。
Transformer体系结构的基本概念回顾,并设置必要的符号。给定输入表示X,注意矩阵可计算如下:首先,我们通过线性投影计算每个注意力头的查询、键和值矩阵,,其中Q、K、V分别表示查询、键和值矩阵,WQ、WK、WV为线性投影。然后,通过缩放点积运算计算注意矩阵
查询选择器方法
处理后的公式
关注人工智能学术前沿 回复 :ts27
5秒免费获取论文pdf文档,及项目源码
3.实验概述
基线模型
Informer的作者论文当时选择了五种时间序列预测方法作为比较,包括ARIMA (Ariyo, Adewumi,和Ayo 2014), Prophet (Taylor和Letham 2018), LSTMa (Bahdanau, Cho,和Bengio 2015), LSTnet (Lai等,2018)和DeepAR (Flunkert, Salinas,和Gasthaus 2017)。
本文作者选用的数据集与lnformer模型相同。所以基线模型仅仅选择预测性能最佳的lnformer。
lnformer模型相关的介绍在上篇文章有做详细的介绍,需要了解请点击链接。
数据集
在我们的实验中,我们使用了ETT(电力变压器温度)数据集。在该数据集中,每个数据点由8个变量组成,包括点的日期、油温等6个在中国变电站测量的参数。
更多细节和数据访问请访问https://github.com/zhouhaoyi/ETDataset。
实验结果
图1:不同输入长度对查询选择器因子f的MSE的影响
表2:单变量时间序列预测结果。
表3多元时间序列预测结果。