【Informer】超长序列时间序列预测的高效transformer

超长序列时间序列预测的高效Transformer

在这里插入图片描述
摘要:
许多实际应用需要长序列时间序列的预测,如电力消耗规划。长序列时间序列预测(LSTF)要求模型具有较高的预测能力,即能够有效地捕捉输出和输入之间精确的远程依赖耦合。最近的研究显示了Transformer在提高预测能力方面的潜力。然而,Transformer存在一些严重的问题,使其无法直接应用于LSTF,包括二次元时间复杂度、高内存使用量和编码器-解码器体系结构的固有限制。为了解决这些问题,我们设计了一个高效的基于transformer的LSTF模型,命名为Informer,该模型具有三个显著特征:(i) ProbSparse自注意机制,在时间复杂度和内存使用方面达到O(L log L),并在序列依赖对齐方面具有相当的性能。(ii)自我注意蒸馏通过将级联层输入减半来突出支配性注意,并有效地处理极长的输入序列。(iii)生成式译码器虽然概念简单,但对长时间序列序列进行一次正向预测,而不是一步一步的预测,大大提高了长序列预测的推理速度。在四个大规模数据集上的大量实验表明,Informer方法明显优于现有方法,为LSTF问题提供了一种新的解决方案。
引言:
时间序列预测是许多领域的关键组成部分,如传感器网络监测、能源和智能电网管理、经济和金融以及疾病传播分析。在这些场景中,我们可以利用大量关于过去行为的时间序列数据来进行长期预测,即长序列时间序列预测(LSTF)。然而,现有的方法大多是在
短期问题设置下设计
的,比如预测48点或更少。随着序列长度的不断增加,模型的预测能力受到了很大的压力,这一趋势正影响着LSTF的研究。作为一个经验例子,图(1)显示了在真实数据集上的预测结果,其中LSTM网络预测了一个电力变电站从短期(12点,0.5天)到长期(480点,20天)的小时温度。当预测长度大于48点(图(1b)中的实星)时,整体性能差距很大,此时MSE上升到性能不理想的程度,推理速度急剧下降,LSTM模型开始失效
LSTF的主要挑战是提高预测能力,以满足日益增长的长序列需求,这需要(a)超长的远程对齐能力和(b)对长序列输入和输出的高效操作。最近,Transformer模型在捕获远程依赖关系方面表现出优于RNN模型的性能。自注意机制可以将网络信号传播路径的最大长度减少到理论最短O(1),避免了循环结构,因此Transformer在LSTF问题上表现出了巨大的潜力。然而,由于自注意机制的l -二次计算和l -长度输入/输出的内存消耗,它违反了要求(b)。一些大型Transformer模型投入了大量资源和在NLP任务上产生了令人印象深刻的结果,但这些模型需要在数十个gpu上进行训练,且部署成本昂贵,无法用于实际的LSTF问题自注意机制和Transformer架构的效率成为将其应用于LSTF问题的瓶颈。因此,在本文中,我们试图回答这个问题:我们能否改进Transformer模型,使其计算、内存和体系结构更高效,同时保持更高的预测能力?
Vanilla Transformer在解决LSTF问题时有三个显著的局限性:

  1. 自我注意的二次计算。自注意机制的原子操作,即规范点积,使每层的时间复杂度和内存使用量为O(L2)
  2. 为长输入堆叠层时的内存瓶颈。J个编码器/解码器层的堆栈使得总内存使用量为O(J·L2),这限制了模型在接收长序列输入时的可扩展性。
  3. 预测长输出时的速度骤降。vanilla Transformer的动态解码使得逐步推理与基于rnn的模型一样慢。
    之前有一些关于提高自我注意效率的研究。The Sparse Transformer、LogSparse Transformer 和Longformer 都使用启发式方法来解决限制1,并将自注意机制的复杂性降低到O(L log L),其效率增益是有限的。改革器也实现了O(LlogL)和局部敏感的哈希自注意,但它只适用于极长的序列。最近,Linformer 提出了一个线性复杂度O(L),但对于现实世界的长序列输入,项目矩阵无法固定,可能存在退化到O(L2)的风险。Transformer- xl和compression Transformer 使用辅助隐藏状态捕获远程依赖性,这可能放大限制1,不利于打破效率瓶颈。这些工作主要集中在限制1上,而限制2和3在LSTF问题中一直没有得到解决。为了提高预测能力,我们解决了所有这些限制,并在建议的信息提供者中实现了超越效率的改进。
    为此,我们的工作明确地探讨了这三个问题。我们研究了自注意机制中的稀疏性,对网络组件进行了改进,并进行了大量的实验。本文的贡献总结如下:
    1在LSTF问题中,我们提出了Informer来成功地提高预测能力,从而验证了the Transformer-like models在捕获长序列时间序列输出和输入之间的单个远程依赖性方面的潜在价值
    2我们提出ProbSparse自注意机制来有效地取代规范的自注意机制。它在依赖对齐上实现了O(Llog L)时间复杂度和O(LlogL)内存使用。
    3我们提出了自我注意蒸馏操作,以特权占主导地位的注意评分j堆叠层和将总空间复杂度大幅降低为O((2−?)L log L),便于接收长序列输入。我们提出生成式译码器,以获取长序列输出,只需要一个向前的步骤,同时避免在推断阶段累积错
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值