Informer论文总结

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

1 研究背景

长序列时间序列预测(LSTF)是是一种针对时间序列数据分析的任务,专注于预测未来较远时间点上的值或模式。在实际应用中,广泛应用于诸如能源预测、交通预测、气候预测、疾病传播模拟等领域,这些场景往往需要对数周、数月乃至数年的未来情况进行估计。研究者常需开发或改进模型,如使用深度学习方法(如TransformerLSTM等)来增强模型捕获长期依赖关系的能力,以及引入循环神经网络(RNN)、注意力机制、以及结合传统统计方法等策略来提升预测的准确性和稳定性。

2 transformer的局限性和创新

2.1LSTF面临的主要挑战:

提高预测能力以满足日益增长的长序列需求,这需要非凡的远程对准能力和对长序列输入和输出进行高效运算。最近的研究表明,Transformer有可能提高预测能力。然而,Transformer有几个严重的问题,使其无法直接适用于LSTF

出发点

(1)Transformer中的自注意力计算是平方复杂度 O(L2)

(2)传统Transformer的Block输入输出的shape不变是柱状形式,J个Block带来的复杂度就是 O(Z2)*J,导致模型的输入无法变的过长,限制了时序模型的可扩展性。

(3)传统Transformer的Decoder阶段输出是step-by-step,一方面增加了耗时,另一方面也会给模型带来累计误差。

2.2创新点

(1)提出了ProbSparse self-attention mechanism的注意力方法,在耗时和内存上都压缩到了 O(Z*logZ)的复杂度。红色部分。

(2)每个注意力Block之间都添加了"蒸馏"操作,通过将序列的shape减半来突出主要注意力,原始的柱状Transformer变成金字塔形的Transformer,使得模型可以接受更长的序列输入,并且可以降低内存和时间损耗。黄色部分。

(3)设计了一个较为简单但是可以一次性输出预测值的Decoder。

红色圈:用 ProbSparse Self-attention 代替了 self-attention ,采用一种新的attention机制减少了计算量。

蓝色圈:Self-attention Distilling,减少维度和网络参数量

黄色圈:Layer stacking replicas 提高了鲁棒性

  • 43
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值