Informer:AAAI2021 最佳论文整理

前言

本文是在Transformer的基础上进行的改进,首先作者提出Transformer在长时间序列预测中的三个局限性:

  1. 自注意力的二次计算复杂度 O ( L 2 ) O(L^2) O(L2)(L表示输入序列的长度)
  2. 堆叠J层编码器(解码器)后会是内存使用量达到 O ( J L 2 ) O(JL^2) O(JL2),这限制了模型接收长序列输入的可伸缩性
  3. Transformer解码器中step-by-step推断流程,会导致在预测长输出时速度急剧下降

Transformer

既然是在Transformer的基础上,就先了解下Transformer
在这里插入图片描述
Transformer单看结构还是比较好理解,编解码器组合,编解码器中都是多层多头注意力和前馈神经网络组成。多头注意力思想就是执行多次注意力以达到更稳定的注意力分配,可以参考注意力机制的改进

Transfromer中使用的自注意力,公式如下
在这里插入图片描述
一般Q的长度等于K,故其中点积 Q K T QK^T QKT的时间复杂度达到 O ( L 2 ) O(L^2) O(L

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值