前言
本文是在Transformer的基础上进行的改进,首先作者提出Transformer在长时间序列预测中的三个局限性:
- 自注意力的二次计算复杂度 O ( L 2 ) O(L^2) O(L2)(L表示输入序列的长度)
- 堆叠J层编码器(解码器)后会是内存使用量达到 O ( J L 2 ) O(JL^2) O(JL2),这限制了模型接收长序列输入的可伸缩性
- Transformer解码器中step-by-step推断流程,会导致在预测长输出时速度急剧下降
Transformer
既然是在Transformer的基础上,就先了解下Transformer
Transformer单看结构还是比较好理解,编解码器组合,编解码器中都是多层多头注意力和前馈神经网络组成。多头注意力思想就是执行多次注意力以达到更稳定的注意力分配,可以参考注意力机制的改进
Transfromer中使用的自注意力,公式如下
一般Q的长度等于K,故其中点积 Q K T QK^T QKT的时间复杂度达到 O ( L 2 ) O(L^2) O(L