Informer：AAAI2021 最佳论文整理

最新推荐文章于 2023-12-22 21:30:23 发布

Cestbo1

最新推荐文章于 2023-12-22 21:30:23 发布

阅读量1.4k

点赞数 2

分类专栏：深度学习时序预测注意力机制文章标签：算法深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zsycode/article/details/115667074

版权

前言

本文是在Transformer的基础上进行的改进，首先作者提出Transformer在长时间序列预测中的三个局限性：

自注意力的二次计算复杂度 $O(L^2)$ （L表示输入序列的长度）
堆叠J层编码器（解码器）后会是内存使用量达到 $O(JL^2)$ ，这限制了模型接收长序列输入的可伸缩性
Transformer解码器中step-by-step推断流程，会导致在预测长输出时速度急剧下降

Transformer

既然是在Transformer的基础上，就先了解下Transformer
在这里插入图片描述
Transformer单看结构还是比较好理解，编解码器组合，编解码器中都是多层多头注意力和前馈神经网络组成。多头注意力思想就是执行多次注意力以达到更稳定的注意力分配，可以参考注意力机制的改进

Transfromer中使用的自注意力，公式如下
在这里插入图片描述
一般Q的长度等于K，故其中点积 $QK^T$ 的时间复杂度达到 $O(L^2)$

最低0.47元/天解锁文章

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。