A TIME SERIES IS WORTH 64 WORDS: LONG-TERM FORECASTING WITH TRANSFORMERS

西西弗的小蚂蚁

已于 2024-04-02 11:49:24 修改

阅读量35

点赞数

分类专栏：时间序列预测文章标签：深度学习人工智能自然语言处理

于 2023-02-21 11:44:08 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zj_18706809267/article/details/129139007

版权

A TIME SERIES IS WORTH 64 WORDS: LONG-TERM FORECASTING WITH TRANSFORMERS

本文提出一种基于transformer的多变量时间序列预测和自监督表示学习模型的有效设计。它基于两个关键部分:(i)将时间序列分割为子序列级的补丁，这些补丁作为Transformer的输入标记;(ii)通道独立性，其中每个通道包含一个单一的单变量时间序列，在所有序列中共享相同的嵌入和Transformer权重。补丁设计自然有三个好处:嵌入中保留了局部语义信息;给定相同的回视窗口，注意力图的计算和内存使用二次减少;并且模型可以参与更长的历史。与基于SOTA Transformer的模型相比，通道无关的patch time series Transformer (PatchTST)可以显著提高长期预测精度。将该模型应用于自监督预训练任务，并实现了出色的微调性能，在大型数据集上优于监督训练。将一个数据集上的掩码预训练表示迁移到其他数据集上也可以产生SOTA的预测精度。

关键设计

本文试图通过提出一种通道无关的patch time series Transformer (PatchTST)模型来回答这个问题，该模型包含两个关键设计:

1.Patching

具体来说，它们都是将时间序列分成若干个时间段（Preformer里用的术语是segment，本文用的是patch，实际上是差不多的），每一个时间段视为一个token（这不同于很多Transformer-based模型将每一个时间点视为一个token）。

patch的结构如下图所示。对于一个单变量序列（为什么是单变量，可以看下一小节Channel-independence中的介绍），将其划分为 N 个patch（可以是有重叠的，也可以是无重叠的，无

最低0.47元/天解锁文章

西西弗的小蚂蚁

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
A TIME SERIES IS WORTH 64 WORDS: LONG-TERM FORECASTING WITH TRANSFORMERS

对于一个单变量序列（为什么是单变量，可以看下一小节Channel-independence中的介绍），将其划分为 N 个patch（可以是有重叠的，也可以是无重叠的，无重叠的情况就相当于Preformer中的均匀分段），每个patch的长度为 P。具体来说，它们都是将时间序列分成若干个时间段（Preformer里用的术语是segment，本文用的是patch，实际上是差不多的），每一个时间段视为一个token（这不同于很多Transformer-based模型将每一个时间点视为一个token）。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。