Multi-Patch Prediction: Adapting LLMs for Time Series Representation Learning

萧宛亦

于 2024-07-15 16:39:05 发布

阅读量2

点赞数

文章标签：人工智能深度学习机器学习

原文链接：https://arxiv.org/abs/2402.04852

版权

系列文章目录

多补丁预测：使 LLMs适应时间序列表示学习

摘要

在这项研究中，我们提出了 aLLM4TS，这是一种创新框架，适用于时间序列表示学习的大型语言模型 (LLM)。我们方法的核心是，我们将时间序列预测重新视为一种自我监督的多块预测任务，与传统的对比学习或掩模和重建方法相比，它可以更有效地捕获块表示中的时间动态。我们的策略包括两个阶段的培训：(i)。对各种时间序列数据集进行因果连续预训练阶段，锚定于下一个补丁预测，有效地将 LLM 功能与复杂的时间序列数据同步； (二). 在目标时间序列上下文中对多补丁预测进行微调。我们框架的一个独特元素是补丁式解码层，它不同于以前依赖于序列级解码的方法。这种设计直接将各个补丁转置为时间序列，从而显着增强模型掌握基于时间补丁的表示的能力。 aLLM4TS 在多个下游任务中展示了卓越的性能，证明了其在导出具有增强可转移性的时间表示方面的有效性，并标志着 LLM 适应时间序列分析的关键进步。

一、引言

时间序列分析 (TSA) 在无数实际应用中发挥着关键作用。当前最先进的 TSA 方法通常是针对特定任务定制设计的，例如预测（Zeng 等人，2023；Nie 等人，2023）、分类（Dempster 等人，2020）和异常检测（Xu 等人，2021）。尽管取得了这些进步，寻求能够解决不同下游任务的多功能时间序列表示仍然是一个艰巨的挑战。传统方法主要依赖于自我监督学习策略，例如对比学习（Yue et al., 2022；Yang & Hong, 2022）和掩模重建建模（Zerveas et al., 2021；Li et al., 2023）。然而，他们常常难以完全掌握时间序列复杂的时间变化特征，这是由于高级表示优化与下游低级任务之间的不一致（Xie et al., 2023），或者随机掩码引起的时间破坏而引起的。（Ma 等人，2023）。

大型语言模型 (LLM) 的出现彻底改变了自然语言处理领域（OpenAI，2023；Brown 等人，2020）。它们卓越的适应性超出了文本范围，正如通过对各种模式的提示或微调所证明的那样（Lu et al., 2023; Borsos et al., 2023）。这种适应性引发了人们对利用 LLM 进行 TSA 的兴趣激增。一些研究探索了 TSA 中冻结法学硕士的使用，要么通过巧妙的提示设计（Gruver et al., 2023；Yu et al., 2023；Xue & Salim, 2023），要么通过重新编程输入时间序列（Jin et al., 2023）等人，2023；曹等人，2023）。其他人已经尝试针对特定 TSA 任务微调 LLM（Zhou 等人，2023；Chang 等人，2023；Sun 等人，2023）。虽然这些方法显示出希望，但由于图 1 中的隐式表示自适应和不适当的序列解码器，它们往往无法生成全面的时间序列表示（Spathis & Kawsar，2023；Lee 等人，2023）。

认识到LLMs 在时间序列建模中的潜力以及上述方法的缺点，我们提出了 aLLM4TS，这是一个创新框架，充分发挥了法学硕士在一般时间序列表示学习方面的潜力。我们的框架将时间序列预测重新概念化为一种自我监督的多补丁预测任务。这种方法提供了一种更有效的机制来捕获补丁级别的时间动态，减轻对比学习中的建模不一致以及掩模和重建中的时间依赖性破坏，并与法学硕士的临时预训练过程保持一致。

在这里插入图片描述
图 1. 管道比较。给定一个时间序列嵌入/补丁序列 $x\in\mathbb{R}^{L\times D},D\gg P$ ，其中 P 是补丁大小和预测范围 H：基于非补丁的模型❶或基于补丁的模型❷使用巨大的序列将其映射到目标序列 - 水平线性层 $\mathbf{W}_s\in\mathbb{R}^{(L\cdot D)\times H}$ ；我们的基于补丁的并行解码 aLLM4TS ❸ 使用小型共享补丁级线性层 $\mathbf{W}_p\in\mathbb{R}^{D\times P}$ 将每个补丁解码到时域，而不对补丁之间的时间关系进行建模。具体来说，与基于序列的解码层相比，基于补丁的解码层的参数仅为 $\frac{P}{L*H}$ （例如，当 P = 16、L = 64、H = 720 时，为 0.34%）。学习范式。我们采用基于预测的两阶段预训练任务②，而不是对LLMs进行对比学习、掩蔽重建和有限的微调，以更好地将LLMs内的序列建模能力转移到时间序列上。

具体来说，我们实施了双管齐下的自我监督培训策略，为时间序列表示学习定制法学硕士。第一阶段涉及对各种时间序列数据集进行因果连续训练，重点关注下一个补丁预测，以将 LLM 功能与复杂的时间序列数据同步。后续阶段涉及对目标时间序列场景中的多补丁预测模型进行微调。我们框架的一个关键方面是补丁式解码器的创新设计（如图 1 所示）。这种设计要求模型将每个补丁独立地解码为时间序列，这与传统的序列解码方法不同，从而能够直接在补丁内对时间序列表示进行编码，因为解码器无法使用补丁序列进行时间动态建模。

总之，这项工作的主要贡献包括：

• 我们引入了aLLM4TS，这是一种创新框架，适用于基于补丁的时间序列表示学习的LLM。该框架采用基于两阶段预测的预训练策略。第一阶段包括因果下一个补丁训练，转移LLM能力以对时间序列数据进行细致入微的理解，然后是专注于多补丁预测的微调阶段，确保对特定时间序列上下文的稳健表示适应。

• 与在TSA 任务中利用序列式解码的传统方法不同，我们提出了一种新颖的补丁式解码方法。这种方法显着提高了 LLM 主干的适应性，更有效地优化基于补丁的时间序列表示学习。

• aLLM4TS 在各种下游 TSA 任务和不同的时间序列数据域中展示了卓越的性能，验证了其以卓越的可转移性导出时间序列表示的能力，并在该领域树立了新的基准。

二、 RELATEDWORK

2.1. Time Series Representation Learning

近年来，时间序列表示学习领域引起了越来越多的兴趣，其中自监督学习方法发挥着关键作用。这些方法一般分为两类：

对比学习。该类别包括旨在通过利用各种形式的一致性来细化表示空间的方法，例如子系列一致性（Franceschi 等人，2019a；Fortuin 等人，2019）、时间一致性（Tonekaboni 等人，2021；Woo 等人） ., 2022a; Yue et al., 2022)、转换一致性 (Zhang et al., 2022c; Yang & Hong, 2022) 和上下文一致性 (Eldele et al., 2021)。目标是确保正对的表示紧密对齐，而负对的表示明显分开。尽管对比学习方法有其优势，但它们常常难以适应预测等低级任务，这主要是由于它们关注高级信息（Xie et al., 2023）。

Masked Modeling。 PatchTST（Nie et al., 2023）开创性地利用补丁作为处理时间序列的基本单位，主张对屏蔽的子系列级别补丁进行预测，以掌握局部语义信息，同时最大限度地减少内存消耗。然而，这种方法往往会损害时间依赖性，并且无法保证时间动态的充分表示学习，因为屏蔽值通常是从相邻上下文中可预测地推断出来的（Li et al.,

2.2. Time Series Analysis based on LLMs

利用预先训练的LLMs在序列表示学习方面的卓越能力，将其应用于时间序列分析引起了人们的广泛关注。这项工作可以分为三种主要方法：
• 零样本适应。 Gruver 等人的研究。（2023）；薛和萨利姆（2023）；于等人。 (2023) 利用冻结法学硕士固有的序列表示能力来促进时间序列预测，而无需任何特定于任务的训练。
• 及时优化。金等人的作品（2023）；曹等人。（2023）；孙等人。 (2023) 将重新编程的输入时间序列与预训练的 LLM 的固有序列建模能力结合起来，旨在提高预测准确性。
• 有限的微调。像周等人的研究工作。（2023）；刘等人。（2023）；张等人。 (2023) 对法学硕士的选定组件进行微调，以提高时间序列分析任务的性能。

虽然这些方法产生了令人鼓舞的成果，但它们主要关注不同的 TSA 任务，而不是实现整体时间序列表示。

三、 PRELIMINARIES AND MOTIVATION

3.1. Preliminaries

时间序列预测（TSF）是时间序列分析中的基本挑战（Ma et al., 2023），旨在分析历史时间序列数据之间的动态和相关性以预测未来行为，公式为：
在这里插入图片描述
其中 L 是回溯窗口大小， $x_i^t$ 是第 t 个时间步第 i 个变量的值，建模目标是学习 H 个未来值的未知分布。

Casual Language Model Pre-training。目前的法学硕士大多属于休闲语言模型（OpenAI，2023；Radford 等人，2019）。它们利用对角屏蔽矩阵，确保每个令牌只能访问先前令牌的信息。训练目标是根据历史信息预测下一个标记，定义为：
在这里插入图片描述
其中 N 是令牌的数量， $\mathbf{x}_{i}$ 表示第 i 个令牌。

3.2. Motivation

我们通过提出并回答以下两个问题来解释我们提出的 aLLM4TS 解决方案的动机。

我们如何才能有效地适应时间序列模式的LLMs？传统对比学习 $\mathcal{L}_{CL}$ 和mask-andreconstruction $\mathcal{L}_{MR}$ 作为训练损失，定义为：
在这里插入图片描述
其中N表示训练样本（对）的数量，B−1是负样本的数量， $\mathbf{x}_{i}$ 表示第i个样本， $\mathbf{x}_i^p$ 是唯一的正样本， $\mathbf{x}_i^j$ 是 $\mathbf{x}_{i}$ 的第j个负样本， $\widehat{\mathrm{x}}_i$ 是对应的屏蔽样本，f(·) 是前向传播。两者都不适合将法学硕士适应时间序列，因为它们的建模目标与时间序列建模和法学硕士的随意序列预训练过程之间存在不可忽视的偏差（Xie et al., 2023; Dong et al., 2023）。然而，在等式的预训练阶段。 2、临时 LLM 经历与等式 2 中的 TSF 类似的培训过程。 1 在大量标记上（Brown et al., 2020；Radford et al., 2019），其中 $x_i^t$ 是第 i 个句子的第 t 个标记。这促使我们将时间序列预测重新表述为自我监督的多补丁预测任务。这提供了几个好处：(1) 保证高级表示优化和下游低级任务（对比学习失败）之间的建模一致性，从而培育具有在各种 TSA 任务中表现出色的强大预测能力的通用表示。 (2)避免掩蔽建模中随机掩蔽造成的时间依赖性破坏。（3）与LLM的预训练相一致，其中每个token都是随意预测的，有利于LLM无缝适应时域。因此，我们设计了一种基于预测的自我监督训练策略，如图 2 (a) 和 (b) 所示，将 LLM 出色的表示学习能力与时间序列变化自然同步，包括随意的下一个补丁连续预训练 -目标时间序列上下文中多面体预测的训练和微调。

序列级解码器是否适合基于补丁的时间序列表示？当前基于LLM的TSA模型（Jin等，2023；Zhou等，2023）遵循图1❷中传统的基于补丁的框架。给定基于块的时间序列表示 $\{\boldsymbol{p}_1,\cdots,\boldsymbol{p}_{L_p}\},\boldsymbol{p}_i\in\mathbb{R}^D$ 跨维度为 D 的 Lp 个块，它们通过序列级解码器 $\mathbf{W}_s\in\mathbb{R}^{(L_p\cdot D)\times H_p}$ 将块序列连接并映射到预测水平 Hp ，如果其中一个或所有值很大，则该值可能特别过大，从而导致严重的下游任务过度拟合。我们不是在序列级别进行映射，而是通过图 1 中的补丁式解码器在我们的框架内解开编码和解码，这涉及我们的整个流程（第 1 阶段和第 2 阶段）。这使得 LLM 主干和 patch-wise 解码器能够在其指定的角色中表现出色：对每个 patch 进行编码以获得更好的表示，并独立于时域对每个 patch 进行解码。
在这里插入图片描述
图2.aLLM4TS的模型框架。在第 1 阶段，休闲下一个补丁预训练 (a)，来自不同数据集的时间序列最初被转换为单变量补丁序列。然后，我们以不经意的注意力进行下一个补丁预测训练，有效地将 LLM 功能与复杂的时间序列数据同步。在第 2 阶段，多块预测微调 (b)，我们对目标时间序列上下文中的多块预测的几个层进行微调。首先，首先采用非参数方法来获得地平线的初始锚表示。接下来，我们将回溯窗口补丁和锚点连接起来，并在第 1 阶段训练后将它们输入到时间序列对齐的 LLM 中，并使用位置感知注意掩模，用历史补丁优化锚点。最后，所有优化的水平锚点通过共享的逐块线性解码器独立解码到目标时域。

四、 METHOD

我们的 aLLM4TS 是一个新颖的框架，重新定义了将法学硕士纳入时间序列分析的前景。

4.1. Casual Next-patch Continual Pre-Training

在本节中，我们建议进行随意的下一个补丁连续预训练，以将预训练的 LLM 序列建模功能与不同时间序列数据集（例如天气、交通）上的时间序列模式同步，如图 2 所示（ A）。

Forward Process。给定来自各种数据集的时间序列，我们首先将它们展平为 M 个单变量序列。我们将从时间索引 t 开始的第 i 个单变量序列的回溯窗口大小 L 表示为 $\boldsymbol{x}_{t:t+L-1}^{(i)}=\{x_{t}^{(i)},...,x_{t+L-1}^{(i)}\}\in\mathbb{R}^{1\times L}$ 其中 i = 1, …,M。然后将它们中的每一个首先分为补丁序列 $p_{t_{p}:t_{p}+L_{p}-1}^{(i)}=\{p_{t_{p}}^{(i)},...,p_{t_{p}+L_{p}-1}^{(i)}\}$ ∈ $\mathbb{R}^{L_p\times P}$ 其中 $t_{p} = \lfloor\frac{(t-P)}{S}\rfloor+1$ 是起始 patch 索引， $L_{p} = \lfloor\frac{(L-P)}{S}\rfloor + 1$ 是 patch 数量，P 是 patch 长度，S 是滑动步幅。最后，每个序列都独立地输入到临时 LLM 主干中，例如用于通道独立设置的 GPT2（Radford 等人，2019）。然后我们得到随意的下一个补丁预测 $\hat{\boldsymbol{p}}_{t_{p}+1:t_{p}+L_{p}}^{(i)}=\{\hat{\boldsymbol{p}}_{t_{p}+1}^{(i)},...,\hat{\boldsymbol{p}}_{t_{p}+L_{p}}^{(i)}\}\in\mathbb{R}^{L_{p}\times D}$ 。

损失函数。我们选择使用 MSE 损失来指导补丁级别的表示对齐。收集每个时间序列中的损失并在 M 个时间序列上进行平均，以获得总体目标损失： Lp = $\mathbb{E}_{\boldsymbol{p}}\frac1M\sum_{i=1}^M\|\hat{\boldsymbol{p}}_{t_p+1:t_p+L_p}^{(i)}-\boldsymbol{p}_{t_p+1:t_p+L_p}^{(i)}\|_2^2$ ，用于指导随意的下一个补丁时间序列表示优化，以揭示隐藏的时间动态，同时与 LLM 顺序建模能力保持一致。

4.2. Multi-patch Prediction Fine-tuning

在本节中，我们对自监督的多补丁预测任务进行微调，根据第 2 节中的随意的下一个补丁预训练模型，进一步细化补丁表示以与目标时间序列时间上下文保持一致。 4.1.

前进过程。如图 2 (b) 所示，给定第 i 个单变量时间序列 $x_{t:t+L-1}^{(i)}=\{x_{t}^{(i)},...,x_{t+L-1}^{(i)}\}$ ε $\mathbb{R}^{1\times L}$ 从时间索引 t 开始的回溯窗口大小 L、预测范围 H 和第 2 节中训练的时间序列对齐的 LLM fθ(·)。 4.1，我们首先准备预测锚点 $\dot{\boldsymbol{x}}_{t+L:t+L+H-1}^{(i)}=\{\dot{x}_{t+L}^{(i)},...,\dot{x}_{t+L+H-1}^{(i)}\}$ ε $\mathbb{R}^{1\times H}$ 通过非参数方法（最近历史 $x_{t+L-H:t+L-1}^{(i)}$ 或离散傅里叶预测）。然后将回溯窗口输入和anchor分为patch序列 $\boldsymbol{p}_{t_{p}:t_{p}+L_{p}-1}^{(i)} = \{\boldsymbol{p}_{t_{p}}^{(i)},...,\boldsymbol{p}_{t_{p}+L_{p}-1}^{(i)}\} \in \mathbb{R}^{L_{p}\times P}$ 且 $\dot{\boldsymbol{p}}_{t_{p}+L_{p}:t_{p}+L_{p}+H_{p}-1}^{(i)}=\{\dot{\boldsymbol p}_{t_{p}+L_{p}}^{(i)},...,\dot{\boldsymbol p}_{t_{p}+L_{p}+H_{p}-1}^{(i)}\}\in$ $\mathbb{R}^{H_{p}\times{P}}$ 其中 $t_{p} = \lfloor\frac{(t-P)}{S}\rfloor + 1, L_{p} = \lfloor\frac{(L-P)}{S}\rfloor + 1$ ， $H_{p} = \lfloor\frac{(H-P)}{S}\rfloor + 1$ ，P 是面片长度，S 是面片长度滑动步幅。接下来，这两个补丁序列被连接起来并输入到在第 1 阶段使用位置感知注意 maskAp 训练的时间序列对齐的 LLM 主干 fθ(·) 中，这增强了补丁之间的时间关系（每个未来锚点只能看到所有补丁）准确的历史补丁及其本身。）。最后，我们采用分块投影层 $\mathbf{W}_p\in\mathbb{R}^{D\times P}$ 将优化锚点 $\dot{\boldsymbol{p}}_{t_{p}+L_{p}:t_{p}+L_{p}+H_{p}-1}^{(i)_{o}}\in\mathbb{R}^{H_{p}\times D}$ 独立解码为时间块 $\hat{\boldsymbol{p}}_{t_{p}+L_{p}:t_{p}+L_{p}+H_{p}-1}^{(i)}\in\mathbb{R}^{H_{p}\times P}$ ，公式为 $\hat{\boldsymbol{p}}_{t_p+L_p+k}^{(i)}=\dot{\boldsymbol{p}}_{t_p+L_p+k}^{(i)_o}\mathbf{W}_p,k\in[0,H_p-1]$ 。

损失函数。我们将预测块从\hat{\boldsymbol{p}}_{t_p+L_p:t_p+L_p+H_p-1}^{(i)}展平到 $\hat{x}_{t+L:t+L+H-1}^{(i)}$ ，收集并平均 M 个时间序列中的损失：Ls = $\mathbb{E}_{\boldsymbol{x}}\frac1M\sum_{i=1}^M\|\hat{\boldsymbol{x}}_{t+L:t+L+H-1}^{(i)}-\boldsymbol{x}_{t+L:t+L+H-1}^{(i)}\|_2^2$ . 值得注意的是，在多面片 ( 锚）表示优化，时间序列对齐的 LLM fθ(·) 中的大多数参数在第 2 节中训练。除了 Position Embedding 和 Layer Normalization Layer（小于整体参数的 0.01%）之外，4.1 都被冻结，以便更好地适应目标时间序列。此外，一旦在目标时间序列数据集、历史 L、地平线 H 中完成单阶段 2 适应，我们就可以使用其他输入/输出长度 $\hat{L}/{\hat{H}}$ 执行任何其他预测任务，而无需任何重新训练，因为我们的 patch-wise 表示解码与输入/输出长度无关。

五、 EXPERIMENTS

aLLM4TS 在多个基准和任务设置中始终优于最先进的时间序列分析方法（第 5.1 节），包括长期和短期预测（第 5.2 节和第 5.3 节）、小样本预测（第 5.4 节）和异常检测（第 5.5 节）。我们将 aLLM4TS 与广泛的模型进行了比较，包括最先进的基于 LLM 的时间序列分析模型 GPT4TS（Zhou 等人，2023）。2 值得注意的是，在预测中，基于我们的 patch-wise 解码器， aLLM4TS 擅长仅使用一种统一的训练设置来处理任意回溯窗口大小和预测范围，而以前的方法需要对每种设置进行重新训练。然后，我们在第二节中对表征学习能力和消融研究进行了补充分析。 5.6 和第 5.6 节 5.7. 由于页数限制，更多实验结果在附录中，包括插补、分类和其他探索实验。我们使用与 GPT4TS 相同的默认 LLM 主干 GPT2 和前 6 层（Zhou et al., 2023）。

5.1. Experimental Settings

数据集。对于长期预测、小样本预测和表征学习，我们在 8 个流行数据集上评估了我们提出的 aLLM4TS，包括天气、交通、电力、ILI 和 4 个 ETT 数据集（ETTh1、ETTh2、ETTm1、ETTm2）。这些数据集已被广泛使用，并在 Wu 等人中公开可用。（2021）。对于短期预测，我们评估广泛使用的营销数据集 M4 上的模型（Makridakis 等人，2018）。对于异常检测，我们在五个广泛使用的数据集上评估模型：SMD (Su et al., 2019)、MSL (Hundman et al., 2018)、SMAP (Hundman et al., 2018)、SWaT (Mathur & Tippenhauer, 2016) ）和 PSM（Abdulaal 等人，2021）。

基线。对于时间序列预测和异常检测任务，我们比较了 11 种基线方法：基于 SOTA LLM 的模型 GPT4TS (Zhou et al., 2023)、九种基于 Transformer 的模型，包括 PatchTST (Nie et al., 2023)、FEDformer ( Zhou et al., 2022)、Autoformer (Wu et al., 2021)、Non-Stationary Transformer (Liu et al., 2022)、ESTformer (Woo et al., 2022b)、LightTS (Zhang et al., 2022b) 、Pyraformer (Liu et al., 2021)、Reformer (Kitaev et al., 2020)、Informer (Zhou et al., 2021) 和基于 SOTA MLP 的模型 DLinear (Zeng et al., 2023)。我们还添加了强大的文本引导 LLM 基线 Time-LLM（Jin 等人，2023）用于长期预测。此外，还添加了 N-HiTS（Challu et al.，2022）和 N-BEATS（Oreshkin et al.，2019）以进行全面的短期预测性能比较。对于表示学习，我们将 aLLM4TS 与 5 种基线方法进行比较：基于 SOTA 掩码的表示学习方法 PatchTST（Nie 等人，2023），以及四种时间序列对比学习方法、BTSF（Yang & Hong，2022）、TS2Vec （Yue 等人，2022）、TNC（Tonekaboni 等人，2021）和 TS-TCC（Eldele 等人，2021）。

表 1. 长期预测结果。我们计算每个数据集的 MSE。值越低表示性能越好。红色：最好，下划线：第二好。由于页数限制，我们将完整表格放在附录中。
在这里插入图片描述
表 2. 短期预测结果。我们计算每个数据集的 SMAPE。值越低表示性能越好。红色：最好的。 IMP。表示与基于 SOTA LLM 的 GPT4TS 相比，aLLM4TS 的绝对 SMAPE 降低，其中值越大表示改进越好。由于页数限制，我们将完整表格放在附录中。
在这里插入图片描述
实验设置。对于时间序列预测任务，所有模型都遵循相同的实验设置，ILI 数据集的预测长度 H ∈ {24, 36, 48, 60}，其他数据集的预测长度 H ∈ {96, 192, 336, 720}。我们对所有基线模型和我们提出的框架 aLLM4TS 使用默认回溯窗口 L = 336。

指标。我们在实验比较中使用以下指标：均方误差 (MSE)、平均绝对误差 (MAE)、对称平均绝对百分比误差 (SMAPE) 和 F1 分数（Grishman & Sundheim，1996）。

5.2. Long-Term Time Series Forecasting

如表 1 所示，aLLM4TS 在大多数情况下优于所有基线方法。具体来说，我们基于信息两阶段预测的 LLM 自我监督表示优化和补丁式解码比 GPT4TS 平均性能提高了 9.71%，GPT4TS 是当前基于 SOTA LLM 的方法，直接采用 LLM 中的序列建模功能，而无需任何表示适应。与将文本提示与冻结 LLM 的序列建模功能相结合的 Time-LLM 相比，aLLM4TS 实现了超过 9.40% 的性能提升。与SOTA Transformer模型PatchTST相比，aLLM4TS实现平均MSE降低2.03%。与其他模型类（例如 DLinear 或 TimesNet）相比，我们的改进也值得注意，超过了 19.3%。值得注意的是，在第一阶段，我们使用天气、交通、电力、ILI 和 4 个 ETT 数据集的训练集进行共享的休闲下一个补丁预训练。在第 2 阶段，对于目标数据集中的 4 个水平面 H ∈ {96, 192, 336, 720}，aLLM4TS 仅对 H = 720 执行一次训练，然后由于其独立的 patch-wise 解码器，它可以预测任意水平面地平线，而其他基线必须针对每个地平线长度进行微调。

5.3. Short-Term Time Series Forecasting

表2显示了M4基准的短期预测结果，其中包含不同频率的营销数据。具体来说，我们使用与 Sec 相同的主干网。 5.2 在天气、交通、电力、ILI 和 4 个 ETT 数据集的训练集上进行随意的下一个补丁预训练。然后我们采用与 GPT4TS 相同的模型配置来对每个频率进行微调。我们实现了接近当前 SOTA TimesNet 的竞争性能，其基于 CNN 的结构通常被认为在变化多样但数量有限的数据集中表现更好（Wu et al., 2022），例如 M4。与基于 SOTA LLM 的 GPT4TS 相比，SMAPE 总体减少了 0.472，这归因于将 LLM 功能与时间动态同步的重要性。这也验证了我们的预测一致表示在不同领域的时间序列上具有出色的可转移性。

表 3. 对 5% 数据的小样本预测。我们计算每个数据集的 MSE 和 MAE。所有结果都是 4 个预测长度（96、192、336 和 720）的平均值。红色：最好，下划线：第二好。由于页数限制，我们将完整表格放在附录中。
在这里插入图片描述
表 4. 异常检测结果。我们计算每个数据集的 F1 分数（以百分比表示）。红色：最好，下划线：第二好。＊。变形金刚中表示*former的名字。由于页数限制，我们将完整表格放在附录中。

5.4. Few-shot Time Series Forecasting

由于法学硕士能够获得强大的通用表征，因此他们在少样本学习中表现出了卓越的性能（Liu et al., 2023; Brown et al., 2020）。在本节中，我们评估 ETT 数据集中时间序列对齐的 LLM 的小样本预测能力。为了避免数据泄漏，我们在 ETT1 数据集上进行第一阶段，并在 ETT2 中仅使用 5% 的训练数据进行多补丁预测，反之亦然。少样本预测结果如表 1 所示。 3. aLLM4TS 明显优于所有基线方法，我们将其归因于我们的两阶段表示适应中的成功表示同步。值得注意的是，我们的 aLLM4TS 和 GPT4TS 始终优于其他竞争基线，进一步验证了 LLM 作为有效时间序列机器的潜力。值得注意的是，与基于 SOTA LLM 的 GPT4TS 相比，aLLM4TS 的平均 MSE 降低了 8.6%，这表明我们基于预测的自适应和补丁式解码的优势。与基于卷积的 TimesNet 和基于 MLP 的 DLinear 模型（通常被认为训练数据效率更高并且适合少样本学习方法）相比，aLLM4TS 的平均 MSE 仍然分别降低了 30.6% 和 28.5%。

5.5. Time Series Anomaly Detection

时间序列异常检测具有多种工业应用，例如健康监测或财务评估。与短期预测类似，我们使用与第 2 节相同的主干网。 5.2 在天气、交通、电力、ILI 和 4 个 ETT 数据集的训练集上进行随意的下一个补丁预训练。然后，我们采用与 GPT4TS 相同的模型配置来对每个异常数据集进行微调。结果在选项卡中。图 4 表明 aLLM4TS 实现了 SOTA 性能，平均 F1 分数为 87.51%。我们将这种检测时间序列中罕见异常的更好能力归因于在不同时间序列的第一阶段临时下一个补丁预训练中学习到的预测一致表示。对齐过程将LLM序列建模能力与时间序列同步，并进一步增强了跨不同时间序列域和下游任务的表示的可转移性和通用性。

5.6. Representation Learning

除了 aLLM4TS 在各种下游任务中的出色表现之外，我们还进一步探索了其在 ETTh1 预测中将 LLM 应用于时间序列表示学习方面的优越性。这是通过与最先进的表示学习方法的比较以及基于两阶段预测的 aLLM4TS 的各种比较实验来实现的。详细结果见表 1。 5.

Sta1：休闲的下一个补丁预训练。将 Sta1+Sta2 列与 Masking+Sta2 3 列进行比较，我们观察到无论是在预训练的 LLM 还是普通 PatchTST 中，平均性能明显下降超过 13.5%。我们将其归因于基于掩蔽的补丁预训练由于其随机掩蔽和重建训练范式而难以对重要的时间变化进行建模的挑战。其他基于对比学习的方法的结果也会导致性能显着下降，因为它们的高级目标与下游时间序列分析任务之间存在不可忽视的不一致性。

表 5. 表征学习方法比较。 Sta1 意味着进行第一阶段，基于不同时间序列的下一个补丁预测的随意连续预训练。 Sta2 意味着进行第二阶段，对目标时间序列进行多补丁预测微调。 Masking−*% 意味着将原始阶段 1 替换为掩蔽比 * *% 的掩蔽补丁预训练（PatchTST 中的掩蔽表示使用默认掩蔽比 40% 作为其原始论文）。 SD表示用序列解码器替换第2阶段中的补丁解码器。红色：最好，下划线：第二好。 IMP。表示与基线相比，aLLM4TS 最佳结果的改进。
在这里插入图片描述
Sta2：多块预测微调。之前的基于补丁的模型（Nie et al., 2023; Zhou et al., 2023）都选择在序列级别进行连接和投影，如图1❷。比较列 Masking+SD 和 Masking+Sta2，出现超过 13.4% 的恶化，强烈表明巨大的序列解码器存在过拟合的巨大风险。

表 6. ETT 数据集的消融（报告的预测长度 [96, 192, 336, 720] 中的平均 MSE）。红色：最好的。由于页数限制，我们将完整的表格和分析放在附录中。
在这里插入图片描述

5.7. Ablation Study

在本节中，我们对框架设计和基于两阶段预测的自我监督训练的有效性进行了一些消融。简要结果见表。 6.

Casual Next-Patch Continual Pre-training. 比较表 1 中的 A.1 行和 B.1 行。如图 6 所示，观察到平均 MSE 增加了 8.80%，这表明消除随意的下一个补丁连续预训练会严重损害 LLM 的序列模式识别和预测模型以进行有效的时间序列分析。我们将其归因于在时间序列中应用预训练的法学硕士的适应性不足，而没有适应时间动态、预测模型和llm的随意预训练。

LLM 预训练体重。我们设计了两组不同模型大小的消融实验，以避免训练数据和模型参数数量不匹配。我们丢弃了 LLM 的预训练权重，并从头开始训练 GPT-2 的前 6 层 (B.2) 和前 3 层 (B.3)。消除 LLM 预训练权重直接导致从大量序列文本数据中学习到的序列表示能力的丧失（Zhou et al., 2023；Gruver et al., 2023）。因此，在 LLM 架构中从头开始学习时间表示变得很困难，导致性能分别下降 5.15% 和 7.91%。

补丁级解码器。在消融实验C.1中，我们采用传统的序列级解码器，导致平均性能损失超过8.54%。尽管使用了超过 100 倍大的解码器并且可以专门针对每个输入/输出长度进行训练，但还是出现了显着的性能损失。这是由于巨大的序列级头部潜在的下游任务过度拟合以及无法解开补丁表示编码和解码过程，导致LLM主干中的补丁表示优化不足。

位置感知注意力蒙版。在 aLLM4TS 中，我们将预测转换为基于良好对齐的基于补丁的时间序列知识的多补丁表示优化。位置感知注意掩模旨在通过消除优化过程中其他正在优化的锚点带来的不必要的混乱来进一步增强优化过程。该组件 (C.2) 的消融会导致性能下降超过 10.01%。

5.8. Interpretability Experiment

我们对 Traffic 数据集进行了案例研究，以说明图 3 中四个阶段的注意力权重从预测水平补丁到回顾窗口补丁的演变。4 个子图详细介绍了从随机初始化（阶段 ❶），通过LLM预训练（阶段❷），随意下一个补丁连续预训练（阶段❸）到多补丁预测适应（阶段❹）。我们的观察结果如下： Obs.① 在第❹阶段之后，aLLM4TS 熟练地捕捉了时间序列的复杂多周期特性以及沿时间维度信息重要性增加的明显趋势。在图 3 (d) 中，最接近预测水平线的回顾窗口补丁在时间步 t, t + 3,… 处表现出与预测水平线补丁相似的模式。块大小为 16，步长为 8，每小时采样一次，这对应于当地的日周期。此外，还存在 20 个补丁周期（相当于 168 小时），表示每周周期。此外，更接近预测地平线的回顾窗口补丁由于它们的时间接近性而受到越来越多的关注，这表明它们具有更大的信息意义。 Obs.② 在第❸阶段之后，aLLM4TS 学习了通用的单周期特征（例如，天），并在图 3（c）中展示了沿着时间维度关注度增加的明显趋势，这源于随意预测下一个补丁的过程。 Obs.③预训练的LLM参数捕获了图3（a）和（b）中的基本时间序列循环属性，与随机初始化相比，可以作为时间序列表示学习的鲁棒优化锚。

在这里插入图片描述
图 3. Traffic 数据集中的可解释性研究。由于篇幅限制，我们将完整的可视化和分析放在附录中。 Y轴和X轴分别表示预测水平面补丁索引和回顾窗口补丁索引。

六、 CONCLUSION

在本文中，我们介绍了 aLLM4TS，这是一种采用大型语言模型（LLM）进行时间序列表示学习的新颖框架。通过将时间序列预测重新定义为自我监督的多块预测任务，我们的方法超越了传统的掩模和重建技术，更熟练地捕获块表示中隐藏的时间动态。值得注意的是，aLLM4TS 引入了补丁式解码机制，与传统的序列式解码不同，允许将补丁独立解码为时间序列。这显着增强了法学硕士骨干基于时间块的表示学习的能力。 aLLM4TS 在各种下游任务中表现出卓越的性能，证实了其在导出具有增强可转移性的时间表示方面的功效，标志着将 LLM 用于高级时间序列分析的关键一步。

萧宛亦

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Multi-Patch Prediction: Adapting LLMs for Time Series Representation Learning

在这项研究中，我们提出了 aLLM4TS，这是一种创新框架，适用于时间序列表示学习的大型语言模型 (LLM)。我们方法的核心是，我们将时间序列预测重新视为一种自我监督的多块预测任务，与传统的对比学习或掩模和重建方法相比，它可以更有效地捕获块表示中的时间动态。我们的策略包括两个阶段的培训：(i)。对各种时间序列数据集进行因果连续预训练阶段，锚定于下一个补丁预测，有效地将 LLM 功能与复杂的时间序列数据同步；(二). 在目标时间序列上下文中对多补丁预测进行微调。
复制链接

扫一扫