SAMformer: Unlocking the Potential of Transformers in Time Series Forecasting with Sharpness-Aware M

最新推荐文章于 2025-03-17 18:10:08 发布

置顶萧宛亦

最新推荐文章于 2025-03-17 18:10:08 发布

阅读量572

点赞数

文章标签：人工智能深度学习机器学习 transformer

原文链接：https://arxiv.org/abs/2402.10198v3

版权

系列文章目录

SAMformer：通过锐度感知最小化和通道关注来释放 Transformer 在时间序列预测中的潜力 ICML2024

摘要

基于 Transformer 的架构在自然语言处理和计算机视觉方面取得了突破性的性能，但在多元长期预测方面仍然不如更简单的线性基线。为了更好地理解这种现象，我们首先研究一个玩具线性预测问题，我们表明变压器尽管具有很高的表达能力，但无法收敛到其真正的解决方案。我们进一步确定变压器的注意力是造成这种低泛化能力的原因。基于这一见解，我们提出了一种浅层轻量级变压器模型，当通过锐度感知优化进行优化时，该模型成功地避免了不良的局部最小值。我们凭经验证明这一结果可以扩展到所有常用的现实世界多元时间序列数据集。特别是，SAMformer 超越了当前最先进的方法，与最大的基础模型 MOIRAI 相当，但参数却少得多。该代码可从 https://github.com/romilbert/samformer 获取。

一、引言

多元时间序列预测是一个经典的学习问题，包括分析时间序列以根据历史信息预测未来趋势。特别是，由于时间序列中的特征相关性和长期时间依赖性，长期预测极具挑战性。这种学习问题在那些按顺序收集观察结果的现实世界应用中普遍存在，例如医疗数据（ˇCepulionis & Lukoˇseviˇci´ut˙e，2016）、电力消耗（UCI，2015）、温度（马克斯·普朗克研究所，2021）、或股票价格（Sonkavde 等人，2023）。为此任务开发了多种方法，从经典数学工具（Sorjamaa 等人，2007 年；Chen 和 Tai，2021）和 ARIMA 等统计方法（Box 和 Jenkins，1990 年；Box 等人，1974 年）到更多最近的深度学习（Casolaro 等人，2023），包括循环神经网络和卷积神经网络（Rangapuram 等人，2018；Salinas 等人，2020；Fan 等人，2019；Lai 等人，2018a；Sen 等人）等，2019）。

在这里插入图片描述
图 1：我们的合成数据方法说明。 Oracle 是最佳解决方案，Transformer 是基础 Transformer，σReparam 是具有权重重新缩放功能的 Transformer（Zhai 等人，2023），Transformer + SAM 是经过锐度感知最小化训练的 Transformer。 Transformer 过拟合，σReparam 略有改善，但未能达到 Oracle，而 Transformer+SAM 则完美泛化。这催生了 SAMformer，这是一种结合了 SAM 和时间序列预测最佳实践的浅层转换器。

最近，Transformer 架构（Vaswani 等人，2017）在自然语言处理（NLP）（Devlin 等人，2018；Radford 等人，2018；Touvron 等人，2023；OpenAI，2023）和计算机中变得无处不在。愿景（Doso vitskiy 等人，2021；Caron 等人，2021；Touvron 等人，2021），在两个领域都取得了突破性的表现。众所周知，变压器在处理顺序数据方面特别有效，这一特性自然需要它们在时间序列上的应用。毫不奇怪，许多工作试图提出时间序列特定的变压器架构，以从其捕获时间交互的能力中受益（Zhou et al., 2021; Wu et al., 2021; Zhou et al., 2022; Nie et al., 2023）。然而，当前最先进的多元时间序列预测是通过更简单的基于 MLP 的模型实现的（Chen 等人，2023），该模型显着优于基于 Transformer 的方法。此外，曾等人。（2023）最近发现线性网络在预测任务方面可以与变压器相当甚至更好，但对其实际效用提出了质疑。这个奇怪的发现是我们工作的起点。

当前方法的局限性。最近将 Transformer 应用于时间序列数据的工作主要集中在 (i) 有效实现降低注意力的二次成本（Li et al., 2019; Liu et al., 2022; Cirstea et al., 2022; Kitaev et al., 2022）。，2020；Zhou et al.，2021；Wu et al.，2021）或（ii）分解时间序列以更好地捕捉其中的潜在模式（Wu et al.，2021；Zhou et al.，2022）。令人惊讶的是，这些工作都没有具体解决与训练不稳定性相关的众所周知的 Transformer 问题，特别是在缺乏大规模数据的情况下（Liu 等人，2020；Dosovitskiy 等人，2021）。

变压器的可训练性。在计算机视觉和自然语言处理中，人们发现注意力矩阵可能会遭受熵或排名崩溃（Dong et al., 2021）。然后，提出了几种方法来克服这些问题（Chen et al., 2022; Zhai et al., 2023）。然而，在时间序列预测的情况下，如何有效地训练变压器架构而不出现过度拟合的问题仍然存在。我们的目标是证明，通过消除训练的不稳定性，变压器可以在多元长期预测方面表现出色，这与之前对其局限性的看法相反。

我们的贡献摘要。我们的提案提出了以下贡献：

我们表明，即使变压器架构是为了解决简单的玩具线性预测问题而定制的，它的泛化能力仍然很差并且收敛到尖锐的局部最小值。我们进一步确定注意力是造成这种现象的主要原因；
我们提出了一种浅层变压器模型，称为 SAMformer，它结合了研究界提出的最佳实践，包括可逆实例归一化（RevIN，Kim 等人，2021b）和通道关注（Zhang 等人，2022；Zamir 等人） al., 2022）最近在计算机视觉社区中引入。我们证明，通过锐度感知最小化（SAM）优化这样一个简单的变压器可以收敛到局部最小值，并具有更好的泛化能力；
我们凭经验证明了我们的方法在常见的多元长期预测数据集上的优越性。 SAMformer 超越了当前最先进的方法，与最大的基础模型 MOIRAI 相当，但参数却少得多。

二、 Proposed Approach

注释。我们用常规字母（例如参数 λ）表示标量值，用粗体小写字母表示向量（例如向量 x），用粗体大写字母表示矩阵（例如矩阵 M）。我们用 $\mathrm{M}^{\top}$ 表示 M 的转置，向量也同样。矩阵M的秩用rank(M)表示，其弗罗贝尼乌斯范数用 $\|\mathbf{M}\|_{\mathrm{F}}$ 表示。我们令 $\tilde{n}=\operatorname*{min}\{n,m\}$ ，并用 $\begin{aligned}\|\mathbf{M}\|_*=\sum_{i=1}^{\tilde{n}}\sigma_i(\mathbf{M})\end{aligned}$ 表示 M 的核范数，其中 $\sigma_i(\mathbf{M})$ 为其奇异值，并用 $\|\mathrm{M}\|_2=\sigma_{\max}(\mathbf{M})$ 其谱范数。大小为 n×n 的单位矩阵用 $\mathbf{I}_{n}$ 表示。符号 M≽ 0 表示 M 是半正定的。

2.1. Problem Setup

我们考虑多元长期预测框架：给定长度为 L（回溯窗口）的 D 维时间序列，排列在矩阵 $\mathbf{X}\in\mathbb{R}^{D\times L}$ 中以促进通道关注，我们的目标是预测其下一个 H 值（预测范围），用 $\mathbf{Y}\in\mathbb{R}^{D\times H}$ 表示。我们假设我们可以访问由N个观测值 $(\mathcal{X},\mathcal{Y})=(\{\mathbf{X}^{(i)}\}_{i=0}^{N},\{\mathbf{Y}^{(i)}\}_{i=0}^{N})$ 组成的训练集，并用 $\mathbf{X}_d^{(i)}\in\mathbb{R}^{1\times L}$ （分别为 $\mathbf{Y}_d^{(i)}\in\mathbb{R}^{1\times H}$ ）第 i 个输入（分别为目标）时间序列的第 d 个特征。我们的目标是训练一个由 ω 参数化的预测器 $f\boldsymbol{\omega}:\mathbb{R}^{D\times L}\to\mathbb{R}^{D\times H}$ ，以最小化训练集上的均方误差 (MSE)：
在这里插入图片描述

2.2. Motivational Example

最近，曾等人。（2023）表明，变压器的性能与经过训练直接将输入投影到输出的简单线性神经网络相当，或更差。我们以此观察为起点，考虑以下玩具回归问题的生成模型，模仿稍后考虑的时间序列预测设置：

在这里插入图片描述
我们让 L = 512,H = 96,D = 7 且 $\mathrm{W}_{\mathrm{toy}}\in\mathbb{R}^{L\times H}$ , ε ϵ $\mathbb{R}^{D\times H}$ 具有随机正态条目，并生成 15000 个输入目标对 (X,Y)（10000 个用于训练，5000 个用于验证），其中 $\mathbf{X}\in\mathbb{R}^{D\times L}$ 具有随机正态条目。

考虑到这个生成模型，我们希望开发一种变压器架构，可以有效地解决方程（1）中的问题。 (2)没有不必要的复杂性。为了实现这一目标，我们建议通过将注意力应用于 X 并结合将 X 添加到注意力输出的残差连接来简化常用的 Transformer 编码器。我们没有在此残差连接之上添加前馈块，而是直接采用线性层进行输出预测。正式地，我们的模型定义如下：

在这里插入图片描述
其中 $\mathbf{W} \in \mathbb{R}^{L\times H},\mathbf{W}_V \in \mathbb{R}^{L\times d_\mathrm{m}},\mathbf{W}_O \in \mathbb{R}^{d_\mathrm{m}\times L}$ 和 A(X) 是输入序列 X ε $\mathbb{R}^{D\times L}$ 的注意力矩阵，定义为

其中softmax是逐行的， $\mathbf{W}_Q \in \mathbb{R}^{L\times d_\mathrm{m}}$ ， $\mathbf{W}_K \in \mathbb{R}^{L\times d_\mathrm{m}}$ ，dm 是模型的维度。 softmax 使 A(X) 右随机，每一行描述一个概率分布。为了简化符号，在明确的上下文中，我们将注意力矩阵简单地称为 A，省略 X。

我们将这种架构称为 Transformer 并对其进行简要评论。首先，注意力矩阵按通道应用，这简化了问题并降低了过度参数化的风险，因为矩阵 W 具有与等式 1 中相同的形状。 (2) 并且由于 L > D，注意力矩阵变得小得多。此外，在这种情况下，通道注意力比时间注意力更相关，因为数据生成遵循独立同分布。根据方程式进行处理（2）。我们通过下面的模型正式建立了 Wtoy 的可识别性。证明见附录 E.2。

命题 2.1（最优解的存在性）。假设WQ、WK、WV和WO是固定的，并令P = $\mathbf{X}+\mathbf{A}(\mathbf{X})\mathbf{X}\mathbf{W}_V\mathbf{W}_O\in\mathbb{R}^{D\times L}$ 。那么，存在一个矩阵 $\mathbf{W}\in\mathbb{R}^{L\times H}$ ，使得 $\mathrm{PW}=\mathrm{XW}_{toy}$ 当且仅当， $\mathrm{rank}([\mathbf{P}\quad\mathbf{X}\mathbf{W}_{\mathrm{toy}}]) = \mathrm{rank}(\mathbf{P})$ ，其中 $[\mathbf{P}\quad\mathbf{X}\mathbf{W}_{\mathrm{toy}}]\in\mathbb{R}^{D\times(L+H)}$ 是一个块矩阵。

如果 P 是满秩且 D < H（本toy实验就是这种情况），则上述假设得到验证。因此，根据方程生成的数据拟合变压器的优化问题。 (2) 理论上允许无限多个最优分类器W。

我们现在想确定注意力在解决方程式中的问题中的作用。（3）。为此，我们考虑一个称为随机变换器的模型，其中仅优化 W，而自注意力权重 WQ、WK、WV、WO 在训练期间固定，并按照 Glorot & Bengio (2010) 进行初始化。这有效地使所考虑的变压器表现得像线性模型。最后，我们将这两个模型在使用 Adam 优化后获得的局部最小值与对应于方程（1）的最小二乘解的 Oracle 模型进行比较。（2）。

在这里插入图片描述
图 2：概括性差。尽管 Transformer 很简单，但它却存在严重的过度拟合问题。固定随机变换器中的注意力权重可以提高泛化能力，暗示注意力在防止收敛到最佳局部最小值方面的作用。

我们在图 2 中展示了两个模型的验证损失。第一个令人惊讶的发现是两个 Transformer 都无法恢复 Wtoy，这突显出即使是具有良好设计的简单架构的优化也表现出严重缺乏泛化性。当修复自注意力矩阵时，问题在一定程度上得到缓解，尽管随机变换器仍然不是最优的。这一观察结果在各种优化器（参见附录 C 中的图 15）和学习率值中保持一致，表明这种现象不能归因于次优优化器超参数或优化器的特定选择。由于Random Transformer和Transformer之间的参数数量只增加了2%，所以这也不是由于过拟合造成的。因此，我们从图1推断，Transformer泛化能力差的主要原因是注意力模块的可训练性问题。

2.3. Transformer’s Loss Landscape

直觉。在上一节中，我们得出的结论是，注意力的错在于上面观察到的 Transformer 的泛化能力差。为了培养我们对这种现象背后的直觉，我们在图 3a 中绘制了不同训练时期的注意力矩阵。我们可以看到，注意力矩阵在第一个 epoch 之后就接近单位矩阵，并且此后几乎没有变化，尤其是在 softmax 放大了矩阵值差异的情况下。它显示了不同训练时期的涌现矩阵。我们可以看到，注意力矩阵在第一个 epoch 之后就接近单位矩阵，并且此后几乎没有变化，尤其是在 softmax 放大了矩阵值差异的情况下。它显示了注意力熵崩溃与全秩注意力矩阵的出现，这在 Zhai 等人中得到了证实。（2023）作为训练变压器难度背后的原因之一。这项工作还建立了熵崩溃和变压器损失景观锐度之间的关系，我们在图 3b 中确认了这一点（在图 5a 中的真实数据上获得了类似的行为。变压器收敛到比随机变压器更锐利的最小值，同时具有显着较低的熵（注意力集中在后者的初始化上，其熵在训练过程中保持不变）。这些病态模式表明 Transformer 由于熵崩溃和训练损失的尖锐性而失败。研究文献中现有的解决方案来缓解这些问题。

现有的解决方案。最近的研究表明，与其他剩余架构相比，变压器的损耗情况更加尖锐（Chen 等人，2022 年；Zhai 等人，2023 年）。这可以解释 Transformer 的训练不稳定和性能不佳的原因，特别是在小规模数据集上训练时。变压器的锐度的观察和量化方式不同：而 Chen 等人。 Zhai 等人 (2022) 计算损失函数 Hessian 的最大特征值 λmax。（2023）测量了注意力矩阵的熵，以证明其高清晰度的崩溃。这两个指标均经过评估，其结果如图 3b 所示。这种可视化证实了我们的假设，同时揭示了这两种有害现象。一方面，具有固定注意力的变压器的锐度比收敛到身份注意力矩阵的变压器的锐度低几个数量级。另一方面，与初始化相比，变压器注意力矩阵的熵沿着历元急剧下降。

为了找到一个合适的解决方案，以实现更好的泛化性能和训练稳定性，我们探索了 Chen 等人提出的两种补救措施。（2022）和 Zhai 等人。（2023）。第一种方法涉及利用最近提出的锐度感知最小化框架（Foret 等人，2021），该框架取代了等式 1 的训练目标 Ltrain。 (1) 通过
在这里插入图片描述
其中 ρ > 0 是超参数（参见附录 D 的备注 D.1），ω 是模型的参数。有关 SAM 的更多详细信息，请参阅附录 D.2。第二种方法涉及使用谱归一化和额外的学习标量重新参数化所有权重矩阵，这是 Zhai 等人称为 σReparam 的技术。（2023）。更正式地说，我们将每个权重矩阵 W 替换如下
在这里插入图片描述
其中 γ ∈ R 是一个可学习参数，初始化为 1。

图 1 所示的结果凸显了我们的转换器成功收敛到所需的解决方案。令人惊讶的是，这只能通过 SAM 实现，因为尽管最大化了注意力矩阵的熵，σReparam 仍无法达到最佳性能。此外，从图 3b 中可以看出，SAM 的清晰度比 Transformer 低了几个数量级，而 SAM 获得的注意力熵仍然接近基础 Transformer 的熵，并且在后期阶段略有增加。训练。这表明 Zhai 等人引入的熵崩溃。 (2023) 在这种情况下是良性的。

为了更好地理解 σReparam 的失败，回顾一下等式：推导出(5)式。翟等人。 (2023) 偏离了注意力熵的严格下限，并表明当 $\|\mathbf{W}_Q\mathbf{W}_K^\top\|_2$ 最小化时，它会呈指数快速增长（Zhai 等人，2023，参见定理 3.1）。等式。提出了（5）作为最小化该数量的简单方法。然而，在通道方式注意力的情况下，可以证明这对注意力矩阵的秩有不利影响，从而将某些特征排除在注意力机制考虑之外。我们在下面的命题 2.2 中形式化了这种直觉，其中我们将核范数（奇异值的总和）视为代数秩的平滑代理，这是一种常见的做法（Daneshmand 等人，2020；Dong 等人，2020）。，2021）。证明推迟到附录E.3。

命题 2.2（核范数的上限）。令 $\mathbf{X} \in \mathbb{R}^{D\times L}$ 为输入序列。假设 $\mathbf{W}_Q\mathbf{W}_K^\top=\mathbf{W}_K\mathbf{W}_Q^\top\succcurlyeq\mathbf{0}$ ，则有 $\|\mathbf{X}\mathbf{W}_{Q}\mathbf{W}_{K}^{\top}\mathbf{X}^{\top}\|_{*}\leq\|\mathbf{W}_{Q}\mathbf{W}_{K}^{\top}\|_{2}\|\mathbf{X}\|_{{\mathrm{F}}}^{2}$ 。

请注意，当 WQ=WK 时，上述假设成立，并且 Kim 等人之前已经研究过。（2021a）。该定理证实，采用 σReparam 来减小 ∥WQW⊤ K∥2 会减小式（1）定义的注意力矩阵分子的核范数。（4）。虽然矩阵秩和核范数之间的直接联系并不总是成立，但核范数正则化通常用于鼓励压缩感知中的低秩结构（Recht et al., 2010; Recht, 2011; Cand`es & Recht, 2012）。
在这里插入图片描述
图 3：Transformer 线性回归的损耗情况分析。 (a) Transformer 的注意力矩阵从第一个 epoch 开始就陷入同一性。（b，左）Transformer 收敛到比 Transformer+SAM 更尖锐的最小值，具有更大的 λmax (∼ ×104)，而 Random Transformer 具有平滑的损失景观。（b，右）Transformer 在训练过程中遭受熵崩溃，证实了其损失景观的高度锐度。

虽然命题 2.2 不能直接应用于注意力矩阵 A(X)，但我们指出，在极端情况下，当 σReparam 导致注意力分数 $\mathbf{X}\mathbf{W}_Q\mathbf{W}_K^{\top\mathbf{X}}\top $ 具有相同行时为Rank-1，如（Anagnostidis 等人）中研究的那样 ., 2022），在应用逐行 softmax 后，注意力矩阵保持为 1 级。因此，σReparam 可能会导致我们根据图 7 中的核范数经验观察到的注意力等级的崩溃。根据这些发现，我们提出了一种新的简单 Transformer 模型，该模型具有高性能和训练稳定性，可用于多元时间序列预测。

2.4. SAMformer: Putting It All Together

提议的 SAMformer 基于等式： (3)有两个重要的修改。首先，我们为其配备了应用于 X 的可逆实例归一化（RevIN，Kim 等人（2021b）），因为该技术被证明可以有效处理时间序列中训练数据和测试数据之间的转换。其次，正如我们上面的探索所建议的，我们使用 SAM 优化模型，使其收敛到更平坦的局部最小值。总的来说，这给出了图 4 中带有一个编码器的浅层变压器模型。

我们强调 SAMformer 保持由矩阵 D × D 表示的通道注意力，如等式 1 所示。 (3)，与其他模型中使用的 L×L 矩阵给出的空间（或时间）注意力相反。这带来了两个重要的好处：（i）它确保了特征排列不变性，消除了通常在注意层之前的位置编码的需要； (ii) 在大多数现实世界数据集中，由于 D ≤ L，它可以减少时间和内存复杂性。我们的通道式注意力检查了每个特征在所有时间步长中对其他特征的平均影响。附录 C.4 中详述的消融研究验证了该实施的有效性。我们现在准备在常见的多元时间序列预测基准上评估 SAMformer，展示其卓越的性能

三、 Experiments

在本节中，我们将实证证明 SAMformer 在通用基准的多元长期时间序列预测中的定量和定性优势。我们证明 SAMformer 比当前最先进的多元 TSMixer（Chen 等人，2023）高出 14.33%，同时参数减少了约 4 倍。所有实施细节均在附录 A.1 中提供。

数据集。我们在现实世界多元时间序列的 8 个公开数据集上进行了实验，这些数据集通常用于长期预测（Wu 等人，2021；Chen 等人，2023；Nie 等人，2023；Zeng 等人，2023）。，2023）：四个电力变压器温度数据集 ETTh1、ETTh2、ETTm1 和 ETTm2（Zhou 等人，2021）、电力（UCI，2015）、交换（Lai 等人，2018b）、交通（加州交通部， 2021）和天气（马克斯普朗克研究所，2021）数据集。所有时间序列均采用输入长度 L = 512、预测范围 H ∈ {96, 192, 336, 720} 和步长 1 进行分段，这意味着每个后续窗口都会移动一步。数据集和时间序列准备的更详细描述可以在附录 A.2 中找到。

基线。我们将 SAMformer 与之前提出的 Transformer 和 TSMixer（Chen 等人，2023）进行比较，TSMixer 是完全基于 MLP 构建的最先进的多元基线。应该指出的是，陈等人。 (2023) 显示了 TSMixer 对于固定种子的性能，而在表 1 中，我们报告了使用不同种子进行多次运行的性能，从而获得更可靠的评估。为了公平比较，我们还包括使用 SAM 训练的 TSMixer 的性能，以及 Liu 等人报告的结果。（2024）和陈等人。 (2023) 对于其他最近的基于 SOTA 多元变压器的模型：iTransformer (Liu et al., 2024)、PatchTST (Nie et al., 2023)、FEDformer (Zhou et al., 2022)、Informer (Zhou et al., 2022)、Informer (Zhou et al., 2023) 2021）和 Autoformer（Wu 等人，2021）。所有报告的结果都是使用 RevIN（Kim 等人，2021b）获得的，以便在 SAMformer 及其竞争对手之间进行更公平的比较。有关这些基线的更多详细信息请参见附录 A.3。

评估。所有模型都经过训练，以最大限度地减少方程式中定义的 MSE 损失。 (1). 报告测试集上的平均 MSE，以及使用不同种子运行 5 次的标准差。其他详细信息和结果，包括平均绝对误差 (MAE)，请参见附录 B.1 的表 6。除非另有说明，我们所有的结果都是使用不同种子进行 5 次运行而获得的。

在这里插入图片描述
图 5：(a) SAMformer 的损耗情况比 Transformer 更平滑。 (b) SAMformer 对于每次初始化都具有良好的泛化能力，而 Transformer 则不稳定并且严重依赖于种子。

3.1. Main Takeaways

SAMformer 比最先进的技术有所改进。实验结果详见表 1，学生 t 检验分析见附录表 7。SAMformer 在 8 个数据集中的 7 个数据集上大幅优于竞争对手。特别是，它比最好的竞争对手 TSMixer+SAM 提高了 5.25%，比独立的 TSMixer 提高了 14.33%，比最好的基于多元变压器的模型 FEDformer 提高了 12.36%。此外，它比 Transformer 提高了 16.96%。 SAMformer 的性能还优于最近的 iTransformer（一种基于变压器的方法，同时使用时间和空间注意力）以及 PatchTST（专为单变量时间序列预测而定制）。我们注意到 iTransformer 的全球性能参差不齐，并且在所有数据集上都被 SAMformer 击败，但 Exchange 除外，它在 Exchange 上的表现明显优于所有竞争对手。这解释了 SAMformer 总体上仅将其提高了 3.94%，但在没有它的情况下最多可提高 8.38%。最后，SAMformer 的性能比 PatchTST 好 11.13%。对于每个范围和数据集（Exchange 除外），SAMformer 排名第一或第二。值得注意的是，SAM 的集成提高了 TSMixer 的泛化能力，平均提升了 9.58%。表 6 中的 MAE 的类似研究得出了相同的结论。由于使用 SAM 训练的 TSMixer 是第二好的基线，几乎总是排名第二，因此它作为本节进一步讨论的主要基准。值得注意的是，SAMformer 的参数比 TSMixer 少 4 倍，比基于 Transformer 的方法少几个数量级。
在这里插入图片描述
图 6：天气数据集的注意力矩阵。 SAMformer 保留了特征之间的自相关性，而 σReparam 降低了排名，阻碍了信息的传播。

图 7：不同模型的注意力矩阵的核范数：σReparam 根据命题 2.2 引入较低的核范数，而 SAMformer 保持了 Transformer 上注意力的表达能力。

表 1：我们的模型 (SAMformer) 与不同范围 H 的多元长期预测基线之间的性能比较。标有“†”的结果来自 Liu 等人。 (2024) 和标有“*”的数据来自 Chen et al. (2024)。 (2023)，以及相应方法的出版年份。基于 Transformer 的模型通过删除其名称中的“前”部分来缩写。我们显示了使用不同种子进行 5 次运行时获得的平均测试 MSE 和标准差。最佳结果以粗体显示，次佳结果以下划线显示。

在这里插入图片描述
更平滑的损失景观。 SAMformer的训练中引入了SAM，使其损失比Transformer更加平滑。我们在图 5a 中通过比较在 ETTh1 和 Exchange 上训练后 Transformer 和 SAMformer 的 λmax 值来说明这一点。我们的观察表明，Transformer 表现出相当高的清晰度，而 SAMformer 具有理想的行为，损失景观清晰度要小一个数量级。

提高了稳健性。 SAMformer 展示了针对随机初始化的鲁棒性。图 5b 显示了 ETTh1 和 Exchange 上 5 个不同种子的 SAMformer 和 Transformer 的测试 MSE 分布，预测范围为 H = 96。SAMformer 在不同种子选择中始终保持性能稳定性，而 Transformer 表现出显着的方差，因此具有高度依赖性关于权重初始化。该观察结果适用于所有数据集和预测范围，如附录 B.4 所示。

3.2. Qualitative Benefits of Our Approach

计算效率。 SAMformer 在计算上比 TSMixer 和通常的基于 Transformer 的方法更高效，这得益于浅层轻量级实现，即具有一个注意力头的单层。 SAMformer 和 TSMixer 的参数数量详见附录表 8。我们观察到，平均而言，SAMformer 的参数比 TSMixer 少约 4 倍，这使得该方法更加引人注目。重要的是，与基于 Transformer 的基线相比，TSMixer 本身被认为是一种计算高效的架构（Chen 等人，2023 年，表 6）。

更少的超参数和多功能性。与其他基线（包括 TSMixer 和 FEDformer）相反，SAMformer 需要最少的超参数调整。特别是，SAMformer 的架构在我们所有的实验中保持相同（详细信息请参阅附录 A.1），而 TSMixer 在残差块的数量和特征嵌入维度方面有所不同，具体取决于数据集。这种多功能性还对预测范围 H 具有更好的鲁棒性。在附录 C.1 图 13 中，我们显示了 SAMformer 和 TSMixer（使用 SAM 训练）的 H ∈ {96, 192, 336, 720} 在所有数据集上的演化预测准确性）。我们观察到 SAMformer 在所有方面都始终优于其最佳竞争对手 TSMixer（使用 SAM 训练）。

更好的关注。我们在图 6 中显示了 Transformer、SAMformer 和 Transformer + σReparam 的预测范围 H = 96 的 Weather 训练后的注意力矩阵。我们注意到 Transformer 排除了特征之间的自相关，对角线上的值较低，而 SAMformer 强烈促进他们。这种模式让人想起He等人。 (2023) 和 Trockman & Kolter (2023)：这两篇作品都证明了注意力矩阵中的对角线模式对于 NLP 和计算机视觉中使用的变压器中的信号传播的重要性。我们的实验表明，这些见解也适用于时间序列预测。请注意，将注意力冻结在 A(X) = ID 上，SAMformer 的表现在很大程度上优于附录 C.4 的表 10，这证实了可学习注意力的重要性。图 6 中 σReparam 给出的注意力矩阵具有几乎相等的行，导致排名崩溃。在图 7 中，我们显示了训练 Transformer、SAMformer 和 σReparam 后注意力矩阵的核范数分布。我们观察到 σReparam 严重惩罚了注意力矩阵的核范数，这与命题 2.2 一致。相比之下，SAMformer 将其维持在 Transformer 之上，从而提高了注意力的表达能力。

表 2：SAMformer 和 MOIRAI（Woo 等人，2024）在多变量长期预测方面的性能比较。我们显示在范围 {96, 192, 336, 720} 上平均的测试 MSE。最佳结果以粗体显示，次佳结果以下划线显示。

在这里插入图片描述

3.3. SAMformer vs MOIRAI

在本节中，我们表明，尽管 SAMformer 很简单，但它是一个强大的基线，不仅可以与专用时间序列方法（表 1）（例如 TSMixer）竞争，而且可以与现有最大的时间序列预测基础模型 MORAI（Woo 等人，2017）竞争。，2024），在拥有近 270 亿个样本的最大预训练语料库 LOTSA 上进行训练。 MOIRAI 提供三种尺寸：小型（1400 万个参数）、基础型（9100 万个参数）和大型（3.14 亿个参数）。在表 2 中，我们看到 SAMformer 在大多数数据集上与 MOIRAI 相当，在 3 个数据集上优于 MOIRAI，并且总体上将 MOIRAI 提高了至少 1.1% 和高达 7.6%。这一比较再次强调了这样一个事实：SAMformer 显示了令人印象深刻的性能，在全球范围内优于其竞争对手，同时可训练参数却少得多。

3.4. Ablation Study and Sensitivity Analysis

实施的选择。我们根据经验比较了我们的架构，即通道注意力（等式（3））和时间注意力。附录 C.4 的表 9 显示了我们的方法在所考虑的环境中的优越性。我们使用 Adam (Kingma & Ba, 2015) 进行了实验，Adam 是变压器事实上的优化器 (Ahn et al., 2023; Pan & Li, 2022; Zhou et al., 2022; 2021; Chen et al., 2022 ）。我们在附录 C.3 中提供了深入的消融研究，激发了这种选择。正如预期的那样（Ahn et al.，2023；Liu et al.，2020；Pan & Li，2022；Zhang et al.，2020），SGD（Nesterov，1983）未能收敛，而 AdamW（Loshchilov & Hutter，2019）领先具有相似的性能，但对重量衰减强度的选择非常敏感。

对邻域大小 ρ 的敏感度。附录 C.2 的图 14 将 SAMformer 和 TSMixer 的测试 MSE 描述为邻域大小 ρ 的函数。与 SAMformer 相比，具有准线性架构的 TSMixer 对 ρ 的敏感性较低。这种行为与这样的理解是一致的：在线性模型中，考虑到损失函数 Hessian 矩阵的恒定性质，锐度不会随 ρ 变化。因此，TSMixer 从 ρ 变化中获得的收益比 SAMformer 少。我们的观察一致表明，足够大的 ρ（通常高于 0.7）使 SAMformer 能够实现比 TSMixer 更低的 MSE。
在这里插入图片描述
图 8：σReparam 的次优性。 (a) 单独的 σReparam 不会给 Transformer 带来改进，并且明显优于 SAMformer。将 σReparam 与 SAMformer 相结合不会带来显着的改进，但会大大增加训练时间（见图 11）。

SAM 与 σReparam。我们之前提到过，σReparam 并没有提高 Transformer 在简单玩具示例上的性能，尽管它使其与具有固定随机注意力的 Transformer 的性能相当。为了进一步表明 σReparam 没有对现实数据集提供改进，我们在图 8a 中显示，在 ETTh1 和 Exchange 上，单独的 σReparam 无法匹配 SAMformer 的改进，甚至在某些情况下表现不佳 Transformer。潜在的改进可能来自于结合 SAM 和 σReparam 来平滑使用 SAM 获得的相当稀疏的矩阵。然而，如图 8b 所示，这种组合的性能并未超过单独使用 SAM 的性能。此外，结合 SAM 和 σReparam 显着增加了训练时间和内存使用量，特别是对于较大的数据集和较长的时间范围（参见附录图 11），表明其作为一种方法的效率低下。

四、 Discussion and Future Work

在这项工作中，我们展示了简单的 Transformer 如何从基于 MLP 的竞争对手手中夺回长期多元序列预测中最先进模型的地位。我们没有专注于新的架构和注意力机制，而是分析了 Transformer 在这项任务中当前的陷阱，并通过仔细设计适当的训练策略来解决这些陷阱。我们的发现表明，即使是简单的浅层变压器也具有非常尖锐的损耗景观，这使其收敛到较差的局部最小值。我们分析了文献中提出的解决此问题的流行解决方案，并展示了其中哪些可行或失败。我们提出的 SAMformer 通过锐度感知最小化进行了优化，与现有的预测基线（包括当前最大的基础模型 MOIRAI）相比，可带来显着的性能增益，并受益于跨数据集和预测范围的高通用性和鲁棒性。最后，我们还表明，时间序列预测中的通道注意力在计算和性能方面比以前常用的时间注意力更加有效。我们相信，这一令人惊讶的发现可能会刺激在我们简单的架构之上进行许多进一步的工作，以进一步改进它。