PatchTST创新点

最新推荐文章于 2025-03-30 14:27:54 发布

幼儿园大哥~

最新推荐文章于 2025-03-30 14:27:54 发布

阅读量1.3k

点赞数 17

分类专栏：时间序列文章标签：时间序列机器学习人工智能

本文链接：https://blog.csdn.net/weixin_45633221/article/details/140094625

版权

时间序列专栏收录该内容

9 篇文章

订阅专栏

这篇论文的创新点主要集中在PatchTST模型的设计和应用中。以下是对其创新点的详细说明：

创新点

频道独立补丁设计：PatchTST模型通过将多变量时间序列分割成不同的频道，每个频道作为单变量时间序列处理。每个频道独立地通过实例归一化操作和补丁分割过程，避免了传统方法中可能的频道间信息混杂，提高了模型的泛化能力和效率。
补丁（Patching）：补丁设计的引入显著减少了模型的时间和空间复杂度。通过将输入序列分割成长度为 $P$ 的补丁，并以步幅 $S$ 进行非重叠分割，使得输入标记的数量从 $L$ 减少到 $L / S$ 。这使得注意力图的内存使用和计算复杂度减少了 $S$ 倍，从而在计算资源有限的情况下允许模型查看更长的历史序列。
自监督表示学习：引入了掩码自监督学习机制，通过随机选择并掩码部分补丁，模型被训练来重建这些被掩码的补丁。这样，模型不仅在监督预测任务中表现出色，还能在无标签数据上学习有用的表示，从而提高了表示的通用性和迁移能力。

公式详细解释

补丁过程公式

$\left\lfloor \frac{L-P}{S} \right\rfloor + 2$
其中， $N$ 是补丁的数量， $L$ 是输入序列长度， $P$ 是补丁长度， $S$ 是步幅。这个公式用于计算输入序列在分割成补丁后的补丁数量。

补丁的生成过程可以用以下公式描述：
$\mathbf{x}^{(i)}_p \in \mathbb{R}^{P \times N}$
其中， $\mathbf{x}^{(i)}_p$ 是第 $i$ 个单变量序列的补丁矩阵，维度为 $\times N$ 。

Transformer编码器

补丁通过可训练的线性投影映射到Transformer潜在空间：
$\mathbf{x}^{(i)}_d = \mathbf{W}_p \mathbf{x}^{(i)}_p + \mathbf{W}_{pos}$
其中， $\mathbf{W}_p \in \mathbb{R}^{D \times P}$ 是线性投影矩阵， $\mathbf{W}_{pos} \in \mathbb{R}^{D \times N}$ 是可学习的加性位置编码， $\mathbf{x}^{(i)}_d \in \mathbb{R}^{D \times N}$ 是投影后的补丁表示。

多头注意力机制的计算公式为：
$\mathbf{Q}^{(i)}_h = (\mathbf{x}^{(i)}_d)^T \mathbf{W}^Q_h, \quad \mathbf{K}^{(i)}_h = (\mathbf{x}^{(i)}_d)^T \mathbf{W}^K_h, \quad \mathbf{V}^{(i)}_h = (\mathbf{x}^{(i)}_d)^T \mathbf{W}^V_h$
其中， $\mathbf{W}^Q_h, \mathbf{W}^K_h \in \mathbb{R}^{D \times d_k}$ ， $\mathbf{W}^V_h \in \mathbb{R}^{D \times D}$ 。

注意力输出的计算公式为：
$(\mathbf{O}^{(i)}_h)^T = \text{Attention}(\mathbf{Q}^{(i)}_h, \mathbf{K}^{(i)}_h, \mathbf{V}^{(i)}_h) = \text{Softmax} \left( \frac{\mathbf{Q}^{(i)}_h (\mathbf{K}^{(i)}_h)^T}{\sqrt{d_k}} \right) \mathbf{V}^{(i)}_h$

损失函数

$\mathcal{L} = \mathbb{E}_{\mathbf{x}} \frac{1}{M} \sum_{i=1}^{M} \left\| \hat{\mathbf{x}}^{(i)}_{L+1:L+T} - \mathbf{x}^{(i)}_{L+1:L+T} \right\|^2_2$
该公式表示我们选择使用均方误差（MSE）损失来衡量预测值与真实值之间的差异。每个频道中的损失汇总并在 $M$ 个时间序列上取平均值，以获得总体目标损失。