论文笔记-CATN：用于多变量时间序列预测的交叉注意力树感知网络

最新推荐文章于 2024-05-15 09:32:56 发布

cxp_001

最新推荐文章于 2024-05-15 09:32:56 发布

阅读量1.5k

点赞数 3

分类专栏：时空数据挖掘文章标签：论文阅读算法机器学习

本文链接：https://blog.csdn.net/wwpwwpwwpemmm/article/details/129519077

版权

时空数据挖掘专栏收录该内容

10 篇文章 7 订阅

订阅专栏

在这里插入图片描述
这篇文章发表在2022年的AAAI，研究的是多元时间序列的多步预测问题。作者提出了一个CATN模型，该模型第一次使用树结构来捕捉多个时间序列间的交叉特征，然后使用包含全局、局部学习、交叉注意力机制的多级学习机制来捕捉序列内部的时间特征。

1.问题定义

1.1 什么是多元时间序列？

论文中的多元时间序列就是包含不同不同变量的时间序列，这些变量是相互关联的，它们可以来自同一系统或过程的不同方面。多元时间序列可以用于分析现实世界中的各种现象，例如金融市场、气象、交通流量等。

举一个具体的例子，假设正在研究某个城市的交通流量。我们可以收集到许多不同的变量，例如每小时通过某个路段的车辆数量、平均车速、车辆类型等等。这些变量可以组成一个多元时间序列数据集，其中每个时间点都有多个变量值。通过分析这些数据，我们可以了解交通流量的趋势和模式，并预测未来的交通情况。

1.2 多元时间序列预测

单元时间序列： $\mathrm{x}^i=\{x^i_1,x^i_2,...x^i_T\}$ .
多元时间序列： $\mathcal{X}=\{\mathrm{x}^1,\mathrm{x}^2,...\mathrm{x}^{d_x}|x_{T_x}\in \mathbb{R}^{d_x},\mathrm{x}^{d_x}\in \mathbb{R}^{T_x}\}$
在这里插入图片描述多元时间序列预测：
给定 $\mathcal{X}$ ，输出是 $\mathcal{Y}=\{\mathrm{y}^1,\mathrm{y}^2,\mathrm{y}^3,...\mathrm{y}^{d_y}|\mathrm{y}^{dy}\in \mathbb{R}^{T_y},y_{T_y}\in \mathbb{R}^{d_y}\}$ .

2. 模型

模型的总体结构如图所示，
在这里插入图片描述

2.1 构建树

作者通过层次聚类的方法，由下到上构建一个树的结构。
其中，对于多元时间序列 $\mathcal{X}=\{\mathrm{x}^1,\mathrm{x}^2,...\mathrm{x}^{d_x}|x_{T_x}\in \mathbb{R}^{d_x},\mathrm{x}^{d_x}\in \mathbb{R}^{T_x}\}$ ,
作者从时间维度将 $\mathcal{X}$ 看作为向量形式的时间序列，即
在这里插入图片描述
将当中的每一个向量视为树的叶子节点，然后通过层次聚类，构建一棵二叉树。
层次聚类常用的方法有（1）单链接（single-linkage）聚类法，类间距离等于两类对象之间的最小距离。（2）完全链接（complete-linkage ）聚类法，组间距离等于两组对象之间的最大距离。（3）平均链接（average-linkage）聚类法，组间距离等于两组对象之间的平均距离。

但是，作者认为最远和最近的距离准则不能代表整个簇，平均链接时间复杂度较高，于是使用了中值链接准则来计算类间距离：
在这里插入图片描述

2.2 Tree embedding

作者将树定义为边和点的集合： $\mathcal{T}\{V,E\}$ 。将 $V$ 划分为叶子节点 $V_L$ 和非叶子节点 $V_I$ 。将边 $E$ 划分为左向边 $E_L$ 和右向边 $E_R$ 。

（1）节点嵌入
将每个叶子节点 $v_l\in V_L$ 嵌入到一个可更新的稠密向量 $u\in \mathbb{R}^d$ 。
（2）时间嵌入
选择t步的时间信息 $E_t \in \mathbb{R}^{r\times t}$ ，r为时间戳分层的总数。然后将 $E_t$ 映射到稠密向量 $\mathbb{R}^{r\times t}$ 。

最终，将节点嵌入向量和时间嵌入向量拼接作为叶子节点最终的表示，叶子节点可以表示为 $u:E_t]$ 。
（3）边嵌入
分别将左向边和右向边嵌入到稠密向量 $e_l,e_r$ 。

非叶子节点 $v_i\in V_I$ 的表示:
在这里插入图片描述
其中， $\varphi$ 是填充缺失值的操作。
然后对节点进行归一化：

2.3 全局和局部学习

（1）卷积操作
使用卷积来挖掘局部信息，使用循环分量来挖掘全局信息。
使用 $n c$ 个滤波器对每个节点的 $E_d$ 进行卷积操作。
在这里插入图片描述
最后，输出的大小为 $w\times 1$ 。

（2）循环操作
对于每个节点，我们得到 $E_d\in \mathbb{R}^{w\times d}$ ，然后kn个节点的嵌入输入到kn个LSTMs当中。作者采用双向LSTM。对于每个LSTM，其循环次数为 $u=\frac{d}{2}$ ，然后我们可以得到两个隐含向量序列：

在这里插入图片描述

然后进行拼接，

最后，和卷积模块的输出 $o_c$ 拼接，然后馈入交叉注意模块。

2.4 交叉注意机制

树的第k层的节点输入到局部和全局输出模块，最终得到kn个隐藏状态。对于这些隐藏状态，作者将其划分为两个集合， $\mathcal{C}=\{h_a\}^{kn}_{a=1}$ 由kn个节点的隐藏状态构成和 $\mathcal{Q}=\{h_b\}^{kn}_{b=a+1}$ 由kn-a个隐藏状态构成。然后构造集合 $\mathcal{S}=\{(h_a,h_b)|a\in [1,kn],b\in (a,kn]\}$ 。交叉注意通过ha和hb之间的关联度来衡量注意的程度，有助于重读目标的重要信息，提高特征的可分辩性。

对于 $h_a=[c_1,c_2,...c_d]$ 和 $h_b=[q_1,q_2,...q_d]$ 。我们可以计算 $c_i$ 和 $c_j$ 之间的相似度矩阵： $R$ ，使用余弦相似度计算。我们可以得到基于 $h_a$ 和基于 $h_b$ 的相关图 $R^c$ 和 $R^q$ （我感觉他俩是一样的）。

然后，在融合层，对于对比注意力图 $R_c=\{r_1^c,r_2^c,...r_d^c\}\in \mathbb{R}^{d\times d}$ ,我们计算第i个位置的注意力值，是一个标量
在这里插入图片描述
对于 $R_c$ ，w吗可以得到对应每个位置的注意力值向量 $\alpha_c\in \mathbb{R}^{1\times d}$ 。
同样，对于 $R_q$ ，我们可以得到注意力值向量 $\alpha_q\in \mathbb{R}^{1\times d}$ 。