Unsupervised Time-Series Representation Learning with Iterative Bilinear Temporal-Spectral Fusion-CSDN博客

系列文章目录

具有迭代双线性时谱融合的无监督时间序列表示学习 ICML2022

文章目录

系列文章目录
摘要
一、引言
二、相关工作
三、所提出的方法
五、分析
六、结论

摘要

无监督/自监督时间序列表示学习由于其复杂的动态和稀疏的注释而成为一个具有挑战性的问题。现有的工作主要采用对比学习的框架和基于时间的增强技术来采样正负样本进行对比训练。然而，他们大多使用从时间切片衍生的段级增强，这可能会由于全局上下文的丢失而带来采样偏差和漏报的错误优化。此外，他们都没有注意将光谱信息纳入特征表示中。在本文中，我们提出了一个统一的框架，即双线性时谱融合（BTSF）。具体来说，我们首先利用实例级增强，在整个时间序列上进行简单的 dropout，以最大限度地捕获长期依赖关系。我们设计了一种新颖的迭代双线性时间-频谱融合来显式编码丰富的时频对的亲和力，并使用频谱到时间（S2T）和时间到频谱（S2T）以融合和压缩的方式迭代地细化表示（ T2S）聚合模块。我们首先对时间序列的三个主要任务进行下游评估，包括分类、预测和异常检测。实验结果表明，我们的 BTSF 始终显着优于最先进的方法。

一、引言

时间序列分析（Oreshkin et al., 2020）在各种现实场景中发挥着至关重要的作用，例如交通预测、临床试验和金融市场。分类（Esling & Agon，2012）、预测（Deb et al.，2017）和异常检测（Laptev et al.，2015）是时间序列分析的主要任务。然而，当时间序列标记稀疏或没有监督时，通常没有足够的标记数据进行训练，结果并不理想（Lan et al., 2021）。因此，研究时间序列的无监督表示学习是很有价值的，学习到的表示可以用于上述下游任务。无监督表示学习在计算机视觉和自然语言处理领域得到了很好的研究（Denton & Birodkar, 2017; Gutmann & Hyvárinen, 2012; Wang & Gupta, 2015; Pagliardini et al., 2018; Chen et al., 2020b），但是只有少数研究与时间序列分析相关（Eldele et al., 2021b; Yue et al., 2021b; Liu et al., 2021）。

在这里插入图片描述
图 1. 随机选择的评估样本的错误预测统计。

最近的工作主要利用基于时间的对比学习框架（Chen et al., 2020a; Zerveas et al., 2021）进行时间序列中的无监督表示学习。时间对比学习 (TCL) (Hyvarinen & Morioka, 2016)、对比预测编码 (CPC) (Oord 等人, 2018)、可扩展表示学习 (SRL) (Franceschi 等人, 2019)、时间和上下文对比 (TS-TCC) ）（Eldele 等人，2021b）和时间邻域编码（TNC）（Tonekaboni 等人，2021）都是分段级方法，沿时间轴对对比对进行采样。然而，它们都未能利用时间序列中的时间-光谱亲和力，从而限制了表示的区分性和表现力。我们进一步对这些方法进行了实验分析，图 1 显示了时间序列分类错误预测的统计数据。我们根据公共规范实施现有工作。具体来说，通过谱方法，我们使用他们提出的采样方法来生成对比对，并将采样的时间序列转换到谱域，以提取特征以供以后的训练和测试。值得注意的是，现有的工作对于仅具有时间或光谱特征的错误预测的重叠率都很低，约为 30%。这一现象表明它们的时间和光谱表示几乎没有关联。此外，以前的片段级方法基于假设远处的片段是负对，邻近的片段是正对，通常在长期场景中表现不佳并且无法捕获全局上下文。
在这里插入图片描述
图 2. 我们用于多元时间序列的通用无监督表示学习框架的图，⊗ 是叉积。更多详细信息，请参见第 3.2 节。

然而，它们都未能利用时间序列中的时间-光谱亲和力，从而限制了表示的区分性和表现力。我们进一步对这些方法进行了实验分析，图 1 显示了时间序列分类错误预测的统计数据。我们根据公共规范实施现有工作。具体来说，通过谱方法，我们使用他们提出的采样方法来生成对比对，并将采样的时间序列转换到谱域，以提取特征以供以后的训练和测试。值得注意的是，现有的工作对于仅具有时间或光谱特征的错误预测的重叠率都很低，约为 30%。这一现象表明它们的时间和光谱表示几乎没有关联。此外，以前的片段级方法基于假设远处的片段是负对，邻近的片段是正对，通常在长期场景中表现不佳并且无法捕获全局上下文。

基于现有工作的上述缺点，我们提出了一种时间序列的无监督表示学习框架，即双线性时域谱融合（BTSF）。 BTSF从对比对的更合理构造以及时域和谱信息的充分融合两个方面促进了表示学习过程。为了保留全局时间信息并能够捕获时间序列的长期依赖性，BTSF 使用整个时间序列作为输入，并简单地应用标准 dropout (Srivastava et al., 2014) 作为实例级增强产生时间序列的不同视图。这种对比对的构造确保了增强的时间序列不会改变其原始属性，从而有效地减少了可能的假阴性和假阳性。为了有效组合时间-频谱信息并进一步在特征表示中实现它们之间的对齐，我们在时间和频谱特征之间执行迭代双线性融合，以产生细粒度的二阶特征，该特征明确地保留了丰富的成对时间-频谱亲和力。为了充分利用信息亲和力，我们进一步设计了与频谱到时间和时间到频谱聚合模块的跨域交互，以迭代地细化时间和频谱特征以进行周期更新。与求和和级联等简单组合操作相比，我们的双线性融合使得时间（频谱）特征可以通过同一时间序列的频谱（时间）信息直接增强，这被我们进一步的实验和理论证明是有效的。

我们的主要贡献总结如下：
• 我们重新审视现有的用于时间序列表示学习的分段级对比学习框架，并提出实例级增强技术以最大程度地保留全局上下文。
• 提出了一种新颖的迭代双线性时间-频谱融合来显式地建模成对跨域依赖关系，以便以融合和挤压的方式区分和丰富表示。
• 进行充分的评估，包括对齐和均匀性（Wang & Isola，2020），以确定我们学到的表示的泛化能力。
• 大量实验表明，我们的 BTSF 在下游分类、预测和异常检测任务中显着优于以前的工作，并且与监督方法具有竞争力。

二、相关工作

时间序列的无监督表示学习。关于序列数据表示学习的相关研究方向已经得到了充分研究（Chung et al., 2015; Fraccaro et al., 2016; Krishnan et al., 2017; Bayer et al., 2021）。然而，在时间序列的无监督表示学习方面却很少做出努力（Láangkvist et al., 2014; Eldele et al., 2021b; Yue et al., 2021b）。应用自动编码器（Choi 等人，2016）和 seq-to-seq 模型（Malhotra 等人，2017；Lyu 等人，2018）与编码器解码器架构来重建输入是无监督表示学习的初步方法时间序列。 Rocket（Dempster 等人，2020）是一种快速方法，涉及在由大量不同随机卷积核的平面集合提取的特征之上训练线性分类器。几种方法利用时间序列中的固有相关性来学习无监督表示。 SPIRAL（Lei et al., 2017）通过保留原始时间序列数据的成对相似性，弥合了时间序列数据和静态聚类算法之间的差距。马等人。 (2019) 集成了时间重建和 K-means (Krishna & Murty, 1999) 目标来生成特定于集群的时间表示。

时间序列对比学习。另一组方法设计不同的样本策略并结合对比学习（Hyvarinen & Morioka，2016；Oord 等人，2018；Chen 等人，2020a；Yue 等人，2021a）来解决无监督时态数据的表示学习。受 Word2Vec（Mikolov 等人，2013）的启发，可扩展表示学习（SRL）（Franceschi 等人，2019）提出了一种新颖的三元组损失，并尝试通过随机采样时间段来学习可扩展表示。对比预测编码（CPC）（Oord et al., 2018）通过在潜在空间中使用强大的自回归模型来进行表示学习，以对未来进行预测，依靠噪声对比估计（Gutmann & Hyvarinen, 2010）来进行损失以类似的方式发挥作用。时间和上下文对比（TS-TCC）（Eldele 等人，2021b）是 CPC 的改进工作，通过针对不同时间戳和增强引入的扰动的更难的预测任务来学习鲁棒表示。时间邻域编码 (TNC)（Tonekaboni 等人，2021）提出了一种新颖的基于邻域的无监督学习框架，并对非平稳多元时间序列应用样本权重调整。它们的主要区别在于，它们根据不同的段级采样策略选择对比对。然而，它们很容易受到漏报的影响，并且由于全局上下文的丢失而无法捕获长期依赖关系。此外，它们仅提取时间特征，忽略利用光谱特征并涉及时间-光谱关系。在本文中，我们在一个统一的框架中解决所有这些问题。

三、所提出的方法

3.1. 实例级增强技术

先前关于时间序列无监督表示学习的研究主要通过对时间数据设计不同的采样策略来解决该问题。他们使用采样数据来构建指导训练过程的对比目标。由于现有的时间序列表征作品采用分段级采样策略（时间切片），采样偏差是不可避免的问题。由于全局语义信息的丢失，时间切片无法捕获长期依赖关系。为了探索构建对比对的有效增强方法，我们首先研究时间序列的一般增强方法。最新的实证调查（Iwana & Uchida，2021a）使用 6 种不同类型的神经网络评估了 128 个时间序列分类数据集上的 12 种时间序列数据增强方法。根据结果，除了时间切片之外，没有任何增强方法能够一致地提高所有数据集的性能。这是因为时间序列对顺序和时间模式敏感。

为了保留全局时间信息而不改变时间序列的原始属性，我们应用标准 dropout 作为最小数据增强，以在无监督表示学习中生成不同的视图。具体来说，我们简单地在时间序列上使用两个独立采样的 dropout mask 来获得正对，并将其他变量的时间序列视为负样本来构造负对。通过实例级对比对，我们的方法能够捕获长期依赖性并有效减少采样偏差，这优于之前的段级对比对。在对比对构建过程中，我们将每个时间序列x传递给dropout以生成正对 $x^{anc}$ 和 $x^{pos}$ 。对于负样本，我们随机选择其他变量作为多元时间序列的 $x^{neg}$ 。
在这里插入图片描述
因此，我们的实例级增强是通用的，可以处理非平稳和周期性时间序列。相反，时间切片无法处理周期性时间序列，因为它们可能会选择假阴性样本。在我们的实验中，dropout rate设置为 0.1。有关与其他增强方法的更多实验比较以及丢失率的敏感性，请参阅附录 A 了解更多详细信息。

3.2. Iterative Bilinear Temporal-Spectral Fusion迭代双线性时谱融合

在本小节中，我们详细介绍了一个通用且有效的框架，用于学习多元时间序列的判别性特征表示，即双线性时谱融合（BTSF）。如图 2 所示，在构建对比对后，我们将时间序列映射到高维特征空间以同化 x 和 $x^{pos}$ ，并将 $x^{neg}$ 与 x 区分开。之前的工作忽略了光谱特征和时间-光谱关系的利用，我们提出的 BTSF 不仅同时利用光谱和时间特征，而且以更细粒度的方式增强了表示学习。 BTSF 采用迭代双线性时间-频谱融合来代替求和和级联，迭代地探索和细化时间和频谱特征之间的成对亲和力，以产生交互式特征表示，表示正对最常见的部分并放大负对的差异。

具体地，每个增广时间序列 $x_{t}$ 首先通过快速傅立叶变换(FFT)变换到谱域，获得谱信号 $x_{s}$ 。然后 $x_{t}$ 和 $x_{s}$ 分别传递到两个编码网络进行特征提取。流程如下：
在这里插入图片描述
其中 $\boldsymbol{F}_t\in\mathbb{R}^{m\times d}\mathrm{~and~}\boldsymbol{F}_s\in\mathbb{R}^{n\times d}$ 是时间和频谱特征， $\theta_t\mathrm{~and~}\theta_s$ 分别是其编码网络 EncoderA 和 EncoderB 的参数。我们仅使用简单的扩张因果卷积堆栈（Bai et al., 2018）来编码时间特征，并使用一维卷积块来提取光谱特征。我们在编码网络的末尾应用最大池化层来保证相同大小的特征，这使得我们的模型可扩展到输入长度。 BTSF 在 $\boldsymbol{F}_{t}$ 和 $\boldsymbol{F}_{s}$ 之间进行迭代双线性融合。具体来说，我们在两个域的特征之间建立通道交互，如下所示：
在这里插入图片描述
其中 i 和 j 分别代表时间轴和谱轴上的第 i 个和第 j 个位置。该双线性过程充分模拟了 $\boldsymbol{F}_t(i)\in\mathbb{R}^d\mathrm{~and~}\boldsymbol{F}_s(i)\in\mathbb{R}^d.$ 之间的细粒度时频亲和力。为了在全局范围内总结这种亲和力，BTSF 将 $\boldsymbol{F}(i,j)\in\mathbb{R}^{d\times d}$ 进行积分，以产生初始双线性特征向量 $\boldsymbol{F}_{bilinear}\in\mathbb{R}^{d\times d}$ 以及所有时频特征对的总和池化：
在这里插入图片描述
其中 × 表示矩阵乘法。这种双线性特征传达了细粒度的时频亲和力，以获得更具辨别力的特征表示。然后，我们对跨域亲和力进行编码，通过迭代过程自适应地细化时间和频谱特征，如下所示：

其中 $F_t~\in~\mathbb{R}^{m\times d}~\mathrm{and~}~\boldsymbol{F}_s~\in~\mathbb{R}^{n\times d}$ 通过频谱到时间聚合 (S2T : $\mathbb{R}^{d\times d}\to\mathbb{R}^{m\times d}$ 和时间到频谱聚合 (T2S : $\mathbb{R}^{d\times d}\to\mathbb{R}^{n\times d}$ ) 更新。 Conv 是普通卷积，BiCasual 是双向因果卷积，后面是非线性函数（例如 ReLU）。具体来说，S2T 首先通过沿谱轴应用卷积块来聚合每个时间特征的谱关注信息。然后，它沿着时间轴交换频谱相关信息，通过几个双向因果卷积来细化时间特征。与S2T相反，T2S应用上述从时域到频域的聚合交换过程。 S2T和T2S模块充分聚合了跨域依赖关系，并分别细化了时间和频谱特征。反过来，精炼的时间和光谱特征能够产生更具辨别力的双线性特征。 S2T、T2S和双线性融合以融合和挤压的方式共同形成循环块。经过多次循环式(4)和式(5)，得到最终的双线性特征Fbilinear。循环数的消融研究见附录A。

然而，其效率可能会受到二次展开存储高维特征的内存开销的影响。为了解决这个问题，我们通过插入和分解交互矩阵 $W\in\mathbb{R}^{m\times n}$ 将最终的双线性特征转换为低秩特征。首先插入它以在每个时间-频谱特征对之间进行线性变换：
在这里插入图片描述
然后，我们使用W = $UV^T$ 将相互作用矩阵分解为 $\boldsymbol{U}\in\mathbb{R}^{m\times l}\mathrm{~and~}\boldsymbol{V}^{n\times l}(l<<d)$ 以获得低秩双线性特征：

其中 ◦ 表示哈达玛积。 BTSF 使用两个无偏差的线性映射来生成给定输出维度 l 的双线性表示 $\boldsymbol{F}_{bilinear}\in\mathbb{R}^{l\times d}$ 。通过这个过程，方程（4）的朴素特征的存储空间从 O(d2) 大大减少到 O(ld)。
在这里插入图片描述
其中 $\boldsymbol{W}_t\in\mathbb{R}^{m\times l}\mathrm{~and~}\boldsymbol{V}_t\in\mathbb{R}^{m\times l}$ 都是线性变换层。 σ 是 sigmoid 函数。对对比元组 $(\boldsymbol{x}^{anc},\boldsymbol{x}^{pos},\boldsymbol{x}^{neg})$ 的特征表示 $f^{anc},f^{pos}\mathrm{~and~}f^{neg}$ 进行矢量化后，我们构建一个损失函数来分别最小化和最大化正负对的距离。我们将多元时间序列表示为 $\boldsymbol{X}\in\mathbb{R}^{D\times T}=\{\boldsymbol{x}_{j}\}_{j=1}^{\tilde{D}}$ ，其中 D 是变量的数量，T 是时间序列的长度。因此，多元时间序列训练批次的对比损失可以表示为：
在这里插入图片描述
其中 sim(·,·) 表示内积，用于测量两个 2 归一化特征向量之间的距离，τ 是温度参数。式（11）表明，对于每个多元时间序列，当选择一个时间序列来构造正对时，所有其他变量的时间序列都是负样本。有关超参数的消融研究，请参阅附录 A。

3.3. Effectiveness of the Proposed BTSF

为了证明我们设计的双线性融合的效率，我们从损失函数中推导出梯度流。由于整体架构是有向无环图，因此可以通过反向传播对比损失的梯度来训练参数。双线性形式简化了梯度计算。令 $\frac{\partial\mathcal{L}}{\partial f}$ 为 L 相对于 f 的梯度，则通过梯度链式法则得到方程（10）（为简单起见，我们省略了 sigmoid 函数）：
在这里插入图片描述
从式（12）和式（14）可以看出，时间特征 $F_{t}$ 中参数 $θ_t$ 的梯度更新与谱特征密切相关，因为 $F_{s}$ 被视为直接乘以梯度的加权系数，反之亦然。反之亦然。此外，我们可以从方程（13）中得知，交互矩阵 W 与跨域亲和力 $F_t\times{F_s}^T$ 具有很强的联系，这导致了时间和频谱特征的更好组合。因此，证明我们的 BTSF 充分探索和利用了时间序列的底层光谱和时间信息。

四、实验

我们将 BTSF 应用于多个时间序列数据集的三个主要实际任务中，包括分类、异常检测和预测。我们是第一个对所有三项任务进行评估的人。我们将我们的性能与最先进的方法 CPC、SRL、TS-TCC 和 TNC 进行比较。为了公平比较，我们通过具有相同编码器架构和相似计算复杂度和参数的公共代码来实现这些方法，还使用与 BTSF 相同的表示维度。任务定义、数据集和实验的更具体描述见附录 B。

时间序列分类。我们评估了我们在广泛使用的时间序列分类数据集上的时间序列下游分类任务的学习表示（Anguita et al., 2013; Goldberger et al., 2000; Andrzejak et al., 2001; Moody, 1983）。为了公平比较，我们在学习到的表示之上进一步训练线性分类器，以评估这些表示可用于对隐藏状态进行分类的效果，遵循 Tonekaboni 等人的观点。（2021）。除了上述方法之外，我们还实现了一个配备 DTW（Chen 等人，2013）度量的 K 最近邻分类器和一个监督模型，该模型使用与我们的无监督模型相同的编码器和分类器进行训练。在训练阶段，我们保留数据集的原始训练/测试分割，并使用训练集来训练所有模型。我们应用两个指标进行评估：预测精度和精确召回曲线下面积（AUPRC）。表 1 展示了我们在所有数据集中优于现有方法的性能，并且我们的 BTSF 超越了监督方法，这表明 BTSF 充分利用了时间序列中的时间和频谱信息进行表示学习。此外，成对的时间谱融合为判别性提供了更细粒度的信息。

在这里插入图片描述

时间序列预测。遵循 Zhou 等人的方法，我们在短期和长期环境中使用其他方法在时间序列预测任务上评估我们的算法。（2021）。在学习到的表示之上添加解码器以产生预测输出。具体来说，我们训练具有 L2 范数惩罚的线性回归模型，并使用 informer（Zhou 等人，2021）作为我们的监督比较方法。我们使用两个指标来评估预测性能：均方误差（MSE）和平均绝对误差（MAE）。表 2 表明我们的 BTSF 在整个数据集中不同预测长度（短/长）的预测误差最小。此外，BTSF 大大优于现有方法（包括监督方法），特别是对于长时间序列预测。值得注意的是，由于更好地利用了全局上下文，当数据集长度增加时，BTSF 获得了更好的性能，这使得 BTSF 能够充分捕获长时间序列中的长期依赖关系。更多时间序列预测的可视化结果参见附录B.2、图8和图9。

在这里插入图片描述
时间序列异常检测。据我们所知，我们是第一个对异常检测进行评估的人（Su et al., 2019; Hundman et al., 2018; Goh et al., 2016; Mathur & Tippenhauer, 2016; Braei & Wagner, 2020）。此任务评估的结果反映了模型捕捉时间趋势的程度以及模型对时间序列异常值的敏感程度。我们在模型学习的表示之上添加解码器并重建输入时间序列并遵循 Audibert 等人的评估设置。（2020）。对于每个输入数据点 xt 并重建一个 ^xt，如果 |^xt − xt| > τ（τ 是预定义阈值），xt 是异常值。精度（P）、召回率（R）和 F1 分数（F1）用于评估异常检测性能，我们在这里仅列出 F1 指标的结果（有关 P 和 R 指标的更多结果，请参阅附录 B）。表 3 说明 BTSF 在所有数据集上都实现了新的 SOTA，尤其是大幅超越了监督结果。它表明 BTSF 对时间序列中的异常值更加敏感，因为它捕获长期动态并通过迭代双线性融合表达细粒度信息。

五、分析

时间序列增强方法的比较。为了进一步证明我们的实例级增强（dropout）的有效性，我们将我们的方法与 Iwana & Uchida (2021a) 中提到的其他 12 种增强策略进行了比较：抖动、旋转、缩放、幅度扭曲、排列、切片、时间扭曲、窗口扭曲、SPAWNER（Kamycki 等人，2020）、加权 DTW 重心平均（wDBA）（Forestier 等人，2017）、随机引导扭曲（RGW）（Iwana 和 Uchida，2021b）和判别引导扭曲（DGW）（Iwana 和内田，2021b)。 HAR 数据集上不同增强的分类精度比较如图 3 所示。值得注意的是，所提出的实例级增强（dropout）在平均精度和方差方面都具有最佳性能，这表明 dropout 对于无监督来说更准确、更稳定时间序列中的表示学习。
在这里插入图片描述
迭代双线性融合的影响为了研究 BTSF 中迭代双线性融合的影响，我们按照第 1 节中所示的实验进行操作。我们将学习到的模型表示应用于分类任务，并仅使用时间或频谱特征来统计错误预测分别。具体来说，我们使用 S2T 和 T2S 模块中的特征分别作为时间和频谱特征。从表4中我们发现，加入迭代双线性融合后，BTSF不仅在精度上得到了很大的提升，而且在时域和谱域之间实现了良好的对齐，重叠率达到96.60％，远高于现有的工作（约30％））。因此，我们设计的迭代双线性融合在两个域之间进行有效的交互，这对于最终的预测精度至关重要。更多关于 BTSF 的消融研究见附录 A。

可视化。为了评估编码空间中学习表示的可聚类性，我们使用 t-SNE 可视化特征分布（Van der Maaten & Hinton，2008）。值得注意的是，如果模型正确地学习和编码了潜在状态的信息，则来自相同底层状态的表示应该聚集在一起。图4显示了不同模型的表示分布比较。它表明，所提出的 BTSF 从相同隐藏状态学习到的表示优于其他方法。可视化结果进一步证明了我们模型的卓越表示能力。此外，我们还评估了所有单变量时间序列数据集：UCR 档案。相应的临界差异图如图 5 所示。BTSF 显着优于其他方法，平均排名接近 1.3。

在这里插入图片描述

图 4. HAR 数据集信号表示的 T-SNE 可视化。

在这里插入图片描述
图 5. 关键差异图显示 BTSF 与 UCR 档案上以前的方法的成对统计差异比较。

对准和均匀性。为了对表征进行全面评估，我们评估了学习表征的两个属性：对齐和均匀性（Wang & Isola，2020）。对齐用于衡量相似样本之间特征的相似性，这意味着正对的特征应该对噪声不变。均匀性假设良好学习的特征分布应尽可能保留最大信息。良好泛化的特征表示不仅可以最小化正对的内部相似性并扩大负对的相互距离，而且可以保持特征分布均匀以保留足够的信息。因此我们按照 Wang & Isola (2020) 进行评估。图6和图7分别显示了对准和均匀性的结果。与之前的 SOTA TNC 和监督结果相比，我们的 BTSF 获得了正对特征距离的最高平均值，这意味着 BTSF 实现了最佳对齐。此外，提取的 BTSF 特征均匀分布在编码空间中，保留了数据的最大信息，比 TNC 和监督模型要好得多。

在这里插入图片描述
图 6. 用于评估对齐的正对的距离分布。我们的 BTSF 非常一致。

在这里插入图片描述
图 7. 用于评估均匀性的归一化表面积上不同类别样本的特征分布。 BTSF提取的特征是均匀分布的。

六、结论

在本文中，我们提出了用于无监督时间序列表示学习的双线性时谱融合（BTSF）。我们重新审视现有的分段级对比学习方法，并得出结论，由于分段级增强（时间切片），它们都无法利用全局上下文信息，并且无法使用时谱关系来增强表示学习。首先，我们利用实例级增强，它使用整个时间序列作为输入，并应用 dropout 来生成不同的训练视图。其次，我们设计了迭代双线性时间谱融合，并以融合和挤压的方式细化时间序列的特征表示。我们对分类、预测和异常检测下游任务进行了广泛的实验，结果证明了我们的 BTSF 的卓越性能。 BTSF 大幅超越了现有的时间序列无监督学习模型（包括监督模型）。