ICLR 2025 | 通过上下文对齐激活并增强大模型处理时间序列数据的能力

本文链接：https://blog.csdn.net/weixin_58753619/article/details/146148058

近年来，利用预训练的大型语言模型（LLMs）处理时间序列任务日益受到关注，这涉及到 LLMs 能力的激活与增强。许多方法旨在基于词元级别的对齐来激活 LLMs 的能力，但忽视了 LLMs 在自然语言处理方面的固有优势——即对语言逻辑和结构的深刻理解，而非仅仅局限于表面的嵌入处理。

这里介绍一篇来自 ICLR 2025 接收的工作，该工作研究者提出了一种名为 Context-Alignment 的新范式，旨在通过将时间序列数据与语言环境中的语言成分对齐，激活并增强 LLMs 在时间序列任务中的能力。该方法通过构建时间序列与语言之间的上下文对齐，解决了现有方法在激活 LLMs 能力时忽视其对语言逻辑和结构的深度理解的问题。文章的核心贡献包括提出 Context-Alignment 范式、开发 Dual-Scale Context-Alignment Graph Neural Networks（DSCA-GNNs）框架，并通过实验验证了其在多种时间序列任务中的有效性，尤其是在少样本和零样本预测任务中的优势。

‍

论文背景

时间序列任务在许多实际应用中至关重要，如天气预测、导航优化等。传统方法主要依赖于统计模型，但随着深度学习的发展，RNN、CNN 和 Transformer 等架构逐渐成为主流。然而，这些方法在处理复杂的时间序列数据时仍面临挑战，尤其是在泛化能力和适应性方面。近年来，LLMs 在多个领域表现出色，其强大的多领域知识使其在时间序列任务中具有潜在优势。然而，由于 LLMs 的训练数据与时间序列数据存在显著差异，直接利用 LLMs 进行时间序列任务时，其潜力未能得到充分发挥。

为了有效地在时间序列任务中利用 LLMs，必须依次解决以下两个主要问题：

如何使 LLMs 理解时间序列数据，并激活它们在时间序列任务中的能力？
如何增强 LLMs 在时间序列任务中的性能？

关于第一个问题，现有工作致力于基于标记级对齐将时间序列标记嵌入与语言标记嵌入对齐，但这种标记级对齐是否能够充分发挥 LLMs 的潜力仍值得怀疑。受近期关于 LLMs 的研究启发，研究者认为 LLMs 的主要优势在于其对语言逻辑和结构的深刻理解，而非表面的标记嵌入处理。显然，没有逻辑指导的标记过度积累往往难以有效传达意义。特别是时间序列-语言多模态输入通常较长，缺乏结构和连贯的语义，极大地挑战了 LLMs 的理解能力。

关于第二个问题，当前方法旨在通过诸如时间序列分解和优化提示等技术直接增强 LLMs 在时间序列任务中的能力。然而，在没有充分解决第一个问题的情况下，这些方法的可解释性不足，且改进效果有限。解决这些问题的自然方法是充分利用 LLMs 的优势，将时间序列任务转化为类似 NLP 的任务，首先激活LLMs的能力，然后利用 NLP 技术进一步增强 LLMs 在时间序列任务中的性能。

因此，本文提出了 Context-Alignment，通过将时间序列数据与 LLMs 熟悉的语言环境中的语言成分对齐，使 LLMs 能够对时间序列数据进行上下文化和理解，从而激活它们的能力。这种上下文级对齐利用 LLMs 在逻辑和结构方面的固有优势，为时间序列-语言多模态输入构建一致的上下文。此外，研究者开发了一个 DSCA-GNNs 框架来实现结构和逻辑对齐。利用演示示例提示技术，还提出了 Demonstration Examples based Context-Alignment (DECA)，该方法遵循 DSCA-GNNs 框架，进一步增强了 LLMs 在时间序列任务中的性能。DECA 可以灵活且重复地集成到预训练 LLMs 的各个层中，以提高对逻辑和结构的感知能力。

论文方法

图1：本文所提方法的架构，其中图结构展示了基于DECA的预测任务

示例：普通上下文对齐（VCA）

VCA（Vanilla Context-Alignment）是最直接的上下文对齐方法，将时间序列数据和普通语言提示直接输入到 LLMs 中。然而，这种方法存在两个主要问题：

缺乏结构划分：时间序列嵌入冗长且缺乏清晰的结构划分，导致 LLMs 难以理解。
缺乏逻辑指导：直接连接时间序列嵌入和语言提示嵌入，丢失了上下文连贯性。

为解决这些问题，通过 DSCA-GNNs 框架实现结构和逻辑对齐。

结构对齐：利用双尺度节点，将同一模态的令牌聚合为一个语言组件，同时保留每个令牌的特征，通过细粒度 GNN 和粗粒度 GNN 对令牌进行不同层次的处理
逻辑对齐：使用有向边强调不同组件间的语义关联，在粗粒度和细粒度 GNN 中构建有向边，引导时间序列数据与提示间的信息传递，并对边权重进行约束。
可学习交互：将粗粒度 GNN 的宏观信息传递到细粒度 GNN，使最终的嵌入矩阵具有清晰结构和连贯语义，帮助 LLMs 理解时间序列任务。

基于演示示例的上下文对齐（DECA）

DECA（Demonstration Examples Based Context-Alignmen）是一种更高级的上下文对齐方法，通过提供演示示例来进一步增强 LLMs 对时间序列任务的理解。该方法核心思想是将时间序列数据分成多个部分，并为每个部分提供一个语言提示，形成多个预测任务。

具体实现：

输入格式：将时间序列数据和语言提示按顺序排列，形成多个预测任务。
DSCA-GNNs：构建粗粒度和细粒度 GNN，分别处理高层次的逻辑关系和细粒度的标记关系。
逻辑对齐：通过有向边引导时间序列数据和语言提示之间的逻辑关系，确保每个部分的输出与提示的连贯性。
可学习的交互：通过分配矩阵和可学习的权重矩阵，将宏观的结构和逻辑信息从粗粒度 GNN 传递到细粒度 GNN。

实验结果

实验结果表明，DECA 在大多数情况下都优于现有的方法，尤其是在少样本和零样本预测任务中，DECA 显著优于其他方法，这表明逻辑和结构对齐为 LLMs 提供了强大的先验知识。

长期预测：DECA 在多个数据集上表现出色，平均 MSE 比次优方法 PatchTST 降低了3.1%，比其他 LLMs 基方法分别降低了7.3%、12.2%和16.6%。

短期预测：在M4数据集上，DECA 的 SMAPE、MASE 和 OWA 指标均优于大多数基线方法。

少样本预测：在仅使用5%训练数据的情况下，DECA 在 ETT 数据集上的平均 MSE 比次优的 S2IP-LLMs 降低了6.7%。

零样本预测：DECA 在跨域测试中表现出色，平均性能比次优的 PatchTST 提高了13.3%。

时间序列分类：在 UEA 数据集上，DECA 的平均准确率达到了76.4%，比次优方法高出2.4%。

图2：分类任务结果

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述