利用LLMs进行时间序列预测：理解和增强模型时间序列能力

最新推荐文章于 2025-03-06 03:44:59 发布

雪碧没气阿

最新推荐文章于 2025-03-06 03:44:59 发布

阅读量818

点赞数 16

文章标签：人工智能大语言模型 LLMs ai大模型时间序列大模型应用计算机技术

本文链接：https://blog.csdn.net/xxue345678/article/details/141672005

版权

近年来，大型语言模型在许多领域得到了快速发展和广泛应用。作为一个经典的机器学习任务，时间序列预测最近通过LLMs得到了提升。然而，在这一领域中，关于LLMs的偏好还存在研究空缺。本文通过将LLMs与传统模型进行比较，发现了LLMs在时间序列预测中的许多特性。例如，我们的研究显示LLMs擅长预测具有明确模式和趋势的时间序列，但面对缺乏周期性的数据集时则遇到挑战。我们通过设计提示要求LLMs告知数据集的周期来解释我们的发现。此外，还研究了输入策略，发现结合外部知识和采用自然语言释义对LLMs在时间序列预测性能方面产生了积极影响。总体而言，本研究为在不同条件下LLMs在时间序列预测中的优势和局限性提供了洞察。

论文题目：

Time Series Forecasting with LLMs: Understanding and Enhancing Model Capabilities

论文链接：

https://arxiv.org/abs/2402.10835

一、我们要回答的三个问题

1. LLMs在时间序列预测中对输入时间序列有何偏好。 为了回答这个问题，我们对真实和合成的数据集进行了实验。我们的观察揭示了LLMs在趋势或季节性强度较高的时间序列上表现更好。为了进一步辨别LLMs对输入数据特定部分的偏好，我们设计了涉及输入序列系统排列的反事实实验。我们发现LLMs对靠近输出的输入序列段非常敏感。

2. 为什么LLMs能在趋势或季节性强度较高的数据集上预测得很好？ 为了解决这个问题，我们设计了需要LLMs告知数据集周期的提示。通过实验，我们让大型语言模型多次告知数据集的周期并取中位数。我们发现大型语言模型可以准确地指出数据集的周期性。这可以解释为什么大型语言模型能够很好地预测具有高趋势或季节性强度的数据集，因为它们已经学习了这类知识。

3. 鉴于这些发现，我们的重点在于如何利用这些洞察来进一步提高模型性能。 为了解决这个问题，我们提出了两种简单的技术来提升模型性能：纳入外部人类知识和将数值序列转换为自然语言对应物。纳入补充信息使大型语言模型能够更有效地把握时间序列数据的周期性特征，而不仅仅是强调时间序列的尾部。将数值数据转换为自然语言格式增强了模型的理解和推理能力，也是一种有益的方法。这两种方法都提高了模型性能，并有助于我们理解LLMs在时间序列预测中的应用。

二、一些基础设定

我们将LLMs作为zero shot 学子者用于时间序列预测，通过将数值视为文本序列来处理。LLMs在时间序列预测中的成功很大程度上取决于数据的正确预处理和处理。我们遵循了他们的方法，这个过程涉及几个关键步骤。在使用LLMs进行时间序列预测的预处理阶段，数值被转换为字符串，这是一个关键步骤，显著影响了模型的理解和数据处理。

例如，一个序列如0.123, 1.23, 12.3, 123.0被重新格式化为"1 2, 1 2 3, 1 2 3 0, 1 2 3 0 0"，引入空格分隔数字和逗号以界定时间步骤，而省略小数点以节省令牌空间。令牌化同样至关重要，塑造了模型的模式识别能力。不同于传统方法如字节对编码（BPE），可能会破坏数值连贯性，通过空格分隔数字确保了单独的令牌化，增强了模式辨识。此外，还采用了重新缩放技术，通过调整值使特定百分位数对齐到1，以高效利用令牌和管理大输入，从而使模型能够接触到不同位数的数字，并支持生成更大的值，这证明了数据准备在利用LLMs进行时间序列分析中的微妙而关键的性质。

时间序列预测在时间序列预测的背景下，主要目标是基于前 K 步观察到的值预测接下来 H 步的值，数学表达式为：

其中，代表给定先前 K 步值的 H 步预测。表示模型F中的训练参数， V 表示用于推断的提示或任何其他信息。本文主要关注单变量时间序列预测。

受到现实世界场景中可解释性要求的激励，时间序列通常可以通过加法模型分解为趋势分量、季节分量和残差分量。趋势分量捕获数据中隐藏的长期变化，如线性或指数模式。季节分量捕获数据中的重复变化，残差分量捕获在去除趋势和季节分量后数据中剩余的变化。这种分解提供了一种量化时间序列属性的方法。

三、实验的发现

1. 在计算了皮尔逊相关系数（PCC）之后，我们观察到强度和模型性能之间存在几乎强烈的相关性，这表明当输入时间序列具有更高的趋势和季节性强度时，LLMs的表现更好。值得注意的是，与GPT-3.5-turbo-instruct相比，GPT-4取得了更高的PCC。这可能归因于GPT-4训练期间的人类反馈，因为个体可能更能意识到季节性和趋势数据。有趣的是，与原始测试序列相比，GPT-4生成的输出的QS（质量分数）有所增加。这表明GPT-4倾向于预测具有高季节性强度的时间序列，这可能为进一步的研究提供洞察。在多周期时间序列的背景下，随着周期数的增加，模型性能下降。这表明LLMs可能难以识别此类数据集中固有的多个周期，这在现实中很常见。

对于反事实分析，如图所示，当高斯噪声添加到后期段时，值明显下降。我们的发现揭示了当LLMs作为时间序列预测器时，它们对输入时间序列数据的末端更为敏感。

2. 为了探索LLMs在具有较高趋势或季节性强度的数据集上预测良好的现象，我们设计了实验来验证这一现象。我们设计提示，让LLMs在每次序列预测后输出预测值。实验的目标模型是GPT-3.5-Turbo，我们的提示的主要作用是进行incontext learning并要求输出周期。我们选择了八个时间序列数据集，如AirPassengersDataset，经过十次预测后统计周期值，并将这十个结果的中位数与真实周期进行比较。结果显示在表3中。根据结果，我们发现大型语言模型在一定程度上可以确定数据集的周期性。尽管每次时间序列预测的波动较大，但在AirPassenger、Sunspots和Wooly数据集上的预测相对准确，其他数据集上的预测值也接近我们的真实周期值。我们推测LLMs能够很好地预测具有高趋势或季节性强度的数据集，因为它们已经掌握了一些关于场景和数据集内容的知识。

3. 为了提高大型语言模型（LLMs）在时间序列预测方面的性能和稳定性，我们引入了一种新方法。这部分的核心思想是利用大型语言模型预训练获得的知识来帮助预测。我们将在提示中提供有关当前数据集的一些基本信息，如数据集的名称，这一过程不涉及数据泄露（不会告诉大型语言模型关于周期或预测值等信息）。

主要发现在外部知识增强方面，GPT-4通常在MSE、MAE和MAPE上表现优于GPT-3.5，尤其是在AirPassengers、AusBeer等数据集上。Llama-2在某些数据集（例如Wooly、ETTh1、ETTm2）上的MSE和MAE指标上显著优于GPT-3.5和GPT-4，表明它能更准确地捕捉数据特征。R平方值在某些数据集上如ETTh1、ETTm2和Turkey Power展示，所有模型都能提供相对准确的预测，R平方值接近1。

在LLM时间预测中，GPT-4和Llama-2在AirPassengers和AusBeer数据集上表现相对良好，值接近或超过0.5。GPT-3.5在Sunspots和Wine数据集上的MSE非常高，这可能是由于数据集的复杂性或模型对这些特定任务的适应性不佳。所有模型在时间预测任务上的Turkey Power数据集都有较高的值，表明模型对这项任务拟合良好。

我们创建了一种将序列转换为自然语言释义的方法，主要过程是使用传统的自然语言处理技术对序列进行预处理。例如，如果我们有一个表示温度变化的离散时间序列，我们可以将其表示为，其中

为此，我们基于到的两个数据点和趋势提取序列的自然语言描述：“这是一个离散的温度时间序列。温度从上升到，然后从下降到。我们得到的字符串就是我们的自然语言释义序列。

文本中的自然语言释义生成的序列由表示。最后，我们通过大型语言模型将序列从释义为；我们让LLM对的预测得到，经过提取和处理后得到，然后上述完成了我们的预测任务。我们加载序列并确定每个步骤的序列移动。然后添加 “从xx增加到xx” 或 “从xx减少到xx” 。完成从时间序列到自然语言的修改过程。要将文本序列转换为离散序列，我们使用Reverse函数，该函数通过硬编码将自然语言系列转换为正则表达式格式。

根据上表获得的实验数据，我们发现通过自然语言释义增强LLM对某些数据集的时间序列分析和预测有一定的改善效果。从模型性能比较的角度看，GPT-3.5-Turbo在自然语言释义和LLMTime预测方法中的值在某些情况下为负，表明模型表现不佳。GPT-4-Turbo在大多数数据集上表现优于其他方法，尤其是在自然语言释义方法上，MSE、MAE和MAPE通常降低，而提高。Llama-2在某些数据集上表现更好，例如在AusBeer数据集的自然语言释义方法中MSE和MAE较低，MAPE和表现更好。