金融领域大规模时间序列模型的微调

最新推荐文章于 2025-02-21 15:21:07 发布

大模型学习教程

最新推荐文章于 2025-02-21 15:21:07 发布

阅读量952

点赞数 24

文章标签：金融人工智能数据库算法机器学习大数据

本文链接：https://blog.csdn.net/z551646/article/details/144526952

版权

一、引言

预测市场一直是研究者们关注的焦点。在更广泛的时间序列预测任务中，研究者们已经进行了无数尝试，从简单的移动平均到各种类型的模型，如自回归模型、N-BEATS 等全球单变量模型以及长期预测模型等。

随着大型语言模型（LLM）的兴起，研究者们也尝试直接利用 LLM 的零样本预测能力来进行预测。利用预训练的 LLM 的好处包括能够将文本上下文与数值数据结合起来，以提高预测的准确性，并且能够利用强大的编码器/解码器，使得只需对齐数值时间序列数据的嵌入层即可将 LLM 的输出调整为时间序列预测。然而，最近的研究对 LLM 主干在预测中的有用性提出了质疑，通过将其与从头开始训练的简单注意力层进行比较。类似的担忧也让我们将目光转向 TimesFM，这是一个从头开始训练的基础时间序列模型，专门用于时间序列预测任务。在多个预测基准测试中，TimesFM 取得了最先进的性能。然而，这些基准测试通常包括常规和季节性数据，这与金融数据大不相同。在这项工作中，我们回答了以下研究问题：基础时间序列模型能否在金融市场中的价格数据上表现良好？

为了回答这个研究问题，我们首先评估了 TimesFM 在价格预测任务中的表现。我们发现基础 TimesFM 的表现非常不理想。特别是对于图 1 中所示的价格轨迹预测任务，基础 TimesFM 彻底失败了。尽管如此，我们展示了通过持续预训练对 TimesFM 进行微调，可以在多个市场的多个标准基准测试中显著提高性能。我们使用微调的 TimesFM 对各种金融市场进行了模拟交易实验，并展示了它在回报、夏普比率、最大回撤和交易成本方面优于各种基准。

本文的主要贡献如下：

为价格数据微调而整理的数据集
对 TimesFM 进行微调以生成金融时间序列基础模型
修改训练方法（损失和掩码）以稳定对金融时间序列（特别是价格数据）的训练
通过模拟交易实验测试微调模型，以证明我们的微调模型在各种市场中优于多个标准基准

二、相关工作

“低买高卖”是交易者从交易中获利的根本原则之一。但我们如何知道什么是“低”，什么是“高”？从本质上讲，问题归结为准确预测金融资产的价格。

从历史上看，定量建模价格的方法主要建立在自回归方法、移动平均和条件方差、卡尔曼滤波和隐马尔可夫模型等方法之上。这些模型大多依赖于精心校准的数学概念来模拟市场的潜在动态，并对价格趋势进行拟合。神经网络架构的进步，如 RNN 和 LSTM，启发了价格分析。最近，计算能力的提高表明，在大量数据和足够的模型容量来吸收数据的情况下，可以训练模型来捕捉潜在趋势，并且能够像以前的模型一样，甚至更好地进行泛化。实现这一点的特定架构是 Transformer。

Transformer 最初在文献 [5] 中提出，通过大型语言模型 [6], [7], [22], [23] 以及计算机视觉领域的图像分类 [24]、视频分类 [25] 和图像生成 [26] 彻底改变了自然语言处理。对于我们的金融市场价格预测任务，我们考察了一些利用 Transformer 在时间序列预测中的相关工作 [4], [8], [9], [11], [14], [27]。

使用 Transformer 进行时间序列预测的行业标准主要使用 LLM [8], [9], [11], [27], [28]。最近的研究 [4], [10], [13] 对 LLM 在预测中的必要性和相关性提出了质疑，而是专注于训练一个专门用于时间序列预测任务的时间序列基础模型 [14]，我们将其作为关注点。

TimesFM [14] 是一个具有 2 亿参数的仅解码器模型，在包含 1000 亿个时间点的时间序列数据集上进行训练，任务是预测下一个值。我们建议读者阅读原始论文 [14]，但我们在第三部分提供了这项相关工作的简要总结，包括其方法和主要发现。

TimesFM 在 Darts [29]、Monash [30] 和 Informer [31] 基准测试中的评估表明，与许多以前的 SOTA 方法（包括 N-BEATS [3]、LLM-Time [8]、ARIMA [1] 和 PatchTST [4]）相比，TimesFM 在平均绝对误差（MAE）指标方面表现出色。

我们的持续预训练方法与 TimesFM 中的方法基本一致。在第三部分提供了更多细节。

三、金融微调方法

我们首先描述 TimesFM，即我们进行微调的现有模型。在 TimesFM 中，输入时间序列数据被分割成长度为 li 的输入块，这些块由堆叠的 Transformer 层处理，预测出一个包含 lo 个时间点的输出块。在这些 lo 个点上计算均方误差（MSE）损失：

作者通常设置 li = 32 和 lo = 128，并建议 lo > li 以训练模型在仅解码器模式下运行，并且在推理时最小化所需的自动回归步骤。还应用了随机掩码来训练模型，使其能够处理所有可能的上下文长度。

在推理时，模型读取它生成的 lo 个点作为输入，并反复生成新的时间点，直到所有点都自动回归生成。在推理时不会应用掩码。

在 TimesFM 的预训练过程中使用的数据主要包括谷歌趋势、维基页面浏览量以及许多其他公开可用的时间序列数据源。作者还展示了混合使用合成数据可以提高模型的性能。

在本节的剩余部分，我们将介绍对原始 TimesFM 进行微调的修改，以便对金融数据（特别是价格数据）进行微调。我们采用的方法是持续预训练：从 TimesFM 的预训练权重开始，继续对金融数据进行随机梯度下降。我们使用线性预热将学习率重新启动到 5e-4，然后进行余弦衰减。具体的训练配方列在第四部分的表 II 中。模型架构遵循公开可用的 TimesFM 检查点。我们列出了我们为适应 TimesFM 以持续预训练金融数据所做的两项贡献。

A. 损失

原始的 MSE 损失（公式 1）在训练价格数据时存在一系列缺陷：

偏向于大规模值，例如，平均值为 1000 美元的股票指数在训练中的权重将远远超过平均值为 0.0001 美元的加密货币。
由于市场崩盘事件导致的不稳定性。特别是当高价格股票经历超过其原始价值 99% 的快速崩盘时，单步中的不稳定性会导致 NaN 损失和收敛失败。

在本节中，我们通过描述对损失计算的微小修改来解决这些问题。即，我们对原始时间序列应用对数变换，并根据这些变换后的序列进行预测。然后在这些对数序列上计算 MSE 损失。我们明确要做的是：

其中 z 用作模型的输入，然后是：

对于 y 的小变化，计算 z = log(y) 的 MSE 等价于计算百分比 MSE 损失。但是对于 y 的大变化，对数函数的衰减导致 z 的变化小于成比例的变化，从而稳定了训练。

B. 掩码

我们采用与文献 [14] 中描述的类似的掩码策略，我们希望随机采样时间序列的开始点和结束点。这是通过以下方法完成的：

为了提高训练效率，时间序列被分割成长度不超过 max_context_length + output_length 的序列。然后我们随机采样一个随机 tend 从 [min_context_length, max_context_length]，然后从 [0, tend - min_context_length] 中随机采样一个随机 tstart。然后将 [tstart, tend] 之间的点作为输入，其中模型在训练期间输出下一个 output_len 许多点，并在这些点上进行损失评估。

通常，我们将 min_context_len 设置为 128，以确保模型在有意义的（足够长的）示例上进行训练。我们的掩码策略微调 TimesFM，使其能够预测任何长度从 min_context_length 到 max_context_length 的价格数据序列。这些随机掩码在批次和训练步骤之间变化，通过训练模型从时间序列的各个部分进行预测，防止过拟合。

通过本节描述的策略，我们能够在没有任何 NaN 损失的情况下，在 1 小时内完成 80M 时间点的 TimesFM 微调。

四、实验

在本节中，我们基于第三部分描述的方法进行计算实验，以解决我们最初的研究问题：基础时间序列模型能否在金融市场中价格数据上表现良好？我们首先详细介绍了用于运行实验的数据和设置：构建一个微调的 TimesFM 并在几个实验中与以前的基准（包括原始 TimesFM）进行比较。这些实验后来进行了更详细的解释，包括比较不同预测范围的预测准确性和 F1 分数。从财务角度来看，我们希望了解该模型在部署到市场时的盈利能力，而不仅仅是评估指标，如准确性和 F1 分数，这些指标无法捕捉到价格变动幅度、交易成本等细节。为此，我们提出了一个模拟交易设置，设计了一个基于我们微调模型的可行交易策略，以将基础时间序列模型（原始和微调的 TimesFM）与随机模型和 AR1 模型进行比较。

A. 数据

数据由股票、指数、外汇和加密货币的价格时间序列组成，时间粒度为小时和天。主要来源包括雅虎财经和币安，数据使用公开可用的 API 端点获取。可以找到用于持续预训练的数据的详细描述见表 I。我们的数据集总计超过 100K 个时间序列和 90M 个时间点。

为了避免前瞻性偏差，从 2023 年起的数据被保留用于测试。在训练过程中，我们使用 75-25 的训练集和验证集分割，从 2023 年 1 月 1 日之前结束的时间序列的同一子集中随机采样。

表 I 用于微调的数据摘要。

与原始 TimesFM 不同，我们在训练中不使用任何合成数据，也不进行任何重新加权以均匀采样每个粒度。我们承认未来在这一领域可能的工作，其中在第六部分提出了一些建议。尽管如此，我们观察到，虽然训练过程中包含更多的小时粒度数据，但该模型在更长的预测范围内表现出更好的性能，如第五部分所示。

B. 超参数

表 II 列出了用于微调 TimesFM 的设置。值得注意的是，我们使用带有线性预热和余弦衰减的 SGD，峰值学习率为 5e-4。

按照表 II 中列出的训练配方，并使用 I 中的数据，我们能够在 8 个 V100 上完成训练，并在没有任何 NaN 损失的情况下在 1 小时内完成。训练曲线如图 2 所示。

C. 测试

为了探索微调 TimesFM 是否确实会导致在金融市场中部署时的性能提升，我们运行了本节中详细描述的几个实验。我们首先比较的第一个指标是价格预测的准确性，跨越不同的预测范围（相当于资产的持有期）。这在测试集上进行（2023 年以后的数据，未在训练和验证中使用）。我们还引入了更稳健的指标：宏观 F1 分数，即使在类别不平衡的情况下也能进行更公平的模型比较。最后，我们对各种市场进行模拟交易：S&P500 股票、TOPIX500 股票、货币、加密货币，以验证准确性和宏观 F1 的性能转化为损益（PnL）。

指标：准确性：回想一下，在训练时，模型被给予 input_length <= max_context_length = 512 个数据点（带有随机掩码），并且总是预测下一个 output_len = 128 个点。损失在 output_len 许多点上进行评估。在推理时，模型始终被给予 context_length = c 许多点（无掩码，其中 c <= 512），并且被要求预测以下点。然而，我们可能希望生成任意数量的未来点，而不一定是 128 个。

在每个步骤中，模型预测下一个 h 许多点。对于这单个步骤，准确性是在最后一个输出点 yc+h 上评估的，其中模型被要求分类价格是上涨还是下跌。在下一个步骤中，模型然后读取下一个真实 h 点，并在 @c+2h 上再次计算准确性。准确性计算基于每个推理步骤上的这种分类，即

对于所有 1 ≤ k ≤ K，使得 Kh 长于所需的预测总范围 H。在我们的实验中，我们固定 H = 128 并变化 h E {2, 4, 8,. … , 128}。我们注意到模型只能处理 y1:c+(k-1)h 中的最后 max_context_length = 512 点。

比较我们的微调 TimesFM 与基础 TimesFM 的结果如图 3 所示。

指标：F1 分数：准确性分数可能并不总是人们感兴趣的指标。例如，在一个有 90% 正面样本和 10% 负面样本的有偏数据集上，一个将每个样本分类为正面的模型将获得 90% 的准确性。尽管如此，我们应该问一个问题：模型是否真正学会了潜在分布。

准确性的替代方法是 F1 分数，它取精确度和召回率的调和平均值。然而，F1 分数也受到类别不平衡问题的影响 [32]，这促使我们采用宏观 F1 分数 [33]，它计算以每个类别作为“正面”类别的 F1 分数的算术平均值。具体来说，在上面的例子中，我们得到一个宏观 F1 分数为 0.474，表明该模型未能很好地学习 10% 的负面率。

模拟交易：在这里，我们根据微调 TimesFM 制定交易策略，并分析我们交易的利润。

我们在下面概述了第一个交易策略，我们将其称为基本策略。交易者首先选择一个持有期，表示为 h（其中 h = horizon_len）。此外，我们定义上下文长度为 c（其中 c = 512，使用最大上下文长度）。h 和 c 与公式 4 中的类似，因为交易是基于提前 h 步的预测进行的。

在交易日的 i 天后，交易者将时间序列 Pi-c-1:i = {Pi-c-1, Pi-c, … , Pi} 输入到模型中，以获得对 Pi+1:i+h 的预测。交易者在第 i + 1 天和第 i + h 天根据以下条件下达买入或卖出订单：

. 如果 Pi+h > Pi+1，在第 i + 1 天下达买入订单，在第 i + h 天下达卖出订单。. 如果 Pi+h < Pi+1，在第 i + 1 天下达卖出订单，在第 i + h 天下达买入订单。

这个策略在所有交易日 i 上重复。

如果交易篮子包含总共 T 个资产，所有下达的订单将价值 1 个单位。这确保了在给定的一天内下达的订单的 l1 范数不超过 1，并且在整个持有期内不超过 1（代表总资本）。我们限制订单的范数以确保，即使在最极端的情况下，在持有期内每个订单都是“买入”，也有足够的资金来下达所有订单。例如，我们的初始预算为 1 美元，持有期 h = 100。如果对于所有 0 < i > 99，我们预测 Pi+h > Pi+1，那么我们将下达所有 0 < i > 99 的买入订单。因此，一天内我们最多可以交易的金额将限制在 39 美元。

我们比较的另一种策略是市场中性策略。基本策略的一个问题是我们的投资组合头寸取决于整体市场偏差，并且会受到总市场走势的影响。这在图 5 中也有说明。为了构建一个市场中性策略，使我们的回报独立于整体市场走势，每个交易日的平均头寸被减去。例如，如果交易一个由三个股票 A、B、C 组成的篮子，我们的基本策略头寸分别为 -1/3, 1/3, 1/3，那么我们的市场中性策略头寸将是 -4/9, 2/9, 2/9，即这种平均减法是在基本策略的基础上进行的。因此，我们不是限制我们的每日预算，而是限制我们的每日敞口为 1/(h - 1)。结果如图 5 所示。

五、结果

本节对第四部分描述的实验结果进行了全面分析，并将其与原始版本以及一些流行的过去基准进行了比较。

A. 训练结果：损失曲线

如图 2 所示，训练通常在原始损失值的 70% 左右达到稳定。由于前面部分描述的随机掩码增强，训练中存在噪声。请注意，训练超过 100 个周期，或者使用更大的学习率，会出现初步的过拟合迹象。我们建议，对于未来的工作，使用更大的训练集、更强的数据增强或提前停止以获得更好的泛化。

我们注意到图 2 中的损失值显示在对数变换后执行损失，并不立即转化为在原始样本上计算 MSE 损失时的相同性能。我们验证了 MSE 损失也肯定下降。

虽然这证明了模型的学习能力，但 MSE 损失可以通过许多方法轻松降低。由于训练集和验证集之间的相似性（两者都取自 2023 年之前的数据），整体市场趋势和价格之间的高度相关性可能会激励模型通过记忆已看到的模式来进行学习。

在以下部分中，我们评估了该模型在测试集上的性能：2023 年以后的数据。

B. 指标：准确性

我们观察到，在图 3 中，通过微调，我们能够在从 2 到 128 的范围内持续优于普通的预训练 TimesFM。作为基准，我们提供了随机率，计算为随机模型获得的准确性。例如，如果测试集中 53% 的价格变化是上涨的，那么随机模型猜测上涨 53% 的时间，下跌 47% 的时间。我们的微调 TimesFM 也能够优于这个基准，提供统计置信度，我们看到的改进不是随机性的结果。

作为对我们最初研究问题的回答，从图 3 可以得出以下结论：

原始 TimesFM 在 7 个预测范围内 4 个表现不如随机机会，表明 TimesFM 不能以其原始状态用于价格预测
微调 TimesFM 在所有预测范围内优于原始 TimesFM，表明对金融数据的微调可以显著提高性能。
微调 TimesFM 在所有预测范围内优于随机机会，暗示了统计上的显著性能。

C. 指标：F1 分数

图 4 中显示的宏观 F1 分数对模型性能的更严格评估显示了与图 3 相同的趋势，其中微调的 TimesFM 持续优于随机机会和基准模型。这为我们的最初研究问题提供了一个结论性的答案：基础时间序列模型在金融市场中经过微调后可以很好地执行价格数据。

D. 模拟交易

在上一节中，我们已经证明了我们的微调模型能够在价格预测任务中以可靠和显著的幅度优于标准基准（原始 TimesFM 和随机率模型）。使用第四部分 C3 节中概述的策略，我们对 S&P 500 指数的每日数据进行了微调 TimesFM 的模拟交易，从 2023 年 1 月 1 日开始。在零成本设置中执行此策略产生的回报如图 5 所示。

图 6 显示了在没有交易成本的情况下，使用市场中性策略在 S&P500 股票上交易微调 TimesFM 的实现 PnL。

使用基本策略，我们看到在交易期结束时，每个范围长度的收益始终为正。注意，使用范围长度 H，第一笔收益只有在第 H 天才会实现，所以每个范围长度的起点是不同的。

虽然我们能够观察到高达 10% 的最大收益（使用范围长度 2），但这种基本策略具有很高的波动性，因为它依赖于整体市场走势。相比之下，图 6 中的结果表明，市场中性策略在减少整体波动性的同时，确保了大多数范围长度的正回报。

此外，我们还提供了用于评估市场中性策略性能的额外有用指标。图 7. 在没有交易成本的情况下，使用市场中性策略在 S&P500 股票上交易各种模型之间的实现 PnL 比较。

图 7 中显示的结果表明，我们的微调 TimesFM 在其他模型中表现更强大。随机模型在市场中性设置中表现不佳，而 AR1 模型也显示出低于微调 TimesFM 的回报。

表 IV 和 V 分别显示了不同市场在不同模型上的严格测试结果，评估了夏普比率和中性成本。

表 IV 跨模型/市场夏普比率比较。

我们的模型在所有基准测试中都优于原始 TimesFM，而随机模型在市场中性情况下无法做出任何可靠预测。

然而，我们模型在货币和加密货币上的表现还有待改进。显著低于 AR1 模型。尽管如此，我们的微调 TimesFM 仍然是唯一一个在每个市场上都取得正回报的模型。

表 V 跨模型/市场中性成本比较。

六、讨论

我们严格证明了微调基础时间序列模型（TimesFM）用于金融市场价格预测任务的可行性。尽管如此，我们的结果也引发了一些问题，并为未来的工作提供了动力。

在为微调数据做准备时，我们使用了来自不同市场和粒度的数据混合。然而，大多数训练数据以小时粒度的加密货币和股票数据为主，这可能会导致训练过程中偏向于特定的粒度或市场。我们可以潜在地对代表性不足的粒度或市场数据进行上采样以平衡数据集，就像 TimesFM 中所做的那样，但要注意数据的重复可能会降低模型性能。

在 TimesFM 中，还展示了在训练中包含合成数据，特别是由简单数学函数生成的时间序列，即使在评估真实世界的时间序列信息时也能提高模型性能。在其他模态中，合成数据也显示出有利于模型性能 [34], [35]，作者在这里质疑合成数据在多大程度上可以有利于金融价格预测的时间序列模型。

在训练过程中，关于损失函数和掩码方案，我们做出了一些经验性的决定，以调整 TimesFM 以对金融数据微调。另一个可能的损失函数是计算 log(MSE) 而不是 MSE(log)，我们的初步观察表明它们给出了相当类似的结果。在本文的范围之外，但最近得到 TimesFM 作者的支持，是训练带有分位数损失，其中模型在推理时还输出置信度和分位数。

虽然我们选择使用持续预训练进行微调，但这是最慢的微调方法之一，只有在这种情况下，由于我们的数据集相对有限才可行。这种微调方法也增加了模型权重在微调前后的变化幅度。其他替代方法，如冻结模型权重、LoRA [36] 可以帮助模型在微调期间进行较小的更新，同时仍然实现所需的性能。

在我们的评估实验中，我们还看到原始 TimesFM 甚至连最基础的 AR1 模型都显著不如，在大多数市场上给出统计上不显著甚至负回报。尽管这显示了微调 TimesFM 的好处，但我们质疑原始 TimesFM 的性能瓶颈在哪里。作者假设价格数据的不规则性相比于 TimesFM 训练中使用的常规时间序列数据是导致 TimesFM 无法捕捉到潜在市场动态的主要因素。对原始 TimesFM 在更广泛的数据复杂性、粒度和交易周期上进行额外实验有助于阐明差异。一个有帮助的比较将是原始和微调后的 TimesFM 权重之间的差异。

我们观察到价格预测任务的准确性提高了，那么通用时间序列预测的性能会发生什么变化？特别是在语言模型中，微调可能会破坏预训练特征 [37]，从而降低泛化性能。特别对于像我们这样的微调数据集，包含价格数据，与标准时间序列数据几乎没有相关性，微调有可能在一般基准测试中降低性能。下一步将是评估模型在 Darts [29]、Monash [30] 和 Informer [31] 等基准测试上的 MAE（平均绝对误差）分数，就像 TimesFM 中所做的那样。

虽然微调提高了 TimesFM 相对于其基准的性能，但我们无法确定它始终优于仅仅一个简单的 AR1 模型。我们应该如何改进微调以超过 AR1？它的性能与其他自回归模型相比如何？可能的方向包括制作一个更好的微调数据集，平衡不同粒度 [14]，或者调整损失函数以通过分位数损失执行概率预测。

这也引发了一个问题，即模型到底在学习什么？表 V 和 IV 中的比较表明，它不完全是基于单一的自回归项，否则我们的指标将与 AR1 在所有市场上的表现具有很强的相似性。计算 TimesFM 与 AR1 以及其他自回归模型预测价格之间的相关性，或者使用线性探测技术 [38] 探测内部激活，可以帮助探索大型时间序列模型正在学习什么样的动量（或某些其他）策略。