《This Time is Different: An Observability Perspective on Time Series Foundation Models》
一、模型介绍
本文介绍了一种名为TOTO的时间序列预测基础模型,它拥有1.51亿个参数,采用了现代的仅解码器架构,并结合了为解决多元可观测性时间序列数据特定挑战而设计的架构创新。TOTO的预训练语料库包含可观测性数据、开放数据集和合成数据的混合,其规模是其他领先时间序列基础模型的4-10倍。此外,文章还介绍了BOOM,一个包含3.5亿个观测值、涵盖2807个真实世界时间序列的大规模基准测试。TOTO和BOOM的可观测性数据均来自Datadog自身的遥测和内部可观测性指标。
TOTO的架构创新包括:用于处理高度非平稳序列的每变量基于补丁的因果缩放;用于在大量协变量之间谨慎选择性注意的比例时间-变量因子分解注意;以及用于拟合复杂且高度偏斜分布的Student-T混合预测头,该预测头通过稳健的复合损失进行优化。TOTO的预训练语料库包含4-10倍于其他时间序列基础模型的独特数据点。
二、数据集与基准测试
BOOM是一个专门为可观测性时间序列设计的大规模基准测试,包含来自Datadog平台的3.5亿个数据点,涵盖2807个不同的多元时间序列。这些序列在采样频率、时间长度和维度上差异显著,捕捉了真实的运营状况。BOOM的数据集被分为多个领域,包括应用使用、基础设施、数据库、网络和安全等。
与现有的多领域基准测试不同,BOOM完全由真实世界的可观测性数据组成。它采用了与GIFT-Eval类似的评估方法,包括标准化的预测长度、步长和训练/验证/测试拆分。主要的准确性指标是平均绝对缩放误差(MASE)和近似连续排名概率得分(CRPS),两者都通过季节性简单预测进行标准化。此外,还计算了相对于CRPS的平均排名。
三、实验结果与分析
TOTO在BOOM基准测试中表现优异,与领先的通用预测模型和其他传统时间序列预测基线相比,取得了最先进的性能。TOTO在BOOM上的CRPS比次优方法提高了12%。在GIFT-Eval和长序列预测(LSF)基准测试中,TOTO也取得了顶级性能。
在GIFT-Eval基准测试中,TOTO在所有报告的模型中平均排名得分最低,MASE为0.673,CRPS为0.437。在LSF基准测试中,TOTO在零样本评估中在12个报告指标中的8个上取得了最佳性能,并且在所有方法中平均MAE和MSE最低。此外,当在LSF训练拆分上进行微调时,TOTO在12个报告指标中的8个上也取得了最佳性能,证明了其强大的泛化能力和适应性。
四、技术细节与优化
TOTO采用了一系列技术细节和优化措施来提升其性能。在模型架构方面,TOTO使用了基于补丁的因果实例归一化来处理高度非平稳数据,设计了比例因子分解注意来捕捉变量间交互,并使用Student-T混合模型(SMM)头来建模重尾可观测性时间序列。此外,还采用了复合稳健损失来稳定训练动态。
在训练数据方面,TOTO的预训练数据集包含约2.36万亿个时间序列点,其中1.59万亿个是非重复和非合成的。43%的训练混合数据来自Datadog可观测性平台的匿名指标。为了提高模型的泛化和性能,还添加了合成数据。
五、影响声明
在开发TOTO时,作者遵循了结构化的方法来确保负责任的开发,重点关注识别、评估和减轻与使用模型相关的潜在风险。鉴于TOTO专门生成时间序列预测,与语言、图像或其他更通用的模型相比,潜在危害要小得多。主要关注点是确保TOTO生成的预测的准确性和可靠性,这对于维护和优化基础设施和应用程序性能至关重要。
BOOM基准测试提供了来自可观测性指标的数值时间序列,这些时间序列对更广泛的时间序列研究社区具有重要价值。每个系列都有一个关联的高级应用标签,没有其他元数据,且不包含任何个人身份识别信息(PII)。