NeurIPS 2024 | PowerPM：电力系统基座模型

最新推荐文章于 2025-05-13 20:33:05 发布

Python编程杰哥

最新推荐文章于 2025-05-13 20:33:05 发布

阅读量1.1k

点赞数 18

文章标签：人工智能语言模型学习自然语言处理 milvus

本文链接：https://blog.csdn.net/xx_nm98/article/details/143955986

版权

论文标题：PowerPM：Foundation Model for Power Systems

论文来源：

http://yangy.org/works/power/NeurIPS24_PowerPM.pdf

01.概述

智能电网的出现催生电力时间序列（ETS）的数据量爆炸增长，这些丰富的数据可服务于电力系统中的大部分应用，包括需求侧管理、电网稳定性和用户行为分析等。同时，这些应用带来了各种下游任务需求，如图1(d)所示，包括负荷预测、时钟异常检测、窃电检测和独居老人检测等。

最近，关于ETS数据预训练方法的研究不断涌现。这些方法采用“预训练-微调”的范式来解决有限标注数据的问题，并且预训练模型可以很容易在新任务上微调，然而这些预训练方法仅使用小规模数据和少量实例（例如用户）进行训练，导致在下游任务中表现不佳。同时，许多研究者开始应用大型语言模型（LLMs）来辅助时间序列建模，通过使用预训练的LLM来编码时间序列或整合与时间序列相关的描述。由于缺乏足够的电力系统预训练数据和领域特定知识，这些模型在电力系统场景中的能力有限。因此，在现有电力系统文献中，使用基座模型对ETS数据进行建模的研究仍存在巨大空白。

在本研究的场景中，ETS数据包含众多实例，呈现出自然而又复杂的层次结构。如图1-(a)所示，城市ETS可以根据行政区划分解为区域ETS，进一步可以分解为该区域的用户ETS。建模ETS数据需要考虑几个挑战：

（1）ETS数据自然地呈现出复杂的层次结构。如图1-(a)所示，不同粒度之间存在信息交互。整合这些粒度以提供宏观和微观的视角去建模ETS数据是一个复杂的任务。

（2）如图1-(b)所示，城市ETS表现出每日和每周的时序依赖性，同时ETS通常受到外部变量的影响。准确捕捉外部变量影响下的时间依赖性是建模 ETS 数据的关键挑战。

（3）ETS窗口中观察到的模式在不同实例和不同时间戳之间可能存在显著差异，如图1-©所示。

为了应对这些挑战，我们提出了电力系统基座模型PowerPM。PowerPM包含约2.5亿参数，并在大规模层次ETS数据上进行预训练，数据量达到987.42GB。图2总结了所有下游任务的结果，展示了其在ETS数据建模方面的巨大潜力。

02.模型介绍

图3是PowerPM的主要架构。我们采用了“预训练-微调”的范式，通过在层次ETS数据上进行预训练来学习通用表示，并通过在下游数据上进行微调来统一各种任务。在预训练阶段，我们提出了一个新颖的自监督预训练框架，包括掩码ETS建模和双视图对比学习，使PowerPM能够捕获ETS窗口内的时序依赖并感知到ETS窗口间的差异。PowerPM主要由两个模块组成，即时间编码器和层次编码器。时间编码器采用Transformer来捕获ETS数据中的时间依赖性，同时建模外部变量的影响。层次编码器利用R-GCN来传播层次间相关信息，使得微观和宏观信息可以有效地协助建模ETS数据。

1.层级图构建

如图3-©所示，ETS数据中的城市、区域和用户数据自然形成了层次关系，基于此我们可以构建一个层次图, 同时采取聚类策略对图进行稀疏化。城市与区域双向连接，这些用户聚类也与区域双向连接，但与城市单向连接。通过稀疏化边，我们提高了图建模的效率。数学上，我们将层次结构表示为有向图g=(V, v, R) ，其中V是节点集合，每个节点对应一个实例，ε是有向边的集合，R是边类型的集合（例如用户聚类→区域，区域→用户等）。

2.时序编码器

如图3-(b)所示。在g中，每个节点的特征xi是对应实例i的ETS窗口数据。我们首先使用patch策略对其进行分块操作。同时为了有效地与外部变量交互，我们使用可学习的隐变量来模拟这些变量，并将其和时序表征相融合。最后使用原始的Transformer编码器来编码时序依赖，并建模外部变量。

3.层级编码器

为了模拟不同层次之间的复杂相关性，我们采用图神经网络（GNNs）来建模。此外，考虑到不同边的相关关系是不同的，我们采用R-GCN来整合不同层次和实例之间的信息传播，如图3-(a)所示。

4.自监督任务

如图3-(d)所示，针对电力场景，我们采用两种不同的预训练方式：ETS掩码重建和双视图对比学习。

我们提出了一种结合随机掩码和因果掩码的新掩码方法，如图3-(d)（左）所示。具体来说，我们随机选择一种掩码方法来处理给定的分块窗口。这种方法不仅保留了随机掩码策略的优势，并且确保模型学习仅基于过去信息预测未来部分，从而更全面地捕获窗口内的时间依赖性。为了使PowerPM感知到ETS窗口间的差异，在对比学习任务中，我们将来自同一实例的相邻窗口视为正样本，而来自不同实例的窗口或非相邻窗口视为负样本，如图3-(d)（右）所示。

04.实验分析

作为电力系统的基座模型，PowerPM在与其它基线模型相比时，在各种任务上都取得了SOTA（State of the Art，即最佳性能）表现，突显了其在广泛任务中有效泛化的能力。如上表所示，我们在所有表格中用粗体标出了最佳结果，下划线标出了第二好的结果，星号(*)标出了第三好的结果。

此外，消融研究和少样本实验、模型规模分析进一步证实了PowerPM的有效性, 如图4所示。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述