基于动态模式分解的强制融合数据预测方法-CSDN博客

本文链接：https://blog.csdn.net/xx_nm98/article/details/142342757

时间序列预测仍然是几乎所有科学领域的核心挑战问题，包括电力系统工程中的负荷建模。生成准确预测的能力对实时控制、定价、维护和安全决策具有重大影响。我们介绍了一种新的负荷预测方法，其中使用时滞坐标系中的动态模式分解（DMD）将观察到的动态建模为强制线性系统。这种方法的核心是，网格负载与复杂现实世界系统上的许多可观测值一样，具有“几乎周期性”的特征，即连续的傅里叶频谱，由主峰打断，这些主峰捕捉动态中的定期（例如，每天或每周）重现。所提出的预测方法利用了这一特性，（i）回归到特征谱映射到这些峰值上的确定性线性模型，以及（ii）同时学习随机高斯过程回归（GPR）过程以启动该系统。我们的预测算法与不使用额外解释变量的最新预测技术进行了比较，结果表明，我们的预测性能优越。此外，它对线性内在动力学的使用在可解释性和简约性方面提供了许多理想的财产。

本文介绍的方法旨在通过在时间延迟坐标系中通过动态模式分解（DMD）将电网负荷建模为强制线性系统来改进现有方法。这种方法提供了一种比许多最先进技术更易于解释的算法结构：其线性内在动力学能够通过特征值分解进行频谱分析。此外，它发现的强迫信号可以提供对原始数据中具有特征的异常事件的诊断见解。

这篇论文的话主要是DMD涉及了一定的SVD及线性代数、高等数学的内容，还是有一定难度。下面的介绍主要是我根据一些主要的步骤进行简单的概括总结的。

1、将负荷数据进行表示，通过时延嵌入技术，将负荷数据提升到延迟坐标空间。

依据Cover定理，将观测数据转换到一个更高维的空间中，可能更适合一个精确的线性表示。论文主要采用了Hankel矩阵的方法，其构建如下：

H的形状为[m-d,d]，m为负荷点个数，d为延迟嵌入的维数，延迟嵌入时间足够长才能以包含数据的周期性，因此d可以依据电网负荷数据采样周期决定。通过延迟嵌入将数据叠加时间提升到延迟坐标空间，提升了数据维数，从而可以更适合、更精确地表达一个预测模型。

时间延迟嵌入，其中标量时间序列y的时移副本彼此叠加，以形成Hankel矩阵H。H的每一列可以被认为是原始测量空间中沿着轨迹的d个连续点的轨迹。

然后构建滑动矩阵：

Xn 表示H矩阵的第n列负荷数据。

2、利用SVD、DMD对延迟嵌入数据进行分解，并求解最优的线性算子A，得到最优线性模型。

利用SVD对滑动矩阵X进行分解：

延迟嵌入可以产生主成分轨迹PCTs。U为PCTs（左奇异矩阵），U矩阵的每一列表示延迟坐标空间的主分量，被认为是一个学习到的时频基，以低秩表示所观察到的动力学。S为对焦矩阵。VT 表示右奇异矩阵V的转置。通过提升维度再压缩信号到一个低秩时频表示（通过低秩表示观察到的动力学），保真度在最小二乘意义上是最优的。

对滑动矩阵进行DMD：

通过延迟坐标DMD方法可以扩展到学习驱动的线性模型，即使是高度非线性的动力学，这个模型也是相当有效的，论文采用了optDMD方法来获取A算子，这个方法目前我未看，感兴趣的读者可以去原始论文进行查阅。

然后结合SVD、DMD公式求解得出线性算子：

由上式可知矩阵A包含了大量的数据，且通常为高维矩阵，所得高维矩阵中含有部分冗余信息，在进行相关计算时会导致计算时间过长；因此选择一定大小的截断秩r，并将其投影到按特征向量顺序排列的本征正交分解模态上，由r构成的近似矩阵来表示。

最终得到DMD方法产生的最优线性模型：

由DMD方法产生的线性模型有一个优点是，动力学可以通过矩阵的特征值及特征向量来理解，具有可解释性。尽管识别DMD模式和特征值的数学过程是纯线性的，但系统本身却可以是非线性的，根据Koopman运算符理论基础可以证明非线性系统可以通过一组模式和特征值对来描述。

H的奇异值分解。U列表示延迟坐标空间中的主要分量。这些也可以表示为状态空间中的主分量轨迹（PCT），这可以被认为是观测到的动力学的低秩表示的学习时间-频率基础。

3、通过最优线性模型及负荷数据滑窗得到负荷偏差数据F。

然后对负荷数据滑窗得到负荷偏差数据：

V矩阵编码投影到顶部r个PCT上的系统时间序列动态。顶部：DMD在此基础上回归系统演化的最佳拟合线性算子A。底部：该线性DMD模型用于对状态进行逐步预测，这些预测与真实值之间的差异被解释为线性系统上的外部作用力F（负荷偏差数据）

4、对负荷偏差数据F利用GPR模型（高斯过程回归）进行回归，并结合DMD实现组合预测。

组合后的模型如下：

该模型为强迫线性模型，可以使得所有模型误差都存在于驱动信号中（即model(X)），因此可用来判断异常事件。

所提出的建模方法提供了一种表示，其中动力学可以被理解为一个简单的线性系统，具有周期的内在解，由非周期外部致动器强制执行。前一部分包含了动态的一部分，它是反复出现的，因此可以确定地推断到未来。后者包含不符合此描述的动态内容的蒸馏。先前关于具有连续谱的系统的Koopman表示的工作利用了后瞬态状态中保持动态演化的度量与平稳随机过程具有对偶性的结果。对于几乎周期性系统中的预报问题（即，具有散布有占总能量的很大一部分的主要窄峰的连续频谱的系统），这种随机性可以归结为上述强迫信号。然后，可以通过将合适的随机模型拟合到训练期间获得的强迫来完成预测。通过在时间上向前集成线性控制模型并连续采样随机过程以提供驱动，来模拟未来的演变。如本文所示，当应用于系统范围电网负荷的真实世界数据集时，该方法优于许多广泛使用的数值预测方法。此外，它自然与不确定性量化方法相结合：这些强制线性系统的构造使得所有模型误差都存在于驱动信号中，因此可以通过对建模的随机过程的实现集合进行采样来量化预测不确定性。最后，该方法在数据驱动建模中提供了一种新的可解释模式：除了通过所获得的DMD算子的本征分解获得的频谱信息之外，还可以单独分析所学习的强迫信号，这可以洞察数据中的异常事件。

DMD产生的线性模型的一个优点是，可以根据矩阵A的特征值和特征向量来理解它们的动力学。下面就是DMD与GPR结合产生的预测结果：

然后论文对于偏差数据的预测还采用了多种模型进行实验，包括集成GP和高斯过程回归GPR和ARIMA、LSTM技术等，其结果如下：

延迟坐标DMD模型的未来状态预测，无强制（蓝色）和强制随机采样，来自前4周训练的高斯过程（红色），与观察到的地面真相（黑色）对比。垂直虚线表示4周训练窗口（大部分被截断）和测试域之间的边界。

6种不同模型的预测误差比较。上图显示了RMS预测误差在2周内的演变。黑线表示在不同的4周训练窗口中所有实现的每个模型的中间值。周围的红色阴影给出了相同数据的分布统计（每个连续较亮的带表示另一个5%）。下图显示了在14天预测窗口内平均的这些RMS误差的统计分布。

本论文是一篇非常经典且很巧妙的工作，其将动态的时间序列数据利用DMD建立为强制的线性模型，然后对剩余的信号进行预测，实现时间序列分析的可解释性预测，很巧妙。不过这个工作也比较类似于一些时间序列分析中的去趋势分析方法，相当于将原始时间序列进行去趋势，非趋势项用GPR、LSTM等模型进行预测。不过整体论文也主要是介绍了DMD分解方法，还是比较nice的一篇工作。

该篇论文涉及了较多技术，包括SVD、TruncatedSVD、DMD以及相关优化方法、GPR等，大多都涉及机器学习和时间序列分析领域，由于牵扯到数学，里面较多内容比较难懂，我已经尽量让他通俗易懂了，后面还会更新一些DMD的实践代码讲解。

利用matlab实现DMD动态模态分解(在一维信号或二维流场矢量中的应用）_hyhhyh21的博客-CSDN博客

动态模式分解（DMD）_颹蕭蕭的博客-CSDN博客

娃哈哈：一种快速的截断式矩阵分解算法（SVD）

[数学基础知识] 线代里的svd, numpy 的svd以及sklearn的TruncatedSVD

Dynamic mode decomposition for forecasting and analysis of power grid load data arXiv:2010.04248v1 [physics.soc-ph] 8 Oct 2020

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述