论文笔记-建筑能源管理的强化模型预测控制-CSDN博客

本文链接：https://blog.csdn.net/wwpwwpwwpemmm/article/details/127429491

在这里插入图片描述这是一篇使用强化学习方法来解决建筑能源的论文，作者将MPC和RL结合起来来用于建筑室内温度的调节。

首先，作者通过讨论每种方法的主要方面，在概念水平上强调RL和MPC之间的互补性。其次，描述了RL-MPC算法，该算法有效地结合了来自每种方法的特征，即状态估计、动态优化和学习。最后，MPC、RL和RL-MPC在BOPTEST中实现和评估

一、引言

一方面，MPC处理不确定性、系统复杂性和长期预测范围，而深度强化学习可以自然地处理复杂系统的不确定性和无限预测范围。另一方面，RL难以满足约束，缺乏可解释性，而MPC可以提供安全性保证和可理解性。

在比较中，MPC使用灰箱模型，RL代理使用基于值的算法。

在本文中，作者将MPC目标函数与RL代理值函数相结合，同时使用根据领域知识编码的非线性控制器模型。这种做法确保了两种方法之间的互操作性，并能够截断MPC优化问题。

这篇论文的主要局限在于缺乏RL-MPC的理论保证，这只能通过经验测试。

二、相关工作

更一般地，RL已经被提议与MPC合作用于除建筑能源管理之外的应用，建议使用MPC作为RL的函数近似值。

三、MPC和RL的区别

3.1

（1）MPC
在这里插入图片描述
首先，从工厂获得一个测量向量 $m$ ，一个刻画当前系统特征的状态向量 $\hat{x}$ 。然后，根据目标函数 $J$ 和控制模型 $F$ 对未来状态向量 $x$ 和输入轨迹 $u$ 进行优化，同时也引入限制 $H$ 。目标函数 $J$ 、模型 $F$ 、限制 $H$ 包含的变量包括：模型输出 $y$ ，代数变量 $z$ （是个什么东西），干扰 $d$ ，时间独立变量 $p$ ，另外，预测的未来干扰 $d(t_k,t_k+\Delta t_h)$ 作为优化器的外部输入。

状态 $x$ 表示当前的一些温度， $y$ 是 $x$ 的一个子集。 $d$ 表示影响建筑的其他不可控变量，如外部温度和太阳辐射等。

（2）MDP（markov决策过程）
在这里插入图片描述

3.2 术语

通过3.1可以看到MPC和RL有许多的相似之处。MPC的目标是最小化目标函数 $J$ ，RL的目标是最大化累积收益 $G$ 。两者之间的关系可以通过即时奖励来形式化：
在这里插入图片描述

3.3 解决方法

MPC的求解可以分为隐式和显式。动态优化问题的求解是隐式预测控制方法的核心。可以确定三种主要的求解方法来解决动态优化问题：动态规划(DP)、直接方法和间接方法。

3.4 最优性

在MPC中，最优解的质量取决于控制器模型的精度，由于计算原因，控制器模型经常被简化。

另一方面，基于动态规划的方法依赖于贝尔曼原理，可以为全局最优提供充分条件。不利的是，这些方法受到维数灾难的阻碍。

3.6 预测范围

MPC沿有限预测范围使用显式优化，RL学习动作以优化当前和未来折扣奖励的总和。MPC的一个缺点是有限的视野。

3.7 模型的使用

模型和函数近似在MPC和RL中的使用是不同的。

在MPC中，用来表示系统的模型称为控制器模型。这些模型是通过领域知识、系统识别或从历史监测数据的监督学习获得的。通常情况下，控制器型号被划分为白盒、灰盒或黑盒，这取决于物理观察和/或监控数据是否用于其配置。MPC中的优化问题对控制器模型施加了严格的限制，这些模型通常被简化以保证收敛性，但代价是性能损失。