强化学习在各个领域发挥着重要的作用,但在建筑能源控制领域却刚刚崭露头角,限制其发展的因素如下:1)训练耗时,数据要求高。2)安全性和鲁棒性要求。3)提高RL模型的泛华性。
一、能源控制领域的几种常见方法
(1)基于规则的方法
它包含两个步骤:1)基于一些预先设定的时间表来选择设定点。2)使用PID等方法跟踪设定点。
其缺点为:1)没有考虑预测信息。2)不是针对特定建筑定制的。
(2)MPC(model predictive control)
根据名字可以看出其对应三个步骤,1)模型:描述建筑物和整个系统的模型。2)预测性:预测干扰,如外部天气等。3)控制:将预测信息输入到开发的模型中解决问题。
MPC需要专业知识。
(3)强化学习
二、能源控制的RL
2.1 算法
(1)state设置
markov的下一个状态仅和当前状态有关,但在建筑动力学中这是不成立的,还需要考虑历史状态信息。
过长的历史会导致维数灾难,学者使用自动编码器(auto-encoder)来解决这个问题,将历史信息编码到隐状态。
除了历史状态,预测未来状态也很必要,MPC已经用过,可以考虑应用到RL中。
(2)action
大多数的action维度小于4.大多数都将控制设定在高水平,即室温设定值。少量实施中级控制,如送风温度或VAV箱的流速等。
(3) reward
主要包含三个部分:1)舒适性。2)节能。3)负载灵活性。
负载灵活性可以看做和节能的目标是一样的。
乘客舒适度是负载灵活性和节能的先决条件,所有研究都将乘客舒适度列为至少一个控制目标。节能是另一个常见的目标。
结合多目标的方法:1)加权求和、2)将多目标优化形成为约束优化问题。
对超出温度上下界的行为施加软约束。
(4)环境
on-policy需要与真实环境交互,不可行。提出off-policy。
虚拟环境。
2.2 加速训练的方法
需要大约三年的数据。
(1)减小状态和动作的维度。
使用自动编码器来实现降维。
(2)将多个行动变量分解为多个简单的问题。
(3)多阶段方法加快训练。
2.3 安全性,鲁棒性
(1)安全性:
1.设置备用控制器,当温度接近或即将超过舒适边界时,备用控制器被激活以覆盖RL控制器。
2.预训练控制器,使其足够安全,可以在真实环境中实施。虚拟环境,专家知识,使用其他方法得到的策略来预训练控制器。