强化学习在建筑能源控制中的发展与应用

强化学习在各个领域发挥着重要的作用,但在建筑能源控制领域却刚刚崭露头角,限制其发展的因素如下:1)训练耗时,数据要求高。2)安全性和鲁棒性要求。3)提高RL模型的泛华性。

一、能源控制领域的几种常见方法

(1)基于规则的方法
它包含两个步骤:1)基于一些预先设定的时间表来选择设定点。2)使用PID等方法跟踪设定点。

其缺点为:1)没有考虑预测信息。2)不是针对特定建筑定制的。
(2)MPC(model predictive control)
根据名字可以看出其对应三个步骤,1)模型:描述建筑物和整个系统的模型。2)预测性:预测干扰,如外部天气等。3)控制:将预测信息输入到开发的模型中解决问题。

MPC需要专业知识。

(3)强化学习

二、能源控制的RL

2.1 算法

(1)state设置

markov的下一个状态仅和当前状态有关,但在建筑动力学中这是不成立的,还需要考虑历史状态信息

过长的历史会导致维数灾难,学者使用自动编码器(auto-encoder)来解决这个问题,将历史信息编码到隐状态。

除了历史状态,预测未来状态也很必要,MPC已经用过,可以考虑应用到RL中。

(2)action

大多数的action维度小于4.大多数都将控制设定在高水平,即室温设定值。少量实施中级控制,如送风温度或VAV箱的流速等。

(3) reward

主要包含三个部分:1)舒适性。2)节能。3)负载灵活性。

负载灵活性可以看做和节能的目标是一样的。

乘客舒适度是负载灵活性和节能的先决条件,所有研究都将乘客舒适度列为至少一个控制目标。节能是另一个常见的目标。

结合多目标的方法:1)加权求和、2)将多目标优化形成为约束优化问题。

对超出温度上下界的行为施加软约束。

(4)环境

on-policy需要与真实环境交互,不可行。提出off-policy。

虚拟环境。

2.2 加速训练的方法

需要大约三年的数据。

(1)减小状态和动作的维度。
使用自动编码器来实现降维。

(2)将多个行动变量分解为多个简单的问题。
(3)多阶段方法加快训练。

2.3 安全性,鲁棒性

(1)安全性:
1.设置备用控制器,当温度接近或即将超过舒适边界时,备用控制器被激活以覆盖RL控制器。
2.预训练控制器,使其足够安全,可以在真实环境中实施。虚拟环境,专家知识,使用其他方法得到的策略来预训练控制器。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

cxp_001

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值