强化学习在建筑能源控制中的发展与应用

cxp_001

已于 2022-10-24 20:33:20 修改

阅读量670

点赞数

分类专栏： RL 文章标签：论文阅读

于 2022-10-24 20:32:09 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wwpwwpwwpemmm/article/details/127485943

版权

RL 专栏收录该内容

3 篇文章

订阅专栏

强化学习在各个领域发挥着重要的作用，但在建筑能源控制领域却刚刚崭露头角，限制其发展的因素如下：1）训练耗时，数据要求高。2）安全性和鲁棒性要求。3）提高RL模型的泛华性。

一、能源控制领域的几种常见方法

（1）基于规则的方法
它包含两个步骤：1）基于一些预先设定的时间表来选择设定点。2）使用PID等方法跟踪设定点。

其缺点为：1）没有考虑预测信息。2）不是针对特定建筑定制的。
（2）MPC（model predictive control）
根据名字可以看出其对应三个步骤，1）模型：描述建筑物和整个系统的模型。2）预测性：预测干扰，如外部天气等。3）控制：将预测信息输入到开发的模型中解决问题。

MPC需要专业知识。

（3）强化学习

二、能源控制的RL

2.1 算法

（1）state设置

markov的下一个状态仅和当前状态有关，但在建筑动力学中这是不成立的，还需要考虑历史状态信息。

过长的历史会导致维数灾难，学者使用自动编码器（auto-encoder）来解决这个问题，将历史信息编码到隐状态。

除了历史状态，预测未来状态也很必要，MPC已经用过，可以考虑应用到RL中。

（2）action

大多数的action维度小于4.大多数都将控制设定在高水平，即室温设定值。少量实施中级控制，如送风温度或VAV箱的流速等。

(3) reward

主要包含三个部分：1）舒适性。2）节能。3）负载灵活性。

负载灵活性可以看做和节能的目标是一样的。

乘客舒适度是负载灵活性和节能的先决条件，所有研究都将乘客舒适度列为至少一个控制目标。节能是另一个常见的目标。

结合多目标的方法：1）加权求和、2）将多目标优化形成为约束优化问题。

对超出温度上下界的行为施加软约束。

（4）环境

on-policy需要与真实环境交互，不可行。提出off-policy。

虚拟环境。

2.2 加速训练的方法

需要大约三年的数据。

（1）减小状态和动作的维度。
使用自动编码器来实现降维。

（2）将多个行动变量分解为多个简单的问题。
（3）多阶段方法加快训练。

2.3 安全性，鲁棒性

（1）安全性：
1.设置备用控制器，当温度接近或即将超过舒适边界时，备用控制器被激活以覆盖RL控制器。
2.预训练控制器，使其足够安全，可以在真实环境中实施。虚拟环境，专家知识，使用其他方法得到的策略来预训练控制器。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

cxp_001 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。