“泰迪杯”挑战赛 - 通过Java实现中央空调系统的数据分析与控制策略

最新推荐文章于 2021-08-24 15:55:29 发布

爱学习的数据喵

最新推荐文章于 2021-08-24 15:55:29 发布

阅读量2.5k

点赞数 6

分类专栏：泰迪杯论文大数据项目案例数据挖掘文章标签：大数据多元回归分析多目变非线性规划 java 模拟退火算法

本文链接：https://blog.csdn.net/weixin_47922824/article/details/117080055

版权

目录录录录

挖掘目标
1.1 挖掘背景
1.2 挖掘目标
1.3 研究现状
分析方法与过程
2.1 流程分析
2.1.1 总体流程
2.1.2 变量分析
2.1.3 中央空调结构分析
2.2 具体步骤
2.2.1 数据预处理
2.2.2 符号说明
2.2.3 数据规律分析
2.2.4 基于回归分析的相关关系挖掘
2.2.5 当决策变量为设备转速时的优化模型
2.2.6 当决策变量为所有设备状态变量时的优化模型
2.6.7 当决策变量为所有可控变量时的优化模型
结论
参考文献

1. 挖掘目标

1.1 挖掘背景

随着我国社会经济的不断发展，城市进程不断加快，大量的现代化办公楼、商场、宾馆等大型建筑相继建成，这些建筑里面都越来越倾向于中央空调系统来实现室内温度和湿度的调节。尤其是近年来，随着“智慧城市”建设步伐的快速推进，如何围绕智慧城市建设实现中央空调的智能控制与节能，成为智慧城市建设中的重要课题之一。中央空调的优化控制策略研究对能源的节约有重要意义。

1.2 挖掘目标

根据题目中给出的中央空调的结构示意图和数据说明，在城市常年平均温度为 25至 32 摄氏度之间，平均湿度为 85%左右的前提之下，解决问题。

首先，对数据进行深入的分析梳理，挖掘出数据变化的特征和规律，研究冷却负载、系统效率、耗电量与可控变量和不可控变量之间的关系模型，并检验模型的可靠性。其次，根据给出的时间、室外温度和湿度、冷却负载和设备状态信息，尝试给出通过条件可控变量的最优控制策略，并给出相应的系统总耗电量和系统效率。然后，根据给出的时间、室外温度和湿度、冷却负载和可控变量取值，试给出所有设备状态变量的最优控制策略，和相应的系统总耗电量和系统效率。最后，根据附件中给出的信息并结合对系统设备状态变量的要去，求解所有可控变量的最优控制策略。以及相应的系统总耗电量和系统效率。

1.3 研究现状

1987 年，Braun[1]通过对飞机场的中央空调系统进行优化控制研究，提出了基于部件和基于系统的两种模型，取得了较好的优化效果。

1993 年，MacArthur[2]对动态预测性模型制冷系统优化控制进行了一系列的研究，开发了多变量控制预测器，研究结果表明 EHC 在动态预测模型中的效果较好。

2004 年，kWork TaiChan[3]对空调系统负荷动态变化的节能问题进行了研究，利用TRNSYS 空调系统模拟软件对冷水机建模分析，获得全年冷量分布。

2. 分析方法与过程

这里，我们首先对问题进行了分析，基于对问题的分析我们对数据进行预处理和降维，挖掘出各个变量的关联关系；又在不同的约束条件下建立出三个中央空调控制策略的优化模型，对其验证求解，并分析了模型验证结果。

2.1 流程分析

2.1.1 总体流程

这里，我们通过对问题进行详细的分析，得到如下总体处理流程。

在这里插入图片描述

在这里，对优化模型建立过程，具体分析如下：

1) 当决策变量为冷水泵转速、冷凝转速和冷却塔风扇转速时的优化模型分析

这里，题目中要求在时间、室外温度和湿度、冷却负载和设备状态信息已知的条件下，通过调节冷水泵转速、冷凝水泵转速和冷却塔风扇转速来获得最优控制策略。

本问题中，首先提出最优控制策略的两条原则：

（1）系统总耗电量应尽量小；

（2）系统效率应在一定范围内尽量小。

我们以上述两个原则作为目标函数建立双目标线性规划。对于约束条件，考虑不同设备状态的约束、转速范围约束、系统效率范围约束以及冷却负载等函数约束。在模型求解过程中，由于无法对多目标线性规划进行求解，因此，我们将双目标线性规划转化为单目标线性规划进行求解。

2) 当决策变量为所有设备状态变量时的优化模型分析

与第一个优化模型相比较而言，第一个优化模型是已知设备状态优化设备转速，而问题 3 中的优化模型则是已知设备转速优化设备状态。问题 2 与问题 3 的目标函数相同，但决策变量发生了变化。求解方法可以继续沿用问题 2 的方法。

3)当决策变量为所有可控变量时的优化模型

问题 4 的优化问题，相比 2、3 问中已知信息减少，决策变量变成所有可控变量，包括各个设备的状态和各个设备的转速。在问题 3 的基础上，目标函数没有发生变化，
但是需要增加约束条件，来对问题的解空间缩减。这里，根据题目要求，增加约束条件
如下：

每台设备的开/关以后两个小时内不可以关/开；
每台设备每台最多只能开关 6 次；
每台设备不能超负荷运转；
任何时间至少要开启一台设备；
将上述约束条件，抽象成数学模型，得到新的优化模型。

2.1.2 变量分析

附件中的数据共包含 88840 条记录，每个记录有 51 个字段，这些字段包括采集信息的时间、环境信息、系统状态参数、控制参数、系统采集信息和系统运行相关信息。这里，我们再次明确附件中 51 个字段的意义。

采集时间：采集时间是从 2016 年 10 月 4 日到 2016 年 12 月 29 日约三个月的数据，共有 74 天的数据。除去 2016 年 10 月 4 日和 2016 年 12 月 29 日的数据外，其它数据都是从每天的零点开始，每隔一分钟或者两分钟取一次数据，最长间隔不超过 5 分钟，数据非常的详尽。
环境信息：这里的环境信息包含干球室外温度、湿球室外温度以及相对湿度。对几个环境信息解释如下表所示。

在这里插入图片描述

湿球温度与干球温度之差可以用来表示湿度，当湿度较小时，则表明空气中的水蒸气含量较低。所以单独给出湿球温度是没有意义的，必须要和干球温度结合起来看，同时干球温度就是通常意义下的温度，由问题的背景可以知道，这些数据来自于一个热带地区的城市，常年平均温度在 25~32 摄氏度之间，平均湿度是 85%左右。

系统状态参数：冷水泵状态、冷凝水泵状态、冷却装置状态和冷却塔状态。这些都是属于可控变量，在对中央空调进行优化控制的时候，可以人为的对其进行改变，且都是 01 变量，0 状态表示此设备处于关闭状态，1 状态表示此设备处于开启状态。在后面求解时需要特别考虑 0-1 变量在自变量时如何应用。
控制参数：冷水泵转速、冷凝水泵转速、冷却塔风扇转速等，各个转速都有其频率范围，数据中都是将其化为了百分数形式。这些都属于可控变量，可人为进行调整，属于设备控制参数，转速与设备的效率和耗电量等有关系。
系统采集信息：主要指设备的耗电量和其他传感器的读数，比冷凝水进、出冷却装置的水温和流速。这些都是不可控变量，都属于因变量。比如设备的耗电量，设备的状态以及各个设备的转速都会影响设备的耗电量。再具体分析的时候，将其作为因变量进行分析。
系统运行相关信息：主要指耗电量、冷却负载和系统效率等内容。这几个变量都是不可控变量，也是作为因变量进行分析，与各个可控变量的取值有关系。对其解释如下：

在这里插入图片描述

2.1.3 中央空调结构分析

中央空调系统是由三套冷却装置、两个冷却塔、三个冷凝水泵和四个冷水泵组成的。其基本结构示意图如下所示：

在这里插入图片描述
从上图中可以简单分析出中央空调基本工作原理，其包含内循环和外循环两个热交换系统[5]。内循环中主要是利用了冷水泵、冷却装置对大楼内部空气进行降温和除湿，外循环主要应用冷凝水泵、冷却塔和冷却装置对内循环产生的热量进行降温发散。

冷凝输泵、冷却塔和冷水泵三个装置中都有风扇的存在，对应于数据中有一个装置的转速，风扇与各个设备的效率、功率以及耗电量等有很大的关系。在进行数据分析时，应该着重对其进行处理。根据中央空调的工作原理，冷却装置主要是承担内循环和外循环进行热量交换的地方，因此它的功率主要与流入流出冷却装置的水温差有关。

2.2 具体步骤

这里，我们首先对数据进行预处理，对数据中的异常值进行修正。并采用适当的方法对数据进行对数据降维，再挖掘其内在规律，分析出各个变量之间的关联关系。基于对优化问题的分析，建立中央空调控制策略优化模型，并采用交叉验证的方式对模型的准确性和实用性进行检验。

2.2.1 数据预处理

由于现实中的数据一般都是不完整、不一致的情况，数据的不完整性主要表现在数据缺失以及数据逻辑错误，通常情况下是由于人工填表的疏忽或者是数据录入电脑时不严谨造成的。为了使得数据挖掘结果更加准确，我们首先对全部的数据进行检查。

我们使用 R 语言对全部的数据进行统计分析，得到下图按行展示真实值和缺失值的矩阵图。

在这里插入图片描述
上图中，浅色表示值小，深色表示值大，默认缺失值为红色[6]。因此，给出的数据中不存在缺失值，但在原始数据中存在取值不合理的现象，比如湿求温度室外的第 15428、42916、62304 的数据与周围值对比，或者偏高或者偏低，因此我们对其进修正。

对于缺失数据的处理，目前存在两种方法进行处理，一种是删除原有缺失数据的行，另一种是使用合理的值来替换缺失数据。这里，我们采用均值替换法对缺失的数据进行处理。以列为单位，取原始数据中剔除异常数据后的剩余数据的平均值，来对缺省数据的填补，即：

$\bar{x_j}= \frac{\sum_{i=1}^{n}x_{ij}-x_{ijmax}-x_{ijmin}}{n-2}$

其中： $x_m^{'}$ 为缺失值。

对于数据不正常的异常数据，我们采取先删除，后添加的方法。预处理后的数据见，附件一。

2.2.2 符号说明

为了方便数据挖掘模型建立和求解，我们定义本文的符号说明如下表所示：
在这里插入图片描述
本文中用到的其它具体符号会在首次使用时加以说明。

2.2.3 数据规律分析

附件给出的数据量较大，全部用于分析其变化特征和规律比较困难。这里，我们先对数据进行降维，以便分析数据的大体趋势。我们对数据进行基本统计量分析，其描述数据基本特征主要为集中位置和分散位置，具体基本统计量特征如下：

样本均值描述了数据取值的平均位置，虽然计算简易，但易受到异常值的影响；
中位数描述了中心位置的数据特征，比中位数大或小的数据个数大约为样本容量的一半[7]。若数据分布对称则均值与中位数比较接近。其受异常值的影响较小；
方差描述数据取值的分散性，它是数据相对于均值的偏差平方的平均；
极差更为简单地描述数据的分散性特征，且四分位极差在异常点判别中起到重要作用。

对于基本统计量均值和中位数，一方面，虽然均值与中位数都是描述数据集中位置的数字特征，但是均值用了全部信息，中位数只用了部分信息，通常情况下均值比中位数有效；另一方面，当数据有异常值时，中位数比较稳健。

为了兼顾两方面，我们引入了三均值[8]的概念，其定义如下：

$\hat{M}= \frac{1}{4}M_{0.25}+\frac{1}{2}M+\frac{1}{4}M_{0.75}$

其中 $\hat{M}$ Mˆ 代表三均值，是上四分位数、中位数和下四分位数的加权平均，即分位数向量 $M_{0.25},M, M_{0.75})$ 和权向量 )25.0,5.0,25.0( 的内积。这里的四分位数是 p 分位数的特例，其定义如下：

在这里插入图片描述

因此，我们对附件数据进行处理，分别求出干湿球温度、相对湿度、流入流出冷却装置的水流速度、流入流出冷却装置的水温差、总耗电量、冷却负载和系统效率的三均值图。

在这里插入图片描述

根据上图可以看到，这些变量基本上都有一定的周期性，其中干球温度和湿球温度的周期性不明显，但基本上符合该地区的年平均气温规律，在 25 至 32 摄氏度之间震荡，其中湿球温度要略低于干球温度[9]。

为了更好的分析变量数据的周期性规律，我们随机抽取这些变量几个周的数据进行分析，画出以周为单位的连续七天的数据趋势图，又将其中的某一个周的数据拿出来，画出以天为单位的数据。

在这里插入图片描述
上图分别是湿球温度（室外）一周和一天的变化曲线图。左图中描述了四个周的数据，红色曲线是 10.5-10.11 七天的数据曲线，蓝色为 10.18-10.25 七天的数据曲线，绿色为 11.5-11.11 七天的数据曲线，黑色为 12.1-12.7 七天的数据曲线。四周的数据曲线趋势大致相似，其中蓝色和绿色的曲线相似度最高，但并不是每一天都明显的重合。我们将其中 10.5-10.11 的数据进行更加细致的分析，画出右图的趋势图，可以看出在每天的同一时刻，即使数据没有完全重合，但是相差不大。其形状都是类似的，因此我们初步判断湿球温度是具有以日为周期的周期性。

在这里插入图片描述
上图分别是干球温度（室外）一周和一天的变化。与湿求温度相同的分析，可以看出干球温度室外与时间具有明显的周期性关系。且干球温度与湿求温度对比来说，干球温度的变化幅度更大，具有能明显的峰值出现，且从横坐标来看，大约出现在中午。

在这里插入图片描述
同样的方法，我们做出相对湿度的变化曲线图，能够观察到 4 个周的相对湿度相对于时间的变化情况，也具有以天为单位的周期性关系。结合图 5、图 6 和图 7，我们发现一天中的干球温度的最高点出现在 15 时左右，湿球温度的最低点出现在 15 时左右，且此时的相对湿度是最低的，这与我们的分析相符合，湿求温度与干球温度的差值越大，则表明空气中的含水量越低，即相对湿度越低。

在这里插入图片描述

我们观察上图流入流出冷却装置的水温差相对于时间的变化情况，可知流入流出冷却装置的水温差与时间具有明显的周期性关系。从由图中可以看到，水温差在 8-20 时之间的水温差变化很小，稳定在较高的水平。在 5 时和 20 时都存在突变，5 时水温差突然变大，可能是因为此时商场或者旅馆开始有工作人员进出，热量交换变多；在 20 时水温差突然减小，可能是因为此时商场面临关门等情况，人员变少，相应的热量交换减小。