(2019)通过机器学习从建筑物中的Wi-Fi数据推断居住人数

最新推荐文章于 2024-07-06 19:05:11 发布

Fo*(Bi)

最新推荐文章于 2024-07-06 19:05:11 发布

阅读量426

点赞数

分类专栏：建筑环境与能源相关论文文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/weixin_48615832/article/details/121202435

版权

建筑环境与能源相关论文专栏收录该内容

67 篇文章 57 订阅

订阅专栏

Building and Environment（2019）

通过机器学习从建筑物中的Wi-Fi数据推断居住人数

Inferring occupant counts from Wi-Fi data in buildings through machine learning

作者：Zhe Wang, Tianzhen Hong^∗, Mary Ann Piette, Marco Pritoni

美国劳伦斯伯克利国家实验室建筑技术和城市系统部Building Technology and Urban Systems Division, Lawrence Berkeley National Laboratory, USA

摘要ABSTRACT

减少建筑能耗的一个重要途径是基于占用信息优化建筑控制。建议通过不同的方法和传感器进行各种研究，以估计乘客数量。然而，高成本和隐私问题仍然是主要障碍，限制了乘客计数检测的实践。在这项研究中，我们提出了一种新的方法，利用广泛部署的Wi-Fi基础设施中的数据，通过机器学习推断乘客数量。与现有的间接测量方法相比，我们的方法提高了估计人数的性能：（1）通过每天匿名和重新排列MAC地址来避免隐私问题；（2）我们采用了一种启发式的特征工程方法，根据每天的连接持续时间将连接的设备分为不同的类型。我们在加利福尼亚州的一座办公楼里测试了这种方法。在平均入住率为22-27人、峰值入住率为48-74人的地区，测试集的均方根误差小于4人。超过70%的估计误差在两人以内，超过90%的估计误差在六人以内，表明相对较高的准确度。本研究的主要贡献在于提出了一种新的、准确的方法，以非侵入方式检测居住人数，即利用建筑物中现有的Wi-Fi基础设施，而无需安装额外的硬件或传感器。我们提出的方法是通用的，可以应用于其他商业建筑，以推断节能建筑控制的居住人数。

关键词Keywords

占用率估算Occupancy estimation
居住人数Occupant count
Wi-Fi数据Wi-Fi data
随机森林Random forest
机器学习Machine learning
楼宇管理Building control

1. 引言Introduction

在美国、英国、法国、德国，建筑消耗了超过40%的一次能源；日本超过30%；在中国和印度，这一比例超过20%[1]。减少建筑能耗对于减少化石燃料消耗、降低建筑运营成本和实现可承受性非常重要。

商业和住宅建筑中的能源用于提供居住者所需的服务。然而，由于当前建筑控制中缺乏占用信息，建筑消耗的能源超过了其需求。例如，对美国[2]和南非[3]商业建筑的研究发现，超过一半的建筑能耗是在非工作时间消耗的。占用信息不仅可用于避免能源浪费，还可用于提高建筑能效[4,5]。利用占用信息提高建筑能效的典型应用包括需求控制通风（DCV，Demand Controlled Ventilation）[6]和模型预测控制（MPC，Model Predictive Control）[7,8]。在DCV中，根据室内乘客数量设置新鲜空气供给量，这可以减少过滤和调节所需室外空气所消耗的能量。在MPC中，乘员计数可用于预测内部热增益，从而优化HVAC控制。

Melfi等人定义了占用信息的四种不同分辨率级别[9]，如表1所示。不同的分辨率级别可用于不同的应用。占用信息可用于重置照明和HVAC时间表，例如，可在未占用空间关闭照明，可关闭HVAC系统或区域终端设备，或可在未占用空间重置恒温器。乘员数量信息可用于HVAC控制，如DCV[6]或模型预测控制（MPC）[7,8]，因为设备计划和内部热增益与乘员数量相关。此外，乘员计数作为能量基准、测量与验证（M&V）和故障检测与诊断（FDD，Fault Detection and Diagnosis）中的标准化分母非常有用[10]。身份和活动水平信息可用于解决热舒适偏好的个体差异[11]，并开发个性化热环境管理[12]。通过识别居住者及其行为方式（如服装、活动）[13,14]，可以提供适当的热环境（室内温度设定点），以满足不同的需求。由于在暖通空调控制和回顾性分析中，居住人数的广泛应用，本研究重点关注居住人数的分辨率水平。

在这里插入图片描述

由于利用占用信息优化建筑控制具有巨大的节能潜力，因此提出了几种使用各种传感器检测建筑中的占用人数的方法。基于CO₂浓度的方法利用质量守恒定律推断室内居住人数[15–17]，但面临无法及时反映居住人数快速变化的挑战[18]。另一种广泛使用的检测乘客数量的方法是基于射频（RF）的传感器，该传感器通常由天线、收发器和转发器组成。基于射频的传感器可以通过感应乘客反射（所谓被动模式[19]）或发射（所谓主动模式[20]）的电磁信号来检测乘客数量和位置。检测乘客数量的第三种主流方法是基于摄像头的[21]传感器，通常需要应用图像识别算法来检测来自其他物体的乘客。为了保护隐私，还可以使用基于红外的传感器[22]，该传感器可以检测长波辐射，而不是乘员发出的可见光。为了增加视野和对乘员检测的灵敏度，Mikkilini等人（2019）建议使用长波红外焦平面阵列，该阵列可与射频和超声波雷达耦合以提高精度[23]。最后但并非最不重要的占用率检测方法使用智能电表数据[24–26]，利用占用率与建筑能耗之间的关系。

提高估计精度的一种常见做法是将不同估计器的结果进行集成：集成由不同输入变量开发的估计器，即数据融合[27]（使用CO₂，温度）[24]，（使用CO₂，声级，功率使用）[25]，（使用CO₂，功率使用）[28]，（使用CO₂，湿度，温度）或集成由不同算法或不同超参数开发的估计器[29]。

然而，上述所有乘客计数检测方法都需要安装额外的传感器或硬件设备，这会导致额外的成本和劳动力[30]。如今，随着Wi-Fi基础设施在几乎所有建筑中的广泛部署，它提供了互联网连接，从而为虚拟感知居住人数提供了独特的机会[31]。多名研究人员提出了利用Wi-Fi基础设施推断乘客数量的方法[32–37]。尽管技术发展迅速，应用潜力巨大，但使用Wi-Fi数据推断乘客数量的报告方法有两个局限性：（1）某些技术需要在接入点或终端设备上安装额外的应用程序[32,33,36,37]；（2）另一种要求记录连接设备的MAC地址[34,35]，这会引起隐私问题。例如，Wang等人应用位置滤波器和MAC地址滤波器来提高检测精度，这需要记录校准后的接收信号强度和MAC地址[38]。因此，仍然存在一个研究缺口，需要一种准确、非侵入性的方法来检测居住人数，即使用建筑物中现有的信息基础设施，而不需要安装额外的硬件或软件包[39]。

在这项研究中，我们提出了一种通过机器学习利用Wi-Fi连接计数推断乘客数量的新方法。通过每天匿名和重新排列MAC地址，我们避免了隐私问题。通过根据每天的连接持续时间将连接的设备分为不同的类型，我们提高了估计精度。来自加州伯克利一座办公大楼的Wi-Fi数据被用来测试我们的方法，并将其准确性与现有研究进行了比较，证明了该方法的可靠性。

2. 推断乘客数量的方法Method to infer occupant counts

图1显示了推断乘员计数的工作流的主要步骤，这将在本节中详细描述。
在这里插入图片描述

2.1.特征工程Feature engineering

在本节中，我们首先创建并选择特征以提高估计精度。仅使用Wi-Fi连接计数无法准确推断乘客计数的一个主要原因是连接设备的数量与乘客数量之间的映射关系不一致，可能会在时间和空间上发生变化。如图2（a）所示，存在不同类型的Wi-Fi连接设备，它们属于不同类型的所有者，受制于Wi-Fi连接计数和占用者计数的不同映射规则。有些设备几乎一整天都在连接Wi-Fi。这些设备更有可能是办公室设备或装置，如打印机或24小时开机的计算机或服务器，或者属于即使不存在也从不关闭设备的使用者。在这两种情况下，这些长期连接的设备可能无法提供非常丰富的信息来推断占用率的变化。第二类设备与Wi-Fi连接的时间相对较长，可能属于像上班族这样的长期居民，他们在现场时平均有两台设备连接，一台是手机，另一台是电脑。第三种设备是通过Wi-Fi短期连接的，可能每天连接1到3小时。这些设备可能属于参加会议或会议的短期访客，他们通常只连接一台设备（手机）。最后一类设备仅在非常有限的时间内（少于1小时）连接到Wi-Fi AP，很可能属于经过目标区域的乘客。

在这里插入图片描述

表2 具有Wi-Fi连接的不同类型的设备

由于具有不同连接周期的设备在Wi-Fi连接计数和占用者计数之间具有不同的映射关系（例如，每个占用者两个设备与每个占用者一个设备），如果我们能够根据每天的连接持续时间来区分不同类型的设备，并将这些信息用于机器学习算法，那么可以合理地假设估计精度可以提高。因此，本研究的一个主要创新点是：我们不是将连接设备总数的一个变量输入到算法中，而是将多个变量输入到算法中以提高精度，表示从短期连接到长期连接的不同类型连接设备的数量。

由于占用人数推断的输入变量仅包括每种设备类型（长期连接或短期连接）的Wi-Fi连接设备数量，因此该方法不需要像[34,35]那样记录连接设备的MAC地址，这有助于保护用户隐私。

2.2.机器学习算法Machine learning algorithms

作为一项探索性研究，我们应用并比较了三种不同的机器学习算法，以利用Wi-Fi数据推断乘客数量。

2.2.1.随机森林Random forest

随机森林是一种由多个决策树组成的集成学习方法。随机森林是一种广泛使用的机器学习算法，有三个主要优点。首先，可以通过随机选择特征子集构成随机林中的单个树来避免过度拟合问题[40]。其次，随机林易于使用，无需耗时的超参数调整过程。第三，随机森林是一种灵活的算法，可用于回归和分类任务。

2.2.2.深度学习神经网络Deep learning neural network

人工神经网络（ANN）是一种受生物学启发的机器学习算法，模仿人脑的功能。神经网络由三层神经元组成：输入层、隐藏层和输出层。深度学习神经网络通过添加多个隐藏层来提取不同的特征和学习复杂的非线性关系，从而改进了人工神经网络。

2.2.3.长期短期记忆网络（LSTM）Long term short term memory networks (LSTMs)

时间序列数据的一个关键特征是存在时间依赖性，例如，在时间戳（t-k）处发生的事情可能会影响时间戳t处的值。为了捕捉这种时间依赖性，提出了一种递归神经网络，它采用时间戳（t-1，t-2…t-n）处的值的输入来预测时间戳t处的值。然而，随着n的增加，需要更多的存储空间和计算能力。更糟糕的是，会触发梯度消失问题，即当n较大时，灵敏度随时间呈指数衰减。为了解决这个问题，LSTM作为一种特殊形式的深度学习被提出，并被证明对推断和预测时间序列数据非常有用[41]。通过将来自当前（t）和先前（t-1，t-2…t-n）时间戳的数据输入估计器，可以捕获时间序列数据的长期时间依赖性。LSTMs广泛应用于语音识别和其他时间序列数据分析。

可以观察到，算法复杂度从随机林增加到LSTM。在下一节中，我们将通过查看三种算法的CPU运行时间，不仅比较估计精度，还比较计算复杂度。

2.3.评估指标Assessment metrics

本研究使用两种评估指标来比较不同方法推断的乘客数量与Wi-Fi连接数量的估计精度。

2.3.1.均方根误差（RMSE）Root Mean Square Error (RMSE)

在这里插入图片描述

2.3.2. X公差精度X-tolerance accuracy

考虑到在实际建筑控制和操作中，一个或两个居住者的误差不会导致实际差异，特别是在有几十个居住者的空间中，Jiang等人提出了X公差精度的度量，定义在等式（2）中，即误差小于X的估计百分比[17]。
在这里插入图片描述

3.试验台和数据收集Testbed and data collection

3.1.试验台Testbed

3.1.1.案例建立The case building

本研究选择位于加利福尼亚州伯克利市的一栋四层办公楼的第三层和第四层作为试验台。我们将重点放在两层楼的南端，这两层楼有私人办公室和隔间办公室，每层楼的建筑面积约为800平方米。三楼和四楼的南端分别安装了七个和九个Wi-Fi接入点（AP）。从图3可以看出，一些Wi-Fi AP非常靠近目标区域的边界，尤其是在四楼。因此，目标区域以外的人可能将其设备连接到这些Wi-Fi AP，这将不可避免地导致估计错误。

在这里插入图片描述

表3 案例厂房的平面图和传感器位置

本研究的数据收集期为2018年5月底至7月初。乘客计数和Wi-Fi连接计数数据分别每1分钟和每10分钟收集一次。考虑到HVAC控制的时间步长，每30分钟对乘客计数和Wi-Fi连接计数进行向下采样并取平均值。

3.1.2.地面实况占用数据Ground truth occupancy data

为了收集地面实况数据，在每层目标区域的三个入口安装了三个由TRAF-SYS公司¹（https://www.trafsys.com/.）制造的基于摄像头的乘客计数传感器。基于摄像头的传感器可以检测进出空间的人数。整合进入边境的净人口流量可以告知目标地区的居住人数。

由基于摄像头的传感器测量的乘员计数将用作地面真实数据。为了验证乘员传感器的测量精度，我们在上午8点到10点之间派遣了一组研究人员到三楼的三个入口，这是到达办公室的典型时间段，以手动计算通过每个入口的净人数。我们比较了乘客传感器测量的人数和研究人员手动计算的人数。图4（a）绘制了我们观察到的三个入口的乘客流量和乘客流量积分，即累积室内乘客数。整合净乘客流量可以得到室内乘客数量，如图4（b）所示。经确认，基于摄像头的乘员传感器的测量误差为8%²，累积误差为9%³。

在这里插入图片描述

表4 基于摄像头的传感器校准：橙色线表示传感器测量值，蓝色线表示手动计数值。（有关本图例中颜色参考的解释，请读者参考本文的网络版。）
Fig.4. Camera-based sensor calibration: orange line for the sensor measured values, the blue line for the manual count values. (For interpretation of the references to colour in this figure legend, the reader is referred to the Web version of this article

由于传感器错误，一天内进入空间的总人数可能不等于当天离开空间的总人数。如果不纠正此错误，一段时间后累积的错误可能很大。此外，传感器测量误差可能导致空间中的人数为负数。为了处理这两种类型的错误，我们使用附录a中伪代码总结的脚本处理数据，以每天清理和校准地面真实数据。

3.1.3.Wi-Fi数据Wi-Fi data

表2（a）显示了本研究中收集的Wi-Fi数据的快照，包括三列：记录的时间戳、连接设备的ID、设备连接到的Wi-Fi AP的ID。为了保护隐私，设备ID每天都被随机洗牌。

正如我们在第2.1节中讨论的，理论上，我们提出的方法不需要MAC地址。算法需要输入的只是每种设备类型的连接设备数量，如表2（b）所示。通过查看设备在相同类型（工作或非工作）的前一天连接到Wi-Fi的持续时间，可以轻松确定设备类型。例如，如果今天是星期一，可以通过检查同一设备上周五的连接持续时间来确定设备类型。在本研究中，研究人员完成了从原始数据（表2a形式）到算法所需数据（表2b形式）的数据预处理，以减少IT人员的工作量。实际上，通过编写脚本，可以自动完成从表2a到表2b的数据转换过程。因此，输出的信息只是设备数量，没有MAC地址，以保护用户的隐私。

表2 Wi-Fi数据的快照

在这里插入图片描述

3.2.数据收集和探索Data collection and exploration

3.2.1.典型工作日和非工作日Typical working and non-working days

利用上一节中描述的传感基础设施，我们收集了乘客数量和Wi-Fi连接数量。图5显示了典型工作日和非工作日的测量结果。一般来说，乘客数量和Wi-Fi连接数量遵循类似的趋势，在上午8:00左右开始上升，中午午餐休息时下降，在下午4:00开始下降。然而，WiFi连接数量的变化不如乘客数量的变化显著。这可能是因为人们为了短期休息而将设备与WiFi连接在一起。例如，人们可能不会在午休时间关闭电脑。因此，连接设备数量的减少可能不像乘客数量的减少那样明显。在非工作时间，大约有20台设备与Wi-Fi连接，这些设备可能是备用办公设备（例如打印机、计算机）。非工作时间待命的办公设备比例相对较高（峰值45小时中有20台），这表明有机会通过鼓励人们在离开办公室一天之前关闭办公设备来节约能源。

在这里插入图片描述

图5。典型工作日（左侧）和非工作日（右侧）三楼的乘客数量（红线）和Wi-Fi连接数量（蓝线）。（有关此图例中颜色参考的解释，请读者参考本文的Web版本。）

3.2.2. 时间序列分解Time-series decomposition

研究时间序列数据的一种广泛使用的方法是将其分解为趋势分量、周期分量和残差分量，如等式（3）[42]所示。式中，y_t是时间t的观测值。T_t是时间t的趋势分量，反映了系列的长期发展。T_t是根据等式（4）计算的移动平均值，其中k表示半个周期的长度。在这种情况下，周期的长度为一周4（其他时段可以选择每日或每月。在这项研究中，我们研究了考虑数据时间长度的每周模式。）。P_t是时间t的周期分量，反映周期波动。通过平均每周同一时间的去趋势时间序列值来计算P_t。R_t是时间t的残余分量，反映随机、不规则的变化。R_t的计算方法是从原始数据中减去估计的趋势和周期分量。

在这里插入图片描述

如图6（a）和图6（b）所示，乘客计数和Wi-Fi连接计数都是高度随机波动的。乘员和Wi-Fi连接计数的不规则波动（由残差反映）为25，与规则分量的大小（由趋势和周期反映）相当，这增加了使用Wi-Fi数据推断乘员计数的难度。更糟糕的是，Wi-Fi连接计数的不规则波动无法预测乘客计数的不规则波动。如图6（c）所示，在某段时间内（例如，7月4日），当观察到的乘客和Wi-Fi连接计数低于平均值时（因为是国家假日），乘客计数和Wi-Fi连接计数的剩余分量很好地对齐。但是，在其他时间段内，乘客和Wi-Fi连接计数的剩余部分不在同一速度，例如，正乘客计数剩余和负Wi-Fi连接计数剩余（7月3日）。由于这种不匹配，乘员和Wi-Fi连接计数的R平方值（确定系数）在乘员计数和Wi-Fi连接计数之间低至0.17。由于这种复杂的行为，正如Yang等人指出的[30]，简单地使用Wi-Fi连接计数无法实现准确的乘客计数估计。特征工程是需要一个高度准确的乘客计数估计器。
在这里插入图片描述

图6 对来自第三层的数据进行分解分析

4. 结果和讨论Results and discussion

正如我们在第2节中介绍的，使用了三种算法——神经网络、随机森林和LSTM——从Wi-Fi连接数据中推断乘客数量。除算法外，超参数的选择也会影响推理性能。在超参数调整之后，本研究选择了以下超参数集，如表3所示。在本研究中，我们使用开源Python库scikit learn v0.20.3（https://scikit-learn.org/stable/modules/generated/sklearn.ensemble. RandomForestRegressor.html.）实现了随机森林，使用开源Python机器学习编程平台Keras（https://keras.io）实现了深层神经元网络和LSTM。如果表3中未指定，则使用库文档中列出的超参数的默认值。

表3 超参数设置

在这里插入图片描述
在本研究中，将两种类型的参数，即时间相关的Wifi连接计数，输入到算法中，以推断乘客计数，如表4所示。

表4 机器学习算法的输入变量

在这里插入图片描述

4.1.估计精度Estimation accuracy

整个数据集分为训练集和测试集：前三周作为训练集（紫色），最后两周作为测试集（蓝色）。图7绘制了估计值并与地面真实数据（红色）进行了比较。为避免冗余，仅为随机森林算法提供了典型日的时间序列图和X公差精度图，但表5将说明三种方法之间的比较。

在这里插入图片描述

图7 使用三种机器学习算法估计乘员人数的结果

在这里插入图片描述

图7中的红线表示该特定楼层的实际占用人数。乘客数量的随机变化比我们预期的更为显著。例如，每周高峰用户发生在6月4日开始的一周中的周二，6月11日开始的一周中的周三，而6月18日开始的一周中的周四。图6（a）所示的时间序列分解结果表明，随机变化（不包括趋势和周期成分）介于-25和+20，与周期性变化几乎处于同一尺度。较大的随机变化背后的原因可能包括不规则的特殊事件，如研讨会、在家工作的日益普及等。因此，我们不能仅仅依靠预先确定的入住时间表来估计入住人数。相反，我们需要输入其他功能（本例中为WiFi），并利用机器学习算法推断乘客数量。

总体趋势可以在所有三个估计值中捕捉到。超过70%的估计误差在两个乘员计数内，超过90%的估计误差在六个乘员计数内。考虑到工作时间内，三楼和四楼的平均占用人数分别为27人和22人，峰值分别为74人和48人，该估计误差对于HVAC控制是可接受的。

图7中的另一个观察结果是，三种算法中的任何一种都无法准确估计峰值占用率。通过重新查看数据，发现当高峰事件发生时，Wi-Fi连接计数没有随着乘客计数的增加而显著增加，从而导致对高峰占用率的低估。这一现象的一个可能解释是，当举办研讨会时，大量来自大楼其他部分甚至其他大楼的人来到目标区域，入住率达到高峰。相当一部分研讨会与会者可能在研讨会期间不使用或连接Wi-Fi设备以保持专注。解决这个问题的一个可能办法是引入和使用新的事件相关功能，以反映研讨会或会议的发生。

表5和图8从二维、推理误差和计算时间比较了三种算法的RMSE和计算时间。如图8中的绿色箭头所示，如果该算法具有较小的误差并且消耗较少的时间，则该算法被认为是更好的。可以观察到，随机森林以最少的计算时间从Wi-Fi数据提供了准确的居住人数估计，这表明在本研究中，更复杂的算法未必优于简单的算法。

在这里插入图片描述

图8 三种算法的比较

（⁷为了计算相对推断误差，均方根误差（RMSE）通过峰值占用人数进行归一化，在这种情况下为48。）

表6将本研究中提出的方法的1-和2-公差精度与之前使用不同办公楼（即不同数据集）的研究进行了比较。表中还列出了峰值和平均占用人数，因为与另一个只有15人的空间中相同的估计误差相比，在一个有25人的空间中两个估计误差更容易接受。

在这里插入图片描述

可以看出，我们方法的估算结果比之前研究提出的方法具有更高的预测精度，但蒋等人（2016）[17]中记录的平滑CO₂浓度数据上应用特征比例极限学习机的估算结果除外。然而，正如作者所指出的，平滑算法需要测量数据。无论是局部还是全局平滑的CO₂浓度都无法实时获得。因此，该方法只能用于回顾性分析，而不能用于估计用于建筑物控制目的的实时占用人数。此外，如引言部分所述，Jiang等人（2016）的方法要求在目标区域安装CO₂传感器。CO₂传感器需要定期校准。安装额外的传感器将导致额外的经济和劳动力成本。

人们承认，不同的办公空间可能无法相互比较。例如，有更多访客和研讨会的办公室在使用Wi-Fi连接计数推断占用人数方面将更具挑战性。因此，表6所示的比较并不一定意味着我们的方法优于其他方法，而是证明本研究中提出的方法可用于推断乘客数量。

4.2.特征重要性

随机森林为我们提供了一个机会，让我们重温我们在上一节中讨论的特征工程主题。定义特征重要性有多种方法，到目前为止还没有达成严格的共识。在本研究中，我们利用scikit learn（基于Python的机器学习库[43]）来计算特征重要性。在scikit学习中，特征重要性由平均减少杂质（MDI，Mean Decrease Impurity）定义[44]。MDI是该集合中所有树上每个特征的节点杂质总减少量的加权平均值。如果某个特征很重要，那么通过传递包含该特征的拆分，节点杂质（节点杂质是节点处标签均匀性的度量。在回归问题中，如本例所示，节点杂质可计算为该特定节点中观察值的方差。）将显著减少。

正如我们所预期的，与短期连接设备的数量相比，长期连接设备的数量是一个更好的乘客计数估计功能。因为图9说明了每天连接到Wi-Fi 8-12小时的设备数量是唯一最重要的功能，其功能重要性高于其他功能。这些设备很可能是在午休时间不关机的个人电脑。有点令人惊讶的是，每天连接到Wi-Fi超过12小时的设备也是推断乘客数量的非常重要的功能。这可能是因为这些设备是工作日和非工作日的良好指示器。每天连接5-8小时和每天连接5-5小时的设备很可能是上班族的手机，在功能重要性列表中排名第三和第五。这些设备并不像我们想象的那么重要，因为手机可能会时不时地进入空闲模式，并失去Wi-Fi连接，即使用户一直呆在室内。因此，在推断乘客数量时，该信息是有噪声的。

在这里插入图片描述

图9 居住者数量估计的特征重要性

除了连接设备的数量外，我们还使用随机森林算法中的时间特征来捕获占用人数的周期性行为。一般来说，时间特征对于推断乘客数量并不十分重要，因为时间特征可能带来的信息已经反映在Wi-Fi连接计数中，因为Wi-Fi连接计数显示出类似的周期性变化。只有当时间特征能够捕捉到Wi-Fi连接计数未反映的某些行为时，时间特征才是重要的。例如，在下午5点，由于一些时间滞后效应，当人们开始离开办公室时，Wi-Fi连接数量仍然很高。因此，与一天中的其他时间相比，下午5点是唯一最重要的特征。

4.3.局限性和今后的工作Limitations and future work

在本研究中，我们依靠跟踪连接时间将每个设备分为长期或短期连接的设备。然而，我们意识到，手机制造商正在开发新的隐私保护功能，例如在设备搜索Wi-Fi网络时自动随机化MAC地址。自动地址随机化技术将使基于每日连接时间的设备跟踪和聚类更加困难，并对推理精度产生负面影响。然而，我们相信这种影响将是最小的。因为我们发现长期连接设备的计数（每天超过8小时）对于乘员计数推断来说是更重要的特征。如图9所示，连接的手机数量实际上不是一个非常重要的特征，因为手机可能会不时进入空闲模式，并失去Wi-Fi连接，即使乘客呆在室内。在这方面，新开发的隐私保护功能可能会限制这种占用人数推断方法的应用，但方式有限。

这项研究的另一个局限性在于我们从一座建筑学到的模型是否可以应用到另一座建筑。迁移学习与从一项任务中学到的知识是否可以转移到另一项任务有关。更具体地说，我们从一栋建筑中了解到的Wi-Fi连接计数和居住人数之间的映射关系是否可以应用于另一栋建筑。这是至关重要的，因为在现实世界中，收集地面真实数据——在本例中是真实的居住人数——是非常昂贵的。只有当经过培训的估计员可以在无需再培训的情况下转移到其他建筑物时，居住人数估计员才有价值，因为收集每栋建筑物的地面真实数据（居住人数）既昂贵又不切实际。事实上，将从一座建筑物学到的知识转移到另一座建筑物是居住者行为研究中需要解决的一个主要约束，因为不同建筑物的居住者行为差异很大[45]。

理论上，估计器是否可以转移到其他建筑物取决于特征（Wi-Fi连接计数和时间）和输出（乘客计数）之间的映射关系是否稳定，是否可以推广到其他建筑物。这种映射关系背后的本质是每个人拥有多少连接设备的分布，以及这种分布是否会随着建筑的变化而变化。有理由认为，这种分布会因不同的建筑类型（例如，办公室与零售）而发生变化，但在具有类似功能和住户Wi-Fi连接行为的建筑中保持稳定和可预测。例如，餐厅和办公室中的乘客Wi-Fi行为可能不同，因为餐厅中的乘客更可能有一台设备连接Wi-Fi（只有手机），而办公楼中有两台设备连接Wi-Fi（手机和笔记本电脑）。因此，首先对建筑物进行聚类，然后为具有类似特征的每类建筑物开发估计器，这对于保证占用估计器的可伸缩性可能是必要的。Das等人提出了两种方法，在地面真实数据未知的情况下对建筑物进行聚类：按建筑物功能和按输入数据模式[46]。然而，仍然需要进行更深入的讨论。

至于下一步，我们计划从不同的建筑物收集数据，以测试在一座办公楼中培训的估计员是否可以在没有占用人数的地面真实数据的情况下转移并应用到另一座建筑物。如果这一领域的研究人员能够开放他们的数据来源，并建立一个用于测试和比较新方法和算法的共享数据库，这也会很有帮助。

5.结论

推断居住人数在节能建筑控制中有着广泛的应用。虽然已经提出了多种方法来估计居住人数，但仍然需要使用建筑物中现有的信息基础设施，以准确和非侵入性（non-intrusive）的方式检测居住人数。

我们采用随机森林方法，利用Wi-Fi连接计数数据推断乘客计数。该方法在实际办公楼中进行了测试，结果表明，该方法比文献中现有的方法具有更好的准确性。在平均入住率为22-27人、峰值入住率为48-74人的办公区，测试集中的均方根误差为4人。对于70%以上的估计，误差在两人计数内，而对于90%以上的估计，误差在六人计数内。

本文的主要贡献是提出了一种新的、准确的方法，以非侵入方式检测居住人数，利用建筑物中现有的Wi-Fi基础设施，而无需安装额外的硬件或传感器。作为部署在几乎所有现代建筑中的基础设施，Wi-Fi数据提供了一个独特的机会，以最低的额外成本推断居住人数。我们提出的方法利用其他建筑物可以采用的匿名Wi-Fi数据来推断用于节能建筑控制的居住人数。未来的研究将探索转移学习，这样经过机器训练的居住人数估计器可以应用于其他类似类型的建筑物，但不需要居住人数的地面真实数据。

致谢Acknowledgment

这项研究得到了美国能源部建筑技术办公室能源效率和可再生能源助理部长的支持，合同号为DE-AC02-05CH11231。作者感谢Wanni Zhang对LSTM网络的技术支持，以及数据收集和相关信息

附录Appendix

A.居住者计数数据每日校准的伪代码。Michael Smitasin、Baptise Ravache、Bruce Nordman、Han Li和Sang Hoon Lee的支持。
在这里插入图片描述

参考文献References

[1] International Energy Agency, IEA statistics, [Online]. Available: https://www.iea.org/, (2016) , Accessed date: 18 December 2018Accessed.
[2] C.A. Webber, J.A. Roberson, M.C. McWhinney, R.E. Brown, M.J. Pinckard, J.F. Busch, After-hours power status of office equipment in the USA, Energy 31 (14)(2006) 2823–2838.
[3] O.T. Masoso, L.J. Grobler, “The dark side of occupants’ behaviour on building energy use, Energy Build. 42 (2) (Feb. 2010) 173–177.
[4] Y. Agarwal, B. Balaji, S. Dutta, R.K. Gupta, T. Weng, Duty-cycling buildings aggressively: the next frontier in HVAC control, Proceedings of the 10th ACM/IEEE International Conference on Information Processing in Sensor Networks, 2011, pp. 246–257.
[5] V.L. Erickson, S. Achleitner, A.E. Cerpa, POEM: power-efficient occupancy-based energy management system, Proceedings of the 12th International Conference on Information Processing in Sensor Networks, New York, NY, USA, 2013, pp. 203–216.
[6] W.J. Fisk, A.T. de Almeida, Sensor-based Demand-Controlled Ventilation: a Review, (1998).
[7] A. Mirakhorli, B. Dong, “Occupancy behavior based model predictive control for building indoor climate—a critical review, Energy Build. 129 (Oct. 2016) 499–513.
[8] S.C. Bengea, A.D. Kelman, F. Borrelli, R. Taylor, S. Narayanan, Implementation of model predictive control for an HVAC system in a mid-size commercial building, HVAC R Res. 20 (1) (Jan. 2014) 121–135.
[9] R. Melfi, B. Rosenblum, B. Nordman, K. Christensen, Measuring building occupancy using existing network infrastructure, 2011 International Green Computing Conference and Workshops, 2011, pp. 1–8.
[10] P. Price, et al., Automated Measurement and Verification and Innovative Occupancy Detection Technologies, ” LBNL-1007182, 2015.
[11] Z. Wang, et al., Individual difference in thermal comfort: a literature review, Build. Environ. 138 (Jun. 2018) 181–193.
[12] J. Kim, S. Schiavon, G. Brager, “Personal comfort models – a new paradigm in thermal comfort for occupant-centric environmental control, Build. Environ. 132 (Mar. 2018) 114–124.
[13] P.X. Gao, S. Keshav, Optimal personal comfort management using SPOT+, Proceedings of the 5th ACM Workshop on Embedded Systems for Energy-Efficient Buildings, New York, NY, USA, 2013, pp. 8–22 1–22.
[14] A. Rabbani, S. Keshav, The spot* system for flexible personal heating and cooling, In Proceedings of the 2015 ACM Sixth International Conference on Future Energy Systems, New York, NY, USA, 2015, pp. 209–210.
[15] K. Shan, Y. Sun, S. Wang, C. Yan, Development and In-situ validation of a multizone demand-controlled ventilation strategy using a limited number of sensors, Build. Environ. 57 (Nov. 2012) 28–37.
[16] S. Wang, J. Burnett, H. Chong, Experimental validation of CO2-based occupancy detection for demand-controlled ventilation, Indoor and Built Environ. 8 (6) (1999) 377–391.
[17] C. Jiang, M.K. Masood, Y.C. Soh, H. Li, Indoor occupancy estimation from carbon dioxide concentration, Energy Build. 131 (Nov. 2016) 132–141.
[18] W. Fisk, D. Faulkner, D. Sullivan, Accuracy of CO2 Sensors in Commercial Buildings: A Pilot Study, (2006).
[19] R. Tesoriero, R. Tebar, J.A. Gallud, M.D. Lozano, V.M.R. Penichet, Improving location awareness in indoor spaces using RFID technology, Expert Syst. Appl. 37 (1) (Jan. 2010) 894–898.
[20] R. Want, A. Hopper, V. Falcão, J. Gibbons, The active badge location system, ACM Trans. Inf. Syst. 10 (1) (Jan. 1992) 91–102.
[21] J.A. Davis, D.W. Nutter, Occupancy diversity factors for common university building types, Energy Build. 42 (9) (Sep. 2010) 1543–1551.
[22] M.S. Gul, S. Patidar, Understanding the energy consumption and occupancy of a multi-purpose academic building, Energy Build. 87 (Jan. 2015) 155–165.
[23] A.K. Mikkilineni, J. Dong, T. Kuruganti, D. Fugate, A novel occupancy detection solution using low-power IR-FPA based wireless occupancy sensor, Energy Build. 192 (Jun. 2019) 63–74.
[24] E. Hailemariam, R. Goldstein, R. Attar, A. Khan, Real-time occupancy detection using decision trees with multiple sensor types, In Proceedings of the 2011 Symposium on Simulation for Architecture and Urban Design, San Diego, CA, USA, 2011, pp. 141–148.
[25] J.A. Díaz, M.J. Jiménez, Experimental assessment of room occupancy patterns in an office building. Comparison of different approaches based on CO2 concentrations and computer power consumption, Appl. Energy 199 (Aug. 2017) 121–141.
[26] R. Razavi, A. Gharipour, M. Fleury, I.J. Akpan, Occupancy detection of residential buildings using smart meter data: a large-scale study, Energy Build. 183 (Jan. 2019) 195–208.
[27] T. Ekwevugbe, N. Brown, V. Pakka, D. Fan, Real-time building occupancy sensing using neural-network based sensor network, In 2013 7th IEEE International Conference on Digital Ecosystems and Technologies (DEST), 2013, pp. 114–119.
[28] S. Datta, S. Chatterjee, An efficient indoor occupancy detection system using artificial neural network, In Proceedings of International Ethical Hacking Conference 2018, 2019, pp. 317–329.
[29] W. Wang, T. Hong, N. Li, R.Q. Wang, J. Chen, Linking energy-cyber-physical systems with occupancy prediction and interpretation through WiFi probe-based ensemble classification, Appl. Energy 236 (Feb. 2019) 55–69.
[30] J. Yang, M. Santamouris, S.E. Lee, Review of occupancy sensing systems and occupancy modeling methodologies for the application in institutional buildings, Energy Build. 121 (Jun. 2016) 344–349.
[31] M. Pritoni, M. Piette, B. Nordman, Accessing Wi-Fi Data for Occupancy Sensing, ” LBNL-2001053, 2017.
[32] B.S. Çiftler, S. Dikmese, İ. Güvenç, K. Akkaya, A. Kadri, Occupancy counting with burst and intermittent signals in smart buildings, IEEE Internet Things J. 5 (2) (Apr. 2018) 724–735.
[33] Xuan Li, Xuesong Liu, Zhen Qian, Towards an occupancy-enhanced building HVAC control strategy using Wi-Fi probe request information, ASCE Int. Workshop Comput. Civ. Eng. (2017) 17–24.
[34] W. Wang, J. Chen, X. Song, Modeling and predicting occupancy profile in office space with a Wi-Fi probe-based Dynamic Markov Time-Window Inference approach, Build. Environ. 124 (Nov. 2017) 130–142.
[35] W. Wang, J. Chen, T. Hong, N. Zhu, Occupancy prediction through Markov based feedback recurrent neural network (M-FRNN) algorithm with WiFi probe technology, Build. Environ. 138 (Jun. 2018) 160–170.
[36] Y. Wang, L. Shao, Understanding occupancy pattern and improving building energy efficiency through Wi-Fi based indoor positioning, Build. Environ. 114 (Mar. 2017) 106–117.
[37] I. Bisio, F. Lavagetto, M. Marchese, A. Sciarrone, Smart probabilistic fingerprinting for WiFi-based indoor positioning with mobile devices, Pervasive Mob. Comput. 31 (Sep. 2016) 107–123.
[38] J. Wang, N.C.F. Tse, J.Y.C. Chan, Wi-Fi based occupancy detection in a complex indoor space under discontinuous wireless communication: a robust filtering based on event-triggered updating, Build. Environ. 151 (Mar. 2019) 228–239.
[39] K. Akkaya, I. Guvenc, R. Aygun, N. Pala, A. Kadri, IoT-based occupancy monitoring techniques for energy-efficient smart buildings, 2015 IEEE Wireless Communications and Networking Conference Workshops (WCNCW), 2015, pp. 58–63.
[40] A. Liaw, M. Wiener, Classification and regression by randomForest, R. News 2 (3) (2002) 18–22.
[41] S. Hochreiter, J. Schmidhuber, Long short-term memory, Neural Comput. 9 (8) (Nov. 1997) 1735–1780.
[42] R.J. Hyndman, G. Athanasopoulos, Forecasting: Principles and Practice, second ed., OTexts, Melbourne, Australia, 2018.
[43] F. Pedregosa, et al., Scikit-learn: machine learning in Python, J. Mach. Learn. Res. 12 (Oct. 2011) 2825–2830.
[44] L. Breiman, Classification and Regression Trees, Routledge, 2017.
[45] Z. Wang, T. Hong, R. Jia, Buildings.Occupants: a Modelica package for modelling occupant behaviour in buildings, J. Build. Perform. Simul. 0 (0) (Nov. 2018) 1–12.
[46] A.K. Das, P.H. Pathak, J. Jee, C.-N. Chuah, P. Mohapatra, Non-intrusive multimodal estimation of building occupancy, In Proceedings of the 15th ACM Conference on Embedded Network Sensor Systems, New York, NY, USA, 2017 14:1–14:14.

Fo*(Bi)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
(2019)通过机器学习从建筑物中的Wi-Fi数据推断居住人数

Building and Environment（2019）通过机器学习从建筑物中的Wi-Fi数据推断居住人数Inferring occupant counts from Wi-Fi data in buildings through machine learning
复制链接

扫一扫