论文名称:One for All: Unified Workload Prediction for Dynamic Multi-tenant Edge Cloud Platforms
摘要
多租户边缘云平台中的工作负载预测对于高效的应用部署和资源供给至关重要。然而,在多租户边缘云平台中,异构的应用模式、可变的基础设施性能以及频繁的部署给准确和高效的工作负载预测带来了重大挑战。基于聚类的动态多租户边缘云平台建模方法往往因需要维护大量数据聚类和模型而产生过高的成本。现有的端到端时间序列预测方法在动态多租户边缘云平台中难以提供一致的预测性能。本文提出了一个具有全局池化和静态内容感知的端到端框架 DynEformer,为动态多租户边缘云平台提供了统一的工作负载预测方案。精心设计的全局池化和信息融合机制可以有效地识别和利用全局应用模式来驱动局部工作负载预测。静态内容感知机制的整合增强了模型在现实场景中的稳健性。通过对五个真实数据集进行的实验,DynEformer 在多租户边缘云平台动态场景中取得了最先进的成果,并为多租户边缘云平台提供了统一的端到端预测方案。
CCS 概念
• 网络 → 网络性能建模;• 应用计算 → 预测。
关键词
多租户边缘云平台;工作负载预测;Transformer;深度学习;多元时间序列
1 引言
随着云计算架构的发展,云服务的潜力得到了拓展。作为边缘云计算范例的一个实际实例,面向服务网络基础设施提供商、内容提供商(CPs)和网络用户的多租户边缘云平台(MT-ECP)展现出巨大的商业价值。MT-ECP 的核心优势在于整合网络中各种异构的空闲计算资源(如带宽、CPU、内存等)。MT-ECP 中的统一资源整合使得应用服务能够灵活部署,为用户提供低延迟、高可靠的边缘服务。正如图 1 所示,MT-ECP 的作用是在资源上部署应用/服务。彻底并最优地解决这一问题是一项具有挑战性的任务,需要一系列技术来实现对 MT-ECP 中应用性能的感知和可控性[6]。
作为应用性能感知的必要元素,了解工作负载的变化对于 MT-ECP 对解决资源规划和容量供给问题大有裨益[6]。通过准确感知这些性能指标,应用的部署和修复任务可以得到主动且有效地执行。
然而,由于异构的应用模式、不同的基础设施属性以及频繁的应用部署,与传统的云服务不同,MT-ECP 构成了一个动态系统。从马尔可夫模型[18]、移动平均[13]到神经网络[5]和复杂的混合模型[1, 11, 29],工作负载预测变得更加准确和高效。尽管这些模型能够在稳定、静态部署系统中有效地预测工作负载,但在动态系统(如 MT-ECP)中则显得力不从心。
本文聚焦于动态 MT-ECP 的工作负载预测。具体来说,我们总结了引起应用工作负载变化的 MT-ECP 系统动态特性,将其分为以下三种行为,并借助统一的预测框架预测任意行为下的工作负载。
行为1:应用在异构基础设施上运行:如图 2(a)所示,在 MT-ECP 中运行的应用的典型行为表现为周期性的工作负载波动,引导预测器构建。然而,MT-ECP 的异构环境使得问题异常复杂。挑战1:关键挑战源自应用中的异构性,包括不同的约束和用户需求模式,以及基础设施中的多样硬件配置和地理分布。这两个层面的异构性相互耦合,导致了各种各样的工作负载模式。
行为2:在边缘服务器上切换不同的应用程序:MT-ECP 经常通过自动调度切换应用,如图 2(b)所示,第三天,设备 75fb 的应用从 𝐴𝑝𝑝1 切换到 𝐴𝑝𝑝2。由于敏捷的部署技术,切换过程通常快速且不会造成中断。挑战2:新应用的工作负载可能与历史模式有所不同或冲突,如图 2(b)中从中午到晚上的日峰值转移。此外,新应用的工作负载数据有限,但对未来模式具有指示作用,这要求预测器能够概括地调整数据关注点。现有研究,如概念漂移的研究[17, 21, 27, 28],解决了动态情况下的模式变化。与之前的研究不同的是,前者会主动切换模型以适应概念漂移,而我们希望通过感知应用切换并以用户不可察觉的方式完成预测来赋能模型。
行为3:在 MT-ECP 中添加新实体:新应用程序或新基础设施对于 MT-ECP 来说是普遍存在的。它们暗示了独特的特征和少量历史数据。如图 2(c)所示,新应用程序的工作负载可能显示出以前从未出现的模式。挑战3:如何快速准确地在新实体上实现工作负载预测涉及模型的冷启动,对于预测器来说是一个挑战。
为了解决上述问题,我们提出了 DynEformer,一个用于动态多租户边缘云平台的准确且稳健的工作负载预测框架。DynEformer 的核心在于三个关键点:1. 通过全局池化识别应用的全局工作负载模式。2. 利用全局模式信息驱动动态应用行为下的局部工作负载预测。3. 通过静态内容感知提高模型在现实场景中的稳健性。
在多序列预测任务中,基于聚类的方法被认为是提高模型准确性的有效方式,因为它们有利于利用时间序列之间的相似性,即模式。然而,现有的作品将聚类应用于模型输入,即对原始输入进行聚类并为不同的数据类训练多个模型[27]。在多样化的多租户边缘云平台场景中,创建和同时维护多个模型是低效且成本高昂的。因此,我们设计了一种新颖的聚类替代范式。我们提出通过时间序列分解提取工作负载的季节部分,并通过新颖的全局池化方法识别全局模式。此外,我们设计了一种新的自适应信息合并机制,而不是创建多个模型,以利用模式的相似性/差异,适应内部模型权重以适应动态 MT-ECP 行为并驱动工作负载预测。
在 MT-ECP 中,像基础设施配置和位置等静态数据具有高语义。现有方法通常使用静态特征标记输入,但通过简单编码无法充分理解高语义数据,因此改进效果较小。为解决这一问题,我们设计了一种静态特征融合方法,使模型能够为当前时间特征选择最合适的静态特征,从而在动态 MT-ECP 行为中补充静态上下文。
为了捕获历史信息,我们采用基于 Transformer 的编码器-解码器结构来有效建模长期和短期序列。我们的主要贡献如下:
- 我们提出了一种新颖的全局池化方法和自适应信息合并架构,以整合全局应用模式到模型中,并驱动动态 MT-ECP 行为下的局部工作负载预测。该方法是一种有效的替代基于聚类的方法。
- 为了采用跨领域的静态特征,我们设计了一种新的静态特征融合方法,允许模型为当前时间特征选择最适合的静态特征。
- 我们提出了一种新颖的 DynEformer,这是一个基于全局池化和静态上下文感知的 Transformer 模型,用于动态 MT-ECP 的工作负载预测。DynEformer 在涵盖五个真实数据集的六个基准测试中取得了42%的相对改进。特别是在应用切换或添加新实体行为下,它实现了52%的改进。
2 相关工作
在本节中,我们回顾了关于工作量分析和预测以及基于编码器-解码器的预测器的先前方法。
工作量分析和预测。关于工作量的大量现有工作可分为分析建模和工作量预测两类。前者通常依赖于真实的大规模数据(例如Google [15, 16],Facebook [26]和Wikimedia [3])通过数学方法(例如线性回归[2]和隐马尔可夫模型[18])和传统的机器学习模型(例如k-means [9]和ARIMA [13])对工作量进行分类和描述,旨在解答应用优化、系统自管理和其他高层次问题。
工作量预测的实现更加复杂,因为工作量变化建模需要考虑应用程序、基础设施以及它们之间的交互特性[6]。Gao等人[7]和Yu等人[30]提出将工作负载聚类并构建每个聚类的独立预测器。后者还提出根据初始工作负载模式和静态特征来匹配新添加的工作负载的聚类。这些工作基于传统的聚类方法,如基于密度和基于距离的模型,其聚类结果在时间上不迭代,限制了模型的长期有效性。此外,这些工作也不能很好地解决概念漂移的问题。
Yang等人[27]将RNN集成到VaDE中,提出了一种新的工作负载聚类模型,并根据聚类结果动态分配预测模型,从而提高了模型的准确性,并可以部分解决概念漂移和未知模式的问题。Jayakumar等人[8]提出了一种通用的工作负载预测框架,该框架使用LSTM模