论文阅读-面向机器学习的云工作负载预测模型的性能分析

最新推荐文章于 2024-10-30 12:11:00 发布

向来痴_

最新推荐文章于 2024-10-30 12:11:00 发布

阅读量3.1k

点赞数 23

分类专栏：负载均衡论文文章标签：论文阅读

本文链接：https://blog.csdn.net/weixin_52861033/article/details/136113767

版权

论文名称：Performance Analysis of Machine Learning Centered Workload Prediction Models for Cloud

摘要

由于异构服务类型和动态工作负载的高变异性和维度，资源使用的精确估计是一个复杂而具有挑战性的问题。在过去几年中，资源使用和流量的预测已受到研究界的广泛关注。许多基于机器学习的工作负载预测模型通过利用其计算能力和学习能力得以发展。本文提出了第一篇系统调查、基于性能分析的比较研究，涉及多样化的基于机器学习的云工作负载预测模型。从预测资源管理的重要性开始讨论，接着介绍了这些工作负载预测模型的框架描述、操作设计、动机和挑战。将不同预测方法的分类和分类法分为五个不同类别，着重介绍现有最先进的工作负载预测方法的理论概念和数学功能。对属于机器学习模型的独特类别的最突出的预测方法进行了全面调查和比较。使用三个不同的基准云工作负载跟踪通过实验分析在一个共同平台上实现了所有五个分类的基于机器学习的工作负载预测模型，以进行系统调查和比较。对最先进方法的关键绩效指标进行了评估，并通过讨论权衡和值得注意的评论来结束本文。

索引词 —— 云计算，深度学习，集成学习，进化神经网络，预测，混合学习，量子神经网络。

I. 引言

云计算（CC）范式通过迅速的弹性、资源池、外包服务管理、广泛的网络访问和按需付费模式为企业、学术界、研究和所有利益相关者提供了最小的前期资本投资的可扩展计算途径 [1]，[2]。CC在全球IT基础设施不一致性的背景下，通过持续动力和解决全球IT基础设施的不一致性，推动着商业进步，成为跨越地理边界的增长不确定性的催化剂 [3]。根据最近的一份调查报告 [4]，预计到2030年，全球云计算市场将达到1,554.94亿美元，年复合增长率为15.7%。此外，包括物联网（IoT）、雾计算和边缘计算、物理系统等所有新兴技术都强烈依赖于CC，因为它们的存储和计算能力不足 [5]。

A.动机

云服务提供商（CSP）利用数据中心的虚拟化 [6]，[7]，[8]，[9]，[10]，将物理资源最大化，以提供具有快速可扩展性特权的计算实例的需求，从而最大化其收入 [11]，[12]，[13]。因此，CC基础设施的全面管理完全取决于资源的细粒度配置，包括存储、处理和网络等方面 [14]，[15]，[16]，[17]，[18]。资源需求随时间变化而高度变化，加速了物理机器的过度/低利用率和服务级别协议（SLA）违规问题 [19]。在高峰负载到达期间，VM资源的总需求超过服务器的可用资源容量，导致服务器超载和性能降低，例如一些VM可能会崩溃、资源长时间不可用和响应时间增加等。而不足的资源需求会导致计算资源的浪费。为了管理资源容量的动态和随机需求或处理过度/低负载，实时将VM从过度/低负载的服务器迁移到具有足够资源容量的另一台服务器，这会导致执行延误。在这种情况下，通过先前的估计有效地处理传入的工作负载是一项主要需求。负载的准确预测可以降低资源浪费、最小化功耗和活动服务器的数量，仅允许所需数量的物理机器处于活动状态。工作负载的精确信息提前保留资源来有效执行和管理即将到来的工作负载，减少响应时间、SLA违规、过度配置和低配置问题，并改善资源利用率、可靠性和服务可用性 [20]，[21]，[22]，[23]。

B. 从工作负载预测角度来看

通过图1中的“云基础架构”和“工作负载预测”模块之间的交互信息流，展示了工作负载预测在物理资源管理中的角度和实用性。植根于虚拟化技术的服务器集群{ServerP1，ServerP2，...，ServerPn}能够提供以虚拟机（VM）形式满足云用户的服务需求。虚拟化允许在调度程序和虚拟化监视器的帮助下，在各种应用程序（如AWS、Docker、MS Azure和GCP等）之间共享物理机器。

资源使用信息被监测并记录在工作负载预测和管理单元内的工作负载存储库中。原始信息包括请求的数量和类型；虚拟机的数量、类型和成本；资源（如CPU、内存、带宽）的使用情况，从存储库中检索并传输到工作负载预测单元。原始数据样本中的重要属性在数据预处理过程中被提取、聚合和归一化。工作负载预测模型被应用于实时工作负载预测的一系列阶段，例如训练、验证和测试。最终的预测模型分析和估计与资源使用、请求数量和类型等相关的信息，以进行有效的资源管理决策。预测的资源信息有助于主动分配所需的物理资源，避免运行时资源提供延迟，同时满足服务质量（QoS）约束。

工作负荷预测的示意图表示和应用。

C. 研究挑战

毫无疑问，云工作负载预测在主动自动缩放和资源的动态管理方面起着重要作用，从而增加了系统的扩展性和吞吐量，通过对系统故障的主动预测实现了可持续性和容错性。然而，云工作负载预测面临一些主要挑战，具体如下所述：

异构工作负载：云用户提交不同类型的应用请求，需要具有不同优先级和定价策略的异构资源容量，与其各自的服务级别协议（SLA）相关联。
不确定的资源需求：资源需求随时间变化，在小时、天、周、月和年内根据工作负载类型和用户提交的执行期限发生变化。有时流量会变得突发[24]，这使得难以估计即将到来的资源需求并决定资源分配。
动态适应性：由于云环境高度变化和动态，它会遭受意想不到的波动，这提出了工作负载预测适应性的关键挑战，即适应或重新生成，以便在不断变化的工作负载下保持和高效执行。
数据粒度和预测窗口大小：决定数据样本或粒度的合适大小，以及预测窗口的长度，即较短或较长间隔，是另一个关键挑战，直接影响到学习相关模式和开发提取模式之间的相关性。

D. 论文概述和贡献

本文对基于机器学习的云工作负载预测模型进行了全面研究。该研究从第一节开始，讨论了CC的重要性以及工作负载预测在CC环境中的研究动机。随后，通过示意图和CDC中负载预测和管理的说明，展示了应用负载预测和管理的概念性和操作性设计。然后，讨论了解决云工作负载预测的一些主要挑战，并介绍了准确的工作负载预测对资源管理的需求和有力影响。第II节展示了工作负载预测的操作流程。第III节讨论了拟定的研究方法。本研究旨在对广泛范围的云工作负载进行预测的最重要和开创性的基于机器学习的模型进行广泛回顾。因此，第IV节讨论了基于进化神经网络的预测模型，第V节和第VI节分别回顾了深度学习和混合学习的预测模型，而第VII节和第VIII节则讨论了集成学习和量子学习的预测模型。此外，本文还在第IX节中对考虑的五个类别的预测模型进行了实施，以评估和比较它们在各种关键绩效指标（KPI）方面的性能。最后，第X节总结了研究，并讨论了不同类别的预测模型之间的权衡，以及解决云工作负载预测的新兴研究挑战及其可能的解决途径。据作者所知，这是第一篇旨在全面实验研究基于机器学习的工作负载预测模型在CC资源管理上的论文。本文的主要贡献包括：

根据机器学习算法将基于机器学习的最佳云工作负载预测模型进行了分类和分类组织（图3）。
为每个类别的工作负载预测方法描绘了概念性和操作性设计，包括五种具体的机器学习模型架构及其工作策略。
提供了对现有工作的所有关键细节进行批判性讨论和比较，并分析了其特点，以确定未来研究范围，解决各类预测模型的局限性。
在同一平台上对每个类别的五种预测模型相关方法进行了实施，以进行深入的实验分析和比较，衡量其性能，并讨论权衡和值得注意的观点。

附表I为本文中使用的符号、表示法和缩写的解释。

II. 工作量预测操作流程

工作量预测的基本步骤通过图2中的操作设计进行概述。考虑从工作量存储库中提取的原始数据组成的输入数据集{D1, D2,..., Dn} ∈ D。数据提取从原始数据中筛选出相关属性，以改善模式学习，并在提取的模式之间开发更直观的关联。数据聚合操作在其中执行，提取的数据按照选择的预测窗口大小（例如，五分钟）组装，比如{D1, D2, D3}组合生成一个聚合数据样本。类似地，{Da, Da+1, Da+2}和{Dn−2, Dn−1, Dn}聚合生成数据样本D∗a和D∗n。聚合的数据样本按特定范围[xa, xb]进行缩放，并使用（1）转换为归一化数据样本{D1N, D2N,..., DnN}，其中和分别是输入数据集的最小值和最大值，归一化数据向量表示为，它是所有归一化输入数据值的集合。用于实验的xa和xb的值分别设置为0.0001和0.999。这些归一化值被组织成二维输入和输出矩阵，分别表示为和，如（2）所述：

最低0.47元/天解锁文章