Joint Foundation Model Caching and Inference of Generative AI Services for Edge Intelligence_generative foundation model channel communication-CSDN博客

本文链接：https://blog.csdn.net/weixin_46254816/article/details/134709627

随着通用人工智能发展，需有效部署基于预训练基础模型（PFMs）的多媒体服务。但边缘服务器资源受限，本文提出联合基础模型缓存和推理框架，引入上下文的年龄（AoC）度量，提出最小上下文（LC）算法管理缓存PFMs。实验表明，该算法能降低系统成本。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Joint Foundation Model Caching and Inference of Generative AI Services for Edge Intelligence面向边缘智能的生成式AI服务的联合基础模型缓存和推理

摘要

Generative AI Services for Edge Intelligence面向边缘智能的生成式AI服务的联合基础模型缓存和推理)

摘要

随着通用人工智能（AGI）的快速发展，需要有效地部署基于预训练基础模型（PFMs）的各种多媒体服务。借助具备云级计算能力的边缘服务器，边缘智能可以将AGI的能力扩展到移动的边缘网络。然而，与云数据中心相比，资源受限的边缘服务器只能缓存和执行少量的PFMs，这些PFMs通常由数十亿个参数组成，并且在推理过程中需要密集的计算能力和GPU内存。为了应对这一挑战，在本文中，我们提出了一个联合基础模型缓存和推理框架，旨在通过在生成AI服务的提供过程中有效地管理缓存的PFMs和用户请求，来平衡推理延迟，准确性和资源消耗之间的权衡。具体而言，考虑到在上下文学习能力的PFMs，一个新的度量命名为上下文的年龄（AoC），提出了模型的新鲜度和相关性之间的例子在过去的演示和当前的服务请求。基于AOC，我们提出了一个最少的上下文缓存算法来管理缓存在边缘服务器的历史提示和推理结果的PFMs。数值结果表明，该算法可以降低系统成本相比，现有的基线，通过有效地利用上下文信息。
索引术语-移动边缘计算、生成式人工智能、预训练基础模型、联合基础模型缓存和推理

1、介绍

在移动的边缘网络[1]、[2]中向人工通用智能（AGI）发展，预训练基础模型（PFMs），如生成式预训练转换器（GPT）[3]，在过去几年中在各个领域取得了巨大成功。作为AGI的构建块，具有数十亿参数的PFMs是必不可少的，因为它们可以有效地展示具有各种数据模式的下游任务中的紧急能力[4]。预训练方法为广泛的下游任务提供了有效的参数初始化，包括语义分割，内容生成和信息检索。因此，语言/视觉/多模态基础模型属于迁移学习的范式，它可以适应新的任务和领域，而无需在预训练期间获得任何特定于任务的数据。

基于边缘智能的多媒体服务，如智能数字双胞胎（DT），自动驾驶和AI生成的内容（AIGC），可以通过在边缘服务器上部署PFM来大大增强，从而受益于边缘计算的低延迟和灵活特性。例如，**在自动驾驶中，PFMs可以生成交通模拟，并在做出复杂的驾驶决策时提供驾驶辅助[5]。**此外，在Metaverse中的沉浸式人类化身交互期间，PFMs可以帮助理解和应对人类的情感和行为。例如，ChatGPT促进了与人类的一致和流畅的交互，基于GPT-3进行微调以释放其上下文感知[3]，这是一个具有1750亿个参数的LFM(语言基础模型）。除了在云数据中心执行PFMs之外，边缘服务器还可以支持AI服务请求的PFMs的微调和推理过程，从而在移动的边缘网络中点燃AGI的火花。

然而，与云数据中心不同，资源受限的边缘服务器无法同时加载所有PFMs来服务用户的AI服务请求。在文献中，现有的研究通常集中在将AI服务卸载到云数据中心进行远程执行或在边缘服务器上缓存推理结果以实现低延迟响应[6]。一方面，将PFMs的推理请求卸载到云数据中心会给核心网络和公共云基础设施上的AI服务带来额外的延迟、流量开销和隐私威胁。另一方面，仅仅在边缘服务器上缓存推理结果对于满足用户的交互需求不再有效。为了使移动的AI服务能够使用当前加载到边缘服务器的GPU中的计算和GPU资源，在边缘服务器上有效部署PFM需要对计算资源和用户请求进行灵活的上下文感知管理。

与联合服务缓存和任务卸载方面的现有工作不同，联合基础模型缓存和推理面临着几个独特的挑战，以平衡移动的边缘网络中的推理延迟、准确性和资源消耗之间的权衡[7]。首先，下游任务的不同数量的请求和性能要求，例如准确性和延迟，在PFMs的微调和推理期间存在[6]。此外，各种PFMs可以应用于一系列AI服务中的类似下游任务。这对边缘服务器提出了挑战，因为缓存的PFM可以被互换地调用以处理模型未命中。此外，PFMs可以通过指令提示和交互式演示不断学习和适应新的领域和任务[8]。由于PFMs的上下文学习能力，缓存模型可以在不更新参数的情况下在推理过程中提高其推理精度。这些挑战使得关于缓存模型管理和请求卸载的决策越来越难以优化框架的性能，这是推理延迟，准确性和资源消耗之间的权衡。

为了解决这些问题，在本文中，我们研究了重要但很少研究的问题，即移动的边缘网络中边缘智能的生成AI服务的联合基础模型缓存和推理。我们提出了一个联合基础模型缓存和推理框架，以服务于用于提供生成AI服务的PFMs。此外，为了平衡推理延迟，准确性和资源消耗之间的权衡，我们提出了一个新的度量命名为上下文的年龄（AoC），以指示历史演示和当前推理请求中的示例之间的新鲜度和相关性。在上下文消失因子的情况下，AoC遵循非递增效用函数，该效用函数影响来自指令、演示和过去交互的输出的上下文中的有效示例。基于AOC，我们提出了一个最小上下文（LC）算法来管理缓存在边缘服务器的PFMs。仿真实验表明，该算法能够有效利用边缘服务器的计算能力和GPU内存，并通过利用上下文信息提高服务精度，从而降低系统总开销。

本文的主要贡献归纳如下:
·首次提出了移动的边缘网络中的联合基础模型缓存和推理问题，以在边缘服务器的计算和GPU内存容量有限的情况下最小化服务成本和准确性损失。
·考虑到PFMs的上下文学习能力，我们提出了一个新的度量命名为上下文的年龄来衡量上下文和当前推理请求中的历史示例的新鲜度和相关性。
·基于AoC，我们开发了最少上下文算法，通过利用上下文信息有效地管理缓存模型，从而减少模型切换，推理和准确性成本。
与[9]中的工作相比，本文为联合基础模型缓存和推理问题、上下文度量的新时代和最小上下文算法提供了形式化的数学公式。

2、系统模型

在这里插入图片描述
fig 1 为边缘智能提供生成式AI服务的联合基础模型缓存和推理。
如图1所示，我们考虑由服务提供商组成的边缘智能系统模型，包括一个云数据中心和一组边缘服务器，以及大量用户。云数据中心和边缘服务器可以提供生成式AI服务。云数据中心由0表示，边缘服务器的集合由N = {1，2，…，N}。在这个系统中，边缘服务器和云中心根据不同的PFMs提供通用的AI服务，如AIGC。我们使用集合I = {1，2，…，I}来表示基于一组PFM M= {1，2，…，M}。由于PFMs能够同时执行生成AI服务中的多个下游任务，因此我们认为I》M　AI服务器的数量远远大于PFMs的数量。

当移动的用户的设备不足以执行PFM时，他们必须从边缘服务器或云数据中心请求生成AI服务。不同服务的推理请求在服务于不同功能时可能请求不同的PFMs。通常，生成式AI服务需要多个PFMs的协作来处理用户的请求。例如，在Stable Diffusion [10]中，文本相关条件反射基于预训练的CLIP ViT-L/14模型。然后，变分自动编码器将图像压缩到更小维度的潜在空间中。最后，一个U-Net块被用来对前向扩散反向传播的输出进行去噪，以获得潜在的表示。这是一个典型的处理文本到图像生成服务请求的过程。我们使用在这里插入图片描述来表示AI服务i生成的推理请求的数量，以在边缘服务器n处执行基础模型m。PFM m的配置包括运行时GPU内存的量，其与模型大小sm、每个令牌的推理成本em、模型精度am和上下文窗口的大小wm成比例。AI服务的推理过程可以将一定的上下文信息放入模型的上下文窗口中。然后，上下文中的示例的数量由应用i的模型m的Kt i，m表示，其初始为零，即，K0 i，m = 0。

A. 决策变量

为了提供基于PFMs的AI服务，我们提出了一个联合基础模型缓存和推理框架。边缘服务器需要进行模型缓存和请求卸载决策，以利用现有的边缘计算资源来适应移动的用户的生成式AI服务请求。
具体地，边缘服务器 n 需要确定以下变量：
（i）设在这里插入图片描述 ∈ {0，1}表示指示应用i 的模型m 是否在时隙t 被缓存在边缘服务器n处的二进制变量;
（ii）设 bt n，i，m
∈ [0，1]表示关于应用i 的模型m 是否在时隙t 被缓存在边缘服务器n处的连续变量。设
表示边缘服务器n 的模型缓存决策，并且在这里插入图片描述处。此外，边缘服务器 n 的请求卸载决定可以表示为
，并且所有边缘服务器的请求卸载决定可以表示为。
如果在GPU内存中加载了所需的模型组件，则可以在边缘服务器上执行用户的生成式AI服务请求。令Gn表示边缘服务器n的GPU存储器的容量。然后，模型缓存决策变量受到以下约束
在这里插入图片描述
AI服务的模型可以在加载到GPU内存后在边缘服务器上执行。因此，在边缘服务器上执行模型的约束是

在时隙t，1（·）是指示函数。设En表示边缘服务器 n 的资源容量。服务器的总资源消耗受到总能量容量的约束，总能量容量可以表示为
在这里插入图片描述
在云数据中心中，缓存的PFM没有GPU内存约束或能量约束。

B. 语境年龄与语境学习准确性

诸如GPT-3之类的PFMs具有执行上下文学习的能力，这意味着当向它们呈现看不见的任务时，它们可以从过去的提示和推理结果中学习。一些初步实验表明，较大的模型在使用上下文指令和演示方面更有效，正如它们从上下文信息中学习任务的能力提高所证明的那样[3]。这在NLP任务中特别有用，理解句子或段落的上下文对于准确解释至关重要。基于GPT-3能够在上下文中学习的证据，这有助于其在各种语言任务上的出色表现，如翻译，基本算术和问答。设Kt i，m表示应用i的模型m的有效样本数。演示中的示例可能会在相关性、质量和新鲜度方面对模型性能产生不同的影响。
我们提出的AOC来衡量新鲜的例子，在示范中，有影响的PFMs提供的服务质量的任务，现在正在进行下游。例如，在PFM推断期间记录的历史Q&A记录可以用于提高未来的推断准确性。这些示例可以用于提高PFMs的准确性，因为PFMs可以在交互期间使用元梯度学习来拟合它们[11]。然而，根据实例的口径、适用性和及时性，元梯度可能对模型性能产生有利或不利的影响。与信息年龄（AoI）的定义类似，AoC衡量缓存的PFM和推理请求之间的演示中的历史上下文示例的新鲜度。
在这里插入图片描述
如表I所示，在上下文的消失因子νi，m的情况下，通过非增加的年龄效用函数来调整AoC。因此，在边缘服务器n处的上下文中的示例的有效数量Kt，i，m可以表示为
对于t = 1，…，T.根据AoC，演示中的示例数量的加权总数可以用于确定上下文中的示例数量。
如表I所示，应用i中的下游任务的模型m 的上下文内（few-show）准确度Ai，m可以通过对数函数拟合为[3] 在这里插入图片描述
其中A0 m是零次精度，A1 m是一次精度，Kt i，m是上下文中的示例数，αm是模型m的系数。

C.成本结构

如上所述，生成AI服务请求可以由边缘服务器执行并通过核心网络卸载到云数据中心。给定模型缓存和请求卸载决策，由边缘推理成本和云推理成本组成的服务生成AI服务的总系统成本可以用公式表示如下。
1)边推断成本：具体地，边缘推断成本包括边缘切换成本、边缘传输成本、边缘计算成本和模型精度成本。**根据模型缓存决策，每个边缘服务器都需要在执行之前将模型加载到GPU内存中。**在加载过程中，模型切换成本包括模型加载延迟和硬件损耗成本。因此，边缘服务器n 到加载和驱逐模型的切换成本ls n可以计算为
在这里插入图片描述其中λ表示用于加载和驱逐模型的系数，1（·）是指示函数。当在 n，i，m

时，即，
= 1 and
= 0，

表示未缓存模型的加载。否则，在边缘服务器处不会产生切换成本。当请求的模型被缓存到边缘服务器的GPU内存中时，用户与边缘服务器进行通信，以请求生成式AI服务。令ltrans n表示输入提示和推理结果的传输成本。边缘服务器n的传输成本可以计算为：在这里插入图片描述
其中ri，m是应用i的模型m的每输入和结果的单位传输成本。
令fn表示边缘服务器n 的计算能力。边缘服务器处的AI服务的前向传播过程会引起推理延迟，其可以表示为边缘服务器n 的l comp n。边缘计算成本可以计算为在这里插入图片描述
最后，由于边缘服务器可能没有足够的资源来执行AI服务所请求的最佳匹配模型，因此由具有等效功能的其他PFM处理的请求会产生准确性成本lacc n，其可以表示为

通过牺牲一些生成式AI服务的准确性，系统可以降低模型的缺失率。因此，边缘服务器n的总边缘推断成本为
在这里插入图片描述边缘推理成本由边缘服务器的缓存决策和卸载决策共同确定。然而，丢失或卸载的请求由云数据中心处理。

2)云推理成本：边缘服务器受到资源限制，因此无法为所有PFM提供服务。
一方面，由于边缘服务器的存储资源有限，用户请求的模型可能太大而无法加载到边缘服务器的GPU中。
另一方面，边缘服务器的计算能力有限，需要主动将一些请求迁移到云数据中心执行。
因此，当所请求的模型在边缘服务器处被错过或被卸载到云数据中心时，这部分用户请求被传输到云数据中心，云数据中心需要分配资源来完成这样的用户请求。根据[12]，云数据中心可以考虑以无服务器的方式提供生成式AI服务，这是以“按需付费”的方式收费的。因此，用户需要根据请求的数量而不是具体占用的资源来支付执行AI服务的费用。
当边缘服务器错过请求或边缘服务器没有足够的资源来服务请求时，未完成的请求将被卸载到云数据中心进行远程执行。云数据中心可以利用其丰富的计算和能源资源执行模型，然后将推理结果返回给边缘服务器。然而，云推理会导致核心网络中数据传输的额外延迟，这远远高于边缘服务器的数据传输延迟。此外，由云数据中心执行的卸载推理请求的准确性成本预计几乎为零，因为它们可以由数据中心拥有的具有常见上下文示例的最准确模型处理。**基于上述分析，我们使用l0，n来表示将一个请求卸载到云数据中心以远程执行模型m 的聚合成本。**那么，时隙t的总云计算成本为在这里插入图片描述

D.问题公式化

为了优化移动的边缘智能的性能，我们联合考虑边缘推理和云推理的成本，包括时间范围T上的切换成本、准确性成本、传输成本和推理成本。该问题表述如下：在这里插入图片描述
为了解决上述优化问题，我们必须克服以下挑战：
（i）该问题涉及时间耦合元素，例如GPU内存和上下文示例，因为它同时考虑未来请求动态和历史推理上下文;
（ii）通过历史统计数据，我们可以在做出决策之前预测未来信息。为了应对这些挑战，需要一个低复杂度的启发式算法来做出关于模型缓存和请求卸载的决策，尽管缺乏未来的信息。

3、最小上下文算法(LEAST CONTEXT)

为了有效地为PFMs提供生成AI服务，我们提出了基于AoC度量的最小上下文算法。当需要额外的GPU内存来加载未缓存的请求PFM时，LC算法计算上下文中的示例数量，计算它们，并删除上下文中有效示例最少的缓存PFM。因此，在每个时隙t，模型缓存决策可以通过求解缓存模型的有效示例数量的最大化问题来获得，其可以表示为: 在这里插入图片描述服务器n 在时隙t 的GPU存储器的可用容量Gt n可以计算为 Gt n = Gn-Rt n，i，mat n，i，mbt n，i，msm
。这个优化问题可以用O（IM）的复杂度来解决，具有先验知识和统计数据。该算法给出了当前推理任务的最不重要的PFM优先驱逐。它可以在GPU内存有限的边缘服务器上使用大量的PFM。通过在推理过程中使用更多的上下文信息，移动的生成式AI服务的PFMs更加准确。基于通过求解优化问题（13 a）的缓存决策at，通过求解优化问题（12 a）获得卸载决策bt。

4、数值结果

在这里插入图片描述

在实验中，我们考虑一个边缘智能系统与T = 100时隙。每个时隙对生成AI服务的请求遵循泊松过程，平均值为1。我们考虑了三种类型的PFMs，并选择了六个代表性的模型来服务于实验，即，GPT、Uniformer和CLIP。详细的模型配置见[9]。表II列出了主要参数。我们评估了建议的LC方法，比较几个基线，包括云推理，先进先出（FIFO）缓存算法，和最不常用的（LFU）缓存算法。最初，我们通过比较各种系统设置中的平均总成本来检查LC算法的有效性。
如图2所示，LC算法的切换成本逐渐收敛到约1.3%的较小值，而FIFO算法的切换成本随系统时间保持不变。这表明LC算法能够在GPU内存中缓存边缘服务器上推理服务所需的大部分模型。此外，LC算法实现了所有算法中最低的平均总成本。LC算法可以通过提高边缘计算资源的利用率来降低云推理成本，使得请求可以在边缘服务器上以低延迟执行。然后，我们表明，所提出的LC算法在不同的系统设置下是鲁棒的，例如不同数量的服务和不同数量的GPU。
在这里插入图片描述
从图3中，我们可以看到总系统成本随着服务数量的增加而增加。这是因为当需要在边缘服务器上提供更多服务时，边缘服务器中的资源变得不足。一方面，边缘服务器上的GPU内存有限，随着服务数量的增加，运行模型时需要进行更多的模型切换，因此切换成本变得更高。另一方面，当边缘服务器上的资源不足时，云推理的请求必须转发到云数据中心，其成本高于边缘推理。
同时，图4中的实验结果表明，GPU的数量对总系统成本有复杂的影响。当GPU数量增加时，切换成本也会增加。原因是边缘服务器可以在GPU内存中缓存更多模型。如果不对缓存模型进行有效的管理，FIFO算法的切换成本很高。虽然LC算法的成本总是低于其他算法，它的成本增加时，GPU的数量增加。这种趋势背后的原因是，当GPU数量很大时，边缘服务器可以缓存更大的模型。然而，这种大型模型需要密集的计算资源，同时产生类似的边缘推理成本。因此，这些用户对大型模型的请求最好卸载到云数据中心进行远程执行。
在这里插入图片描述
在证明了所提出的LC算法的有效性后，我们接下来研究了上下文消失因子的影响。为了使模型之间的比较更明显，上下文窗口的大小设置为214。如图5所示，随着上下文消失因子增加，边缘推断的平均准确度成本首先是静态的，然后降低。当上下文消失因子较小时，这三种算法之间的性能差距变大。然而，当上下文消失因子较大时，例如图5中的一个，平均准确性成本降低，并且它们的性能差距开始缩小。图6所示的另一个有趣的发现是，随着上下文消失因子的增加，反向边缘推断成本首先增加，然后在某个阈值之后急剧下降。

5、总结

在本文中，我们研究了联合基础模型缓存和推理问题部署PFMs服务基于AI的多媒体服务在移动的边缘网络。
我们引入了一个联合基础模型缓存和推理框架，旨在有效地在边缘服务器上提供生成式AI服务，从而向AGI迈进。
为此，我们提出了一个新的度量标准，用于测量上下文示例与正在进行的推理请求的相关性和新鲜度。
此外，我们还开发了用于PFM管理的LC算法，该算法优化了历史上下文提示和推理结果的利用，从而提高了生成式AI服务的性能。实验结果表明，LC算法有效地利用历史演示和管理缓存模型，有效地降低了系统成本。