文献阅读11

最新推荐文章于 2022-10-12 11:06:26 发布

彭于晏程序分晏

最新推荐文章于 2022-10-12 11:06:26 发布

阅读量385

点赞数

分类专栏：模型切分

本文链接：https://blog.csdn.net/wuhanqinggong/article/details/108704015

版权

模型切分专栏收录该内容

2 篇文章 0 订阅

订阅专栏

HierTrain: Fast Hierarchical Edge AI Learning With Hybrid Parallelism in Mobile-Edge-Cloud Computing（HierTrain：移动边缘云计算中具有混合并行性的快速分层边缘AI学习）

摘要
如今，深度神经网络（DNN）是许多新兴边缘AI应用程序的核心推动力。用于训练DNN的常规方法通常在中央服务器或云中心实施以进行集中式学习，由于大量数据样本从边缘设备到远程云的传输，这通常既耗时又需要资源。为了克服这些缺点，我们考虑在移动边缘云计算（MECC）范例中加速DNN的学习过程。在本文中，我们提出了HierTrain，这是一个层次化的边缘AI学习框架，可以在层次化的MECC架构上有效地部署DNN训练任务。我们开发了一种新颖的混合并行方法，这是HierTrain的关键，可以在边缘设备，边缘服务器和云中心的三个级别上自适应地分配DNN模型层和数据样本。然后，我们提出在层粒度和样本粒度上调度DNN训练任务的问题。解决此优化问题可使我们获得最少的培训时间。我们进一步实现了由边缘设备，边缘服务器和云服务器组成的硬件原型，并对其进行了广泛的实验。实验结果表明，与基于云的分层训练方法相比，HierTrain可以实现高达6.9倍的加速。
索引条款；Edge AI，深度学习，快速模型训练，移动边缘云计算。
引言
在最近的几年中，深度学习已成为一个流行的研究主题，并已集成到众多应用程序中，包括图像识别，自然语言处理，推荐系统等。此外，在边缘计算的支持下，许多基于实时深度学习的边缘AI应用正在各个领域涌现，例如智能医疗保健，智能机器人和工业物联网。
作为一种数据驱动的方法，基于深度学习的边缘AI通常需要具有足够的数据样本，从中训练深度神经网络（DNN）来提取特征或属性。这些数据样本通常由通信和计算能力有限的网络边缘的移动和IoT设备生成，例如手机，智能手表，智能机器人等。因此，对于许多新兴的边缘AI应用而言，如何有效利用边缘设备的通信和计算能力来用生成的数据样本训练DNN都是至关重要的问题。解决此问题的一种方法是云计算，它允许边缘设备将其数据样本卸载到云中心。然后，在云中心执行培训DNN的资源密集型任务，通常在多个计算单元上并行执行。尽管云计算几乎提供了无限的计算资源，但主要的担忧还是来自Internet上的高数据传输延迟和开销，这减慢了训练过程并阻碍了实时模型更新。另一个解决方案是以完全分散的对等方式训练DNN 。这种方法避免了边缘设备与云中心之间的通信开销。然而，当边缘设备的计算资源有限时，仅依靠它们来训练DNN是不切实际的，否则可能会导致大量的计算延迟。我们将这两种方法归类为水平培训，因为计算任务是在同一系统级别上的多个工作人员（云中心中的计算单元或完全分散的对等网络中的边缘设备）上执行的。还存在用于有效训练DNN的分层训练方法。 JointDNN提出，它在边缘设备上训练DNN的某些层，并在云中心训练其他层。但是，边缘设备和云中心之间的延迟仍然是限制训练速度的主要因素。新兴的边缘计算范例提供了另一种选择，其中边缘服务器位于边缘设备和云中心之间，并且可以执行尽可能靠近数据源的计算任务。与云中心和边缘设备之间的通信延迟相比，边缘服务器和边缘设备之间的延迟要低得多。这些优异的性能激发了新兴的边缘学习方案，该方案与边缘设备和边缘服务器共同训练DNN 。边缘学习的重点是在数据源附近的网络边缘训练DNN模型。边缘学习的常见范例是建立在联合学习（FL）的思想之上的，这样，每个边缘设备都会根据本地数据训练模型，然后对这些模型进行更新在边缘服务器上聚合。主要目标是通过联合模型学习过程实现设备之间的隐私保护知识共享。由于移动层和边缘层之间的通信等待时间通常较低，并且云层级的计算资源丰富，因此全面利用这三个层级的通信和计算资源的整体框架无疑可以充分利用移动边缘云的巨大潜力计算以加速边缘AI学习。
因此，我们提出了一个分层的训练框架，简称为HierTrain，它可以有效地在移动边缘云级别上部署DNN训练任务，并为快速边缘AI学习实现最少的训练时间。在本文中，我们的贡献总结如下。

1）我们开发了一种新颖的混合并行方法，这是HierTrain的关键，通过考虑其中的通信和计算资源异质性，将DNN模型层和数据样本自适应地分配给三个层次.
2）公式化在层粒度和样本粒度上调度DNN训练任务的问题。解决此最小化问题使我们能够获得最短的培训时间。
3）我们在边缘设备，边缘服务器和云服务器上实现并部署了硬件原型，广泛的实验结果表明，HierTrain具有出色的性能，例如，与基于云的分层训练方法相比，速度提高了6.9倍。
我们应该强调的是，不同于许多现有的关于边缘AI推理的工作，在本研究中，我们提倡HireTrain解决边缘AI训练加速的重要问题。这是由于不断出现的需求，即许多边缘AI应用程序（例如，智能机器人和工业物联网）都需要实时性能和持续学习能力，以通过新的传感/输入数据样本来快速更新模型并适应复杂的动态变化。应用程序环境。另一方面，HierTrain正沿着促进网络内模型训练（例如用于智能B5G网络的边缘学习）的新兴路线，以减轻传输的大量开销和延迟。
应当注意，我们的框架可以直接应用于DNN，该DNN可以表示为有序的层序列，例如VGG [，YOLO ，MobileNets 等。通常，关键思想HierTrain的混合并行性的分析对于RNN也可能有用。但是，由于RNN的结构复杂，将RNN学习任务划分给多个工作人员更具挑战性。我们将考虑在未来的工作中扩展支持RNN的方法。

二、背景与动机
通常，移动边缘云分层系统中有三个用于DNN培训的计算工作者/节点：边缘设备，边缘服务器和云中心，它们具有不同的通信和计算能力。要联合训练DNN，我们需要确定如何在三个工作人员之间分割训练数据样本和训练后的DNN。下面，我们介绍两种传统方法：模型并行性和数据并行性，以及我们提出的混合并行性方法。
1）模型并行性：由于DNN通常是由一系列不同的层堆叠而成，因此很自然地将层分配给工作人员；在模型并行性方法中，每个工作人员拥有多个层次，并负责更新相应的模型参数。因此，在随机梯度下降（SGD）算法中使用反向传播规则训练DNN时，工作人员需要进行交流以交换中间结果。 JointDNN 和JALAD 的工作证明了模型并行方法的有效性。但是，由于DNN的各层是经过顺序训练的，因此当一个工人正在计算时，其他工人必须保持空闲状态。因此，模型并行方法中的计算资源没有得到充分利用。
2）数据并行性：数据并行性方法将数据样本拆分给工作人员，在每个工作人员中训练DNN的本地副本，并在优化过程中强制本地DNN达成共识。为了实施SGD，工人需要不时交换局部随机梯度或局部模型参数。工作表明，当数据被收集并拆分到云中心内的多个计算单元时，数据并行方法能够加速DNN训练。然而，当DNN的大小较大时，传输局部随机梯度或局部模型参数（其尺寸相同）的要求导致大量通信开销。因此，数据并行方法在移动边缘云架构中的通信效率不高。
3）混合并行：观察到大多数DNN中的后端层，例如卷积神经网络（CNN），是完全连接的层，并且包含大多数参数。这一事实促使我们改进模型并行的方法，通过让所有后端层由一名工作人员培训而前端层由多名工作人员进行培训。因此，工作人员只需要交换一小部分局部随机梯度或局部模型参数来训练前端层，以及传输中间结果来训练后端层，从而大大减少了工作人员之间的通信等待时间。后端层仅由worker3训练。一些前端层是由worker2和worker3训练的，而一些前端层是由所有worker共同训练的。同时，类似于数据并行方法，将训练数据样本拆分并根据他们的计算资源异质性分配给所有工作人员，以进一步平衡设备，边缘和云上的工作负载。
为了将混合并行性方法应用于在移动边缘云架构上加速DNN的训练，我们需要优化DNN层和数据样本对这三个工作人员的分配。为此，我们提出了HierTrain（一种分层培训框架），如下所示。
三、HIERTRAIN框架
在本节中，我们介绍HierTrain框架，该框架共同选择给定DNN模型的最佳划分点，并确定委派给移动边缘云层次结构中不同工作者的数据样本的适当数量。该框架包括三个阶段：概要分析，优化和分层训练。
在分析阶段，HierTrain执行两个初始化步骤：（i）分别分析设备，边缘和云工作人员中不同模型层的平均执行时间；（ii）分析模型中每一层的输出大小。具体来说，我们在移动边缘云的每个计算节点上执行一次训练迭代，然后记录不同DNN层的执行时间和输出大小。我们重复此过程数十次，然后取平均值以获得稳定的平均值。需要注意的是，模型中每一层的输出大小是固定的，仅仅只需要记录一次。请注意，由于许多DNN模型具有固定的已知结构，因此我们可以预先以离线方式进行此类分析步骤，以减少时间开销。在一些具有系统动力学的挑战性场景中，我们可以利用收集的测量数据以及动态影响因子（例如，基于回归的建模和基于机器学习的预测）来利用更复杂的配置方法，各种计算资源）。
在优化阶段，分层训练优化器选择最佳的DNN模型分区点，并分别为边缘设备，边缘服务器和云中心的工作人员确定训练样本的数量。该调度策略是由第V节中介绍的优化算法生成的。优化算法相对于五个决策变量ms，ml，bo，bs，bl（ms，ml表示分区点bo，b，bs）使DNN训练时间最小化。，bl表示在每个工作人员上处理的样本数量，这将在第IV节中定义。它取决于以下输入：（i）三个工作人员中不同模型层的概要平均执行时间；（ii）模型中每一层的输出轮廓尺寸；（iii）边缘设备和边缘服务器之间以及边缘服务器和云中心之间的可用带宽。
在分级训练阶段，边缘设备首先根据优化阶段给出的调度策略将委托的数据样本发送到边缘服务器和云中心。一旦拥有所需的数据样本，边缘设备，边缘服务器和云中心便立即开始其计划的训练任务（即分配的模型训练模块），并以分层方式执行协作模型训练。
请注意，图3中描述的分层训练阶段仅显示了一种可能的调度策略，其中云中心训练完整模型，而边缘服务器和边缘设备仅训练模型的一部分。此调度策略适用于边缘设备和云中心之间的带宽状况良好的情况。但是，当网络带宽成为瓶颈时，调度策略可能会选择边缘服务器或边缘设备来训练完整模型。在下一节中，我们将详细说明如何对数据样本和模型层进行分区。
四、任务编排问题陈述
五、计划政策的优化
六、评估
七、相关工作
八、结论
在本文中，我们研究了在移动边缘云架构上加快DNN训练过程的问题。为此，首先，我们提出了一种用于训练DNN的新颖的混合并行方法。其次，为了获得在移动边缘云环境下使用混合并行方法训练DNN的调度策略，我们将训练DNN在层粒度和样本粒度上的计算调度问题表述为最小化优化规划问题，解决它以获得调度策略。此外，我们在实际硬件上测试了HierTrain，结果表明它可以明显胜过诸如全边缘和全云之类的幼稚策略，并且其性能也优于JointDNN和JALAD等现有工作。
在以后的工作中，我们将把HierTrain框架推广到多设备和多边缘环境中的应用场景中，在这种情况下，跨多设备的联合学习和设备到边缘的关联非常有趣且具有挑战性。