文献阅读7

Edge AI: On-Demand Accelerating Deep NeuralNetwork Inference via Edge Computing (边缘AI:通过边缘计算按需加速深度神经网络推理)

摘要
作为支持5G时代的人工智能(AI)应用的关键技术,深度神经网络(DNN)迅速引起了广泛的关注。然而,由于有限的计算资源,在移动设备上运行基于计算密集型DNN的任务具有挑战性。更糟糕的是,传统的云辅助DNN推理由于广域网的巨大延迟而严重受阻,导致实时性能不佳以及用户体验质量低下。为了解决这些挑战,在本文中,我们提出了Edgent,这是一个通过设备边缘协同作用利用边缘计算进行DNN协作推理的框架。 Edgent利用两个设计旋钮:
(1)DNN分区,可在设备和边缘之间自适应地划分计算,以协调强大的云资源和近端边缘资源以进行实时DNN推理;
(2)DNN调整大小,这是通过在适当的中间DNN层上尽早退出推断来进一步减少计算延迟。
此外,考虑到实际部署中的潜在网络波动,Edgent经过适当设计,专门针对静态和动态网络环境。具体而言,在带宽缓慢变化的静态环境中,Edgent借助基于回归的预测模型得出最佳配置,而在带宽急剧变化的动态环境中,Edgent通过在线更改点检测生成最佳执行计划将当前带宽状态映射到最佳配置的算法。我们基于Raspberry Pi和台式PC实施Edgent原型,广泛的实验评估证明Edgent在启用按需低延迟边缘智能方面的有效性。
索引词:边缘智能,边缘计算,深度学习,计算分流。
一、引言
作为支持现代智能移动应用程序的骨干技术,深度神经网络(DNN)代表了最普遍采用的机器学习技术,并且变得越来越流行。得益于出色的特征提取性能,DNN见证了从计算机视觉,语音识别到自然语言处理以及大数据分析领域的广泛成功。不幸的是,由于基于DNN的应用程序需要大量的计算,因此当今的移动设备通常无法很好地支持这些基于DNN的应用程序。
为了应对DNN的过多资源需求,传统智慧采用了功能强大的云数据中心进行密集的DNN计算。在这种情况下,将从移动设备生成的输入数据发送到远程云数据中心,并且设备会在计算完成时接收执行结果。但是,采用这种以云为中心的方法,大量数据(例如,图像和视频)将在终端设备和远程云数据中心之间通过长广域网来回传输,这可能会导致无法忍受潜伏期和精力充沛。为了缓解这个问题,我们利用了新兴的边缘计算范式。边缘计算的主要思想是将云计算功能从网络核心转移到与终端设备紧邻的网络边缘(例如,基站和WLAN)。这项新颖的功能使得能够以实时响应方式(即边缘智能)执行基于计算密集型和对延迟至关重要的基于DNN的应用程序。通过利用边缘计算,我们可以设计一个按需的低延迟DNN推理框架,以支持实时边缘AI应用程序。
在认识到边缘智能的好处的同时,我们的经验研究表明,基于边缘的DNN推理的性能仍然对边缘服务器和移动设备之间的可用带宽高度敏感。具体地,随着带宽从1Mbps下降到50kbps,基于边缘的DNN推理延迟从0.123s增加到2.317s(在第III-B节中详细介绍)。考虑到实际部署中易受攻击且易变的网络环境,自然的问题是我们是否可以在通用网络环境下进一步优化DNN推论,尤其是对于某些基于关键任务的DNN应用程序,例如智能安全和工业机器人。
关于这个问题,在本文中,我们利用边缘计算范式,提出了Edgent,它是一种通过设备边缘协同作用的低延迟协同推理框架。面向低延迟边缘智能1,Edgent采用了两个设计旋钮。第一个是DNN分区,它根据可用带宽在移动设备和边缘服务器之间自适应地划分DNN计算,从而利用边缘服务器的计算能力。但是,这不足以满足某些关键任务应用程序的严格响应性要求,因为执行性能仍然受到移动设备上运行的其余模型的限制。因此,Edgent进一步集成了第二个旋钮,DNN正确调整大小,通过提前在中间DNN层退出推理来加速DNN推理。本质上,提早退出机制涉及延迟精确度的权衡。为了在平衡与现有资源之间取得平衡,Edgent按需对DNN分区和DNN右尺寸进行了联合优化。具体而言,对于通常具有预定义延迟要求的关键任务应用程序,Edgent在保证延迟要求的同时最大程度地提高了准确性。
考虑到实际部署中的通用网络条件,Edgent进一步开发了量身定制的配置机制,以便Edgent可以在静态网络环境和动态网络环境中追求更好的性能。具体地,在静态网络环境(例如,具有光纤或mmWave连接的局域网)中,我们认为带宽是稳定的,并且通过基于当前带宽的执行等待时间估计来找出协作策略。在这种情况下,Edgent训练回归模型以预测逐层推理延迟,从而得出DNN分区和DNN右尺寸的最佳配置。在动态网络环境(例如5G蜂窝网络,车载网络)中,为了减轻网络波动的影响,我们通过分析和记录每个带宽状态的最佳选择来构建查找表,并专门使用运行时优化器来检测带宽状态转换并相应地映射最佳选择。通过针对不同网络环境的专业设计,Edgent能够在不违反应用程序响应性要求的情况下最大化推理精度。基于Raspberry Pi和台式PC的原型实施和广泛的评估证明了Edgent在实现按需低延迟边缘智能方面的有效性。
总而言之,我们提出本文的贡献如下:
•我们提出Edgent,这是一种通过设备边缘协同作用进行按需DNN协作推理的框架,其中我们共同优化DNN分区和DNN调整大小,以最大程度地提高推理准确性,同时保证了对应用程序延迟的要求。
•考虑通用网络环境(例如静态网络环境和动态网络环境),我们专门针对Edgent进行工作流设计,以实现更好的性能。
•我们使用Raspberry Pi和台式PC来实施和试验Edgent原型。基于真实世界网络跟踪数据集的评估结果证明了提出的Edgent框架的有效性。
二、相关工作
关于移动DNN计算主题的讨论最近引起了越来越多的关注。通过在移动设备上托管人工智能,移动DNN计算将DNN模型部署在用户附近,以实现更灵活的执行以及更安全的交互[15]。但是,由于有限的计算资源,直接在移动设备上执行计算密集型DNN具有挑战性。在此问题上,现有工作致力于优化边缘设备上的DNN计算。
对于低延迟和高能效的移动DNN计算,文献中主要有以下三种方式:运行时管理,模型架构优化和硬件加速。运行时管理是将计算从移动设备转移到云或边缘服务器,后者利用外部计算资源来获得更好的性能。模型架构优化尝试开发新颖的DNN结构,以便通过适度的计算获得所需的精度。例如,为了减少DNN计算过程中的资源消耗,通过模型修剪压缩DNN模型。这种优化的最新进展已转向网络体系结构搜索(NAS)。硬件加速通常包括硬件级别设计中的基本DNN计算操作,而一些工作旨在优化现有硬件资源的利用率。
作为运行时优化方法之一,DNN分区技术将特定的DNN模型划分为一些连续的部分,并将每个部分部署在多个参与设备上。具体来说,某些框架[34]-[36]利用DNN分区来优化移动设备和云之间的计算负载,而某些框架则旨在在移动设备之间分配计算工作量[37]-[39]。无论涉及多少设备,DNN分区都致力于最大程度地利用外部计算资源,从而加快移动计算的速度。对于DNN的正确大小调整,它着重于在现有环境的限制下调整模型大小。在这个目标上,DNN调整大小吸引了专门的培训技术,以从原始标准DNN模型生成氘代多分支DNN模型。在本文中,我们借助于开源的BranchyNet [40]框架和Chainer [41]框架来实现分支模型。
与现有工作相比,我们从以下三个方面总结了我们框架的新颖性。首先,考虑到预定义的应用程序延迟要求,Edgent根据可用的计算资源将推理精度最大化,这与现有研究有很大不同。由于不同的基于DNN的应用程序在不同的场景下可能需要不同的执行期限,因此该功能对于实际部署至关重要。其次,Edgent集成了DNN分区和DNN右尺寸调整,以最大程度地提高推理准确性,同时保证了应用程序执行的最后期限。值得注意的是,模型分割和模型调整大小都无法很好地解决时序要求方面的挑战。对于模型分区,它确实减少了执行等待时间,而总处理时间仍受移动设备上零件的限制。对于模型调整大小,它可以加速通过早期退出机制进行推理处理,但是总的计算工作量仍然由原始DNN模型架构控制,因此很难在应用程序截止日期之前完成推理。
因此,我们建议将这两种方法集成在一起以扩展设计空间。模型划分和模型大小调整的集成不是一站式工作,我们需要精心设计决策优化算法,以充分探索划分点和出口点的选择,从而在准确性之间取得良好的平衡。和按需延​​迟。通过这些努力,我们可以实现设计目标,从而在给定预定义的延迟约束的情况下,在不违反延迟要求的前提下,最大化DNN推理精度。最后但并非最不重要的一点是,我们专门针对静态和动态网络环境设计Edgent,而现有的工作(例如[38])主要集中在具有稳定网络的情况下。考虑到实际中的各种应用程序场景和部署环境,我们专门针对静态和动态网络环境设计配置器和运行时优化器,通过这些设计器,Edgent可以根据网络条件针对出口点和分区点生成适当的决策。

三、背景与动机
在本节中,我们首先简要介绍DNN。然后,我们分析了仅边缘和仅设备方法的局限性,以此为动力,探索了利用DNN划分和正确调整大小来利用设备边缘协同效应加速DNN推理的方法。

四、框架与设计
在本节中,我们介绍Edgent的设计,该设计生成最佳的协作DNN推理计划,该计划可在满足静态和动态带宽环境下的延迟要求的同时,最大程度地提高准确性。

五、绩效评估

六、总结
在这项工作中,我们提出Edgent,这是一种具有设备边缘协作的按需DNN协同推理框架。为了启用低延迟边缘智能,Edgent引入了两个设计旋钮来优化DNN推理延迟:DNN分区可实现设备边缘协作,而DNN调整大小可利用早期退出机制。我们介绍了两个专门设计的配置器,分别用于确定静态和动态带宽环境下的协作策略。我们的原型实现和在Raspberry Pi上的实验评估表明,Edgent对低延迟边缘智能的能力和有效性。对于未来的工作,我们提出的框架可以与现有的模型压缩技术进一步结合以加速DNN推理。此外,通过设计高效的资源分配算法,我们可以扩展我们的框架以支持多设备应用程序场景。我们希望激发社会上更多的讨论和努力,并充分实现边缘智能的愿景。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值