AI 边缘算力关键技术白皮书 2024

1 边缘算力关键技术

边缘算力的技术体系架构如图 1 所示,主要包括:边缘算力基础设施、边缘算力网络、边缘智能、边缘算力安全等四方面。

其中,边缘算力基础设施聚焦于计算、存储、网络等物理硬件资源及其虚拟化,边缘算力网络关注分布式算力 资源的感知、度量、并网、调度、管控等,边缘智能涉及系统部署、数据处理 、 模型优化、边缘训练、边缘推理等关键问题,边缘算力安全则贯穿始终提供对从 基础设施到上层服务的全面安全保障。

图 1 边缘算力技术体系架构图

1.1 边缘算力基础设施

边缘算力基础设施由硬件资源和资源虚拟化组成,前者提供边缘算力所需 的计算、存储、网络等基础硬件资源,后者则通过虚拟化技术将各类异构的基 础硬件资源抽象为逻辑资源,便于统一管理、调度和使用。

1.1.1 硬件资源层

边缘算力硬件资源层主要涵盖计算、存储、网络等多种基础设施资源,共同 构筑了边缘算力的物理承载底座,其性能与效率直接决定着边缘算力的整体服务 能力。

1.1.1.1 计算资源

计算资源主要是指 CPU、GPU、ASIC、FPGA、DSP 等各类处理器芯片及其组合 所构建的加速卡。

其中,X86、ARM 和 RISC-V 等 CPU 芯片主要面向通用计算,GPU 主要面向图形和 AI 训练推理,而 ASIC、FPGA、DSP 等芯片则专注于定制化/半定 制化计算和数字信号处理等功能。

计算资源旨在满足边缘设备对于实时性、可靠 性和计算能力的需求,能够在接近数据源的位置进行本地化计算处理,有效减少 数据传输延迟,并降低对网络带宽的依赖。边缘算力资源支持异构架构,能够高 效处理包括人工智能推理、图像处理、信号处理等在内的复杂任务。

1.1.1.2 存储资源

存储资源主要负责在边缘节点附近保存并缓存数据,主要包括边缘算力设备中的 RAM、HDD、SSD 及各类 RAID 阵列等。

边缘存储将数据从远距离的云服务器 端迁移到离数据更近的边缘存储设备端,可以提供实时可靠的数据存储和访问。

边缘存储作为一种基于边缘算力的新型分布式存储架构,将数据分散存储在邻近 的边缘存储设备或边缘数据中心,可大幅度缩短数据产生、计算、存储之间的物 理距离,提供高速低延迟的边缘数据访问和智能处理能力。

边缘存储需具备高性 能、高稳定、高可靠等特点,以便满足与边缘算力、网络协同及数据中心存储的 协同,从而实现数据的互联互通与共享。

1.1.1.3 网络资源

网络资源在边缘算力基础设施中扮演着至关重要的角色,是确保数据高速传 输与高效处理的核心通道。边缘算力的网络资源复杂多样,包括各类以太网、光 纤、无线等多种设备,共同构建可靠边缘网络基础设施。

1.1.2 资源虚拟化层

边缘资源虚拟化将物理硬件资源抽象为逻辑资源,使得多个虚拟机或容器可 以共享相同的硬件资源。

虚拟化技术已在云计算中得到广泛应用,在边缘算力中 同样具有重要价值。与云计算不同的是,边缘算力需要处理来自于各种异构设备 的多种分布式资源,例如不同厂商的服务器、路由器、网关、传感器甚至是用户 终端设备。

通过边缘算力资源虚拟化,这些异构资源可以被抽象为统一的资源池。 虚拟化层可以屏蔽底层硬件的差异,使得上层应用无需关心具体的硬件类型和配 置,只需与虚拟资源接口进行交互。

1.1.2.1 计算资源虚拟化

边缘算力的计算资源虚拟化是指通过虚拟化技术将边缘设备上的物理计算 资源抽象为多个虚拟资源,提高硬件利用率,增强系统灵活性,并满足多样化的 应用需求。

边缘算力虚拟化通常依赖虚拟机监控程序或容器技术来实现。虚拟机监控程 序可以将边缘设备的 CPU 和内存等资源分割为多个虚拟机,使得每个虚拟机能够 运行不同的操作系统和应用程序。

而容器技术则进一步简化了虚拟化的开销,允许多个容器在同一操作系统内核上运行,具有更轻量、更高效的特点。Kubernetes 等容器编排工具在边缘算力中得到广泛应用,用于自动化地管理和调度这些容器 化应用。

边缘环境中计算资源虚拟化的价值不仅体现在资源整合和提高利用率上,更 重要的是支持多租户环境下的应用隔离和弹性扩展。通过虚拟化技术,边缘设备 可以在运行多个应用的同时,确保各应用之间的资源隔离,防止相互干扰。

同时, 虚拟化还能够根据实时需求动态调整资源分配,使得边缘算力能够灵活应对突发 负载和复杂应用场景,进一步提升了边缘算力平台的服务能力和响应速度。

1.1.2.2 存储资源虚拟化

边缘算力的存储虚拟化是将边缘设备上物理存储资源抽象为虚拟存储资源 的技术。

边缘算力设备通常具备不同类型和容量的存储介质,如固态硬盘(SSD)、 闪存、甚至是低成本的机械硬盘。

通过存储虚拟化,这些异构存储资源可以被整 合为一个统一的虚拟存储池,以满足不同应用和服务的数据存储需求,同时简化 数据管理和提升存储资源的利用效率。

在边缘算力环境中,存储虚拟化不仅有助于克服存储资源分散的问题,还能 够提高数据的可用性和可靠性。通过存储虚拟化技术,边缘设备可以支持数据的 分布式存储、自动化备份和跨节点的冗余存储。这种方式确保了即使某些边缘节 点发生故障,数据依然可以从其他节点快速恢复,从而减少数据丢失的风险。

此外,存储虚拟化在边缘算力中的另一个重要应用是数据的分层存储。根据 数据的访问频率和重要性,可以将数据智能地存储在不同的存储介质上。例如, 频繁访问的数据可以存储在高速的 SSD 上,而较少访问的冷数据则可以转移到更 大容量但访问速度较慢的硬盘上。这种分层存储机制不仅优化了存储资源的使用, 还提高了数据访问的效率。

存储虚拟化还为边缘算力中的数据共享和协作提供了技术保障。通过虚拟化 的存储资源,多个边缘节点能够更方便地访问和共享数据,支持边缘算力环境中 的协同计算和实时数据处理。同时,存储虚拟化还可以结合数据加密和访问控制 机制,确保数据在边缘设备之间传输和存储过程中的安全性。

1.1.2.3 网络资源虚拟化

在边缘算力环境中,网络虚拟化技术扮演着至关重要的角色。边缘节点通常 部署于地理位置分散的环境,节点间需要借助网络进行通信和数据交互。然而, 传统的网络架构难以满足边缘算力环境下网络拓扑和流量负载的动态变化需求。

网络虚拟化技术支持边缘算力平台对网络资源进行灵活配置的能力。通过软件定义网络(SDN)和网络功能虚拟化(NFV)等技术,边缘算力平台可以实现虚拟网 络的按需创建、动态调整和高效销毁,从而确保应用和服务能够在异构的网络环 境下保持高性能运行。

网络虚拟化还支持边缘算力中的多租户隔离。在边缘算力场景中,多个应用 或服务可能需要共享同一个物理网络资源。通过网络虚拟化技术,平台可以为不 同的租户创建独立的虚拟网络,确保各租户之间的网络流量相互隔离,从而提高 网络安全性。此外,虚拟网络的配置和管理也更加灵活,可以根据应用的需求动 态调整网络带宽、延迟和可靠性等参数。

在边缘算力的网络虚拟化中,NFV 技术的应用也十分关键。传统的网络功能 (如防火墙、负载均衡、路由等)通常依赖于专用硬件设备,而 NFV 通过将这些 功能以软件的形式虚拟化,可以在通用硬件上灵活部署,从而减少对专用设备的 依赖,提高网络服务的灵活性和可扩展性。在边缘算力中,NFV 可以帮助快速部 署和更新网络功能,支持复杂的网络环境和多样化的应用需求。

1.2 边缘算力网络

随着边缘算力的快速发展,边缘节点数量和层级不断增加,为构建灵活高效 的算力网络提供了基础。边缘算力网络通过对分布式算力资源进行感知、度量、 并网、调度、管控和交易等操作,整合泛在分布的边缘算力资源,实现一体化的 接入和管理,从而满足不断增长的算力资源分配需求,成为边缘算力技术的重要 研究方向。

1.2.1 边缘算力感知

边缘算力感知是针对具体场景下的边缘算力需求的感知和边缘算力资源的 感知,通过面向边缘算力、SLA 需求的感知、分析技术,构建边缘算力度量及感 知体系。边缘算力感知的核心在于对异构算力资源进行一体化接入与管理,不仅 需要提供快速响应的能力,还需要实现资源利用的动态优化。

这对分布式计算节 点的管理和调度提出了较高的要求。通过实时感知算力资源的状态、负载和需求, 边缘算力感知技术可以动态调整资源分配策略,确保计算任务的高效执行和资源 的合理利用。

边缘算力池是实现边缘算力感知的关键机制之一,将计算资源集中于资源池中,使用户可以通过网络以便利的、按需申请的方式获取算力资源。这种集中式管理不仅实现了算力资源的可视化,还为资源的感知、调度和编排提供了基础。

算力资源池可以显著提高资源利用率,通过统一管理降低运维成本,并提高算力 资源的调度效率。

通过设立算力资源池可实现:

(1)资源整合与可视化,算力 资源池集中管理异构算力资源,包括其位置分布、计算特性和动态占用等情况, 使得资源的可视化更加直观,有助于对资源状态的实时监控和分析。

(2)高效调度与动态优化,通过实时感知和分析资源需求,算力资源池能够动态调整资源 的分配策略,不仅平衡了算力资源的利用率,还降低了网络拥堵和系统延迟,提 高了计算任务的响应速度和系统的整体性能。

(3)降低运维成本,集中式资源 池可以减少对分散资源的维护和监控成本,实现对整个资源池的高效管理,可以 降低运营成本,并提升系统的可靠性和稳定性。

当前,边缘算力感知技术正在向智能化、自动化和全局优化的方向发展。未 来,随着人工智能和机器学习技术的引入,边缘算力感知系统将能够更精确地预 测资源需求和负载变化,实现更加智能的资源调度和动态优化。

此外,边缘算力 感知技术将与 5G 等网络技术进一步融合,推动端到端的资源管理和优化,满足 更加复杂和多样化的计算需求。

1.2.2 边缘算力度量

在边缘算力的发展过程中,边缘算力度量成为了一个关键指标,用以评估边 缘算力系统的性能、效率以及资源利用率,其核心在于量化边缘算力资源以及多 样化 SLA 需求,建立统一的标准化的度量指标体系,以实现高效的算力利用和任 务处理。

通过准确的算力度量,可以更好地优化边缘算力资源的分配,提高系统的整体效能。因此,算力度量技术是实现边缘算力网络的重要基础。类比云计算 计量方法,边缘算力度量可以分为计算、存储和网络分别进行度量,以更好的满 足业务对算力资源的需求。

边缘算力的计算能力度量通常采用运算能力作为关键指标,常用单位包括 OPS(Operations Per Second)和 FLOPS(Floating-point Operations Per Second)。OPS 泛指处理器每秒所能执行的操作次数,而 FLOPS 特指每秒可执行 的浮点运算次数,更侧重于反映处理器的数值计算能力。这里的处理器涵盖范围 广泛,不仅包括传统的 CPU,还包括 GPU、FPGA、ASIC、DPU、TPU 等各类专用芯片。

不同类型的处理器拥有各自独特的性能指标和应用场景,实际应用中往往需要采用多维度的度量体系来全面、准确地描述其性能。例如,除了运算能力之外, 还需要考虑内存带宽、功耗、延迟等因素。

边缘算力的存储能力决定了其可以存储和处理的数据量。存储能力包括持久 存储(如 HDD、SSD)和临时存储(如 RAM)的容量和读写速度。对于数据密集型 应用,如视频监控、数据缓存、日志分析等,充足的存储能力是保证系统稳定运 行的基础。存储资源可从磁盘/内存存储容量、IO 读写效能、吞吐率等维度进行 度量。

边缘算力的网络能力度量除了网络带宽、时延之外,还包括可用私网个数、 可用公网 IP 地址数等。网络延迟是指数据在边缘节点之间传输所需的时间,通 常以毫秒(ms)为单位衡量。低网络延迟是边缘算力的一大优势,因为它能够显 著减少数据从源头到处理节点的传输时间,提高系统的实时性和响应速度。

随着边缘基础设施的发展,电信运营商提供算力和网络的综合服务,其核心 能力在于对行业应用场景中算力及网络时延的确定性保障。

在这一过程中,电信 运营商通过对算力资源与网络资源提供统一的度量标准,对行业应用场景中相关 算网资源进行量化描述,然后根据业务 SLA 对算网资源进行转译建模,进而支持 将业务按需映射到网络、计算及存储资源,为业务的动态调度和路由寻址提供可 靠支撑,实现多样性算力资源调度与管理,大幅提高算网应用中各个网元间的协 同工作效率。

目前,边缘由于其异构性算力资源的度量还缺乏统一的标准和衡量 方式,业界研究机构、产业联盟、标准组织等尚未形成统一结论。基于 SLA 通过 统一的量化描述将异构算力资源与多样化的业务需求综合考虑,进而实现对算力 资源的度量,或可成为边缘算力度量技术发展的方向之一。随着边缘算力与网络 资源的深度融合,边缘算网统一度量将有效推动算力资源和网络资源的有机融合 与协同优化,从而实现形成标准化归一化的度量体系。

1.2.3 边缘算力调度

边缘算力调度技术对分布式计算资源(如 CPU、GPU、FPGA 等)进行动态管 理和调度,根据实时需求、资源状态和网络条件将工作负载智能分配到边缘算力 节点,以优化性能、减少延迟和提升资源利用效率。

边缘算力调度技术主要包括以下方面:

(1)动态资源分配,能够实时监测各个边缘节点的资源状况,如 CPU、内存、存储和网络带宽,动态调整任务分配。

(2)负载均衡,通过算法自动将任务分散到多个边缘节点,防止个别节点过载, 从而提升系统整体性能。

(3)延迟优化,根据用户位置和网络条件,智能选择 最合适的边缘节点来执行请求,减少数据传输的延迟。

(4)智能分析与预测, 利用机器学习技术分析历史数据,预测未来的资源需求变化,提前做好相应的资 源准备。

(5)故障恢复与容错,在边缘节点发生故障时,系统能够迅速将任务 迁移到其他健康节点,确保服务的连续性。

未来,边缘算力调度将更多地依赖于智能化技术,如可编程网络技术和智能 感知网络技术,以提升调度效率和灵活性。同时,面向算力大规模落地的趋势, 边缘算力调度通过原生 AI 算力工具让不同种类的芯片大规模并行,同时发挥最 大效率,并让算力使用者无需关注不同芯片生态,做到随取随用。

1.2.4 边缘算力管控

边缘算力管控技术是指对边缘算力资源进行有效管理,实现计算、存储、网 络等资源的协同与优化,以满足多种应用场景的需求。

边缘算力管控根据任务类型、优先级、资源要求等因素,采用合适的调度算 法(如最长任务优先、最短作业优先等)对算力任务进行合理调度和分配,使得 资源得以充分利用,并确保任务的高效执行。

同时,边缘算力管控通过深度集成 云端和边缘节点,实现跨层次的服务,优化资源利用和任务调度,提升整体系统 的效率和响应速度,并通过对历史数据和未来趋势的分析,进行算力需求的预测, 动态调整边缘缓存的内容和位置,以提高数据访问速度和用户体验。

1.2.5 边缘算力并网

边缘算力并网是将边缘算力的分布式计算能力与网络资源深度融合,形成一 种新型的信息服务模式,以满足算网融合的需求。算力并网通过网络将大量闲散 的资源连接起来并进行统一管理和调度,同时实现多级资源节点的协同调度与应 用的灵活部署。

边缘算力并网作为算力网络提供服务的重要方式之一,以解决现网资源调度 需求为目标,面向典型业务场景实现多方算力对接互联与协同共享、算力资源一 体化调度,构建动态共享的新型基础设施合作模式。

边缘算力具有分布式特性,需要通过网络调度能力实现算力资源的调度、共享等,因此,算力并网需要具备较强的感知能力,不仅能够感知不同边缘应用的算力需求,还要能实时感知算力互联网络的连接状况,为边缘应用提供差异化高 可靠的算力服务。

1.3 边缘智能

边缘智能通过在边缘节点应用人工智能算法进行部分训练和推理决策。

移动 终端等设备通过将深度学习模型的推理或训练任务卸载到临近的边缘算力节点, 以完成终端设备的本地计算与边缘服务器强计算能力的协同互补,进而降低终端 设备自身资源消耗和任务推理的时延或模型训练的能耗,保证良好的用户体验。 同时,将人工智能模型部署在边缘设备上,可以为用户提供更加实时的智能应用 服务。

此外,依托远端的云计算服务,根据设备类型和场景需求,可以进行近端 边缘设备的大规模安全配置、部署和管理以及服务资源的智能分配,从而让智能 能力在云端和边缘之间按需流动。边缘智能是边缘算力的重要使能技术,涉及到系统部署、 数 据 处 理 、 模 型 优化、边缘训练、边缘推理等关键问题。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值