阿里云熊鹰:基于融合、协同系统的边缘云原生架构演进和实践

简介: 云原生和边缘计算是近两年都非常火的技术话题了,在第十届云计算标准和应用大会上,阿里云高级技术专家熊鹰分享了《基于融合、协同系统的边缘云原生架构演进和实践》,希望通过介绍现在阿里云在边缘计算和边缘云原生这些技术领域的系统架构演进,让大家了解到业务在云原生和边缘计算结合场景下落地的一些思考。

熊鹰.jpeg

云原生和边缘计算是近两年都非常火的技术话题了,在第十届云计算标准和应用大会上,阿里云高级技术专家熊鹰分享了《基于融合、协同系统的边缘云原生架构演进和实践》,希望通过介绍现在阿里云在边缘计算和边缘云原生这些技术领域的系统架构演进,让大家了解到业务在云原生和边缘计算结合场景下落地的一些思考。

关注阿里云Edge Plus公众号,回复“熊鹰”,获得演讲PPT材料

概述

近几年边缘计算发展非常迅猛,大家可以在各种标准和资料中看到各家对它的定义,这里对其中的几个基础概念做一个总结性的表述

【缘起】
边缘计算概念的缘起,可以追溯到比较久远的时期,但是真正热度兴起,主要还是因为5G的发展;4G的发展使得移动互联网大爆发,因此在5G时代边缘计算被赋予了很大的期望,希望成为新的产业赛道;另一方面,5G标准3GPP里定义的的三大场景大带宽、低延时、广连接,从各个方面都会强化边缘计算的应用场景,而由此带来的电信的基础设施的改造,使计算可以进一步下沉,从互联网到核心网、进一步下沉到接入网,计算正在一步步变得离用户越来越近。

【定义】
关于边缘计算的定义,身处不同的领域和角度,运营商、云服务厂商、硬件厂商,各家对于边缘计算的定义是不一样的。在阿里云的边缘云标准里,定义边缘云为:在靠近终端(人和物)的网络节点,提供分布式、可定义、可调度、标准开放且安全的计算平台及服务。目标是要拓展云的边界,让计算与连接离物更近,让它作为万物互联的基石。

【特征】
与中心云来对比,边缘的节点是分散的多级的,节点多而体量小,不止是区域级省级,还会下沉到地市级园区级,在5G场景里,更要下沉到接入网,云与边、边与边之间的网络可能都是互联网通道。

【挑战】
海量的、分布式的、异构的边缘节点资源特性,会给业务带来巨大的挑战:多个网络入口,代表着统一的流量监控和弹性伸缩策略是不可用;节点多而体量小,代表着单一集群的弹性弱,而全局的弹性强;海量节点的纳管和互联网的网络环境,对于高可用、灾备、迁移等等都是大的冲击。

总体来说,由于新基建的提出和布局,5G、物联网、工业互联网得到了广泛的关注。5G的商业化和产业化进程的加速,使底层基础架构更加的成熟,在今年已经催生出了一大批新行业入场,云应用、云游戏、互动娱乐、工业互联网2.0等等,同时也在推动着整体技术架构在迅速地变化和演进。

基础设施演进

首先来介绍边缘基础设施的演进情况,阿里云根据业务形态,定义了三个阶段:

屏幕快照 2021-01-05 上午10.22.48.png

第一个阶段为边缘云就绪,在这个阶段,用户只是把运行在物理机上面的应用,迁移到虚拟化环境中,这个过程是以降低成本为主要驱动力的,用户不再自建节点,将底层物理设施的运维转交给边缘云处理,而应用的开发和运维方式并没有非常不同。

第二个阶段为边缘云原生,用户希望能再进一步降低整体拥有成本,提升系统能力和研发效能,利用标准化、自动化的方式来管理资源、交付应用、运维系统,用户基于K8S进行深度开发和定制,将边缘资源进行一个整合,适配边缘的特性,在之上开发搭建自己的PaaS平台,以提供给内部的业务使用。

大家对前两个阶段应该很熟悉了,跟中心云的演进过程很类似;

第三个阶段为边缘融合云原生,应该算是一个比较新的概念,这是阿里云在实践过程当中,结合对用户业务的思考,摸索出来定义的一个阶段。

展开来讲:边缘的特性是分布式、资源小而多、网络条件复杂,这样用户需要随时关注基础设施的稳定性,并进行业务和数据的切换和迁移;另外,弹性不强,那么用户的业务也很难做到按需使用;另外,边缘各种能力在技术架构上的整合,也需要用户更深入到K8S之中,具备定制开发能力。总结来说,就是用户需要感知底层资源、基础设施,甚至库存、水位、规划等等情况,并且业务要下沉到边缘的技术挑战和难度都很大。在边缘融合云原生里,带给用户的是,在边缘也并不需要去关心底层基础架构设施,就能享受到弹性、高可用、按需使用的能力。边缘融合云原生应该将异构资源、多集群、库存水位的边缘特性屏蔽;将资源调度、弹性伸缩、多级协同等方面的能力进行沉淀和打通;利用云原生的良好的扩展性,将资源、能力进行抽象融合;同时还需要针对通用业务场景和新兴业务场景,提供统一标准的接口封装;将这些能力释放给用户。

系统架构演进

在技术架构演进实践当中,同样按照刚才的思路进行分层设计:
基础设施层:具备异构资源纳管、多级网络架构、融合存储形态等能力,解决底层资源融合纳管、融合生产、抽象屏蔽的问题;
云边协同层:具备计算、存储、网络流动的能力,具备云边、边边、多云的协同能力,解决各种能力和系统协同打通的问题;
平台引擎层:具备边缘云原生抽象集成能力,解决将资源、组件和应用、调度、编排等能力集成融合的问题;
业务场景层:具备统一接口、业务沉淀、场景深化的能力,解决开发者生态闭环的问题。

屏幕快照 2021-01-05 上午10.22.58.png

可以预料到,随着5G技术和基础设施的持续演进和完善,以及创新型业务的发展,系统架构还会随之进行演进和更迭。

纸上得来终觉浅,绝知此事要躬行。接下来,熊鹰通过介绍阿里云在实际业务实践过程中的案例,来一一解读各层的能力和设计。

应用案例——无状态应用

该场景主要针对的是任务类的业务(例如压测、拨测、离线转码任务)、或者对等网络系统(P2P传输网络)等,这类业务,对弹性伸缩能力有较高要求、对成本有强烈的敏感度,但是对位置、高可用性等要求不高。由于边缘单节点弹性能力弱,但是全局资源弹性强的特点,这种场景算是考验边缘计算基础设施能力的典型应用场景。在架构上,它是需要有一个对全局资源的一个统一库存、融合调度、协同编排的能力:在计算形态上,要支持虚机、容器、安全容器等多种融合计算的形态来满足不同场景的业务诉求;在资源库存方面,要有一个融合的资源池;在调度和编排方面,也是有一个协同统一的调度能力;这样就能很好的提供在事件触发、流量突发场景下的弹性伸缩和按需使用的能力,也能让用户的使用成本大幅度降低。

应用案例——有状态应用

这个场景,业务除了将计算和弹性托管以外,还将域名和调度托管了。另外,由于业务的复杂性,架构上也日趋复杂。首先,在单集群内,系统需要拆分为多个独立工作的微服务;第二,多个微服务自身和之间,都有相互编排依赖的关系;第三,在云与边(管控与业务)、边与边(集群与集群)之间会有协同通信的需求;最后,再加上域名和流量调度、SLB、数据库、中间件等通用能力和组件集成需求;从这个角度来看,在边缘的应用场景已经不比在中心云里的应用复杂度低了,同时还要加上边缘的分布式、多集群、广调度的特性;分布式云计算是对这个场景比较贴切的描述。

在架构上都需要如何来解决业务的需求?最底层基础架构设施层,产品能力上,引入分布式SLB、分布式DB等;网络能力上,加入了可编程可配置的云边、边边覆盖网络能力;在协同层上,云边协同、边边协同、流量和资源的动态平衡协同也是核心的能力;在引擎层上,需要有深度开发适配边缘的云原生能力,像解决海量节点纳管引入的K8S多集群管理联邦能力、解决业务多租户隔离的Virutal Cluster能力、解决微服务架构中服务发现和协同通信的Service Mesh组件、适配边缘虚拟网络、虚拟存储的CNI、CSI组件等等。

屏幕快照 2021-01-05 上午11.21.09.png

熊鹰:"分布式云计算概念目前还没有太多的标准和规范,一个复杂应用要做成分布式,从中心下沉到边缘,还需要做很多系统架构改造适配的工作。这也是阿里云努力的方向,希望沉淀出更多的平台能力出来,形成一个个开发生态的闭环,让分布式云计算,也能轻松落地边缘。”

应用案例——终端上云

这个业务场景在今年非常火热,典型是云游戏和云应用这两个领域。业务将运行在终端上的系统或者应用,托管到云端,以降低终端成本,也可以降低高质量业务的可准入门槛。在边缘融合云原生里,这里会有一个根本性的概念转变:从资源托管、应用托管到设备托管、位置无感托管。在基础设施层和引擎层,针对各类异构资源将资源做初步的封装,抽象出一层统一的标准的虚拟化的资源,提供安全和隔离的能力;在业务层上,再进行一层封装,将资源属性屏蔽掉,不再提供资源的概念,取而代之的是设备的概念;同时,在协同层上加入了协同计算、协同存储、协同网络的能力,让虚拟设备能够流动起来。在业务上,不再能看到传统意义上应用和资源的概念,只能看到一个一个虚拟设备的管控能力,例如设备数据、设备应用、设备调度等等。

屏幕快照 2021-01-05 上午11.21.19.png

这里强调一下数字孪生的概念,熊鹰表示:在万物互联时代,每一个物理终端的背后,最终都有一个影子终端在边缘云上,或者是数据的载体,或者是系统的延伸。

应用案例——超清视频

这个场景还处在技术摸索的阶段,是真正下沉到5G MEC节点的一个场景,希望能够打造一个可复制的5G领域的通用技术架构模型。这个场景里最关键是要能打通协同层和运营商MEC系统的资源协同、流量调度、网络分流协同的能力。5G/MEC时代算力的持续下沉,到接入网,到MEC节点,通用协议如DNS协议会无法满足精准的调度需求;一方面调度将会需要根据终端的精确地域信息来决策,另一方面也要根据业务的需求场景来进行决策;例如,对于定位、AR/VR等极高实时性的业务,会放在接入机房来满足实时性的要求;视频分析等高传输带宽节省业务和云游戏较高实时性业务,会放在汇聚机房,兼顾功能和实时性的需求;而重计算/大存储的业务放在重汇聚机房或核心机房;多级计算、多级网络的设计能让整个系统的能力更加强大和丰富。

边缘融合云原生希望在兼顾业务时延、计算能力等需求的基础上,能分场景灵活的选择业务的部署位置,来满足各类业务的需求。当然,这些能力应该是封装抽象提供给上层,用户和业务是不应该感知到底层基础架构设施的复杂性的。

总结

5G时代,终端上云、VR/AR、边缘AI、工业互联网、智慧农业的应用场景将逐渐爆发起来;在一些专有领域内,已经有重量级的应用场景落地;但是在通用互联网技术领域,真正的5G的Killer应用还没有出现,或者说真正的结合5G技术还有基础设施的技术架构还待演进。熊鹰十分期待边缘计算平台能够通过共建、合作的方式,将多级网络里的资源融合调度起来,将云边端真实打通协同,基于云原生技术,为行业提供开放的、标准的云边协同、云网一体化能力,让更多的应用能轻松的下沉到边缘,实现万物互联的时代。

作者:樰篱

原文链接 

本文为阿里云原创内容,未经允许不得转载

 

已标记关键词 清除标记
相关推荐