广域虚拟数据空间中边缘缓存系统的研究与实现

fbb9ce39de1bedbd84514afe39445594.png

点击上方蓝字关注我们

60973140f0d300c0d035046623fc04bc.png


广域虚拟数据空间中边缘缓存系统的研究与实现

霍建同1,2, 肖利民1,2, 霍志胜1,2, 徐耀文1,2

1 软件开发环境国家重点实验室,北京 100191

2 北京航空航天大学计算机学院,北京 100191

 摘要针对广域虚拟数据空间系统中边缘客户端访问和共享远程数据时,数据冗余传输造成大量网络带宽浪费的问题,通过研究广域虚拟数据空间系统中的缓存技术,提出边缘缓存机制优化数据访问通路,将数据以文件粒度缓存在靠近边缘客户端的位置,从而提升上层应用访问和共享数据的性能。测试结果表明,作为虚拟数据空间系统的补充,提出的边缘缓存系统可提升广域数据共享的性能。

关键词广域网 ; 边缘缓存 ; 广域虚拟数据空间 ; 共享数据访问性能

4d7f7265b759c426b8818246d11f32ba.png

论文引用格式:

霍建同, 肖利民, 霍志胜, 等. 广域虚拟数据空间中边缘缓存系统的研究与实现[J]. 大数据, 2021, 7(5): 51-81.

HUO J T, XIAO L M, HUO Z S, et al. Research and implementation of edge cache system in global virtual data space across WAN[J]. Big Data Research, 2021, 7(5):51-81.

358e32548cd9184ffa08ab935d668f85.png

1 引言

当前中国国家高性能计算环境中总计算能力突破200 PFlops,总存储容量超过160 PB,拥有2个南北主节点、6个国家级节点、11个普通节点。但各个节点广域分散,计算与存储资源难以统筹使用。当前计算资源已经基本做到全局调度,但存储资源仍处于广域分散、隔离自治的状态,未能实现统一管理和共享访问。随着计算规模和数据量的快速增长,为了满足大型高性能计算应用跨域统一访问、广域数据共享、存储与计算协同的需求,基于国家重点研发计划“高性能计算虚拟数据空间”项目,笔者设计并实现了广域虚拟数据空间系统(global virtual data system, GVDS),并在5个国家超级计算(以下简称超算)中心进行了部署和验证,图1为GVDS的部署情况。

如图1所示,虚拟数据空间客户端位于网络边缘,可称其为边缘客户端。边缘客户端一般部署于PC上,是用户访问广域虚拟数据空间系统的入口;伴随着网络技术的发展,其还可部署在边缘侧的计算节点、数据采集节点和移动设备上。用户可通过客户端直接访问广域虚拟数据空间系统,进行跨超算中心的数据管理、共享和访问。然而,同一研究机构内的用户在一段时间内对相关的数据进行共享和访问时,广域网环境中会多次传输冗余数据,当数据量较大且访问量过多时,会造成网络带宽资源的浪费。另外,随着万物互联时代的到来,边缘计算迅速发展,其将计算作业驻留在靠近数据源、靠近用户的计算设备上运行,可减少数据传输量,从而缩短数据传输时延,最终提高云计算中心的可用性和处理作业的能力。

ed79e0e46ac5b68a21dcc19816948e03.png

图1   GVDS的部署情况

接下来,通过一个实例阐述当前广域虚拟数据空间系统在广域环境中的冗余数据传输问题。在气象预测场景中,气象数据大多来自网络边缘的采集设备,经过多种处理工序,最终上传到超算中心进行分析,整个过程中会将产生的数据进行多次共享和复制。尽管广域虚拟数据空间系统可形成统一的存储视图,方便了数据管理和数据访问,但当同一区域的多个边缘客户端共享和访问数据时,广域网下仍存在大量的冗余数据复制。以图2所示的天气预测过程为例,气象数据来源于全国各地的气象监测点,数据主要包括气温、气压、降水、风向、风速、湿度和辐射等,数据通过气象监测站点的边缘设备进行同化处理后,汇总至省市级气象站,之后进一步汇总至区域级和国家级气象信息中心进行气象预测;各级气象预测单位之间通过国家气象计算网格和中国国家网格的网络进行数据传输。广域虚拟数据空间系统对全局气象数据实现了广域网环境的统一管理和调度,然而,在广州气象局和福建气象局同时需要山东气象局的数据时,两者会同时从广域网环境中访问并获取数据,从而造成冗余数据传输。假设在广东气象局设置边缘存储或者边缘缓存,将气象数据进行缓存,广州气象局和福建气象局从广东气象局获取数据将极大地减少冗余数据传输。另一种情况,当青岛气象局需要济南气象局的数据时,如果在山东气象局设置边缘缓存,济南的气象数据不用到达虚拟数据空间核心空间,即可通过边缘缓存将数据传递给青岛气象局,从而提高广域虚拟数据空间系统的数据共享效率。

ee9f52e50dd1662d75466f21765782a9.png

图2   气象数据处理流程

通过上述示例可知,尽管国内外仅有的几个跨广域网环境的存储系统已经实现了跨广域环境的存储资源的统一管理,如GVDS、欧洲网格基础设施(EGI),但仍面临如下数据共享性能的新挑战:缺乏边缘缓存系统,导致数据在广域网环境中进行冗余传输,广域环境存在很高的传输时延,无法充分发挥广域虚拟数据空间系统的存储资源聚合效应的优势,最终会降低高性能计算应用的性能。

因此,靠近客户端的边缘缓存研究是跨广域存储系统研究领域的热点之一,也是亟须解决的问题之一。基于GVDS现有架构构建边缘缓存系统具有十分重要的意义,可提高广域虚拟数据空间数据访问和数据共享的效率,对于促进高性能计算有重要的推动作用。为了解决上述示例中边缘客户端在访问与共享数据时存在的问题,本文在GVDS中设计并实现了云边协同的边缘缓存系统,通过提升共享数据效率来提高边缘用户的整体数据访问性能,具体如下。

(1)设计并实现了边缘缓存架构及其关键技术

本文设计并实现了边缘缓存系统的架构,并将其作为广域虚拟数据空间系统的补充。该架构最大限度地利用了跨域虚拟数据空间中现有的数据访问机制,尽可能地减少了对广域虚拟数据空间基础软件系统的修改;另外,本文提出并实现了一系列边缘缓存的关键技术,具体包括缓存索引机制、缓存替换策略、边缘缓存集群方案设计、缓存数据一致性策略。

(2)在广域虚拟数据空间系统中实现了边缘缓存系统

基于上述边缘缓存的架构和关键技术,在广域虚拟数据空间系统中实现了边缘缓存系统。边缘缓存系统由边缘客户端模块和边缘缓存服务节点组成,其中边缘缓存服务节点包括缓存接口层、缓存组织层和数据服务层。

2 相关研究工作

边缘缓存的起源可以追溯到20世纪90年代,Akamai公司提出了内容分发网络(content delivery network)的概念。内容分发网络是一种基于Internet的缓存网络,其依靠地域分散的内容缓存服务器,将需要分发的文件在广域网上放置多个副本,并通过中心平台的调度和负载均衡策略,将用户的访问发送到距离较近的内容服务器上,从而缓解网络拥塞,提高广域网数据访问的速度。

2006年亚马逊提出了弹性计算云(elastic compute cloud)的概念,在计算、存储和可视化等方面开启了许多新的机遇。Ramaswamy L等人提出了合作式边缘缓存网格,该网格由多个分布式的边缘缓存云组成,如果缓存未命中,边缘缓存节点能够从临近的边缘缓存云中获取文件数据,以缩短用户等待时间。2009年,卡内基梅隆大学的Satyanarayanan M等人引入了微云(Cloudlet)作为边缘计算的形式, Cloudlet部署在网络边缘,并与互联网连接,是一个可信且资源丰富的主机,可以被移动设备访问及为其提供服务。

2014年,Storj Labs提出了一种去中心化的云存储平台STORJ,该平台使用P2P网络连接存储设备,并借助以太坊区块链技术激励用户将闲置的存储资源充分利用起来,从而以非常低廉的维护和管理成本为边缘端提供存储服务。2017年,Chen B Q等人提出了一种基于D2D(device to device)网络的边缘缓存模型,其按照集群的方式划分边缘用户,将热文件缓存在各个集群中,从而可将D2D缓存网络的吞吐量提高4倍。2019年,Tan H S等人研究了多个边缘服务器的在线协作缓存机制,当本地边缘服务器没有所需数据/服务时,可以选择与周边的边缘服务器关联合作(代价小),或者将服务请求直接发送到云端数据中心(代价大)&#

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值