面向大数据应用的混合内存架构特征分析

面向大数据应用的混合内存架构特征分析

李鑫1,陈璇2,黄志球1

1. 南京航空航天大学计算机科学与技术学院,江苏 南京 211106

2. 南京航空航天大学自动化学院,江苏 南京 211106

摘要:受限于DRAM的扩展性,大数据分析及相关应用性能难以有效提升。新型非易失性存储器凭借其非易失性、高存储密度、低能耗等优点,为大数据应用的性能与效率提升带来了契机。以新型非易失性存储器为基础,阐述PCM/DRAM混合存储架构,通过对该混合存储架构在性能优化、能耗优化、内存管理策略等方面的综述分析,详述了混合存储架构在大数据应用方面的优势及可行性,总结了现有研究工作的缺陷,展望了PCM/DRAM混合内存后续的研究方向。

关键词:大数据;非易失性存储器;相变存储器;性能优化

doi:10.11959/j.issn.2096-0271.2018031

640?wx_fmt=jpeg

论文引用格式:李鑫, 陈璇, 黄志球. 面向大数据应用的混合内存架构特征分析[J]. 大数据, 2018, 4(3): 61-80.

LI X, CHEN X, HUANG Z Q. Analysis on hybrid memory architecture for big data application[J]. Big Data Research, 2018, 4(3): 61-80.

640?wx_fmt=jpeg

引言

随着大数据的出现及大数据分析技术的发展,大数据应用受到越来越广泛的关注。大数据具有数据量巨大、数据种类繁多、数据价值密度低以及处理数据时效性要求高等特点[1]。大数据应用需要执行大量计算工作,同时对大数据的处理与存储也有着低时延、低开销、高效率等需求。现在无论是数据中心里的超级计算机还是个人计算机都利用以动态随机存取存储器(dynamic random access memory, DRAM)为核心构成的内存架构来管理和存储大数据,DRAM的可扩展性受限会增加大数据分析的操作时间,从而降低吞吐量,无法高效地对大数据进行存储和分析。虽然工业界和学术界一直都在软件方面研究并尝试解决这一系列的问题,并在一定程度上缓解了现有存储架构的缺陷,但却很难获得本质上的突破。

新型非易失性存储器(non-volatile memory,NVM)的出现,给传统的以DRAM为主体构成的内存系统带来了挑战,也为优化大数据应用提供了契机。其中,相变寄存器(phase change memory,PCM)被认为是目前有可能取代DRAM作为内存构成的选择之一。与DRAM相比,PCM具有非易失性、高存储密度和良好扩展性等合乎大数据存储技术需求的特征。但是,非易失性存储器还存在以下问题。

● PCM读写不对称。在性能方面,写时延相对DRAM较长,会导致访问内存的时间延长,降低系统的性能;在能耗方面,对PCM进行写操作比读操作的能耗要高,会导致更多的能源消耗。

● PCM的耐写度有限。数据在PCM内存架构上的写操作分布不均匀会缩短PCM的寿命,也会对存储在PCM上的数据的安全性造成影响。

由此可见,如果用PCM完全取代DRAM作为构成计算系统的内存,会对计算系统的寿命、性能、能耗和安全性等造成一定的影响。因此,必须有效解决上述问题,才能发挥PCM在优化大数据应用方面的效用,而采用基于PCM和DRAM的混合内存架构是当前的主要方式。

本文从分析大数据应用和NVM的特征入手,旨在分析PCM/DRAM混合存储架构在优化大数据应用方面的可行性及优化方向。通过研究比较DRAM与PCM不同的组成方案和管理策略,从混合存储架构的性能优化和能耗优化两方面分析主要的优化算法和相关的故障处理,并讨论未来的优化方向,以达到最大限度地利用DRAM和PCM优势的目的,为全面利用PCM/DRAM混合内存架构开展大数据应用调度优化提供基础。

2  大数据应用及NVM的特征

2.1 典型应用场景下大数据应用特征

随着大数据概念的出现,学术界和工业界都利用大数据分析技术的优势开展应用,以提升服务或应用效率,现今大数据典型应用场景有:企业内部大数据应用、物联网大数据应用、面向在线社交网络大数据的应用、医疗健康大数据应用、群智感知和智能发电等[2]。这些应用体现了大数据的数字化、全球化、超海量、实时性、价值密度低等特点[3,4]。大数据的应用特征表现在以下两个方面。

(1)数据处理时效性要求高,处理速度问题突出

许多嵌入式的系统都会产生大量的物理数据,需要动态地处理分析这些数据。企业大数据应用也需要实时地对数据的变化做出应对和决策。数据处理的响应时间也从批处理响应时间逐渐转变为实时的流数据处理响应时间[5]。根据国际数据公司(International Data Corporation)发布的名为《大数据,更大的数字身影,最大增长在远东》的研究报告,预计到2020年,数字宇宙规模将达到40 ZB[6]。这些均表明大数据时代对数据处理效率有着迫切的需求。

(2)数据精确性要求高

数据来源的多元化降低了数据的可靠度和质量,但是面向大数据的计算系统需要追求高并发、高性能读写访问、低功耗等特性,其精确需求难以很好地满足。

2.2 大数据应用在传统存储架构下的瓶颈

大数据应用的特征使大数据处理存在很多困难,在传统存储架构下,计算机内存容量有限、输入/输出压力大等缺陷使大数据处理效率低、能耗高。大数据应用面临操作(分析、查询等)时延长、能源消耗大和存储容量有限这3个瓶颈。

(1)操作时延长

在传统的冯·诺伊曼结构中,CPU的处理速率远快于内存的处理速率,当CPU需要在大量的资源或数据上执行一些简单的指令时,由于I/O流量与CPU的工作效率相差太大,计算机运行的整体效率受到严重的限制。现实中,处理器和内存的性能一直在提升但却具有不同的提升速率,两者之间的带宽差距也在增加。大数据继承了互联网的数字化表示,传统的内存器件DRAM用电容的充放电来表示“0”和“1”,为了防止电容因漏电而导致信息丢失,需要周期性地刷新DRAM以保存DRAM中的数据,这就带来了计算系统的额外时间开销,导致大数据的实时性需求得不到满足。

(2)能源消耗大

能源消耗是现代计算系统设计的一个重要考虑因素。近年来,能源管理的研究大多集中在中央处理器的动态管理上,研究人认为它是能源消耗的最主要因素。然而,最近的研究表明,在现代计算系统中,内存已经成为最显著的能源消耗部件,占据能源总消耗的30%~50%[7-11]。

DRAM内存被组织为一个包含行和列的网格,每一位数据都以小电容充电的形式存储在这个网格中。漏电和频繁的访问会导致电荷耗尽,DRAM需要一个持续的刷新操作来维持它的数据,因此,进行刷新操作的电源就会导致持续的能源消耗。同时DRAM设置行和列给物理地址访问时要消耗能源。当其他行需要访问时, DRAM关闭一行也需要额外的能源开销。此外,在进行实际的读写操作时,因为漏电和周期性的供应,持续的备用电源都会造成能源的损耗。

虽然关键的大数据技术仍处在初步阶段[2],但是学术界和工业界对大数据的应用已经越来越广泛,这些应用更多地转移到包含大量信息和通信技术的大数据中心,呈现大数据中心化的特征。目前大数据中心包括数以万计的服务器,其能源消耗量甚至可以超过一座小型城镇的能源消耗量[12]。与此同时,这些服务器在日常工作中约有30%的时间是不承担任何任务的,闲置的服务器只消耗能源,不产生价值,大数据中心的能源利用率普遍只有5%~10%[12]。

(3)存储容量有限

当前需要存储和处理的大数据达到了PB量级,因此存储器的存储容量和存储密度也是一个亟须解决的问题。由于磁盘的I/O速度比计算系统其他部分慢5个数量级[13],如果扩大磁盘容量,寻址时间会随磁盘容量的扩大而增加,进而增加操作的时延,从而降低I/O的吞吐量。由于DRAM存储密度较小、价格较高,如果扩大DRAM内存容量,则会导致能源消耗进一步加剧,并显著增加计算系统的成本。

学术界与工业界都尝试在软件方面对现有的存储机构进行改进,解决大数据存储的问题,其中包括以Hadoop分布式文件系统(Hadoop distributed file system,HDFS)[14]和以非关系型数据库(not only SQL,NoSQL)为代表的大规模分布式数据库系统设计、基于以DRAM为核心的内存数据库技术等。然而,这些软件或软硬件结合的方案都是从传统的DRAM内存架构考虑的,没有实质上的突破。在大数据应用的环境下,内存与外存之间的处理速率仍然相差很大,需要从硬件的角度考虑才能更好地满足大数据应用的需求。

2.3 新型非易失性存储器

由前文可知,以DRAM为核心构成内存的传统架构已经不能满足大数据的应用需求。随着新型的非易失性存储器阻变式存储器(resistive random access memory,RRAM)、铁电存储器(ferroelectric random access memory, FRAM)、磁阻内存(magnetic random access memory,MRAM)、相变存储器(phase change memory,PCM)以及闪存(flash memory)走出实验室,NVM成本降低并实现了产品化,为研究适合高效率、低能耗的大数据存储和管理的新型存储架构带来了新的机

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值