Exascale面临的能耗挑战(翻译自ExaScale Computing Study:Technology Challenges in Achieving Exascale Systems)

Exascale面临的能耗挑战

背景

从第一次正式讨论PetascalePetascale的发布大概花了16年。然而在Petascale设计成功之前,已经掌握了设计千万亿次级所需要的技术、架构以及编程模型等。所以从TerascalePetascale也就是运算速度由10^1210^15,这次速度的提升相对简单。然而从从PetascaleExascale,也就是运算速度由10^1510^18,这次速度提升就上次提升来说要困难的多,面对着一些列的挑战。

亟待解决的问题

相比上一次过渡,当前由PetascaleExascale,出现了一些亟待解决的问题:

1.需要在更高运算速度的机器上运行应用程序的需要越来越急切;

2.相比Terascale时代,这些应用变得更加复杂;

3.需要更高的计算能力,不仅仅是需要在计算速度上提高几个数量级,而是如何降低系统的体积,降低系统的能耗;

4.由于多方面因素,Exascale技术受到阻碍:没有可以预见的可行的解决方法;缺乏商业动力来驱使投资者提供支持,达到从PetascaleExascale的过渡;

5.缺乏体系先进的计算机体系结构来支撑现有的或即将出现的技术来达到性能的指数级提升;

6.虽然一些程序已经可以运行的具有上万个处理器的系统上,但是将程序运行到数以百万计的处理器系统上能力还比较薄弱,甚至连将传统的个人电脑上程序运行到几个核的处理器的能力都很薄弱。

考虑到上述问题,将运算速度提高三个数量级将是很大的挑战。

紧迫性

亿亿级超级计算机为人类社会提供了复杂事件的预测、分析和政策评估的能力。设计和实现Exascale计算机具有极其重要的意义。

1.超级计算机是计算机中功能最强、运算速度最快、存储容量最大的一类计算机,多用于国家高科技领域和尖端技术研究,是国家科技发展水平和综合国力的重要标志。

2.随着超级计算机运算速度的迅猛发展,它也被越来越多的应用在工业、科研和学术等领域。超级计算机的运算速度达到每秒亿亿次不仅仅是计算机发展史上的一个里程碑,它也将让很多学科跃上新的高度:让科学家和医生更好地理解海量数据;让科学家研发出新的技术来使云计算达到一定的规模,使庞大的分布式计算机能够模拟现实;帮助研究人员创建三维立体可视图像而非视频游戏来运行无穷无尽的假定推测情景,以此增加细节的精确度。

3.亿亿级超级计算机系统也将在高清晰气候模型的设计和制造、生物能源产品的研制、智能栅格的研发以及熔解能源的设计等方面大显身。

能耗挑战

百亿亿次机的实现将面临功耗、可靠性、可扩展性、并行性、可应用性等多方面的挑战。其中最大的挑战就是能耗问题。要想降低功耗,需要一种新的技术来设计系统,每一次计算操作,数据传输操作,访存操作,或者访问二级存储设备的操作都需要消耗更低的能耗,这样才能达到从整体降低Exascale机能耗的目的。然而通过研究发现,不仅仅是需要更低功耗的元器件,从整体系统上降低系统的能耗。以前主要认为,能耗主要消耗在计算操作上,现在研究发现,数据传输上的耗能,也会降低Exascale系统中传统的计算部件的性能。Exascale次机面临的能耗问题主要包括以下几个方面:

功能部件能耗

首先,如果达到每秒10^18运算速度,并且使用基于现有硅芯片的高性能浮点逻辑运算单元的话,那么这些运算单元的功耗就将达到20MW。即使使用积极的电路设计,以100%的效率使用这些运算单元,甚至不考虑由于数以亿计的并发操作带来的对并行机制的要求,需要的功耗也将达到10MW

DRAM主存的功耗

DRAM的功耗主要与下面四个因素有关:

1.总容量,因为需要持续更新,所以总容量越大,更新所需的耗能就越大;

2.同时访存的通路个数,因为当每次cache不命中时都要访问内存bank来获得所需要的数据,通路个数越多,能耗越大;

3.每次访存所读取的位数以及实际传输的位数;

4.将片内存储器中的数据传输到片外DRAM的数据带宽;

DRAM的功耗与以下四个因素成正比,对于相对较小的存储容量和对存储容量不敏感的应用来说,上述四个因素带来的DRAM功耗相对较小。但是当存储容量超过5PB,或者GPU作为驱动因素的时,能耗问题将变得非常严重。

互连功耗

互连的功耗主要以下面几种形式存在:片内互连,片间互连,电路板之间的互连,机柜间的互连。即使通过各种技术上的改进,在任何层次上传输一位数据需要1-3pJ这个数量级上的能耗。所以在任何层次上,如果传输的数据达到10^15这个数量级,那么所需要的能耗将达到10-30MW

第二级存储系统功耗

当今暂存和持久存储的主要媒介是磁盘,到2014年,存储密度最大的磁盘每交换10^15B数据需要5MW的能耗。实际需要的第二级存储系统的容量与主存的容量有关,如果系统为了支持日益复杂的应用,可能会需要100EB的第二级存储系系统,那么存储系统的功耗问题将是不容忽视的。

降低功耗的途径

我们知道,在很多领域,不能仅仅通过改善实现系统的硬件部分的工艺来解决Exascale次机面临的挑战。因此如果不能清晰的认识怎么样设计Exascale系统,很容易走弯路,也就导致了仅仅是设计了一些貌似很有趣但是却对效率没有实际提高的设备。并且,现存的系统结构不具有优化的特点,所以需要新的系统结构。系统结构和设备工艺是紧密结合在一起的,只有这两个方面同时发展,才有可能解决Exascale次机面临的挑战。因为我们就从设计Exascale次机的硬件工艺和架构上看如何降低功耗。具体分为以下五个方面。

硅芯片上的节能电路和架构

从电路这个角度看,主要包括逻辑控制电路,通信电路,存储电路三个方面,通过节能架构来优化这三个方面,降低能耗的空间很大。大多数的电路优化的目的是取得更快的速度而不是降低能耗,所以如果我们为了降低能耗而优化电路,在降低能耗方面可能取得进展。通过优化传输电路和存储电路,我们可能得到功耗的数量级上的降低。但是逻辑控制电路的优化空间较低,因为逻辑控制电路使用的静态CMOS,它已经非常高效,优化程度较高。

逻辑元件和存储的低能耗设备和电路

研究小组认为研发设计可替代的设备工艺非常重要,新的工艺对计算和存储来说,耗能更低,效率更高。增加可替代设备的密度,赶上或者超过传统的工艺也是非常重要的。研究小组认为这些工艺已经存在,在不同程度上已经接近成熟。

可替代的低能耗的内存和存储系统

使用现有的技术来设计Exascale的存储系统会带来严重的功耗问题,然而通过以下一些正在兴起的技术可能会解决Exascale存储系统的功耗问题:

1.考虑存储体系结构中新的层次。一些正在兴起的或者可替代的技术的特点能够在存储系统间架起一座桥梁,比如在DRAM和磁盘之间,来减小不同存储层次之间的速度差异;

2.在存储体系的不同层次之间进行显示和积极的数据传输,来降低由于传输带的能耗;

3.重新架构传统的DRAM,以降低访问每位数据的能耗;

4.设计多芯片和3D包装技术,以降低访问数据的能耗,但同时应该保持访问数据的高速度;

5.设计可替代的存储访问路径和协议;

6.合理的设计运算单元的位置,来降低存储设备,传输媒介,协议中的不必要的拷贝,以降低能耗;

3D互连、打包和冷却

打包挑战的难度与存储器带宽有关,3D打包技术为降低功耗提供了可能。传统的打包技术以及积极的互连能够使存储器和cpu之间的通信能耗控制在2p’J/bit。另一方面,某些3D打包技术,更具片上互连距离的不同,能够将通信能耗控制在1-20fJ/bit

至于冷却问题,在Exascale计算栈中嵌入液体冷却的方式。如果不用补充冷却的液体的话,这种方法的可行性很高。但是液体冷却也存在一些问题,比如说液体泄漏问题。

如果不采用液体降温的话,那么局部热交换器也是一种选择。

结论

本文的说明了Exascale设计挑战中的能耗挑战,以及应对挑战的可能解决途径。虽然在设计Exascale的道路上困难重重,但是在应用的驱动下,制亿亿级超级计算机的大潮势在必行。

 原文可以通过连接http://computationalsciencesolutions.com/docs/DARPA%20exascale%20-%20hardware%20(2008).pdf下载得到

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值