Exascale面临的能耗挑战(翻译自ExaScale Computing Study:Technology Challenges in Achieving Exascale Systems)

最新推荐文章于 2024-08-27 09:31:51 发布

wyj7260

最新推荐文章于 2024-08-27 09:31:51 发布

阅读量1.9k

点赞数

Exascale面临的能耗挑战

背景

从第一次正式讨论Petascale到Petascale的发布大概花了16年。然而在Petascale设计成功之前，已经掌握了设计千万亿次级所需要的技术、架构以及编程模型等。所以从Terascale到Petascale，也就是运算速度由10^12到10^15，这次速度的提升相对简单。然而从从Petascale到Exascale，也就是运算速度由10^15到10^18，这次速度提升就上次提升来说要困难的多，面对着一些列的挑战。

亟待解决的问题

相比上一次过渡，当前由Petascale到Exascale，出现了一些亟待解决的问题：

1．需要在更高运算速度的机器上运行应用程序的需要越来越急切；

2．相比Terascale时代，这些应用变得更加复杂；

3．需要更高的计算能力，不仅仅是需要在计算速度上提高几个数量级，而是如何降低系统的体积，降低系统的能耗；

4．由于多方面因素，Exascale技术受到阻碍：没有可以预见的可行的解决方法；缺乏商业动力来驱使投资者提供支持，达到从Petascale向Exascale的过渡；

5．缺乏体系先进的计算机体系结构来支撑现有的或即将出现的技术来达到性能的指数级提升；

6．虽然一些程序已经可以运行的具有上万个处理器的系统上，但是将程序运行到数以百万计的处理器系统上能力还比较薄弱，甚至连将传统的个人电脑上程序运行到几个核的处理器的能力都很薄弱。

考虑到上述问题，将运算速度提高三个数量级将是很大的挑战。

紧迫性

亿亿级超级计算机为人类社会提供了复杂事件的预测、分析和政策评估的能力。设计和实现Exascale计算机具有极其重要的意义。

1．超级计算机是计算机中功能最强、运算速度最快、存储容量最大的一类计算机，多用于国家高科技领域和尖端技术研究，是国家科技发展水平和综合国力的重要标志。

2．随着超级计算机运算速度的迅猛发展，它也被越来越多的应用在工业、科研和学术等领域。超级计算机的运算速度达到每秒亿亿次不仅仅是计算机发展史上的一个里程碑，它也将让很多学科跃上新的高度：让科学家和医生更好地理解海量数据；让科学家研发出新的技术来使云计算达到一定的规模，使庞大的分布式计算机能够模拟现实；帮助研究人员创建三维立体可视图像而非视频游戏来运行无穷无尽的假定推测情景，以此增加细节的精确度。

3．亿亿级超级计算机系统也将在高清晰气候模型的设计和制造、生物能源产品的研制、智能栅格的研发以及熔解能源的设计等方面大显身。

能耗挑战

百亿亿次机的实现将面临功耗、可靠性、可扩展性、并行性、可应用性等多方面的挑战。其中最大的挑战就是能耗问题。要想降低功耗，需要一种新的技术来设计系统，每一次计算操作，数据传输操作，访存操作，或者访问二级存储设备的操作都需要消耗更低的能耗，这样才能达到从整体降低Exascale机能耗的目的。然而通过研究发现，不仅仅是需要更低功耗的元器件，从整体系统上降低系统的能耗。以前主要认为，能耗主要消耗在计算操作上，现在研究发现，数据传输上的耗能，也会降低Exascale系统中传统的计算部件的性能。Exascale次机面临的能耗问题主要包括以下几个方面：

功能部件能耗

首先，如果达到每秒10^18运算速度，并且使用基于现有硅芯片的高性能浮点逻辑运算单元的话，那么这些运算单元的功耗就将达到20MW。即使使用积极的电路设计，以100%的效率使用这些运算单元，甚至不考虑由于数以亿计的并发操作带来的对并行机制的要求，需要的功耗也将达到10MW。

DRAM主存的功耗

DRAM的功耗主要与下面四个因素有关：

1．总容量，因为需要持续更新，所以总容量越大，更新所需的耗能就越大；

2．同时访存的通路个数，因为当每次cache不命中时都要访问内存bank来获得所需要的数据，通路个数越多，能耗越大；

3．每次访存所读取的位数以及实际传输的位数；

4．将片内存储器中的数据传输到片外DRAM的数据带宽；

DRAM的功耗与以下四个因素成正比，对于相对较小的存储容量和对存储容量不敏感的应用来说，上述四个因素带来的DRAM功耗相对较小。但是当存储容量超过5PB，或者GPU作为驱动因素的时，能耗问题将变得非常严重。

互连功耗

互连的功耗主要以下面几种形式存在：片内互连，片间互连，电路板之间的互连，机柜间的互连。即使通过各种技术上的改进，在任何层次上传输一位数据需要1-3pJ这个数量级上的能耗。所以在任何层次上，如果传输的数据达到10^15这个数量级，那么所需要的能耗将达到10-30MW。

第二级存储系统功耗

当今暂存和持久存储的主要媒介是磁盘，到2014年，存储密度最大的磁盘每交换10^15B数据需要5MW的能耗。实际需要的第二级存储系统的容量与主存的容量有关，如果系统为了支持日益复杂的应用，可能会需要100EB的第二级存储系系统，那么存储系统的功耗问题将是不容忽视的。

降低功耗的途径

我们知道，在很多领域，不能仅仅通过改善实现系统的硬件部分的工艺来解决Exascale次机面临的挑战。因此如果不能清晰的认识怎么样设计Exascale系统，很容易走弯路，也就导致了仅仅是设计了一些貌似很有趣但是却对效率没有实际提高的设备。并且，现存的系统结构不具有优化的特点，所以需要新的系统结构。系统结构和设备工艺是紧密结合在一起的，只有这两个方面同时发展，才有可能解决Exascale次机面临的挑战。因为我们就从设计Exascale次机的硬件工艺和架构上看如何降低功耗。具体分为以下五个方面。

硅芯片上的节能电路和架构

从电路这个角度看，主要包括逻辑控制电路，通信电路，存储电路三个方面，通过节能架构来优化这三个方面，降低能耗的空间很大。大多数的电路优化的目的是取得更快的速度而不是降低能耗，所以如果我们为了降低能耗而优化电路，在降低能耗方面可能取得进展。通过优化传输电路和存储电路，我们可能得到功耗的数量级上的降低。但是逻辑控制电路的优化空间较低，因为逻辑控制电路使用的静态CMOS，它已经非常高效，优化程度较高。