NO.1 天河二号(TH-2,英文名:Tianhe-2、Milkyway-2):
是一组由中国国防科技大学等单位研制的异构超级计算机,为天河一号超级计算机的后继者,2013年6月起成为世界上最快的超级计算机,超过第二名泰坦近一倍。
天河二号的组装和测试由国防科技大学和浪潮集团来负责,将于2013年底入驻广东省广州的国家超级计算广州中心并进行验收,以后将对外开放接受运算项目任务,用于实验、科研以及教育领域。天河二号造价达一亿美元,整个系统占地面积达720平方米。
性能
2013年6月,天河二号以峰值速度(Rpeak)每秒54,902.4TFLOPS(万亿次浮点运算)、持续速度(Rmax)33,862.7TFLOPS,超越泰坦超级计算机(Rpeak 27,112.5TFLOPS,Rmax 17,590.0TFLOPS),成为当今世界上最快的超级计算机。这个成绩于2013年6月17日提交至TOP500。
实际上,在早前的运行测试中,仅使用16,000个运算节点中的90%,亦即14,336个节点,LINPACK运算速度就达到30.65PFLOPS的性能水平,超过前任“泰坦”的74%。
同样在2013年6月,天河二号以2,061GTEPS的成绩在Graph500上排名第六。Graph500是一个对超级电脑的数据密集型运算处理性能进行的一个排行榜,在此榜单上排位第一的是IBM红杉,成绩是15,363GTEPS。
硬件配置
天河二号的型号为TH-IVB-FEP,使用中央处理器及协处理器的运算架构布局:
天河二号共有16,000个运算节点,每节点配备两颗Xeon E5 12核心的中央处理器、三个Xeon Phi 57核心的协处理器(运算加速卡)。累计32,000颗Xeon E5主处理器和48,000个Xeon Phi协处理器,共312万个计算核心。
处理器
- 中央处理器为英特尔提供的,运作时钟频率为2.2GHz的Xeon E5-2692v2 12核心处理器,基于英特尔Ivy Bridge微架构(Ivy Bridge-EX核心),采用22纳米制程,峰值性能0.2112TFLOPS。
- 运算加速使用基于英特尔集成众核架构的Xeon Phi 31S1P协处理器,运行时钟频率为1.1GHz,拥有57个x86核心(实际上拥有61个核心,因激活全部核心时会存在运算周期协调冲突之问题,因此先屏蔽4个x86核心),每个x86核心籍由特殊的超线程技术能运作2个线程,产生峰值性能为1.003TFLOPS。
存储器
- 内存
- 每个节点拥有64GiB主存,而每个Xeon Phi协处理器板载8GiB内存,故每节点共88GiB内存,整体总计内存1,375TiB (1.34PiB)。
- 外存
- 12.4PiB容量的硬盘阵列
主板、机架、机柜
- 主板、机架与机柜均由浪潮集团制造,共有125个机柜,每个机柜容纳4个机框,每个机框容纳16块主板,每个主板设置有两个计算节点。每个机柜还装有负载指示灯,根据机柜内主机的运算负载变更发光二极管的发光颜色。
- 每块主板上分为APU模块和CPM模块两部分,APU部分承载5块Xeon Phi,CPM部分承载1块Xeon Phi+4颗Xeon E5。
- APU模块和CPM模块之间以CPU内部提供的PCI-E 3.0 16x接口进行连接,但实际由于Xeon Phi的硬件限制,仅支持至PCI-E 2.0 16x,单通道数据传输速率为10Gbps。
前端处理器
- 计算节点前端处理器为4096颗中国国防科技大学研发的FT-1500 16核心SPARC V9架构的处理器,40纳米制程,运作时钟频率1.8GHz,热设计功耗65瓦,峰值性能144GFLOPS。主要作运算任务调度管理之用。
连接性
- 使用光电混合传输技术(Optoelectronics Hybrid Transport Technology),使用自制的TH Express-2主干拓扑结构网络连接,以13个大型路由器通过576个连接端口以光电传输介质与各个运算节点互联,控制器名为NRC,使用90纳米制 程,单个控制器的数据吞吐量2.56Tbps,终端网络接口使用名为NIC的控制器,以PCI-E 2.0接口链接,数据传送速率6.36GB/s。
能耗
- 整机功耗17,808千瓦,在搭载水冷散热系统以后,功耗将达到24兆瓦,无论水冷系统的搭载与否,都是目前TOP500里功耗最大的
- 以6月17日公布的数据推算,每瓦性能为1.901GFLOPS,仍不及泰坦的每瓦2.143GFLOPS和IBM红杉每瓦2.177GFLOPS的成绩,但比“京”的每瓦0.830GFLOPS每和天河一号每瓦仅0.668GFLOPS都要高不少。
软件支持
- 麒麟操作系统、基于SLURM(Simple Linux Utility for Resource Management,资源管理用单一Linux公用程序)的全局资源管理。
---------------------------------------------------------------------------------------------------------------------------------
NO.2 泰坦(英语:Titan)
泰坦(英语:Titan)是一台由克雷公司承建的超级电脑,置放于美国能源部下属的橡树岭国家实验室中,供各项科学研究项目使用。泰坦是由原来也置放于橡树岭国家实验室的美洲虎(英文:Jaguar)经过多次升级改装而成。泰坦也是世界上第一台以通用图形处理器(GPGPU) 为主要数据处理单元的超级电脑,2012年11月至2013年6月是世界上最快的超级电脑。美洲虎在2011年10月被宣布开始进行大幅升级,2012年 10月,升级作业基本完工后这台超级电脑被更名为泰坦,并开始进行稳定性和性能测试,2013年中期方可供科学研究者们使用。升级的预算开始时是6千万美 元,其中绝大部分由美国能源部提供。而后来根据克雷公司的公开信息,整台泰坦超级电脑的费用最终是9千7百万美元,为填补资金空缺,美国国家海洋和大气管理局也出了一小部分资金参与建造,以从主要出资方美国能源部的手上获得一定的使用权。
泰坦使用由超微半导体提供的皓龙(Opteron)处理器链接英伟达提供的Tesla运算用图形处理器以进行协同运算,来在提供比美洲虎更高的运算性能之同时保持能源利用效率。整台泰坦共计18,688颗中央处理器和相同数量的图形处理器,理论峰值性能是27petaFLOPS(每秒27×1015次浮点运算),然而,在2012年11月的LINPACK基准性能测试中却仅取得17.59petaFLOPS的成绩(每秒17.59×1015次浮点运算),尽管如此,但无论从性能上抑或是能效比上来说,仍然要比同时期的其它超级电脑更胜一筹。
泰坦可用于任何目的的数据处理。然而,数据处理任务的优先级,需要基于三个方面的考量:任务计划的重要度、任务计划对异构运算的利用潜力以及任务计 划的运算程序源码与其它超级电脑的兼容性。经过筛选调度后,选中六个运算计划,这六个“前锋”计划在泰坦开放使用后由泰坦依调度运行处理,这些处理任务多 为关于纳米科技或气候模型。不过其它没被选为首先处理的任务计划,仍会进行优先级调度,进入等候贮列,以待泰坦的运行处理。由于以图形处理器来处理数据,基于图形处理器拥有比中央处理器多得多的线程的理由,不少程序需要进行源码变动处理以适应新的混合架构,这些处理常常需要有更高级的运算平行度,而这些变更甚至也可以在以中央处理器为主的超级电脑上获得性能的提升。
机架、电源供应
泰坦超级电脑使用和美洲虎超级电脑相同的200个机柜的设计,占地404平方米,基本上只是更换了机柜和布线。沿用改进自美洲虎超级电脑的电力供应系统和冷却系统,节省了能源部/实验室约两千万美元的经费。泰坦的总耗电功率最大8.2兆瓦,比美洲虎高出了1.2兆瓦,但是泰坦提供比美洲虎快了几乎10倍的运算性能,特别是浮点运算方面。电力供应系统的交流电输入电压高达480伏,供每个机柜使用,由于使用更高的电压,因此可以使用比美国标准的208伏(线电压)电缆更细的输入电缆,由更小直径的电缆铜芯上节省出来的资金就有一百万美元。为应付电力供应突然中断的事件,碳纤维飞轮能量存储器可以维持网络系统和存储系统16秒的电力供应,如果两秒内电力供应没有恢复,柴油发电机就会在大约7秒的时间内启动,并一直驱动飞轮,但是飞轮和发电机被设计成只为网络系统和存储系统维持电力供应,以便能快速重新打开整台机器,发电机也不会为运算处理单元基础设施提供后备电力供应,因此外接电力供应中断时(即使发电机已启动)是不会进行运算处理作业的,这个特性和笔记本电脑的“睡眠”功能类似。
冷却系统
泰坦的机柜使用主动式风冷散热器,但是外界空气进入机柜前则要事先经过冷却处理,所用的空气冷却器,可制冷质量为6,600吨(相当于23.2兆瓦的热功率),以5.5摄氏度(约42华氏度)的低温冷却水作为空气冷却器的散热介质,从机柜中带走热量的热空气会流到至空气冷却器冷却,再回流进入机柜,如此往复循环。另外,“泰坦”的散热系统设计时并没有考虑噪音问题,因此这台超级电脑运作时的噪音非常巨大,以至于机房需要更好的隔音措施,进入机房并且逗留超过15分钟的人员必须采取像是佩戴隔音耳塞或耳机等的听力保护措施。
运算主机
完整的泰坦超级电脑上有18,688个运算节点,每部刀片服务器拥有四个运算节点,24部刀锋主机为一个机柜。
- 每个运算节点包含:
- 一颗AMD Opteron 6274中央处理器,基于AMD Bulldozer微架构,拥有8个Bulldozer模块共16个核心,核心时钟频率为2.2GHz
- 容量32GB,DDR3-1600带ECC的存储器
- 一块NVIDIA Tesla K20X运算加速卡,包含:一颗基于NVIDIA Kepler架构、核心代号“GK110”的通用图形处理器,拥有2,688个流处理器(CUDA核心)、核心时钟频率为732MHz,附带容量为6GB、带ECC的GDDR5显示存储器
- 每两个节点共用一个克雷公司研发的Gemini高速互连路由器
- 整台超级电脑共299,008个处理器核心和超过710TB的存储器容量(包括显示存储器,全部存储器打开ECC功能后共693.6TB可用);
存储器使用硬盘阵列存储,原来容量是10PB(由13,400块,每块7,200转每分1TB容量的硬盘组成),其有效传送速率为240GB/s。 在2013年4月,进行了一次存储器的升级,升级后的存储器容量增至40PB,其有效传送速率达到1.4TB/s。
为了更大幅度地提升平行运算性能,建造方选择用通用图形处理器实现,因为图形处理器平行运算效率相比传统的中央处理器的有更为巨大的优势所在。尽管图形处理器/通用图形处理器的时钟频率要比中央处理器低不少,但每颗NVIDIA GK110显示核心拥有2,688个时钟频率为732MHz的流处理器(CUDA核心),全部流处理器联合进行运算处理,从而使得整个系统性能更高。 因此,在泰坦超级电脑上,中央处理器核心主要用以分配运算任务给通用图形处理器,数据处理主要由通用图形处理器来实现。而此前的超级电脑,则是由中央处理器直接处理数据,即使有通用图形处理器的加入也就是辅助运算的角色。
主机管理
在运算主机以外,为方便管理并监视泰坦的运作状况,还另外设置了登录管理节点。每个登录节点的配置为一颗八核心的AMD Opteron 6140中央处理器和256GB的存储器。在授权用户通过网络连接至登录管理节点并登录后,默认是在登录管理节点上进行任务调度、监视运算节点运作状况等 作业。[41]
显示设施
为了让科研人员能够更好地明白泰坦的数据处理结果,泰坦也设有显示输出,通过链接名为“EVEREST”的显示设备来实现。EVEREST,全名 “Exploratory Visualisation Environment for Research and Technology”,意即“技术和研究的探索可视化环境”,是一个装有一块10米×3米(30英尺×10英尺)的主荧幕和一块尺寸要小上一些的副荧幕 的房间,荧幕的分辨率均为3千7百万像素×3千3百万像素,还附带3D显示能力(需要配合3D眼镜使用)。
性能、能效比表现
泰坦的理论峰值性能为每秒27×1015次浮点运算(27petaFLOPS),或者是每秒2.7千万亿次运算作业。2012年11月12日,泰坦通过LINPACK基准性能测试,最终成绩为每秒17.59×1015次浮点运算,TOP500最后宣布了新的第一名由泰坦超级电脑夺得,取代前任第一IBM红杉。尽管目前的实际峰值性能和理论峰值性能相比有较大落差,但能效比仍然要比众多超级电脑优胜。
泰坦超级电脑也是Green500中排名第三的超级电脑(截至2012年11月),每消耗一瓦特的电功率获得2142.77megaFLOPS(21.4277亿次浮点运算每秒)的运算性能。Green500也是全球500强超级电脑的排名,但不同于TOP500的是Green500是根据性能功耗比来进行排名。
操作系统、文件系统
泰坦超级电脑使用克雷公司基于Linux核心开发的Cray Linux Environment分 布式操作系统。Cary Linux Environment操作系统由以下两部分组成:登录管理节点为全功能Linux核心的操作系统,运算节点则是为提升性能和效率而特别优化精简的基于轻 量级Linux核心CNL(Compute Node Linux)的操作系统。文件系统使用Lustre分散式文件系统,代号“Spider”。