NVIDIA安培架构
NVIDIA Ampere Architecture In-Depth
在2020年英伟达GTC主题演讲中,英伟达创始人兼首席执行官黄仁勋介绍了基于新英伟达安培GPU架构的新英伟达A100 GPU。本文将介绍新的A100 GPU,并描述NVIDIA安培体系结构GPU的重要新功能。
在现代云数据中心运行的计算密集型应用程序的多样性推动了NVIDIA GPU加速云计算的爆炸式增长。这些密集型应用包括人工智能深度学习(AI deep learning,DL)培训和推理、数据分析、科学计算、基因组学、边缘视频分析和5G服务、图形渲染、云游戏等。从扩展人工智能培训和科学计算,到扩展推理应用程序,再到实现实时对话人工智能,NVIDIA gpu提供了必要的马力来加速当今云数据中心中运行的众多复杂和不可预测的工作负载。
NVIDIA GPU是推动人工智能革命的领先计算引擎,为人工智能训练和推理工作提供了巨大的加速。此外,NVIDIA gpu加速了许多类型的HPC和数据分析应用程序和系统,使您能够有效地分析、可视化数据,并将数据转化为见解。NVIDIA加速计算平台是世界上许多最重要和增长最快的行业的核心。
Introducing the NVIDIA A100 Tensor Core GPU
NVIDIA A100 Tensor Core GPU基于新的NVIDIA安培GPU体系结构,并建立在以前的NVIDIA Tesla V100 GPU的能力之上。它增加了许多新功能,为HPC、AI和数据分析工作负载提供了显著更快的性能。
A100为运行在单个和多个GPU工作站、服务器、集群、云数据中心、边缘系统和超级计算机中的GPU计算和DL应用程序提供了强大的扩展能力。A100 GPU支持构建弹性、多用途和高吞吐量的数据中心。
A100 GPU包括一个革命性的新的多实例GPU(MIG)虚拟化和GPU分区功能,这对云服务提供商(csp)特别有利。当配置为MIG操作时,A100允许csp提高其GPU服务器的利用率,以不增加成本的方式提供最多7倍的GPU实例。健壮的故障隔离允许他们安全地划分单个A100 GPU。
A100增加了一个强大的新的第三代Tensor核心,它在增加了对DL和HPC数据类型的全面支持的同时,还增加了一个新的稀疏特性,使吞吐量进一步增加了一倍。
A100中新的TensorFloat-32(TF32)Tensor Core操作为在DL框架和HPC中加速FP32输入/输出数据提供了一条简单的途径,运行速度比V100 FP32 FMA操作快10倍,或在稀疏情况下快20倍。对于FP16/FP32混合精度DL,A100张量核的性能是V100的2.5倍,稀疏性增加到5倍。
新的Bfloat16(BF16)/FP32混合精度张量核运算以与FP16/FP32混合精度相同的速率运行。INT8、INT4和二进制舍入的张量核心加速支持DL推断,A100稀疏INT8的运行速度比V100 INT8快20倍。对于HPC,A100 Tensor Core包括新的符合IEEE标准的FP64处理,其性能是V100的2.5倍。
NVIDIA A100 GPU的架构不仅可以加速大型复杂工作负载,还可以有效地加速许多较小的工作负载。A100支持构建能够适应不可预测的工作负载需求的数据中心,同时提供细粒度的工作负载配置、更高的GPU利用率和改进的TCO。
NVIDIA A100 GPU为人工智能训练和推理工作负载提供了超过V100的异常加速。
Key features
在台积电7NMN7制造工艺上制造的基于NVIDIA安培架构的GA100 GPU为A100供电,包括542亿个晶体管,芯片尺寸为826平方毫米。
A100 GPU streaming multiprocessor
NVIDIA安培体系结构中的新的流多处理器(SM)基于A100张量核GPU显著提高了性能,建立在Volta和Turing SM体系结构中引入的特性的基础上,并增加了许多新功能。
A100第三代张量核增强了操作数共享和效率,并添加了强大的新数据类型,包括:
加速处理FP32数据的TF32张量核心指令
符合IEEE标准的HPC FP64张量核指令
与FP16吞吐量相同的BF16张量核心指令
表1. A100张量核心GPU性能规范。
1) 峰值速率基于GPU升压时钟。
2) 使用新稀疏特性的有效TFLOPS/TOPS。
在100个张量核中新的稀疏性支持可以利用DL网络中的细粒度结构稀疏性来加倍张量核操作的吞吐量。稀疏性特征在本文后面的A100介绍细粒度结构稀疏性一节中有详细描述。
A100中更大更快的一级缓存和共享内存单元提供的每SM聚合容量是V100的1.5倍(192 KB/SM,128 KB/SM),可为许多HPC和AI工作负载提供额外的加速。
其他一些新的SM特性提高了效率和可编程性,降低了软件复杂性。
40 GB HBM2 and 40 MB L2 cache
为了满足巨大的计算吞吐量,NVIDIA A100 GPU拥有40gb的高速HBM2内存,其内存带宽达到1555gb/s,比Tesla V100提高了73%。此外,A100 GPU的片上内存显著增加,包括一个比V100大近7倍的40MB二级(L2)缓存,以最大限度地提高计算性能。A100二级缓存采用了一种新的分区交叉结构,提供了V100二级缓存读取带宽的2.3倍。
为了优化容量利用率,NVIDIA安培体系结构为您提供了二级缓存驻留控制,用于管理要保留或从缓存中收回的数据。A100还增加了计算数据压缩,使DRAM带宽和二级带宽提高了4倍,二级容量提高了2倍。
Multi-Instance GPU
新的多实例GPU(MIG)功能允许A100 Tensor Core GPU安全地划分为多达七个单独的GPU实例,用于CUDA应用程序,为多个用户提供单独的GPU资源以加速其应用程序。
使用MIG,每个实例的处理器在整个内存系统中都有独立的路径。片上纵横端口、二级缓存组、内存控制器和DRAM地址总线都是唯一分配给单个实例的。这确保了单个用户的工作负载可以在相同的二级缓存分配和DRAM带宽下以可预测的吞吐量和延迟运行,即使其他任务正在冲击自己的缓存或使DRAM接口饱和。
MIG提高了GPU硬件利用率,同时提供了定义的QoS和不同客户端(如vm、容器和进程)之间的隔离。MIG对于拥有多租户用例的csp尤其有利。它确保了一个客户机不会影响其他客户机的工作或调度,此外还提供了增强的安全性并允许为客户机提供GPU利用率保证。
Third-generation NVIDIA NVLink
第三代NVIDIA高速NVLink互连在A100 GPUs和新NVIDIA nvlswitch中实现,显著提高了多GPU的可扩展性、性能和可靠性。由于每个GPU和交换