CUDA 11功能清单

最新推荐文章于 2024-07-15 02:50:19 发布

wujianming_110117

最新推荐文章于 2024-07-15 02:50:19 发布

阅读量1.2k

点赞数 1

分类专栏：计算机视觉，自动驾驶，深度学习智能推理机器学习

吴建明

本文链接：https://blog.csdn.net/wujianing_110117/article/details/115579629

版权

CUDA 11引入了对NVIDIA Ampere GPU架构的支持，包括NVIDIA A100 GPU，提供多实例GPU（MIG）功能，第三代Tensor内核和任务图加速等。MIG允许GPU物理划分以提高利用率，三代Tensor内核加速不同数据类型的矩阵操作。此外，CUDA 11还支持内存管理优化、异步副本操作和任务图硬件加速，以提升性能和编程灵活性。

摘要由CSDN通过智能技术生成

CUDA 11功能清单
基于NVIDIA Ampere GPU架构的新型NVIDIA A100 GPU在加速计算方面实现了最大的飞跃。A100 GPU具有革命性的硬件功能，CUDA 11与A100一起发布。
在这里插入图片描述

CUDA 11能够利用新的硬件功能来加速HPC，基因组学，5G，渲染，深度学习，数据分析，数据科学，机器人技术以及更多不同的工作负载。
CUDA 11包含了所有功能-从平台系统软件到入门和开发GPU加速的应用程序所需的一切。本文概述了此版本中的主要软件功能：

• 支持NVIDIA Ampere GPU架构，包括新的NVIDIA A100 GPU，用于加速扩展和扩展AI和HPC数据中心；具有NVSwitch结构的多GPU系统，例如DGX A100和HGX A100。
• 多实例GPU（MIG）分区功能特别有利于云服务提供商（CSP）改善GPU利用率。
• 新的第三代Tensor内核可加快对不同数据类型（包括TF32和Bfloat16）的混合精度矩阵操作。
• 任务图，异步数据移动，细粒度同步和L2缓存驻留控制的编程和API。
• CUDA库中针对线性代数，FFT和矩阵乘法的性能优化。
• Nsight产品工具系列的更新，用于跟踪，分析和调试CUDA应用程序。
• 全面支持所有主要的CPU体系结构，包括x86_64，Arm64服务器和POWER体系结构。
本文不能完全代表CUDA 11中可用的所有功能。在本文的末尾，有指向GTC Digital会议的链接，这些链接提供了对CUDA新功能的更深入研究。
CUDA和NVIDIA Ampere微架构GPU
NVIDIA Ampere GPU微架构采用台积电7nm N7制造工艺制造，包括更多的流多处理器（SM），更大，更快的内存，以及与第三代NVLink互连的带宽，以提供巨大的计算吞吐量。
A100的40 GB（5站点）高速HBM2内存的带宽为1.6 TB /秒，比V100快1.7倍以上。A100上的40 MB L2缓存几乎是Tesla V100的7倍，并提供了2倍的L2缓存读取带宽。CUDA 11在A100上提供了新的专用L2缓存管理和驻留控制API。A100中的SM包含更大，更快的L1高速缓存和共享内存单元（每个SM 192 KB）的组合，提供的容量是Volta V100 GPU的1.5倍。
A100配备了专用的硬件单元，包括第三代Tensor内核，更多的视频解码器（NVDEC）单元，JPEG解码器和光流加速器。所有这些都由各种CUDA库使用，以加速HPC和AI应用程序。
接下来将讨论NVIDIA A100中引入的主要创新，以及CUDA 11如何充分利用这些功能。无论是管理集群的平台DevOps工程师，还是编写GPU加速应用程序的软件开发人员，CUDA 11都能为每个人提供一些功能。有关NVIDIA Ampere GPU微体系结构的更多信息，请参阅深度NVIDIA Ampere Architecture。
多实例GPU
MIG功能可以将单个A100 GPU物理上划分为多个GPU。使多个客户端（例如VM，容器或进程）能够同时运行，同时在这些程序之间提供错误隔离和高级服务质量（QoS）。
在这里插入图片描述

Figure 1. New MIG feature in A100.
A100 is the first GPU that can either scale up to a full GPU with NVLink or scale out with MIG for many users by lowering the per-GPU instance cost. MIG enables several use cases to improve GPU utilization. This could be for CSPs to rent separate GPU instances, running multiple inference workloads on the GPU, hosting multiple Jupyter notebook sessions for model exploration, or resource sharing of the GPU among multiple internal users in an organization (single-tenant, multi-user).
MIG is transparent to CUDA and existing CUDA programs can run under MIG unchanged to minimize programming effort. CUDA 11 enables configuration and management of MIG instances on Linux operating systems using the NVIDIA Management Library (NVML) or its command-line interface nvidia-smi (nvidia-smi mig subcommands).
Using the NVIDIA Container Toolkit and A100 with MIG enabled, you can also run GPU containers with Docker (using the --gpus option starting with Docker 19.03) or scale out with the Kubernetes container platform using the NVIDIA device plugin.
The following command shows MIG management using nvidia-smi:
A100是第一款可以通过NVLink扩展到完整GPU或通过MIG扩展许多用户的GPU，降低了每个GPU实例的成本。MIG支持多种用例，以提高GPU利用率。这可能是CSP可以租用单独的GPU实例，在GPU上运行多个推理工作负载，托管多个Jupyter笔记notebook会话以进行模型探索，或者在组织中的多个内部用户（单租户，多用户）之间共享GPU的资源。。
MIG对CUDA是透明的，并且现有的CUDA程序可以在MIG下运行，而无需更改，以最大程度地减少编程工作。CUDA 11使用NVIDIA管理库（NVML）或其命令行界面nvidia-smi（nvidia-smimig子命令）在Linux操作系统上配置和管理MIG实例。
使用启用了MIG的NVIDIA Container Toolkit和A100，可以在Docker上运行GPU容器（使用–gpus从Docker 19.03开始的选项），或者使用NVIDIA设备插件通过Kubernetes容器平台进行横向扩展。
以下命令显示使用以下命令进行MIG管理nvidia-smi：