CUDA 9中张量核（Tensor Cores）编程

最新推荐文章于 2025-04-02 11:27:01 发布

wujianming_110117

最新推荐文章于 2025-04-02 11:27:01 发布

阅读量3.1k

点赞数 2

分类专栏：人工智能集成电路 GPU，NPU，XPU，DPU，MPU

吴建明

本文链接：https://blog.csdn.net/wujianing_110117/article/details/106533086

版权

本文详细介绍了CUDA 9中张量核（Tensor Cores）的编程，包括张量核的概念、优势和在CUDA库（cuBLAS、cuDNN）中的应用。张量核提供高吞吐量的矩阵运算，适用于深度学习和高计算需求的场景。通过简单的代码示例展示了如何在cuBLAS和cuDNN中启用张量核，以及如何在CUDA C++中直接编程使用张量核。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

CUDA 9中张量核（Tensor Cores）编程

Programming Tensor Cores in CUDA 9

一．概述

新的Volta GPU架构的一个重要特点是它的Tensor核，使Tesla V100加速器的峰值吞吐量是上一代Tesla P100的32位浮点吞吐量的12倍。Tensor内核使人工智能程序员能够使用混合精度来获得更高的吞吐量，而不牺牲精度。

Tensor核心已经在许多深度学习框架（包括Tensorflow、PyTorch、MXNet和Caffe2）中支持深度学习训练，无论是在主版本中还是通过pull请求。有关在使用这些框架时启用Tensor核心的更多信息，请参阅《混合精度训练指南》。对于深度学习推理，最近的TensorRT 3版本也支持Tensor核心。

本文将展示如何使用CUDA库在自己的应用程序中使用张量核，以及如何在CUDA C++设备代码中直接编程。
在这里插入图片描述
二．什么是张量核（Tensor Cores）？

特斯拉V100的张量核心是可编程的矩阵乘法和累加单元，可以提供多达125 Tensor tflop的训练和推理应用。特斯拉V100
GPU包含640个Tensor Cores：8/SM。Tensor内核及其相关的数据路径是定制的，以显著提高浮点计算吞吐量，只需适当的区域和功耗。时钟选通广泛应用于最大限度地节省功耗。
在这里插入图片描述
每个张量核提供一个4x4x4矩阵处理数组，它执行操作D=a*B+C，其中a、B、C和D是4×4矩阵，如图1所示。矩阵乘法输入A和B是FP16矩阵，而累积矩阵C和D可以是FP16或FP32矩阵。

每个张量核执行64个浮点FMA混合精度操作每个时钟（FP16输入乘法与全精度积和FP32累加，如图2所示）和8张量核在一个SM执行总共1024个浮点操作每个时钟。与使用标准FP32操作的Pascal GP100相比，每SM深度学习应用程序的吞吐量显著增加了8倍，因此Volta V100 GPU的吞吐量与Pascal P100 GPU相比总共增加了12倍。张量核对FP16输入数据进行运算，FP32累加。如图2所示，对于4x4x4矩阵乘法，FP16乘法产生的全精度结果是在FP32运算中与给定点积中的其他乘积累积的结果。