Tensor Core技术解析（上）

最新推荐文章于 2024-07-08 11:00:36 发布

wujianming_110117

最新推荐文章于 2024-07-08 11:00:36 发布

阅读量2.2k

点赞数 3

分类专栏： GPU，NPU，XPU，DPU，MPU 系统软件人工智能

吴建明

本文链接：https://blog.csdn.net/wujianing_110117/article/details/106441716

版权

本文介绍了NVIDIA Turing架构中的Tensor Core技术，重点解析了其在深度学习和HPC中的作用。Tensor Core执行4x4矩阵乘法，进行混合精度计算，尤其在Volta架构中，每个SM包含四个处理块，每个时钟周期向Tensor Core等单元发出指令。通过WMMA API，开发者可以利用Tensor Core加速GEMM操作，实现高效的深度学习计算。

摘要由CSDN通过智能技术生成

Tensor Core技术解析（上）

NVIDIA在SIGGRAPH 2018上正式发布了新一代GPU架构——Turing（图灵），黄仁勋称Turing架构是自2006年CUDA GPU发明以来最大的飞跃。Turing架构的两大重要特性便是集成了用于光线追踪的RT Core以及用于AI计算的Tensor Core，使其成为了全球首款支持实时光线追踪的GPU。

不过说到AI计算，NVIDIA GPU成为最好的加速器早已是公认的事实，但将Tensor Core印上GPU名片的并不是这次的Turing，而是他的上任前辈——Volta。

在关于Volta混合精度Tensor Core的几个谜团中，一个比较烦人的问题是4×4矩阵乘法的能力。Tensor Core是一种新型处理核心，它执行一种专门的矩阵数学运算，适用于深度学习和某些类型的HPC。Tensor Core执行融合乘法加法，其中两个44 FP16矩阵相乘，然后将结果添加到44 FP16或FP32矩阵中，最终输出新的4*4 FP16或FP32矩阵。

NVIDIA将Tensor Core进行的这种运算称为混合精度数学，因为输入矩阵的精度为半精度，但乘积可以达到完全精度。碰巧的是，Tensor
Core所做的这种运算在深度学习训练和推理中很常见。
在这里插入图片描述