Programming Tensor Cores: NATIVE VOLTA TENSOR CORES WITH CUTLASS

图波列夫

已于 2023-11-22 19:14:11 修改

阅读量368

点赞数

分类专栏： NVIDIA CUTLASS GPU 文章标签：深度学习人工智能 CUTLASS

于 2023-11-22 17:18:50 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yiran103/article/details/134533240

版权

GPU 同时被 3 个专栏收录

19 篇文章 3 订阅

订阅专栏

9 篇文章 0 订阅

订阅专栏

7 篇文章 0 订阅

订阅专栏

PROGRAMMING TENSOR CORES: NATIVE VOLTA TENSOR CORES WITH CUTLASS 源自于 GTC Silicon Valley-2019: cuTENSOR: High-performance Tensor Operations in CUDA，介绍了 CUTLASS 1.3 中基于 Volta Tensor Core 实现高效矩阵乘法计算的策略。主要内容为以下三点：

CUDA 10.1中mma.sync指令介绍；
Global Memory–>Shared Memory–>RF 的128 bit 访问实现；
Shared Memory 上的无冲突转置。

双缓冲内容缺失。

mma

无论是 slides 中的介绍还是源码实现均是采用自底向上的思路，根据硬件规格确定每个层次上的分块策略。Volta Tensor Core 计算能力是4x4x4，HMMA.884.F16.F16需要两个 Tensor Core 计算两遍。

在这里插入图片描述
CUTLASS 中封装的 mma 指令计算 m16n16k4的矩阵乘法。

在这里插入图片描述
参考 Modeling Deep Learning Accelerator Enabled GPUs 中的介绍。Warp 内四个连续线程划分为一个 threadgroup，两个 threadgroup 组成一个 octet。每个 octet 串行计算一个 Quad Pair。计算不同 QP 时是具备数据复用的，如下图所示：

在这里插入图片描述
下图展示了 QP0中线程与数据的对应关系。

在这里插入图片描述

Permuted Shared Memory Tiles

对于全局内存上的列优先矩阵 A，每个线程加载8个元素则可以加载 m64k4的分块。然而根据前面介绍的线程和数据的映射关系，直接保存到 Shared Memory 的话，线程取用时会出现 bank 冲突。CUTLASS 中采用了一种无冲突共享内存排列来实现数据转置。

在这里插入图片描述
第二组线程

在这里插入图片描述第三组线程

在这里插入图片描述
第四组线程

在这里插入图片描述

Pointer Offsets For Permuted Shared Memory

Volta884Multiplicand 中定义了被乘数（ A 和 B）的迭代器：

TileLoadIterator：从 Global Memory 循环读取数据到寄存器；
Volta884ThreadblockMultiplicandStoreIterator：负责 Permuted Shared Memory 的摆放，Volta884ThreadblockMultiplicandStoreIterator::ThreadOffset 与下图对应；
Volta884WarpMultiplicandLoadIterator：从 Shared Memory 取数据。

在这里插入图片描述

Conflict-Free Shared Memory Loads

从 Shared Memory 上加载数据到线程寄存器，仍然分为4步。前两步线程访问的数据相同，因此共计加载 32x4的 A 矩阵。Shared Memory 上的数据可供使用两次。

在这里插入图片描述

Spatially Interleaved

如前所述，每个线程从 Shared Memory 读取8个元素。而执行mma指令时，每个线程提供4个元素。因此计算输出会出现空间交错。对 A 和 B 矩阵进一步分块，一次加载可以支持4次计算。

在这里插入图片描述

参考资料：

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Programming Tensor Cores: NATIVE VOLTA TENSOR CORES WITH CUTLASS

PROGRAMMING TENSOR CORES: NATIVE VOLTA TENSOR CORES WITH CUTLASS 源自于 GTC Silicon Valley-2019: cuTENSOR: High-performance Tensor Operations in CUDA，介绍了 CUTLASS 1.3 中基于 Volta Tensor Core 实现高效矩阵乘法计算的策略。主要内容为以下三点： CUDA 10.1中mma.sync指令介绍； Global Memory
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。