为CUDA中核函数选择合适的grid大小和block大小

weixin_45625419

已于 2023-12-05 15:41:00 修改

阅读量755

点赞数 6

文章标签： gpu算力性能优化 c语言 c++

于 2023-12-04 18:28:20 首次发布

本文链接：https://blog.csdn.net/weixin_45625419/article/details/134786531

版权

每种GPU的Compute Capability：
- https://developer.nvidia.com/cuda-gpus
- https://www.nvidia.cn/geforce/graphics-cards/compare/
每种计算能力对应的规格参数
- https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#features-and-technical-specifications-technical-specifications-per-compute-capability
warp size 都为32。线程会被打包成一个个warp。如果线程不够32，最后也会打包成一个warp。
block的硬件是Streaming Multiprocessor。一个block上的所有线程都在同一个SM上执行。SM允许多个block同时并发执行。SM之间不可以通信。
GPU的特点是高吞吐高延迟，就像客车一样，运一个人和一车人消耗是一样的。
所以block的大小应该大于SM最大线程数量/SM最大block数量。因为如果小于这个数，单个SM上的线程数量将会小于SM上允许线程数量的最大值，造成浪费。一般最大值为96（1536/16）。
考虑到块调度的原子性，block_size应为SM最大线程数的近似值。
注意一个SM中的资源是有限的。
GPU 可以一次性调度块数量：SM 数量乘以每个 SM 的最大块数。称为一个波。
因为 GPU 可能不会独占当前流，例如 NCCL 执行会占用 SM。因此，通常我们可以将grid_size设置为足够数量的整数波，以达到更理想的效果。

关注