为CUDA中核函数选择合适的grid大小和block大小

  • 每种GPU的Compute Capability:

    • https://developer.nvidia.com/cuda-gpus
    • https://www.nvidia.cn/geforce/graphics-cards/compare/
  • 每种计算能力对应的规格参数

    • https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#features-and-technical-specifications-technical-specifications-per-compute-capability
  • warp size 都为32。线程会被打包成一个个warp。如果线程不够32,最后也会打包成一个warp。

  • block的硬件是Streaming Multiprocessor。一个block上的所有线程都在同一个SM上执行。SM允许多个block同时并发执行。SM之间不可以通信。

  • GPU的特点是高吞吐高延迟,就像客车一样,运一个人和一车人消耗是一样的。

  • 所以block的大小应该大于SM最大线程数量/SM最大block数量。因为如果小于这个数,单个SM上的线程数量将会小于SM上允许线程数量的最大值,造成浪费。一般最大值为96(1536/16)。

  • 考虑到块调度的原子性,block_size应为SM最大线程数的近似值。

  • 注意一个SM中的资源是有限的。

  • GPU 可以一次性调度块数量 :SM 数量乘以每个 SM 的最大块数。称为一个波。

  • 因为 GPU 可能不会独占当前流,例如 NCCL 执行会占用 SM。因此,通常我们可以将grid_size设置为足够数量的整数波,以达到更理想的效果。

  • 6
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值