博客摘录「一文了解GPU并行计算CUDA」2023年10月31日

敲代码的niuniu

已于 2024-03-26 15:17:36 修改

阅读量68

点赞数

文章标签：笔记

于 2023-10-31 15:43:44 首次发布

本文链接：https://blog.csdn.net/zenhuizhi/article/details/134142121

版权

本文讨论了在CUDA编程中，如何处理大规模数据和多个核函数，特别是当使用GPU时，如何将大量线程有效地分配到StreamingMultiprocessors(SMs)的warp结构中。作者解释了线程块与SM的绑定以及线程调度的概念，指出一个SM同时可能执行的线程数限制了整个块的并行执行次数。

摘要由CSDN通过智能技术生成

假如我们要对一个长度为1024的数组做reduce_sum（减少和求和），恰好我们正好有1024个thread，此时直接一一对应就行，但如果是一张很大的图片呢？如果有很多核函数要处理不同的数据呢？GPU上有很多thread，但要完全和实际应用中需要处理的数据大小完全匹配是不可能的，事实上在满足规定的情况下我们可以给一个block内部分配很多thread，对于到硬件上也真的是相应数量的thread会自动归为一组直接在一个SM上实行吗？答案当然不是，此时我们就要关注硬件，引入了wrap概念，GPU上有很多计算核心也就是Streaming Multiprocessor (SM)，在具体的硬件执行中，一个SM会同时执行一组线程，在CUDA里叫warp，直接可以理解这组硬件线程会在这个SM上同时执行一部分指令，这一组的数量一般为32或者64个线程。一个block会被绑定到一个SM上，即使这个block内部可能有1024个线程，但这些线程组会被相应的调度器来进行调度，在逻辑层面上我们可以认为1024个线程同时执行，但实际上在硬件上是一组线程同时执行，这一点其实就和操作系统的线程调度一样。意思就是假如一个SM同时能执行64个线程，但一个block有1024个线程，那这1024个线程是分1024/64=16次执行。