CUDA如何选取Blocks和Threads

最新推荐文章于 2024-07-09 11:26:29 发布

老实人小李

最新推荐文章于 2024-07-09 11:26:29 发布

阅读量1.3k

点赞数

分类专栏： CUDA 文章标签： cuda

本文链接：https://blog.csdn.net/weixin_43660703/article/details/121277738

版权

CUDA 专栏收录该内容

5 篇文章 1 订阅

订阅专栏

博客探讨了CUDA编程中Blocks和Threads的概念。早期CUDA设备限制每个Block最多65535个Blocks，而现代设备可达2^31-1。每个Block的线程数通常不超过1024，且应为WarpSize（通常是32）的倍数。代码示例展示了如何获取设备的WarpSize。理想的线程数选择通常在128或256。内容还包含了GPU的硬件参数如内存大小、时钟速率等。

摘要由CSDN通过智能技术生成

Blocks

早期的卡，最多支持65535个blocks, 后面的卡最多可以支持 $2^{31}-1=2147483647$

可以理解为blocks可以随便造，主要是要把threads的大小选好

Threads

一般来讲每一个block不能超过512（Compute Capability 1.x）/ 1024（2.x和之后版本）个线程

你电脑不旧的话，一般都是不超过1024

每个块的线程数应该是warp size大小的整数倍，在所有当前的硬件上，warp size大小是32。

比如我的电脑：
Device : “GeForce RTX 2080 Ti”
driverVersion : 10010
runtimeVersion : 10000
CUDA Driver Version / Runtime Version 10.1 / 10.0
CUDA Capability Major/Minor version number : 7.5
Total amount of global memory : 10.73 GBytes (11523260416 bytes)
GPU Clock rate : 1545 MHz(1.54 GHz)
Memory Clock rate : 7000 Mhz
Memory Bus Width : 352-bit
L2 Cache Size: 5767168 bytes
Total amount of constant memory: 65536 bytes
Total amount of shared memory per block: 49152 bytes
Total number of registers available per block: 65536
Warp Size: 32
Maximum number of threads per multiprocessor: 1024
Maximum number of thread per block: 1024
Maximum sizes of each dimension of a block: 1024 x 1024 x 64
Maximum sizes of each dimension of a grid: 2147483647 x 65535 x 65535

一般来讲都是32，你也可以那个用一下代码测试一下：

#include <stdio.h>

int main(void) {
        cudaDeviceProp deviceProp;
        if (cudaSuccess != cudaGetDeviceProperties(&deviceProp, 0)) {
                printf("Get device properties failed.\n");
                return 1;
        } else {
                printf("The warp size is %d.\n", deviceProp.warpSize);
                return 0;
        }
}