cuda并行计算

最新推荐文章于 2023-06-03 08:50:19 发布

杂七杂八的

最新推荐文章于 2023-06-03 08:50:19 发布

阅读量563

点赞数

本文链接：https://blog.csdn.net/weixin_43662239/article/details/115440353

版权

多线程的编号

dim3 grid(3,2);
dim3 block(5,3);
kernel_fun<<< grid,block >>> (params...);
int index_x = blockIdx.x * blockDim.x + threadIdx.x;
int index_y = blockIdx.y * blockDim.y + threadIdx.y;
//对应到底下的节点的具体编号计算就是：
index_x = 2 * 5 + 3 = 13;
index_y = 0 * 3 + 1 =1;
最后就是(13,1)这个节点进行线程的运行

在这里插入图片描述

比如thread(1,1)的编号
多线程的原子操作
其余函数操作参考网址
CUDA的原子操作可以理解为对一个变量进行“读取-修改-写入”这三个操作的一个最小单位的执行过程，这个执行过程不能够再分解为更小的部分，在它执行过程中，不允许其他并行线程对该变量进行读取和写入的操作。基于这个机制，原子操作实现了对在多个线程间共享的变量的互斥保护，确保任何一次对变量的操作的结果的正确性。

  atomicAdd()
  int atomicAdd(int* address, int val);
  unsigned int atomicAdd(unsigned int* address,unsigned int val);
  unsigned long long int atomicAdd(unsigned long long int* address,unsigned long long int val);
读取位于全局或共享存储器中地址address 处的32 位或64 位字old，计算(old + val)，并将结果存储在存储器的同一地址中。这三项操作在一次原子事务中执行。该函数将返回old。只有全局存储器支持64 位字。

在cuda中的一些限定词
限定词的参考网址

由于GPU实际上是异构模型，所以需要区分host和device上的代码，在CUDA中是通过函数类型限定词开区别host和device上的函数，主要的三个函数类型限定词如下：

global：在device上执行，从host中调用（一些特定的GPU也可以从device上调用），返回类型必须是void，不支持可变参数参数，不能成为类成员函数。注意用__global__定义的kernel是异步的，这意味着host不会等待kernel执行完就执行下一步。
device：在device上执行，单仅可以从device中调用，不可以和__global__同时用。
host：在host上执行，仅可以从host上调用，一般省略不写，不可以和__global__同时用，但可和__device__，此时函数会在device和host都编译。