NVIDIA CUDA 学习 (3) Thread Cooperation

最新推荐文章于 2023-07-07 15:34:05 发布

闭门即深山

最新推荐文章于 2023-07-07 15:34:05 发布

阅读量181

点赞数

分类专栏： CUDA 文章标签：多线程编程语言 c语言机器学习神经网络

本文链接：https://blog.csdn.net/weixin_47658743/article/details/108444470

版权

本文介绍了CUDA编程中的线程合作，包括设置并行块和线程，混合设置，处理长向量相加，处理图片以及共享显存和同步的概念。通过示例展示了如何利用__shared__关键字实现线程间高速共享数据，并讨论了同步语句的使用注意事项，如避免在条件语句中使用__syncthreads()。

摘要由CSDN通过智能技术生成

设置并行块

add<<<N,1>>>( dev_a, dev_b, dev_c );
//N blocks x 1 thread/block = N parallel threads

这句话里面的1，就是the number of threads per block we want the CUDA runtime to create on our behalf，每个块的线程个数。

设置并行线程

add<<<1,N>>>( dev _ a, dev _ b, dev _ c );

我们把1和N反过来，就是一个N线程的单块程序。当我们获取索引的时候需要换一个表达来获取线程的索引：
在这里插入图片描述

混合设置

int tid = threadIdx.x + blockIdx.x * blockDim.x;

在这里插入图片描述

add<<< (N+127)/128, 128 >>>( dev _ a, dev _ b, dev _ c );

我们可以把thread per block给顾定成128，然后根据N来分配需要多少个block。(N+127)/128实际上就是求ceil的过程。

if (tid < N)
	c[tid] = a[tid] + b[tid];

因此，前面的历史遗留问题：判断小于N就被用作判断最后的block的这个thread是不是超过了我们问题所需要求解的范围N。

长向量相加

__global__ void add( int *a, int *b, int *c ) {
   
	int tid = threadIdx.x + blockIdx.x * blockDim.x;
	while (tid < N) {
   
		c[tid] = a[tid] + b[tid

最低0.47元/天解锁文章

闭门即深山

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录