使用cuda c进行并行编程

最新推荐文章于 2023-10-21 14:24:59 发布

李静515

最新推荐文章于 2023-10-21 14:24:59 发布

阅读量284

点赞数

文章标签：人工智能深度学习 c++

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_59999837/article/details/127921816

版权

2.2.2 内核调用

内核调用会生成大量的block和thread来在GPU上并行地处理数据，语法如下：

FFT << <blockNum, threadPerBlock >> >

应确保内核使用__global__关键字定义。可包含三个用逗号分隔的参数。

para1：希望执行的block数

para2：每个块将具有的线程数

para3：可选，指定内核使用的共享内存的大小

2.2.3 配置内核参数

一个块中的线程可以通过共享内存彼此通信

GPU支持三位网格块和三位线程块，语法如下：

在这里，Nbx、Nby和Nbz分别表示网格中沿x，y和z轴方向的块数。同样，Ntx、Nty和Ntz分别表示一个块中沿x，y和z轴方向的线程数。如果没有指定y和z的维数，默认情况下它们被取为1

启动一个16×16的块网格，所有的块都包含16×16个线程

2.2.4 cuda API函数

__global__,__device__,__host__限定符关键字，表明函数被声明为一个设备函数

如果要在设备上执行并从设备函数调用函数，则必须使用__device__关键字

__host__关键字用于从其他主机函数调用普通函数。默认情况下，程序中所有函数都是主机函数

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
使用cuda c进行并行编程

使用cuda c进行并行编程
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。