cuda编程基本知识

最新推荐文章于 2020-11-12 21:22:16 发布

winning11xuhao

最新推荐文章于 2020-11-12 21:22:16 发布

阅读量820

点赞数 1

文章标签： cuda 编程图像处理算法优化多线程

本文链接：https://blog.csdn.net/winning11xuhao/article/details/6594687

版权

刚刚学习cuda，总的来说还不是很适应这种多线程的编程方式，但是GPU却是图像处理中难得的好技术。

这两天对20000帧的阵列光斑进行质心识别，虽然速度上不尽如人意，但也是客观因素造成的。首先我们所要处理的光斑分辨率较小，只有128*128，内核函数也只是进行21个子光斑的质心识别，较为简单，这样GPU节省的时间还不够内存和显存数据交互的时间多，这样GPU的优势根本没有办法体现出来。不过几天下来，对GPU编程的整体构架还是有一定的了解。

GPU编程中，block的维数如何确定是一个基本问题。一个block中最小的单位是warp（线程束），每个线程束含有32个线程。要想能够达到最高的效率，就要求block的维数是32的倍数。剩下的就要看实际的操作。以我们要处理的光斑图像为例，要处理的每个子光斑区域大小在200到300个像素之间，而且计算质心就是以像素累加为基础，在算法层面上采用归约求和是最简单得方法，而归约求和要求线程数为2的整数次方，所以，选择256作为block的维数再合适不过了。

GPU程序写的好坏除了看功能，还要看优化。优化主要来自算法优化和数据的读取。对于计算较为简单的程序，数据的读取更为关键。常见的函数cudaMemcpy由于耗时较长，经常达不到我们的要求。可以使用cudaMemcpyAsync函数。这个函数的好处就是在刚执行就返回，可以使主函数继续向下执行，达到GPU函数与CPU函数同时执行。同时可以选择流处理，拷贝一段数据，就处理一段数据，处理数据的同时，拷贝下一段数据，这样就能很好的隐藏数据的传输时间。当然有时候用了stream效果并不好，那是因为如果数据的传输时间远小于算法运行时间时，流处理的时间比数据传输时间更长，耗时更大。

CUDA的编程框架更像是一门艺术，加油吧！！！

winning11xuhao

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
cuda编程基本知识

刚刚学习cuda，总的来说还不是很适应这种多线程的编程方式，但是GPU却是图像处理中难得的好技术。这两天对20000帧的阵列光斑进行质心识别，虽然速度上不尽如人意，但也是客观因素造成的。首先我们所要处理的光斑分辨率较小，只有128*128，内核函数也只是进行21
复制链接

扫一扫