CUDA学习

最新推荐文章于 2022-11-18 11:57:21 发布

懒起的鸟

最新推荐文章于 2022-11-18 11:57:21 发布

阅读量619

点赞数

分类专栏： CUDA gpu 文章标签： c++ gpu 并行计算

CUDA 同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

gpu

4 篇文章 0 订阅

订阅专栏

本文深入探讨了CUDA编程环境的搭建及基本使用，通过展示CUDA5.0自带的demo程序，详细解释了如何在GPU上执行并行任务。重点介绍了CUDA的核心概念如线程、块和网格，以及如何优化数据复制过程以提高性能。同时，文章还提供了关于CUDA版本差异性的注意事项，帮助开发者在不同环境下顺利进行并行计算。

摘要由CSDN通过智能技术生成

CUDA的学习

前面几天写了三维重建中的特征提取部分，下面接着写，不过今天写一下CUDA的内容，这个下面要用到，要学习，首先装环境，装了CUDA5.0，网上有一个windows7+CUDA5.0的教程，挺好，按照那个基本上没有问题，不过实际在运行的过程中发现了一个问题，就是不同通过windows的远程桌面连接，远程桌面不能调用显卡。

于是想远程操作的则可以下载一个Symantec pcAnywhere，远程控制软件。好了不多说，我们就先看第一个程序。也就是CUDA5.0自带的demo。

把整个程序列上来，然后加了点注释，这个也只是参考加上本人的理解，也不知道正确与否。望大家指正。

[cpp]view plaincopy 
     
 #include "cuda_runtime.h" //使用 runtime API  
   
 #include "device_launch_parameters.h"  
   
 #include <stdio.h>  
   
 cudaError_t addWithCuda(int *c, const int *a, const int *b, size_t size);  
   
 // 显示芯片上执行的程序。在 CUDA 中，在函式前面加上  
   
 // __global__ 表示这个函式是要在显示芯片上执行的。  
   
 // 在显示芯片上执行的程序有一些限制，例如它不能有传回值。  
   
 // 接下来是要让 CUDA 执行这个函式。  
   
 __global__ void addKernel(int *c, const int *a, const int *b)  
   
 {  
   
 // threadIdx  是 CUDA 的一个内部的变量，表示目前的 thread 是  
   
 //第几个 thread（由 0 开始计算）这边会有 size =5 个 threads  
   
 //每一个的 threadIdx.x  则分别会是 0 ~ 5。利用这个变量，我们  
   
 //就可以让每一份函式执行时，对整个数据不同的部分进行相加。  
   
 int i = threadIdx.x;  
   
 c[i] = a[i] + b[i];  
   
 }  
   
 int main()  
   
 {  
   
 const int arraySize = 5;  
   
 const int a[arraySize] = { 1, 2, 3, 4, 5 };  
   
 const int b[arraySize] = { 10, 20, 30, 40, 50 };  
   
 int c[arraySize] = { 0 };  
   
 // Add vectors in parallel.  
   
 cudaError_t cudaStatus = addWithCuda(c, a, b, arraySize);  
   
 if (cudaStatus != cudaSuccess) {  
   
 fprintf(stderr, "addWithCuda failed!");  
   
 return 1;  
   
 }  
   
 printf("{1,2,3,4,5} + {10,20,30,40,50} = {%d,%d,%d,%d,%d}\n",  
   
 c[0], c[1], c[2], c[3], c[4]);  
   
 // cudaDeviceReset must be called before exiting in order for profiling and  
   
 // tracing tools such as Nsight and Visual Profiler to show complete traces.  
   
 cudaStatus = cudaDeviceReset();  
   
 if (cudaStatus != cudaSuccess) {  
   
 fprintf(stderr, "cudaDeviceReset failed!");  
   
 return 1;  
   
 }  
   
 return 0;  
   
 }  
   
 // Helper function for using CUDA to add vectors in parallel.  
   
 cudaError_t addWithCuda(int *c, const int *a, const int *b, size_t size)  
   
 {  
   
 int *dev_a = 0;  
   
 int *dev_b = 0;  
   
 int *dev_c = 0;  
   
 cudaError_t cudaStatus;  
   
 // Choose which GPU to run on, change this on a multi-GPU system.  
   
 // 选择哪个GPU去运行，这个在多GPU系统上修改。  
   
 cudaStatus = cudaSetDevice(0);  
   
 if (cudaStatus != cudaSuccess) {  
   
 fprintf(stderr, "cudaSetDevice failed!  Do you have a CUDA-capable GPU installed?");  
   
 goto Error;  
   
 }  
   
 // Allocate GPU buffers for three vectors (two input, one output)  
   
 // 给三个向量（两个输入，一个输出）分配GPU缓存.  
   
 // 要利用 CUDA 进行计算之前，要先把数据复制到显卡内存中，// 才能让显示芯片使用。因此，  
   
 // 需要取得一块适当大小的显卡内存，再把产生好的数据复制进去  
   
 cudaStatus = cudaMalloc((void**)&dev_c, size * sizeof(int));  
   
 if (cudaStatus != cudaSuccess) {  
   
 fprintf(stderr, "cudaMalloc failed!");  
   
 goto Error;  
   
 }  
   
 cudaStatus = cudaMalloc((void**)&dev_a, size * sizeof(int));  
   
 if (cudaStatus != cudaSuccess) {  
   
 fprintf(stderr, "cudaMalloc failed!");  
   
 goto Error;  
   
 }  
   
 cudaStatus = cudaMalloc((void**)&dev_b, size * sizeof(int));  
   
 if (cudaStatus != cudaSuccess) {  
   
 fprintf(stderr, "cudaMalloc failed!");  
   
 goto Error;  
   
 }  
   
 // Copy input vectors from host memory to GPU buffers.  
   
 // 复制输入向量从主存到显卡内存。  
   
 // 通过调用cudaMalloc 取得一块显卡内存，然后通过过  
   
 // cudaMemcpy 将上述两个数组复制到显卡内存中.  
   
 // cudaMalloc 和 cudaMemcpy 的用法和一般的 malloc 及  
   
 // memcpy 类似，不过 cudaMemcpy 则多出一个参数，指示复制内// 存的方向。在这里因为是从主内存复制到显卡内存，所以使用  
   
 // cudaMemcpyHostToDevice。如果是从显卡内存到主内存，则使用 // cudaMemcpyDeviceToHost。  
   
 cudaStatus = cudaMemcpy(dev_a, a, size * sizeof(int), cudaMemcpyHostToDevice);  
   
 if (cudaStatus != cudaSuccess) {  
   
 fprintf(stderr, "cudaMemcpy failed!");  
   
 goto Error;  
   
 }  
   
 cudaStatus = cudaMemcpy(dev_b, b, size * sizeof(int), cudaMemcpyHostToDevice);  
   
 if (cudaStatus != cudaSuccess) {  
   
 fprintf(stderr, "cudaMemcpy failed!");  
   
 goto Error;  
   
 }  
   
 // Launch a kernel on the GPU with one thread for each element.  
   
 // 函式名称<<<block 数目, thread 数目, shared memory 大小  
   
 // >>>(参数...);   
   
 //在 CUDA 中，thread 是可以分组的，也就是 block。一个 block 中//的 thread，具有一个共享的 shared memory，也可以进行同步工作。//不同 block 之间的 thread 则不行。在我们的程序中，其实不太需//要进行 thread 的同步动作，因此我们可以使用多个 block 来进一//步增加 thread 的数目。就是把这个1改变  
   
 addKernel<<<1, size>>>(dev_c, dev_a, dev_b);  
   
 // cudaDeviceSynchronize waits for the kernel to finish, and returns  
   
 // any errors encountered during the launch.  
   
 cudaStatus = cudaDeviceSynchronize();  
   
 if (cudaStatus != cudaSuccess) {  
   
 fprintf(stderr, "cudaDeviceSynchronize returned error code %d after launching addKernel!\n", cudaStatus);  
   
 goto Error;  
   
 }  
   
 // Copy output vector from GPU buffer to host memory.  
   
 cudaStatus = cudaMemcpy(c, dev_c, size * sizeof(int), cudaMemcpyDeviceToHost);  
   
 if (cudaStatus != cudaSuccess) {  
   
 fprintf(stderr, "cudaMemcpy failed!");  
   
 goto Error;  
   
 }  
   
 Error:  
   
 cudaFree(dev_c);  
   
 cudaFree(dev_a);  
   
 cudaFree(dev_b);  
   
 return cudaStatus;  
   
 }