cpp文件调用CUDA .cu文件实现显卡加速相关编程

最新推荐文章于 2023-12-22 09:15:41 发布

夏天7788

最新推荐文章于 2023-12-22 09:15:41 发布

阅读量1.3k

点赞数 1

分类专栏：高性能计算

高性能计算专栏收录该内容

12 篇文章 0 订阅

订阅专栏

http://blog.csdn.net/meandmyself/article/details/47029493

入门cuda遇到的不错点拨文，故转载如下：

本篇文章谈的是cpp文件如何调用CUDA的.cu文件实现显卡加速的相关编程。当然，这是在默认已经配置好CUDA的情况下进行的，如果对于如何配置CUDA还有疑问可以看之前写的这一篇文章。另外，现在CUDA已经放出了支持VS2013的6.5版本，所以还是建议用最新的，毕竟VS2013好用太多，配置起来也没什么区别。关于那篇配置文章，并没有解决CUDA相关函数偶有错误提示的问题，虽然对于编译没有影响，但是对于有强迫症的人来说还是比较纠结的，本人研究过后会更新，望周知。

关于如何通过cpp文件调用CUDA的.cu文件实现显卡加速相关编程的问题，有两种方法。本篇先谈的是根据VS2013模板创建CUDA工程（安装6.5版本CUDA后可看到）然后再加入cpp文件的这一种方法。至于另外的在MFC或者win32工程等添加.cu文件再进行调用这种其实本质上是差不多的，会比较麻烦，本人后面有时间再更新。

在主题开始之前，先说下如何调用CUDA进行显卡加速，其实大的方向是十分简单的。流程大致如下：

初始化显卡内存->将主机待处理的内存数据拷贝到显卡内存中->利用显卡处理相关的数据->将处理完成的显卡内存数据拷回主机内存

OK，下面进入主题

首先创建CUDA工程，工程创建完成之后会有一个.cu文件，将文件的内容替换成如下内容

[cpp]view plaincopy 
   
 #include "cuda_runtime.h"  
 #include "device_launch_parameters.h"  
 #include "main.h"  
   
  inline void checkCudaErrors(cudaError err)//错误处理函数  
  {  
        if (cudaSuccess != err)  
         {  
             fprintf(stderr, "CUDA Runtime API error: %s.\n", cudaGetErrorString(err));  
             return;  
         }  
  }  
   
 __global__ void add(int *a,int *b,int *c)//处理核函数  
 {  
     int tid = blockIdx.x*blockDim.x+threadIdx.x;  
     for (size_t k = 0; k < 50000; k++)  
     {  
         c[tid] = a[tid] + b[tid];  
     }  
 }  
   
 extern "C" int runtest(int *host_a, int *host_b, int *host_c)  
 {  
     int *dev_a, *dev_b, *dev_c;  
       
     checkCudaErrors(cudaMalloc((void**)&dev_a, sizeof(int)* datasize));//分配显卡内存  
     checkCudaErrors(cudaMalloc((void**)&dev_b, sizeof(int)* datasize));  
     checkCudaErrors(cudaMalloc((void**)&dev_c, sizeof(int)* datasize));  
       
     checkCudaErrors(cudaMemcpy(dev_a, host_a, sizeof(int)* datasize, cudaMemcpyHostToDevice));//将主机待处理数据内存块复制到显卡内存中  
     checkCudaErrors(cudaMemcpy(dev_b, host_b, sizeof(int)* datasize, cudaMemcpyHostToDevice));  
   
     add << <datasize / 100, 100 >> >(dev_a, dev_b, dev_c);//调用显卡处理数据  
     checkCudaErrors(cudaMemcpy(host_c, dev_c, sizeof(int)* datasize, cudaMemcpyDeviceToHost));//将显卡处理完数据拷回来  
   
     cudaFree(dev_a);//清理显卡内存  
     cudaFree(dev_b);  
     cudaFree(dev_c);  
     return 0;  
 }  

然后在工程中添加main.h文件，添加如下内容

[cpp]view plaincopy 
   
 #include<time.h>//时间相关头文件，可用其中函数计算图像处理速度    
 #include <iostream>  
 #define datasize 50000  

下面添加main的实现文件cpp，在cpp中实现对于CUDA的.cu文件的调用。内容如下

[cpp]view plaincopy 
   
 #include "main.h"  
 extern "C" int runtest(int *host_a, int *host_b, int *host_c);//显卡处理函数  
   
 int main()  
 {  
     int a[datasize], b[datasize], c[datasize];  
     for (size_t i = 0; i < datasize; i++)  
     {  
         a[i] = i;  
         b[i] = i*i;  
     }  
   
     long now1 = clock();//存储图像处理开始时间    
     runtest(a,b,c);//调用显卡加速  
     printf("GPU运行时间为：%dms\n", int(((double)(clock() - now1)) / CLOCKS_PER_SEC * 1000));//输出GPU处理时间  
   
     long now2 = clock();//存储图像处理开始时间    
     for (size_t i = 0; i < datasize; i++)  
     {  
         for (size_t k = 0; k < 50000; k++)  
         {  
             c[i] = (a[i] + b[i]);  
         }  
     }  
     printf("CPU运行时间为：%dms\n", int(((double)(clock() - now2)) / CLOCKS_PER_SEC * 1000));//输出GPU处理时间  
   
   
     /*for (size_t i = 0; i < 100; i++)//查看计算结果 
     { 
         printf("%d+%d=%d\n", a[i], b[i], c[i]); 
     }*/  
   
     getchar();  
     return 0;  
 }