CUDA常用函数介绍

cudaMalloc(void** p, int size):分配size字节的存储器,并将其首地址赋给*p,至于参数为什么是二级指针,可在C语言中找到答案

cudaMallocHost():这个方法是在主机上分配空间,可以加快传输速度,因此在写cuda时,应该使用此函数取代Malloc,参数同上一函数

cudaMemcpy(void* dest,void* source,int size,enum direction):copy size data form source to         dest,direction must be right,you must be careful。关于这个函数要注意的是:如果最后一个参数的类型不匹配也不会出错。

cudaMemcpyToSymbol:将数据复制到__constant__,__device__变量中
cudaMemcpyFormSymbol: 同上相反

CudaThreadSynchronize():强制等待所有在此句之前启动的runtime 任务完成。其实现方式采用的轮询。

__syncthreads():此函数用于保证block内所有线程都运行到调用处,常用它来保证一致性。

cudaMallocPitch(void**,int*,widthInBytes,height):这个函数是在线性内存中分配二维数组,因此在使用时,还是用一维的方式使用。注意,width的单位是字节,而height单位是数据类型,而第二个参数的含义下面一段话说明了。
c语言申请2维内存时,一般是连续存放的。a[y][x]存放在第y*widthofx*sizeof(元素)+x*sizeof(元素)个字节。 但在cuda的global memory访问中,从256字节对齐的地址(addr=0, 256, 512, ...)开始的连续访问是最有效率的。这样,为了提高内存访问的效率,有了cudaMallocPitch函数。cudaMallocPitch函数分配的内存中,数组的每一行的第一个元素的开始地址都保证是对齐的。因为每行有多少个数据是不确定的,widthofx*sizeof(元素)不一定是256的倍数。故此,为保证数组的每一行的第一个元素的开始地址对齐,cudaMallocPitch在分配内存时,每行会多分配一些字节,以保证widthofx*sizeof(元素)+多分配的字节是256的倍数(对齐)。这样,上面的y*widthofx*sizeof(元素)+x*sizeof(元素)来计算a[y][x]的地址就不正确了。 而应该是y*[widthofx*sizeof(元素)+多分配的字节]+x*sizeof(元素)。而函数中返回的pitch的值就是widthofx*sizeof(元素)+多分配的字节。 说明:widthInBytes作为输入参数,应该是widthofx*sizeof(元素);这样的话,复制内容时也要作相应的修改。

cuda中的数学函数,普通的和标准c中一样,如果是对int操作,直接使用本名,如果操作long类型对数,在本名前加l,如果操作双精度浮点数,在本名前加f,如果操作单精度,在本名前后都加上f,如 max(int,int),lmax(long,long),fmax(double,double),fmaxf(float,float),同时要记住的是:有些函数并没有某些类型参数存在,也就没有相应的函数。

向量操作

cuda对于向量在cutil_math.h中重载了很多操作符,如负号,+, -, *(包括矢量乘和数乘),/(向量的对应坐标相除和数除),+=,-=,*=,lerp(三个参数,含义为求一个值,使得该值和第一个参数的距离与每一个参数和第二个参数的距离的比值是第三个参数,类型于高中的线段的分割点), dot(点乘),length(返回二范数),normalize(对向量进行单位化),rsqrtf(求开方的倒数)

 

 

CUDA是一个用于并行计算的平台和编程模型,专门设计用于NVIDIA GPU。在编译CUDA程序时,可以采取一些优化措施以提高性能。以下是一些常用CUDA编译优化技术: 1. 使用合适的编译器选项:在编译CUDA程序时,可以通过选择合适的编译器选项来控制优化级别。例如,可以使用-O3选项开启所有优化选项,或者使用-O2选项开启一组常用的优化选项。 2. 使用合适的函数修饰符:CUDA提供了一些函数修饰符,如__global__和__device__,用于标识并行执行的函数和设备函数。正确使用这些修饰符可以帮助编译器进行更好的优化。 3. 减少内存访问:由于GPU的计算能力通常比内存访问能力更强,减少内存访问可以提高性能。可以尝试通过使用共享内存、本地内存等技术来减少全局内存访问。 4. 矢量化和并行化:CUDA编译器可以自动将某些代码向量化或并行化,以提高执行效率。可以尝试使用适当的数据结构和算法,以促进矢量化和并行化。 5. 优化存储器访问模式:在CUDA程序中,可以尝试通过访问连续内存块、使用缓存和纹理内存等技术来优化存储器访问模式。 6. 使用计算能力特定的优化:不同的NVIDIA GPU具有不同的计算能力和架构特点。可以根据目标设备的计算能力和架构特点,针对性地进行优化。 需要注意的是,CUDA编译优化是一个复杂的主题,具体的优化策略和技术可能因应用场景而异。在实际开发过程中,可以结合性能分析工具和调试器,进行针对性的优化和性能调优。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值