最近在使用cuda时遇到一个问题,在写核函数时一直都是使用的数组,项目中需求传入二维数组,网上搜索半天没啥结果,只能自己测试来实现自己的目的,经过无脑测试终于搞定,测试代码如下:
numpy.array([[2,1,3],[4,5,6]]).astype(numpy.float32)
numpy.array([2,1,3]).astype(numpy.float32)
上面代码使用numpy创建二维数组和一维数组,并且将数据类型转成32位(cuda操作64位类型有问题,可能传递数据不成功),python端搞定后,我们来看看cuda核代码应该怎么写:
mod = SourceModule("""
__global__ void multiply_them(float *b)
{
const int i = threadIdx.x;
printf("---------%f\\n",*(b+1*3+0));
}
""")
上面代码应该不需要解释了,主要来关注一下这个核函数的参数,这里接收的参数类型是float *b,没看错这里使用的还是指针类型,有人会问C/C++中,函数参数使用二维数组时,应该以:float **b,进行参数取值才到,如果这么想那就恭喜你,这辈子你都在得活在可恼中,因为你永远都无法使用这个参数进行取值。
在这里,虽然python传入的参数是二维数组,但传递到核函数中后,我们应该把这个二维数组参数看着C/C++中的一维数组,传递到核函数中后参数的形式可以看出下面的形式进行数据取值:
float *b 中的数据形式[2,1,3,4,5,6]
上面的形式我想大家就知道怎么取值了吧:
print("b: %f", *b); //打印第一个值2或者下面的形式
print("b: %f", b[0]);
到此我们应该知道怎么取值了,剩下的问题就是,如果像二维数组那样取得对应的值呢,其实也很简单:
//正常取值形式 b[i][j]
//在这里可以使用这种形式来获取上面对应的值
float ss = *(b + i*len + j);//b就是数组,i代表第几行,j代表第几列,而len代表列的长度
以上就是本人的测试所得,如有问题不吝赐教。