网上有说“CUDA 数组是使用 cudaMallocArray() 分配的,使用 cudaFreeArray() 释放。cudaMallocArray() 需要使用 cudaCreateChannelDesc() 创建的格式描述。”
http://blog.csdn.net/yanghangjun/article/details/5588284
cudaMallocPitch()的使用:http://blog.csdn.net/jdhanhua/article/details/4813725
另外这里还有个比较清晰的存储器的分类解析:http://tniuli.blog.163.com/blog/static/16406941920107831316760/
测时函数的设计:http://blog.csdn.net/yanghangjun/article/details/5588426
***************************
最近用pycuda的越来越多。于是找了一些:
在Windows上安装PyCUDA和Theano:http://www.th7.cn/system/win/201504/103289.shtml