CUDA编程GPU内存总结

最新推荐文章于 2024-08-23 23:22:28 发布

Dream_yz

最新推荐文章于 2024-08-23 23:22:28 发布

阅读量1.1k

点赞数 1

分类专栏：异构AI加速 CUDA编程文章标签： CUDA编程 GPU内存 GPU加速并行编程异构平台

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yzhang6_10/article/details/107606429

版权

异构AI加速同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

CUDA编程GPU内存总结

CUDA内存主要包括：分页内存、锁页内存、零拷贝内存、统一虚拟寻址、统一内存地址。

分页内存：

简介：使用cudaMalloc()申请的主机内存，即可分页内存。
特点：可分页内存传输数据到设备时，首先需要分配固定内存，在传递到设备端。对主机而言，分页内存可提高主机性能。

锁页内存：

简介：使用cudaMallocHost()申请锁页内存，需使用cudaFreeHost()释放锁页内存。
特点：设备可直接访问锁页内存，可提高传输性能。

零拷贝内存：

简介：利用cudaHostAlloc()申请零拷贝内存，改函数的flags标志有四种：

cudaHostAllocDefalt（等同于cudaMallocHost函数）；
cudaHostAllocPortable；
cudaHostAllocWriteCombined；
cudaHostAllocMappe（零拷贝内存）。

主机访问零拷贝内存，直接使用可以。
设备访问零拷贝内存：利用cudaGetDevicePointer((void **)&DevicePtr, void *HostPtr, unsigned int flag)获取设备零拷贝主机内存对应的设备指针，然后将设备指针传入kernel函数。设备就可直接访问主机内存了。

适合以下情况使用：

设备不足时，可利用主机内存；
可避免设备和主机间的显示传输；
可提高PCI-e传输速率。

特点：主机无法访问设备内存，设备无法访问主机内存，但主机和设备均可访问零拷贝内存。

统一虚拟地址

简介：利用cudaHostAlloc()获取的零拷贝内存，在UVA（统一虚拟地址）之前，核函数使用的指针必须为经过cudaGetDevicePointer()获得的设备指针。而有了UVA之后，则省去了这一步，核函数直接使用主机指针。

统一内存地址

简介：利用cudaMallocManaged()申请托管内存，“统一内存”创建了一个托管内存池，内存池中已分配的空间，可以用相同的内存地址（指针）在CPU和GPU上进行访问。
特点：完成主机与设备数据的自动拷贝，消除重复指针。

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。