CUDA程序优化

最新推荐文章于 2023-10-21 14:43:53 发布

winning11xuhao

最新推荐文章于 2023-10-21 14:43:53 发布

阅读量1k

点赞数 2

文章标签：优化 cuda 算法工作

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/winning11xuhao/article/details/6602934

版权

CUDA程序优化中，cudaMemcpyAsync函数用于异步数据传输，能实现GPU与CPU同步。通过实验，发现4帧数据传输可达到带宽峰值，因此可以开5个流，每次传输4帧并同时计算，从而提高运行速度，实现计算与传输的并行，有效减少程序执行时间。

摘要由CSDN通过智能技术生成

CUDA的程序优化主要分为算法优化和访存优化。算法方面的优化主要要看具体代码以及主要想完成的功能，今天主要讨论下访存的优化。

访存主要用到的函数主要是cudaMemcpy函数。通过多次试验，发现该函数是这样工作的，首先要看我们传递多少数据量，根据数据量来决定传输过程中占用多少带宽。也就是说，在未达到带宽上限的时候，传递的速度是一样的。曾做过试验，传递10个int数据和传递100个int数据所用时间是相同的。所以，要想保证拷贝数据的时候速度最快，就要保证传输带宽达到峰值。但是，这也并不是说所有数据一次传完这样的速度最快，所以我们经常使用cudaMemcpyAsync函数。这个函数的特点就是刚一执行就立即返回，这样就可以一边传递数据，一边进行下一步的操作，常用来进行GPU与CPU的同步。但是，有时与GPU同步的CPU要用到GPU中的数据，这样就要用线程同步函数，在GPU中所有线程都完成运算时，再进行下一步的计算。当然，GPU函数和GPU函数也是可以通过异步操作来提升运行时间的。这就要用到流的概念。

假若我们要拷贝20帧的数据从内存到显存，然后计算，再将结果返回，正常写法应该是

cudaMemcpy（内存到显存）；

GPUFunc（）；

cudaMemcpy（显存到内存）；

这样的写法就十分浪费时间。通过实验我们可以知道4帧图像的数据一起传输就可以达到传输带宽的峰值，这样我们就可以开5个流，每次传递4帧数据。

for（i = 0；i < 5; i++）

{ </

最低0.47元/天解锁文章

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
CUDA程序优化

CUDA的程序优化主要分为算法优化和访存优化。算法方面的优化主要要看具体代码以及主要想完成的功能，今天主要讨论下访存的优化。访存主要用到的函数主要是cudaMemcpy函数。通过多次试验，发现该函数是这样工作的，首先要看我们传递多少数据量，根据数据量来决定传输过程中占用多
复制链接

扫一扫

winning11xuhao CSDN认证博客专家 CSDN认证企业博客

码龄15年

7: 原创

53万+: 周排名

105万+: 总排名

1万+: 访问

: 等级

220: 积分

18: 粉丝

5: 获赞

5: 评论

5: 收藏

私信

关注

热门文章

最新评论

vc 对txt文件操作
lvs_1206: 基本没用
学习VC一年多的心得
juannlzq: 我也是学图像处理的正在学习VC 感觉很有难度啊向你学习！
CUDA程序优化
winning11xuhao: 我也就是刚接触，有问题大家一起讨论
CUDA程序优化
alpha.5: 我也要往CUDA方向发展，希望能一起交流下..
学习VC一年多的心得
twtom11: 才接触向你学习

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。