CUDA流并行的思考

不甘平凡的小鸟

已于 2022-03-11 12:45:31 修改

阅读量792

点赞数

分类专栏： CUDA C++ 文章标签： CUDA c++

于 2022-03-09 11:24:14 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhushentian/article/details/123371931

版权

C++ 同时被 2 个专栏收录

25 篇文章

订阅专栏

4 篇文章

订阅专栏

不少博客在介绍流任务并行时，都会说“为了高效利用多个流，将操作放入流的队列时应采用宽度优先方式而非深度优先”。

其实不然。当H2D和D2H是同一个引擎执行时，确实流宽度优先能获得更高的效率。但是，当H2D和D2H是不同引擎执行，并且H2D和D2H支持同时执行时，流深度优先反而是效率更高的。假设H2D和D2H的执行时间都是Tc，kenel执行的时间是2*Tc，当H2D和D2H是不同引擎执行时，深度优先的总执行时间是7Tc，宽度优先的执行时间是8Tc。

在 CUDA_C_Best_Practices_Guide 里有这样的说明：

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。