【TensorRT】DeviceToHost同步与异步拷贝的区别及带来的问题

澄鑫

已于 2024-01-15 15:00:51 修改

阅读量467

点赞数 10

分类专栏：高性能编程|GPU编程推理平台|TensorRT 文章标签： c++ GPU 计算机视觉

于 2024-01-15 13:09:31 首次发布

本文链接：https://blog.csdn.net/ycx_ccc/article/details/135594554

版权

推理平台|TensorRT 同时被 2 个专栏收录

7 篇文章 1 订阅

订阅专栏

高性能编程|GPU编程

4 篇文章 0 订阅

订阅专栏

cudaMemcpy与cudaMemcpyAsync的区别与问题

cudaMemcpy与cudaMemcpyAsync的区别

cudaMemcpy与cudaMemcpyAsync的区别

一、认识stream流

在cuda中，一个stream是由主机代码发布的一系列在设备上执行的操作，是严格保序执行的。不同streams里面的操作可以交叉执行或者并发执行。
如果我们有多个核函数，并且我们创建了一个stream，那么这些核函数在stream中都是串行执行的，但是如果我们需要并发执行，可以开启多个stream。多个stream之间是并发执行的，每个stream中是串行执行的。

二、tensorRT推理的常规流程

创建一个cuda stream流 ，将我们的主机所定义的运算操作，下放给cuda中的stream进行执行，读取模型，创建可以执行的上下文context；
将输入传给主机指针host_ptr，然后将主机指针copy到cuda上的指针（HostToDevice）；
定义好输入输出节点的指针，并初始化一个bindings[]存放输入输出节点的指针（device），然后执行推理，device会自动将推理结果保存在我们定义好的device输出节点指针；
将输出节点的指针指向的内容，拷贝给主机上定义好的输出指针（DeviceToHost），然后将指针指向的内容通过mat，然后经过后处理可视化；
在不做特殊处理和不使用cudaMemcpyAsync（）来进行拷贝的情况下，CUDA会默认只使用一个stream，在这种情况下，以上的推理步骤将串行处理。

三、遇到的问题

使用tensorRT推理MaskRCNN时，在执行推理完毕后，将device的指针指向的内容拷贝给host的指针时，如果此时使用cudaMemcpyAsync来进行拷贝，会随机的出现推理结果错乱的问题（观察后发现即上一张推理的结果，会在第二张的输入上呈现）。此时我们使用cudaMemcpy来进行同步拷贝，该问题解决。

四、引用与参考文献

引用：
[1]: cudaMemcpy与cudaMemcpyAsync的区别
[2]: 测试命题 cuda kernel 和 cudaMemcpy 是异步执行

澄鑫

关注

10
点赞
踩
12

收藏

觉得还不错? 一键收藏
打赏
0
评论
【TensorRT】DeviceToHost同步与异步拷贝的区别及带来的问题

使用tensorRT推理MaskRCNN时，在执行推理完毕后，将device的指针指向的内容拷贝给host的指针时，如果此时使用cudaMemcpyAsync来进行拷贝，会随机的出现推理结果错乱的问题（观察后发现即上一张推理的结果，会在第二张的输入上呈现）。如果我们有多个核函数，并且我们创建了一个stream，那么这些核函数在stream中都是串行执行的，但是如果我们需要并发执行，可以开启多个stream。在cuda中，一个stream是由主机代码发布的一系列在设备上执行的操作，是严格保序执行的。
复制链接

扫一扫