【TensorRT】DeviceToHost同步与异步拷贝的区别及带来的问题

cudaMemcpy与cudaMemcpyAsync的区别

一、认识stream流

在cuda中,一个stream是由主机代码发布的一系列在设备上执行的操作,是严格保序执行的。不同streams里面的操作可以交叉执行或者并发执行。
如果我们有多个核函数,并且我们创建了一个stream,那么这些核函数在stream中都是串行执行的,但是如果我们需要并发执行,可以开启多个stream。多个stream之间是并发执行的,每个stream中是串行执行的。

二、tensorRT推理的常规流程

  1. 创建一个cuda stream流 ,将我们的主机所定义的运算操作,下放给cuda中的stream进行执行,读取模型,创建可以执行的上下文context;
  2. 将输入传给主机指针host_ptr,然后将主机指针copy到cuda上的指针(HostToDevice);
  3. 定义好输入输出节点的指针,并初始化一个bindings[]存放输入输出节点的指针(device),然后执行推理,device会自动将推理结果保存在我们定义好的device输出节点指针;
  4. 将输出节点的指针指向的内容,拷贝给主机上定义好的输出指针(DeviceToHost),然后将指针指向的内容通过mat,然后经过后处理可视化;
  5. 在不做特殊处理和不使用cudaMemcpyAsync()来进行拷贝的情况下,CUDA会默认只使用一个stream,在这种情况下,以上的推理步骤将串行处理。

三、遇到的问题

使用tensorRT推理MaskRCNN时,在执行推理完毕后,将device的指针指向的内容拷贝给host的指针时,如果此时使用cudaMemcpyAsync来进行拷贝,会随机的出现推理结果错乱的问题(观察后发现即上一张推理的结果,会在第二张的输入上呈现)。此时我们使用cudaMemcpy来进行同步拷贝,该问题解决。

四、引用与参考文献

引用:
[1]: cudaMemcpy与cudaMemcpyAsync的区别
[2]: 测试命题 cuda kernel 和 cudaMemcpy 是异步执行

  • 10
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

澄鑫

谢谢,将继续努力提供技术方案

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值