torch.cuda.synchronize()同步统计pytorch调用cuda运行时间

最新推荐文章于 2025-02-27 17:11:47 发布

Stars-Chan

最新推荐文章于 2025-02-27 17:11:47 发布

阅读量1w

点赞数 18

分类专栏：深度学习文章标签： python 深度学习人工智能 pytorch 机器学习

本文链接：https://blog.csdn.net/weixin_44942126/article/details/117605711

版权

深度学习专栏收录该内容

18 篇文章

订阅专栏

之前发现算法处理完的tensor从gpu转到cpu很耗时，一直找不到解决方法，后面看到有人说测试时间要先同步

torch.cuda.synchronize()
start = time.time()
result = model(input)
torch.cuda.synchronize()
end = time.time()

才发现耗时的不是这个转换过程
这是因为CUDA kernel函数是异步的，所以不能直接在CUDA函数两端加上time.time()测试时间，这样测出来的只是调用CUDA api的时间，不包括GPU端运行的时间。
我们需要要加上线程同步函数，等待kernel中所有线程全部执行完毕再执行CPU端后续指令。上面代码我们将同步指令加在了python端，用的是torch.cuda.synchronize函数。
其中第一次同步是为了防止前面的代码中有未同步还在GPU端运行的指令，第二次同步就是为了等result = model(input)所有线程执行完毕后再统计时间。
关于同步和异步的区别，参考下面两图
在这里插入图片描述