torch.cuda.synchronize()同步统计pytorch调用cuda运行时间

之前发现算法处理完的tensor从gpu转到cpu很耗时,一直找不到解决方法,后面看到有人说测试时间要先同步

torch.cuda.synchronize()
start = time.time()
result = model(input)
torch.cuda.synchronize()
end = time.time()

才发现耗时的不是这个转换过程
这是因为CUDA kernel函数是异步的,所以不能直接在CUDA函数两端加上time.time()测试时间,这样测出来的只是调用CUDA api的时间,不包括GPU端运行的时间。
我们需要要加上线程同步函数,等待kernel中所有线程全部执行完毕再执行CPU端后续指令。上面代码我们将同步指令加在了python端,用的是torch.cuda.synchronize函数。
其中第一次同步是为了防止前面的代码中有未同步还在GPU端运行的指令,第二次同步就是为了等result = model(input)所有线程执行完毕后再统计时间。
关于同步和异步的区别,参考下面两图
在这里插入图片描述
在这里插入图片描述

Ref:
pytorch 正确的测试时间的代码 torch.cuda.synchronize()
PyTorch自定义CUDA算子教程与运行时间分析
同步(Synchronous)和异步(Asynchronous)

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值