nvida
香烟头
这个作者很懒,什么都没留下…
展开
-
nvprof
1. 使用nvprof输出kernel timeline数据Kernel Timeline 输出的是以gpu kernel 为单位的一段时间的运行时间线,我们可以通过它观察GPU在什么时候有闲置或者利用不够充分的行为,更准确地定位优化问题。nvprof是nvidia提供的用于生成gpu timeline的工具,其为cuda toolkit的自带工具。使用方法如下:nvprof -o ou...转载 2020-03-25 10:19:22 · 1818 阅读 · 0 评论 -
GPU数据传输概览
在机器学习训练过程中,大家往往会发现IO成为制约训练速度提升的瓶颈。提升训练速度,数据传输是绕不开的话题。那么GPU机器中,数据传输是如何做的呢?同机的CPU和GPU之间数据如何传输?同机的多卡之间数据如何传输?多机的卡之间数据如何传输?1、CPU和GPU之间1)CPU->GPU图1 锁页内存从CPU向GPU传输数据,最为人熟知的就是cudaMemcpy了...转载 2020-03-25 10:06:30 · 6167 阅读 · 0 评论